2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、劉海飛,數(shù)據(jù)挖掘模型,2,,數(shù)據(jù)挖掘概念與流程數(shù)據(jù)挖掘模型介紹決策樹模型聚類模型關(guān)聯(lián)模型回歸模型時間序列模型主成分與因子模型神經(jīng)網(wǎng)絡(luò)模型,目錄,數(shù)據(jù)挖掘(Data Mining)是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。3個步驟:數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示。挖掘任務(wù):關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。由Daimler Chrysler、SPSS和NCR三家機(jī)構(gòu)共同發(fā)展起來

2、的數(shù)據(jù)挖掘方法論(Http://www.crisp-dm.org)CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)注重數(shù)據(jù)挖掘技術(shù)的應(yīng)用。CRISP-DM過程模型從商業(yè)的角度給出對數(shù)據(jù)挖掘方法的理解。目前數(shù)據(jù)挖掘系統(tǒng)的研制和開發(fā)大都遵循CRISP-DM標(biāo)準(zhǔn),將典型的挖掘和模型的部署緊密結(jié)合。,3,數(shù)據(jù)挖掘--CRISP-DM模型,4,數(shù)據(jù)挖掘

3、--CRISP-DM模型,CRISP-DM模型過程的挖掘流程包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評價、模型實施。,CRISP-DM數(shù)據(jù)挖掘流程,數(shù)據(jù)挖掘(Data Mining)技術(shù)主要無監(jiān)督和有監(jiān)督兩大類。無監(jiān)督數(shù)據(jù)挖掘:不區(qū)別對待各個變量,而只是考察變量間的關(guān)系。有監(jiān)督數(shù)據(jù)挖掘:從數(shù)據(jù)中獲得深度細(xì)致的信息,根據(jù)一些變量建立模型,來預(yù)測另一些變量。有監(jiān)督數(shù)據(jù)挖掘方法:聚類分析、因子分析、主成分分析、神經(jīng)網(wǎng)絡(luò)、預(yù)測等;

4、無監(jiān)督數(shù)據(jù)挖掘方法: 關(guān)聯(lián)規(guī)則挖掘、時序挖掘、偏差分析等。,5,數(shù)據(jù)挖掘技術(shù),6,,找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法模型而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。目前比較常見的分類算法有決策樹算法、貝葉斯分類和支持向量機(jī)算法(Support Vector Machine)等等。,分類算法,決策樹分類模型的工作

5、過程圖,Building Tree,基本思想:提取分類規(guī)則,進(jìn)行分類預(yù)測,決策樹進(jìn)行分類步驟,決策樹生成算法分成兩個步驟樹的生成開始,數(shù)據(jù)都在根節(jié)點遞歸的進(jìn)行數(shù)據(jù)分片樹的修剪去掉一些可能是噪音或者異常的數(shù)據(jù)決策樹使用: 對未知數(shù)據(jù)進(jìn)行分割按照決策樹上采用的分割屬性逐層往下,直到一個葉子節(jié)點,決策樹算法,基本算法(貪心算法)自上而下分而治之的方法開始時,所有的數(shù)據(jù)都在根節(jié)點屬性都是種類字段 (如果是連續(xù)的,將其離散化)

6、所有記錄用所選屬性遞歸的進(jìn)行分割屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計的度量 (如, information gain:信息增益)停止分割的條件一個節(jié)點上的數(shù)據(jù)都是屬于同一個類別沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割,偽代碼(Building Tree),Procedure BuildTree(S)用數(shù)據(jù)集S初始化根節(jié)點R 用根結(jié)點R初始化隊列QWhile Q is not Empty do {取出隊列Q中的第

7、一個節(jié)點Nif N 不純 (Pure) { for 每一個屬性 A估計該節(jié)點在A上的信息增益 選出最佳的屬性,將N分裂為N1、N2}},,信息增益度度量,任意樣本分類的期望信息:I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m)其中,數(shù)據(jù)集為S,m為S的分類數(shù)目, PiCi為某分類標(biāo)號,Pi為任意樣本屬于Ci的概率, si為分類Ci上的樣本

8、數(shù)由A劃分為子集的熵:E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)A為屬性,具有V個不同的取值信息增益:Gain(A)= I(s1,s2,……,sm) - E(A),訓(xùn)練集(舉例),使用信息增益進(jìn)行屬性選擇,Class P: buys_computer = “yes”Class N: buys_computer = “no”I(p, n) = I(9, 5) =0.940Compute t

9、he entropy for age:,HenceSimilarly,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,Decision Tree (結(jié)果輸出),age?,overcast,student?,credit rating?,no,yes,fair,excellent,,,,<=30,>40,,,,,,,,,,no,no,yes

10、,yes,yes,30..40,20,1決策樹,優(yōu)點:   1)可以生成可以理解的規(guī)則;   2)計算量相對來說不是很大;   3) 可以處理連續(xù)和種類字段、對數(shù)據(jù)沒有特殊要求;   4) 決策樹可以清晰的顯示哪些字段比較重要。 缺點:   1) 對連續(xù)性的字段比較難預(yù)測;   2) 對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作;   3) 當(dāng)類別太多時,錯誤可能就會增加的比較快;   4) 一般的算法分

11、類的時候,只是根據(jù)一個字段來分類。,21,1決策樹,決策樹法屬于風(fēng)險型決策方法,不同于確定型決策方法,二者適用的條件也不同。應(yīng)用決策樹決策方法必須具備以下條件: (1)具有決策者期望達(dá)到的明確目標(biāo); (2)存在決策者可以選擇的兩個以上的可行備選方案; (3)存在著決策者無法控制的兩種以上的自然狀態(tài); (4)不同行動方案在不同自然狀態(tài)下的收益值或損失值(簡稱損益值)可以計算出來; (5)決策者能估計出不同的自然狀態(tài)

12、發(fā)生概率。,22,1決策樹——案例,一家金融服務(wù)公司為客戶提供房屋凈值貸款。該公司在過去已經(jīng)拓展了數(shù)千凈值貸款服務(wù)。但是,在這些申請貸款的客戶中,大約有20%的人拖欠貸款。通過使用地理、人口和金融變量,該公司希望為該項目建立預(yù)測模型判斷客戶是否拖欠貸款。,23,1決策樹——案例,SAMPSIO.HMEQ數(shù)據(jù)集中的變量,分析數(shù)據(jù)之后,該公司選擇了12個預(yù)測變量來建立模型判斷貸款申請人是否拖欠?;貞?yīng)變量(目標(biāo)變量)標(biāo)識房屋凈值貸款申請人是否

13、會拖欠貸款。變量,以及它們的模型角色、度量水平、描述,在下表中已經(jīng)顯示。SAMPSIO.HMEQ數(shù)據(jù)集中的變量,,24,1決策樹——案例,聚類分析無處不在,挖掘有價值的客戶,并制定相應(yīng)的促銷策略:如,對經(jīng)常購買酸奶的客戶對累計消費達(dá)到12個月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!,2聚類分析,聚類分析無處不在,誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客

14、戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時候送上一個小蛋糕!,2聚類分析,27,,2聚類分析,聚類就是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度算法和基于網(wǎng)格的算法等等。

15、 聚類對數(shù)據(jù)沒有特殊要求:離散的、連續(xù)的數(shù)值型、字符型 不指定類別數(shù):針對小樣本 制定類別數(shù):針對大樣本 要注意變量之間的相關(guān)性(相對獨立),數(shù)據(jù)矩陣:用m個變量(也稱為屬性)來表現(xiàn)n個對象 相異度矩陣:存儲n個對象兩兩之間的近似度,通常用一個維的矩陣表示,聚類分析原理介紹,相似性Similar的度量(統(tǒng)計學(xué)角度)

16、距離Q型聚類(主要討論)主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離相似系數(shù)R型聚類用于對變量分類,可以用變量之間的相似系數(shù)的變形如1-rij定義距離,聚類分析條件,相似性Similar的度量(統(tǒng)計學(xué)角度)Q型聚類主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對

17、距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離R型聚類用于對變量分類,可以用變量之間的相似系數(shù)的變形如1-rij定義距離,30,,客戶關(guān)系管理是一個以客戶為中心保持企業(yè)與客戶互動的過程。銷售客戶是哪些客戶層、哪些客戶需要這樣的產(chǎn)品、是否考慮客戶生命周期、是否建立以客戶為導(dǎo)向的客戶關(guān)系、誰是公司最有價值的客戶等等。要回答以上問題,綜合各種數(shù)據(jù),從不同角度對客戶進(jìn)行分群、分組劃分。從與公司有較大業(yè)務(wù)聯(lián)系的客戶交易額出

18、發(fā):,2聚類分析—舉例說明,說明:與本公司交易額 2003年為X1, 2004年為X2, 2005年為X3,預(yù)計將來交易額為X4,31,,利用proc fastclus語句來實現(xiàn),程序如下:,2聚類分析—舉例說明,DATA glgz;input company $ X1 X2 X3 X4;CARDS;1 18.2750.489.9978.74222.2260.7711.7094.70317.164

19、5.0910.3272.56417.3848.458.9574.78520.4156.8611.4088.67615.8041.3410.1867.32718.6552.809.4480.89820.8459.9911.6192.44916.1749.188.2773.621015.4742.569.1767.201116.4150.339.2275.9

20、61217.6841.518.8768.061317.8652.0210.1079.981412.0626.668.0046.721521.9361.0411.8194.781614.3139.548.3962.241716.3336.947.4060.671819.7552.169.0280.931912.8034.929.2456.962022.51

21、59.3110.6592.47;RUN;,PROC FASTCLUS maxclusters=3 data=glgz list outtree=out1;var X1 X2 X3 X4;ID company;RUN;,2聚類分析—舉例說明,程序運行結(jié)果:,第一類:價值最高的客戶2家:公司14、19第二類:價值較高的客戶有8家:公司2、5、7、8、13、15、18、20第三類:價值偏低的客戶有10家,33,,關(guān)聯(lián)規(guī)

22、則挖掘是描述兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。,3.關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的挖掘就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsup和最小置信度minconf的關(guān)聯(lián)規(guī)則。

23、最小支持度minsup :用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計意義上的需滿足的最低程度。最小置信度minconf :用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小置信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。,34,,3.關(guān)聯(lián)規(guī)則,滿足的條件:1、基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型例:性別=“女”=>職業(yè)=“秘書”、性別=“女”=>avg(收入)=23002、基于規(guī)則中數(shù)據(jù)的抽象層

24、次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則例:IBM臺式機(jī)=>Sony打印機(jī)、臺式機(jī)=>Sony打印機(jī)3、基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的例:啤酒=>尿布、性別=“女”=>職業(yè)=“秘書”,35,,3.關(guān)聯(lián)規(guī)則,36,,3.關(guān)聯(lián)規(guī)則,37,,3.關(guān)聯(lián)規(guī)則,38,,3.關(guān)聯(lián)規(guī)則,39,,3.關(guān)聯(lián)規(guī)則,40,,3.關(guān)聯(lián)規(guī)則,41,,3.關(guān)聯(lián)規(guī)則,42,,3.關(guān)聯(lián)規(guī)則,43,,假設(shè)I是項的集

25、合。給定一個交易數(shù)據(jù)庫,其中每個事務(wù)(Transaction)t是I的非空子集,即,每一個交易都與一個唯一的標(biāo)識符TID(Transaction ID)對應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。,3.關(guān)聯(lián)規(guī)則—舉例說明,左表

26、中是顧客購買記錄的數(shù)據(jù)庫D,包含6個事務(wù)。項集I={網(wǎng)球拍,網(wǎng)球,運動鞋,羽毛球}??紤]關(guān)聯(lián)規(guī)則(頻繁二項集):網(wǎng)球拍與網(wǎng)球,事務(wù)1,2,3,4,6包含網(wǎng)球拍,事務(wù)1,2,6同時包含網(wǎng)球拍和網(wǎng)球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若給定最小支持度α = 0.5,最小置信度β = 0.6,認(rèn)為購買網(wǎng)球拍和購買網(wǎng)球之間存在關(guān)聯(lián)。,44,,問題:客戶 時間 產(chǎn)品,即客戶在什么時間點購買了什么產(chǎn)品,如果客戶購買了

27、多個產(chǎn)品則有多條記錄。產(chǎn)品之間的關(guān)聯(lián)性?數(shù)據(jù)集:SAS EM自帶的數(shù)據(jù)集,SAMPSIO.ASSOCS,3.關(guān)聯(lián)規(guī)則—舉例說明,45,預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常采用預(yù)測方差來度量。預(yù)測的主要方法有統(tǒng)計學(xué)中的回歸分析等等。,4.預(yù)測,46,任何事物的變化都與其他事物是相互聯(lián)系和相互影響的,用于描述事物數(shù)量特征的變量之間自然也存在一定的關(guān)系。變量之間

28、的關(guān)系歸納起來可以分為兩種類型,即函數(shù)關(guān)系和統(tǒng)計關(guān)系。 函數(shù)關(guān)系:當(dāng)一個變量x取一定值時,另一變量y可以按照確定的函數(shù)公式取一個確定的值,記為y = f(x),則稱y是x的函數(shù),也就時說y與x兩變量之間存在函數(shù)關(guān)系。統(tǒng)計關(guān)系:衡量事物之間或者變量之間的線性相關(guān)強(qiáng)弱程度用適當(dāng)?shù)慕y(tǒng)計指標(biāo)表示出來,稱為相關(guān)分析。比較直觀的如散點圖,但不精確!統(tǒng)計線性相關(guān)關(guān)系度量:回歸模型,4.預(yù)測:回歸分析,47,回歸模型條

29、件:1、確實存在顯著相關(guān)關(guān)系2、確實存在直線相關(guān)關(guān)系3、應(yīng)根據(jù)最小平方法4、解釋變量為非隨機(jī)變量5、同方差:各隨機(jī)擾動項的方差相同6、無自相關(guān):各隨機(jī)擾動項互不相關(guān)7、誤差項與解釋變量不相關(guān)8、隨機(jī)擾動項均服從正態(tài)分布9、殘差項符合正態(tài)分布、被解釋變量符合正態(tài)分布數(shù)據(jù)要求:一般解釋變量和被解釋變量為連續(xù)性變量,但對于離散型與定性變量有特殊處理方法,4.預(yù)測:回歸分析,回歸大類:線性回歸、多元回歸和非線性回歸,線

30、性回歸:Y = ? + ? X其中?和?是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點,通過最小二乘法來求得多元回歸:Y = ? + ?1X1 + ?2 X2線性回歸的擴(kuò)展,設(shè)計多個預(yù)測變量,可以用最小二乘法求得上式中的?,?1 和?2非線性回歸:Y = ? + ?1X1 + ?2 X22+ ?3 X33對不呈線性依賴的數(shù)據(jù)建模使用多項式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解,,,49,4.

31、預(yù)測,logit分類預(yù)測模型:在自變量X1,X2,…,Xn作用下,某事件發(fā)生概率為P,則該事件不發(fā)生的概率為1-P,P/1-P為發(fā)生概率和不發(fā)生概率之比,記作“優(yōu)勢”(Odds)。可知:P與Odds一一對應(yīng)! 對Odds取對數(shù),得到一般公式表現(xiàn)形式: 概率計算公式:,50,4. logit分類預(yù)測模型—案例,問題:作為某商品類目公司的市場分析師,你可能需要為二值目標(biāo)變量(purchase)建立邏輯回歸模

32、型,判斷某個顧客是否會產(chǎn)生購買。輸入數(shù)據(jù)集存放在SAS安裝文件的SAMPSIO.DMEXA1中,該數(shù)據(jù)集包含1966個顧客觀測值信息。它包含31個區(qū)間變量輸入和18個分類變量輸用于構(gòu)建模型。該邏輯回歸模型產(chǎn)生的打分公式應(yīng)用在新的數(shù)據(jù)集中,就能產(chǎn)生購買的顧客名單。,51,4. logit分類預(yù)測模型—案例,52,5.時序模式,時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)

33、別是變量所處時間的不同。時間序列分析是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法。該方法基于隨機(jī)過程理論和數(shù)理統(tǒng)計學(xué)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律。,隨機(jī)性變化:由許多不確定因素引起的序列變化。它所使用的分析方法就是時間序列分析。 確定性變化分析 趨勢變化分析 周期變化分析

34、 循環(huán)變化分析時間序列分析 隨機(jī)性變化分析 AR、MA、ARMA模型 協(xié)整分析,,,53,5.時序模式,平穩(wěn)模型線性模型: Yt = b0 + b1t + ε t二次趨勢模型: Yt = b0 + b1t + b2t2 + εt,非平

35、穩(wěn)模型自回歸模型 AR( p ):,時間序列,平穩(wěn)序列,非平穩(wěn)序列,54,6.主成分分析,主成分分析是把多個指標(biāo)化為少數(shù)幾個指標(biāo)的一種統(tǒng)計分析方法。在多指標(biāo)(變量)的研究中,往往由于變量太多,且彼此之間存在著一定的相關(guān)性,因而使得所觀測的數(shù)據(jù)在一定程度有信息的重疊。主成分分析采取一種降維的方法,找出幾個綜合因子來代表原來眾多的變量,使這些綜合變量因子盡可能地反映原來變量的信息量,而且彼此之間互不相關(guān),從而達(dá)到簡化的目的。

36、主成分分析的一般目的是:(1)變量的降維;(2)主成分的解釋。注意:主成分分析是變量降維的一種重要、常用的方法,簡單的說,該方法要應(yīng)用得成功,一是靠原始變量的合理選取,二是靠“運氣”。,,主分量的幾何解釋,如果從研究總體中抽取 N個樣品,每個樣品有兩個指標(biāo)。設(shè)N個樣品在二維空間中的分布大致為一個橢圓。,,,x1,x2,6.主成分分析,,將坐標(biāo)系正交旋轉(zhuǎn)一個角度θ,在橢圓長軸方向取坐標(biāo)y1,在短軸方向取坐標(biāo)y2,則旋轉(zhuǎn)公式,,,,y1

37、,,y2,θ,①N個點的坐標(biāo)y1和y2的相關(guān)幾乎為零;②二維平面上N個點的方差大部分都?xì)w結(jié)在y1軸上,而y2軸上的方差較小。Y1和y2是原始變量x1和x2的綜合變量。,6.主成分分析,如果 N個樣品中的每個樣有p個指標(biāo)x1, x2,…,xp,經(jīng)過主成分分析,將它們綜合成m個綜合變量,即,,并且滿足,,,6.主成分分析,58,6.因子分析,因子分析(factor analysis)是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)

38、系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。 例如,在企業(yè)形象或品牌形象的研究中,消費者可以通過一個有24個指標(biāo)構(gòu)成的評價體系,評價百貨商場的24個方面的優(yōu)劣。,59,,,但消費者主要關(guān)心的是三個方面,即商店的環(huán)境、商店的服務(wù)和商品的價格。因子分析方法可以通過24個變量,找出反映商店環(huán)

39、境、商店服務(wù)水平和商品價格的三個潛在的因子,對商店進(jìn)行綜合評價。而這三個公共因子可以表示為:,,稱 是不可觀測的潛在因子。24個變量共享這三個因子,但是每個變量又有自己的個性,不被包含的部分 ,稱為特殊因子。,6.因子分析,,,,6.主成分分析—案例,已知紐約上市的三只化學(xué)產(chǎn)業(yè)證券(AC、DP、UC)和兩只石油產(chǎn)業(yè)證券(EX、TE)100周的收益率調(diào)查資料。各證券的收益率依次

40、用X1、X2、X3、X4、X5表示,且樣本的平均收益率和相關(guān)矩陣R如下,要求對證券收益率做主成分分析和因子分析,并解釋其意義。,,,,6.主成分分析—案例,,,,6.主成分分析—案例,data one(type=corr); _type_='corr'; input _name_ $ x1 x2 x3 x4 x5 @@; cards; x1 1 . . . . x2 0.577 1 . .

41、. x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run;proc princomp;run;,data one(type=corr); _type_='corr'; input _name_ $ x1 x2 x3 x4 x5 @@; cards; x1

42、1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run;proc factor scree nfact=2 score rotate=varimax; var x1-x5;run;,主成分分析結(jié)果:,因子分析

43、結(jié)果(1),因子分析結(jié)果(3),67,注意: 1、因子分析與回歸分析不同,因子分析中的因子是一個比較抽象的概念,而回歸因子有非常明確的實際意義; 2、主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構(gòu)造因子模型。 主成分分析:原始變量的線性組合表示新的綜合變量,即主成分; 因子分析:潛在的假想變量和隨機(jī)影響變量的線性組合表示原始變量。,6.因子分析,68,神經(jīng)網(wǎng)絡(luò)(N

44、eural Networks,NN)是由大量的、簡單的處理單元(稱為神經(jīng)元)廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),它反映了人腦功能的許多基本特征,是一個高度復(fù)雜的非線性動力學(xué)習(xí)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲和處理、自組織、自適應(yīng)和自學(xué)能力,特別適合處理需要同時考慮許多因素和條件的、不精確和模糊的信息處理問題。神經(jīng)網(wǎng)絡(luò)的發(fā)展與神經(jīng)科學(xué)、數(shù)理科學(xué)、認(rèn)知科學(xué)、計算機(jī)科學(xué)、人工智能、信息科學(xué)、控制論、機(jī)器人學(xué)、微電子學(xué)、心理學(xué)、光計算、

45、分子生物學(xué)等有關(guān),是一門新興的邊緣交叉學(xué)科。,7.神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),69,神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)在于神經(jīng)元。   神經(jīng)元是以生物神經(jīng)系統(tǒng)的神經(jīng)細(xì)胞為基礎(chǔ)的生物模型。在人們對生物神經(jīng)系統(tǒng)進(jìn)行研究,以探討人工智能的機(jī)制時,把神經(jīng)元數(shù)學(xué)化,從而產(chǎn)生了神經(jīng)元數(shù)學(xué)模型。   大量的形式相同的神經(jīng)元連結(jié)在—起就組成了神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一個高度非線性動力學(xué)系統(tǒng)。雖然,每個神經(jīng)元的結(jié)構(gòu)和功能都不復(fù)雜,但是神經(jīng)網(wǎng)絡(luò)的動態(tài)行為則是十分復(fù)雜的;因此

46、,用神經(jīng)網(wǎng)絡(luò)可以表達(dá)實際物理世界的各種現(xiàn)象。 神經(jīng)網(wǎng)絡(luò)模型是以神經(jīng)元的數(shù)學(xué)模型為基礎(chǔ)來描述的。神經(jīng)網(wǎng)絡(luò)模型由網(wǎng)絡(luò)拓?fù)洌?jié)點特點和學(xué)習(xí)規(guī)則來表示。神經(jīng)網(wǎng)絡(luò)對人們的巨大吸引力主要在下列幾點:   1.并行分布處理。   2.高度魯棒性和容錯能力。   3.分布存儲及學(xué)習(xí)能力。   4.能充分逼近復(fù)雜的非線性關(guān)系。,7.神經(jīng)網(wǎng)絡(luò)模型,70,目前,已有近40種神經(jīng)網(wǎng)絡(luò)模型。有反傳網(wǎng)絡(luò)、感知器、自組織映射、Hopfield網(wǎng)絡(luò)、波耳茲曼機(jī)、

47、適應(yīng)諧振理論等。根據(jù)連接的拓?fù)浣Y(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)模型可以分為:(1)前向網(wǎng)絡(luò):網(wǎng)絡(luò)中各個神經(jīng)元接受前一級的輸入,并輸出到下一級,網(wǎng)絡(luò)中沒有反饋,可以用一個有向無環(huán)路圖表示。這種網(wǎng)絡(luò)實現(xiàn)信號從輸入空間到輸出空間的變換,它的信息處理能力來自于簡單非線性函數(shù)的多次復(fù)合。網(wǎng)絡(luò)結(jié)構(gòu)簡單,易于實現(xiàn)。反傳網(wǎng)絡(luò)是一種典型的前向網(wǎng)絡(luò)。(2)反饋網(wǎng)絡(luò):網(wǎng)絡(luò)內(nèi)神經(jīng)元間有反饋,可以用一個無向的完備圖表示。這種神經(jīng)網(wǎng)絡(luò)的信息處理是狀態(tài)的變換,可以用動力學(xué)

48、系統(tǒng)理論處理。系統(tǒng)的穩(wěn)定性與聯(lián)想記憶功能有密切關(guān)系。Hopfield網(wǎng)絡(luò)、波耳茲曼機(jī)均屬于這種類型。,7.神經(jīng)網(wǎng)絡(luò)模型,71,神經(jīng)網(wǎng)絡(luò)主要類型:BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、CPN神經(jīng)網(wǎng)絡(luò)對向傳播網(wǎng)絡(luò)(Counter Propagation),簡稱CPN,是將Kohonen特征映射網(wǎng)絡(luò)與Grossberg基本競爭型網(wǎng)絡(luò)相結(jié)合,發(fā)揮各自長處的一種新型特征映射網(wǎng)絡(luò),被廣泛的運用于模式分類,函數(shù)近似,數(shù)據(jù)壓縮等方面。,7.神經(jīng)網(wǎng)絡(luò)模型,RB

49、F神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),72,網(wǎng)絡(luò)學(xué)習(xí)的準(zhǔn)則:如果網(wǎng)絡(luò)作出錯誤的的判決,則通過網(wǎng)絡(luò)的學(xué)習(xí),應(yīng)使得網(wǎng)絡(luò)減少下次犯同樣錯誤的可能性。舉例:1、給網(wǎng)絡(luò)的各連接權(quán)值賦予(0,1)區(qū)間內(nèi)的隨機(jī)值,將“A”所對應(yīng)的圖象模式輸入給網(wǎng)絡(luò),網(wǎng)絡(luò)將輸入模式加權(quán)求和、與門限比較、再進(jìn)行非線性運算,得到網(wǎng)絡(luò)的輸出。在此情況下,網(wǎng)絡(luò)輸出為“1”和“0”的概率各為50%,也就是說是完全隨機(jī)的。這時如果輸出為“1”(結(jié)果正確),則使連接權(quán)值增大,以便使網(wǎng)絡(luò)再次遇到“A”模

50、式輸入時,仍然能作出正確的判斷。 2、如果輸出為“0”(即結(jié)果錯誤),則把網(wǎng)絡(luò)連接權(quán)值朝著減小綜合輸入加權(quán)值的方向調(diào)整,其目的在于使網(wǎng)絡(luò)下次再遇到“A”模式輸入時,減小犯同樣錯誤的可能性。如此操作調(diào)整,當(dāng)給網(wǎng)絡(luò)輪番輸入若干個手寫字母“A”、“B”后,經(jīng)過網(wǎng)絡(luò)按以上學(xué)習(xí)方法進(jìn)行若干次學(xué)習(xí)后,網(wǎng)絡(luò)判斷的正確率將大大提高。這說明網(wǎng)絡(luò)對這兩個模式的學(xué)習(xí)已經(jīng)獲得了成功,它已將這兩個模式分布地記憶在網(wǎng)絡(luò)的各個連接權(quán)值上。

51、當(dāng)網(wǎng)絡(luò)再次遇到其中任何一個模式時,能夠作出迅速、準(zhǔn)確的判斷和識別。一般說來,網(wǎng)絡(luò)中所含的神經(jīng)元個數(shù)越多,則它能記憶、識別的模式也就越多。,7.神經(jīng)網(wǎng)絡(luò)模型,73,7.神經(jīng)網(wǎng)絡(luò)模型:舉例,,,,,F(x)成為活化方程,可以使用線性、階躍型、S型等不同種類的函數(shù)替代。,74,問題:某公司要預(yù)測哪些用戶會對郵件促銷活動產(chǎn)生響應(yīng)。目標(biāo)變量是二值變量,標(biāo)識用戶是否對最近的促銷產(chǎn)生響應(yīng)。該模型的輸入變量是年齡、收入、婚否以及最近六個月是否產(chǎn)生購買

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論