版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、劉海飛,數(shù)據(jù)挖掘模型,2,,數(shù)據(jù)挖掘概念與流程數(shù)據(jù)挖掘模型介紹決策樹模型聚類模型關(guān)聯(lián)模型回歸模型時(shí)間序列模型主成分與因子模型神經(jīng)網(wǎng)絡(luò)模型,目錄,數(shù)據(jù)挖掘(Data Mining)是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。3個(gè)步驟:數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示。挖掘任務(wù):關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。由Daimler Chrysler、SPSS和NCR三家機(jī)構(gòu)共同發(fā)展起來
2、的數(shù)據(jù)挖掘方法論(Http://www.crisp-dm.org)CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)注重?cái)?shù)據(jù)挖掘技術(shù)的應(yīng)用。CRISP-DM過程模型從商業(yè)的角度給出對(duì)數(shù)據(jù)挖掘方法的理解。目前數(shù)據(jù)挖掘系統(tǒng)的研制和開發(fā)大都遵循CRISP-DM標(biāo)準(zhǔn),將典型的挖掘和模型的部署緊密結(jié)合。,3,數(shù)據(jù)挖掘--CRISP-DM模型,4,數(shù)據(jù)挖掘
3、--CRISP-DM模型,CRISP-DM模型過程的挖掘流程包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)價(jià)、模型實(shí)施。,CRISP-DM數(shù)據(jù)挖掘流程,數(shù)據(jù)挖掘(Data Mining)技術(shù)主要無監(jiān)督和有監(jiān)督兩大類。無監(jiān)督數(shù)據(jù)挖掘:不區(qū)別對(duì)待各個(gè)變量,而只是考察變量間的關(guān)系。有監(jiān)督數(shù)據(jù)挖掘:從數(shù)據(jù)中獲得深度細(xì)致的信息,根據(jù)一些變量建立模型,來預(yù)測(cè)另一些變量。有監(jiān)督數(shù)據(jù)挖掘方法:聚類分析、因子分析、主成分分析、神經(jīng)網(wǎng)絡(luò)、預(yù)測(cè)等;
4、無監(jiān)督數(shù)據(jù)挖掘方法: 關(guān)聯(lián)規(guī)則挖掘、時(shí)序挖掘、偏差分析等。,5,數(shù)據(jù)挖掘技術(shù),6,,找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法模型而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測(cè)。目前比較常見的分類算法有決策樹算法、貝葉斯分類和支持向量機(jī)算法(Support Vector Machine)等等。,分類算法,決策樹分類模型的工作
5、過程圖,Building Tree,基本思想:提取分類規(guī)則,進(jìn)行分類預(yù)測(cè),決策樹進(jìn)行分類步驟,決策樹生成算法分成兩個(gè)步驟樹的生成開始,數(shù)據(jù)都在根節(jié)點(diǎn)遞歸的進(jìn)行數(shù)據(jù)分片樹的修剪去掉一些可能是噪音或者異常的數(shù)據(jù)決策樹使用: 對(duì)未知數(shù)據(jù)進(jìn)行分割按照決策樹上采用的分割屬性逐層往下,直到一個(gè)葉子節(jié)點(diǎn),決策樹算法,基本算法(貪心算法)自上而下分而治之的方法開始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn)屬性都是種類字段 (如果是連續(xù)的,將其離散化)
6、所有記錄用所選屬性遞歸的進(jìn)行分割屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如, information gain:信息增益)停止分割的條件一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類別沒有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割,偽代碼(Building Tree),Procedure BuildTree(S)用數(shù)據(jù)集S初始化根節(jié)點(diǎn)R 用根結(jié)點(diǎn)R初始化隊(duì)列QWhile Q is not Empty do {取出隊(duì)列Q中的第
7、一個(gè)節(jié)點(diǎn)Nif N 不純 (Pure) { for 每一個(gè)屬性 A估計(jì)該節(jié)點(diǎn)在A上的信息增益 選出最佳的屬性,將N分裂為N1、N2}},,信息增益度度量,任意樣本分類的期望信息:I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m)其中,數(shù)據(jù)集為S,m為S的分類數(shù)目, PiCi為某分類標(biāo)號(hào),Pi為任意樣本屬于Ci的概率, si為分類Ci上的樣本
8、數(shù)由A劃分為子集的熵:E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)A為屬性,具有V個(gè)不同的取值信息增益:Gain(A)= I(s1,s2,……,sm) - E(A),訓(xùn)練集(舉例),使用信息增益進(jìn)行屬性選擇,Class P: buys_computer = “yes”Class N: buys_computer = “no”I(p, n) = I(9, 5) =0.940Compute t
9、he entropy for age:,HenceSimilarly,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,Decision Tree (結(jié)果輸出),age?,overcast,student?,credit rating?,no,yes,fair,excellent,,,,<=30,>40,,,,,,,,,,no,no,yes
10、,yes,yes,30..40,20,1決策樹,優(yōu)點(diǎn): 1)可以生成可以理解的規(guī)則; 2)計(jì)算量相對(duì)來說不是很大; 3) 可以處理連續(xù)和種類字段、對(duì)數(shù)據(jù)沒有特殊要求; 4) 決策樹可以清晰的顯示哪些字段比較重要。 缺點(diǎn): 1) 對(duì)連續(xù)性的字段比較難預(yù)測(cè); 2) 對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作; 3) 當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快; 4) 一般的算法分
11、類的時(shí)候,只是根據(jù)一個(gè)字段來分類。,21,1決策樹,決策樹法屬于風(fēng)險(xiǎn)型決策方法,不同于確定型決策方法,二者適用的條件也不同。應(yīng)用決策樹決策方法必須具備以下條件: (1)具有決策者期望達(dá)到的明確目標(biāo); (2)存在決策者可以選擇的兩個(gè)以上的可行備選方案; (3)存在著決策者無法控制的兩種以上的自然狀態(tài); (4)不同行動(dòng)方案在不同自然狀態(tài)下的收益值或損失值(簡稱損益值)可以計(jì)算出來; (5)決策者能估計(jì)出不同的自然狀態(tài)
12、發(fā)生概率。,22,1決策樹——案例,一家金融服務(wù)公司為客戶提供房屋凈值貸款。該公司在過去已經(jīng)拓展了數(shù)千凈值貸款服務(wù)。但是,在這些申請(qǐng)貸款的客戶中,大約有20%的人拖欠貸款。通過使用地理、人口和金融變量,該公司希望為該項(xiàng)目建立預(yù)測(cè)模型判斷客戶是否拖欠貸款。,23,1決策樹——案例,SAMPSIO.HMEQ數(shù)據(jù)集中的變量,分析數(shù)據(jù)之后,該公司選擇了12個(gè)預(yù)測(cè)變量來建立模型判斷貸款申請(qǐng)人是否拖欠?;貞?yīng)變量(目標(biāo)變量)標(biāo)識(shí)房屋凈值貸款申請(qǐng)人是否
13、會(huì)拖欠貸款。變量,以及它們的模型角色、度量水平、描述,在下表中已經(jīng)顯示。SAMPSIO.HMEQ數(shù)據(jù)集中的變量,,24,1決策樹——案例,聚類分析無處不在,挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:如,對(duì)經(jīng)常購買酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!,2聚類分析,聚類分析無處不在,誰是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠信度等變量對(duì)客戶分類,找出“黃金客
14、戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!,2聚類分析,27,,2聚類分析,聚類就是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度算法和基于網(wǎng)格的算法等等。
15、 聚類對(duì)數(shù)據(jù)沒有特殊要求:離散的、連續(xù)的數(shù)值型、字符型 不指定類別數(shù):針對(duì)小樣本 制定類別數(shù):針對(duì)大樣本 要注意變量之間的相關(guān)性(相對(duì)獨(dú)立),數(shù)據(jù)矩陣:用m個(gè)變量(也稱為屬性)來表現(xiàn)n個(gè)對(duì)象 相異度矩陣:存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似度,通常用一個(gè)維的矩陣表示,聚類分析原理介紹,相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)
16、距離Q型聚類(主要討論)主要用于對(duì)樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對(duì)距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離相似系數(shù)R型聚類用于對(duì)變量分類,可以用變量之間的相似系數(shù)的變形如1-rij定義距離,聚類分析條件,相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)Q型聚類主要用于對(duì)樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對(duì)
17、距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離R型聚類用于對(duì)變量分類,可以用變量之間的相似系數(shù)的變形如1-rij定義距離,30,,客戶關(guān)系管理是一個(gè)以客戶為中心保持企業(yè)與客戶互動(dòng)的過程。銷售客戶是哪些客戶層、哪些客戶需要這樣的產(chǎn)品、是否考慮客戶生命周期、是否建立以客戶為導(dǎo)向的客戶關(guān)系、誰是公司最有價(jià)值的客戶等等。要回答以上問題,綜合各種數(shù)據(jù),從不同角度對(duì)客戶進(jìn)行分群、分組劃分。從與公司有較大業(yè)務(wù)聯(lián)系的客戶交易額出
18、發(fā):,2聚類分析—舉例說明,說明:與本公司交易額 2003年為X1, 2004年為X2, 2005年為X3,預(yù)計(jì)將來交易額為X4,31,,利用proc fastclus語句來實(shí)現(xiàn),程序如下:,2聚類分析—舉例說明,DATA glgz;input company $ X1 X2 X3 X4;CARDS;1 18.2750.489.9978.74222.2260.7711.7094.70317.164
19、5.0910.3272.56417.3848.458.9574.78520.4156.8611.4088.67615.8041.3410.1867.32718.6552.809.4480.89820.8459.9911.6192.44916.1749.188.2773.621015.4742.569.1767.201116.4150.339.2275.9
20、61217.6841.518.8768.061317.8652.0210.1079.981412.0626.668.0046.721521.9361.0411.8194.781614.3139.548.3962.241716.3336.947.4060.671819.7552.169.0280.931912.8034.929.2456.962022.51
21、59.3110.6592.47;RUN;,PROC FASTCLUS maxclusters=3 data=glgz list outtree=out1;var X1 X2 X3 X4;ID company;RUN;,2聚類分析—舉例說明,程序運(yùn)行結(jié)果:,第一類:價(jià)值最高的客戶2家:公司14、19第二類:價(jià)值較高的客戶有8家:公司2、5、7、8、13、15、18、20第三類:價(jià)值偏低的客戶有10家,33,,關(guān)聯(lián)規(guī)
22、則挖掘是描述兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。,3.關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的挖掘就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsup和最小置信度minconf的關(guān)聯(lián)規(guī)則。
23、最小支持度minsup :用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度。最小置信度minconf :用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小置信度,它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。,34,,3.關(guān)聯(lián)規(guī)則,滿足的條件:1、基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型例:性別=“女”=>職業(yè)=“秘書”、性別=“女”=>avg(收入)=23002、基于規(guī)則中數(shù)據(jù)的抽象層
24、次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則例:IBM臺(tái)式機(jī)=>Sony打印機(jī)、臺(tái)式機(jī)=>Sony打印機(jī)3、基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的例:啤酒=>尿布、性別=“女”=>職業(yè)=“秘書”,35,,3.關(guān)聯(lián)規(guī)則,36,,3.關(guān)聯(lián)規(guī)則,37,,3.關(guān)聯(lián)規(guī)則,38,,3.關(guān)聯(lián)規(guī)則,39,,3.關(guān)聯(lián)規(guī)則,40,,3.關(guān)聯(lián)規(guī)則,41,,3.關(guān)聯(lián)規(guī)則,42,,3.關(guān)聯(lián)規(guī)則,43,,假設(shè)I是項(xiàng)的集
25、合。給定一個(gè)交易數(shù)據(jù)庫,其中每個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。,3.關(guān)聯(lián)規(guī)則—舉例說明,左表
26、中是顧客購買記錄的數(shù)據(jù)庫D,包含6個(gè)事務(wù)。項(xiàng)集I={網(wǎng)球拍,網(wǎng)球,運(yùn)動(dòng)鞋,羽毛球}??紤]關(guān)聯(lián)規(guī)則(頻繁二項(xiàng)集):網(wǎng)球拍與網(wǎng)球,事務(wù)1,2,3,4,6包含網(wǎng)球拍,事務(wù)1,2,6同時(shí)包含網(wǎng)球拍和網(wǎng)球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若給定最小支持度α = 0.5,最小置信度β = 0.6,認(rèn)為購買網(wǎng)球拍和購買網(wǎng)球之間存在關(guān)聯(lián)。,44,,問題:客戶 時(shí)間 產(chǎn)品,即客戶在什么時(shí)間點(diǎn)購買了什么產(chǎn)品,如果客戶購買了
27、多個(gè)產(chǎn)品則有多條記錄。產(chǎn)品之間的關(guān)聯(lián)性?數(shù)據(jù)集:SAS EM自帶的數(shù)據(jù)集,SAMPSIO.ASSOCS,3.關(guān)聯(lián)規(guī)則—舉例說明,45,預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。預(yù)測(cè)關(guān)心的是精度和不確定性,通常采用預(yù)測(cè)方差來度量。預(yù)測(cè)的主要方法有統(tǒng)計(jì)學(xué)中的回歸分析等等。,4.預(yù)測(cè),46,任何事物的變化都與其他事物是相互聯(lián)系和相互影響的,用于描述事物數(shù)量特征的變量之間自然也存在一定的關(guān)系。變量之間
28、的關(guān)系歸納起來可以分為兩種類型,即函數(shù)關(guān)系和統(tǒng)計(jì)關(guān)系。 函數(shù)關(guān)系:當(dāng)一個(gè)變量x取一定值時(shí),另一變量y可以按照確定的函數(shù)公式取一個(gè)確定的值,記為y = f(x),則稱y是x的函數(shù),也就時(shí)說y與x兩變量之間存在函數(shù)關(guān)系。統(tǒng)計(jì)關(guān)系:衡量事物之間或者變量之間的線性相關(guān)強(qiáng)弱程度用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來,稱為相關(guān)分析。比較直觀的如散點(diǎn)圖,但不精確!統(tǒng)計(jì)線性相關(guān)關(guān)系度量:回歸模型,4.預(yù)測(cè):回歸分析,47,回歸模型條
29、件:1、確實(shí)存在顯著相關(guān)關(guān)系2、確實(shí)存在直線相關(guān)關(guān)系3、應(yīng)根據(jù)最小平方法4、解釋變量為非隨機(jī)變量5、同方差:各隨機(jī)擾動(dòng)項(xiàng)的方差相同6、無自相關(guān):各隨機(jī)擾動(dòng)項(xiàng)互不相關(guān)7、誤差項(xiàng)與解釋變量不相關(guān)8、隨機(jī)擾動(dòng)項(xiàng)均服從正態(tài)分布9、殘差項(xiàng)符合正態(tài)分布、被解釋變量符合正態(tài)分布數(shù)據(jù)要求:一般解釋變量和被解釋變量為連續(xù)性變量,但對(duì)于離散型與定性變量有特殊處理方法,4.預(yù)測(cè):回歸分析,回歸大類:線性回歸、多元回歸和非線性回歸,線
30、性回歸:Y = ? + ? X其中?和?是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過最小二乘法來求得多元回歸:Y = ? + ?1X1 + ?2 X2線性回歸的擴(kuò)展,設(shè)計(jì)多個(gè)預(yù)測(cè)變量,可以用最小二乘法求得上式中的?,?1 和?2非線性回歸:Y = ? + ?1X1 + ?2 X22+ ?3 X33對(duì)不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解,,,49,4.
31、預(yù)測(cè),logit分類預(yù)測(cè)模型:在自變量X1,X2,…,Xn作用下,某事件發(fā)生概率為P,則該事件不發(fā)生的概率為1-P,P/1-P為發(fā)生概率和不發(fā)生概率之比,記作“優(yōu)勢(shì)”(Odds)??芍篜與Odds一一對(duì)應(yīng)! 對(duì)Odds取對(duì)數(shù),得到一般公式表現(xiàn)形式: 概率計(jì)算公式:,50,4. logit分類預(yù)測(cè)模型—案例,問題:作為某商品類目公司的市場(chǎng)分析師,你可能需要為二值目標(biāo)變量(purchase)建立邏輯回歸模
32、型,判斷某個(gè)顧客是否會(huì)產(chǎn)生購買。輸入數(shù)據(jù)集存放在SAS安裝文件的SAMPSIO.DMEXA1中,該數(shù)據(jù)集包含1966個(gè)顧客觀測(cè)值信息。它包含31個(gè)區(qū)間變量輸入和18個(gè)分類變量輸用于構(gòu)建模型。該邏輯回歸模型產(chǎn)生的打分公式應(yīng)用在新的數(shù)據(jù)集中,就能產(chǎn)生購買的顧客名單。,51,4. logit分類預(yù)測(cè)模型—案例,52,5.時(shí)序模式,時(shí)序模式是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測(cè)未來的值,但這些數(shù)據(jù)的區(qū)
33、別是變量所處時(shí)間的不同。時(shí)間序列分析是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法。該方法基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律。,隨機(jī)性變化:由許多不確定因素引起的序列變化。它所使用的分析方法就是時(shí)間序列分析。 確定性變化分析 趨勢(shì)變化分析 周期變化分析
34、 循環(huán)變化分析時(shí)間序列分析 隨機(jī)性變化分析 AR、MA、ARMA模型 協(xié)整分析,,,53,5.時(shí)序模式,平穩(wěn)模型線性模型: Yt = b0 + b1t + ε t二次趨勢(shì)模型: Yt = b0 + b1t + b2t2 + εt,非平
35、穩(wěn)模型自回歸模型 AR( p ):,時(shí)間序列,平穩(wěn)序列,非平穩(wěn)序列,54,6.主成分分析,主成分分析是把多個(gè)指標(biāo)化為少數(shù)幾個(gè)指標(biāo)的一種統(tǒng)計(jì)分析方法。在多指標(biāo)(變量)的研究中,往往由于變量太多,且彼此之間存在著一定的相關(guān)性,因而使得所觀測(cè)的數(shù)據(jù)在一定程度有信息的重疊。主成分分析采取一種降維的方法,找出幾個(gè)綜合因子來代表原來眾多的變量,使這些綜合變量因子盡可能地反映原來變量的信息量,而且彼此之間互不相關(guān),從而達(dá)到簡化的目的。
36、主成分分析的一般目的是:(1)變量的降維;(2)主成分的解釋。注意:主成分分析是變量降維的一種重要、常用的方法,簡單的說,該方法要應(yīng)用得成功,一是靠原始變量的合理選取,二是靠“運(yùn)氣”。,,主分量的幾何解釋,如果從研究總體中抽取 N個(gè)樣品,每個(gè)樣品有兩個(gè)指標(biāo)。設(shè)N個(gè)樣品在二維空間中的分布大致為一個(gè)橢圓。,,,x1,x2,6.主成分分析,,將坐標(biāo)系正交旋轉(zhuǎn)一個(gè)角度θ,在橢圓長軸方向取坐標(biāo)y1,在短軸方向取坐標(biāo)y2,則旋轉(zhuǎn)公式,,,,y1
37、,,y2,θ,①N個(gè)點(diǎn)的坐標(biāo)y1和y2的相關(guān)幾乎為零;②二維平面上N個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在y1軸上,而y2軸上的方差較小。Y1和y2是原始變量x1和x2的綜合變量。,6.主成分分析,如果 N個(gè)樣品中的每個(gè)樣有p個(gè)指標(biāo)x1, x2,…,xp,經(jīng)過主成分分析,將它們綜合成m個(gè)綜合變量,即,,并且滿足,,,6.主成分分析,58,6.因子分析,因子分析(factor analysis)是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)
38、系,探求觀測(cè)數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個(gè)假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測(cè)的顯在變量,而假想變量是不可觀測(cè)的潛在變量,稱為因子。 例如,在企業(yè)形象或品牌形象的研究中,消費(fèi)者可以通過一個(gè)有24個(gè)指標(biāo)構(gòu)成的評(píng)價(jià)體系,評(píng)價(jià)百貨商場(chǎng)的24個(gè)方面的優(yōu)劣。,59,,,但消費(fèi)者主要關(guān)心的是三個(gè)方面,即商店的環(huán)境、商店的服務(wù)和商品的價(jià)格。因子分析方法可以通過24個(gè)變量,找出反映商店環(huán)
39、境、商店服務(wù)水平和商品價(jià)格的三個(gè)潛在的因子,對(duì)商店進(jìn)行綜合評(píng)價(jià)。而這三個(gè)公共因子可以表示為:,,稱 是不可觀測(cè)的潛在因子。24個(gè)變量共享這三個(gè)因子,但是每個(gè)變量又有自己的個(gè)性,不被包含的部分 ,稱為特殊因子。,6.因子分析,,,,6.主成分分析—案例,已知紐約上市的三只化學(xué)產(chǎn)業(yè)證券(AC、DP、UC)和兩只石油產(chǎn)業(yè)證券(EX、TE)100周的收益率調(diào)查資料。各證券的收益率依次
40、用X1、X2、X3、X4、X5表示,且樣本的平均收益率和相關(guān)矩陣R如下,要求對(duì)證券收益率做主成分分析和因子分析,并解釋其意義。,,,,6.主成分分析—案例,,,,6.主成分分析—案例,data one(type=corr); _type_='corr'; input _name_ $ x1 x2 x3 x4 x5 @@; cards; x1 1 . . . . x2 0.577 1 . .
41、. x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run;proc princomp;run;,data one(type=corr); _type_='corr'; input _name_ $ x1 x2 x3 x4 x5 @@; cards; x1
42、1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run;proc factor scree nfact=2 score rotate=varimax; var x1-x5;run;,主成分分析結(jié)果:,因子分析
43、結(jié)果(1),因子分析結(jié)果(3),67,注意: 1、因子分析與回歸分析不同,因子分析中的因子是一個(gè)比較抽象的概念,而回歸因子有非常明確的實(shí)際意義; 2、主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構(gòu)造因子模型。 主成分分析:原始變量的線性組合表示新的綜合變量,即主成分; 因子分析:潛在的假想變量和隨機(jī)影響變量的線性組合表示原始變量。,6.因子分析,68,神經(jīng)網(wǎng)絡(luò)(N
44、eural Networks,NN)是由大量的、簡單的處理單元(稱為神經(jīng)元)廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),它反映了人腦功能的許多基本特征,是一個(gè)高度復(fù)雜的非線性動(dòng)力學(xué)習(xí)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織、自適應(yīng)和自學(xué)能力,特別適合處理需要同時(shí)考慮許多因素和條件的、不精確和模糊的信息處理問題。神經(jīng)網(wǎng)絡(luò)的發(fā)展與神經(jīng)科學(xué)、數(shù)理科學(xué)、認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、人工智能、信息科學(xué)、控制論、機(jī)器人學(xué)、微電子學(xué)、心理學(xué)、光計(jì)算、
45、分子生物學(xué)等有關(guān),是一門新興的邊緣交叉學(xué)科。,7.神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),69,神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)在于神經(jīng)元。 神經(jīng)元是以生物神經(jīng)系統(tǒng)的神經(jīng)細(xì)胞為基礎(chǔ)的生物模型。在人們對(duì)生物神經(jīng)系統(tǒng)進(jìn)行研究,以探討人工智能的機(jī)制時(shí),把神經(jīng)元數(shù)學(xué)化,從而產(chǎn)生了神經(jīng)元數(shù)學(xué)模型。 大量的形式相同的神經(jīng)元連結(jié)在—起就組成了神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一個(gè)高度非線性動(dòng)力學(xué)系統(tǒng)。雖然,每個(gè)神經(jīng)元的結(jié)構(gòu)和功能都不復(fù)雜,但是神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)行為則是十分復(fù)雜的;因此
46、,用神經(jīng)網(wǎng)絡(luò)可以表達(dá)實(shí)際物理世界的各種現(xiàn)象。 神經(jīng)網(wǎng)絡(luò)模型是以神經(jīng)元的數(shù)學(xué)模型為基礎(chǔ)來描述的。神經(jīng)網(wǎng)絡(luò)模型由網(wǎng)絡(luò)拓?fù)洌?jié)點(diǎn)特點(diǎn)和學(xué)習(xí)規(guī)則來表示。神經(jīng)網(wǎng)絡(luò)對(duì)人們的巨大吸引力主要在下列幾點(diǎn): 1.并行分布處理。 2.高度魯棒性和容錯(cuò)能力。 3.分布存儲(chǔ)及學(xué)習(xí)能力。 4.能充分逼近復(fù)雜的非線性關(guān)系。,7.神經(jīng)網(wǎng)絡(luò)模型,70,目前,已有近40種神經(jīng)網(wǎng)絡(luò)模型。有反傳網(wǎng)絡(luò)、感知器、自組織映射、Hopfield網(wǎng)絡(luò)、波耳茲曼機(jī)、
47、適應(yīng)諧振理論等。根據(jù)連接的拓?fù)浣Y(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)模型可以分為:(1)前向網(wǎng)絡(luò):網(wǎng)絡(luò)中各個(gè)神經(jīng)元接受前一級(jí)的輸入,并輸出到下一級(jí),網(wǎng)絡(luò)中沒有反饋,可以用一個(gè)有向無環(huán)路圖表示。這種網(wǎng)絡(luò)實(shí)現(xiàn)信號(hào)從輸入空間到輸出空間的變換,它的信息處理能力來自于簡單非線性函數(shù)的多次復(fù)合。網(wǎng)絡(luò)結(jié)構(gòu)簡單,易于實(shí)現(xiàn)。反傳網(wǎng)絡(luò)是一種典型的前向網(wǎng)絡(luò)。(2)反饋網(wǎng)絡(luò):網(wǎng)絡(luò)內(nèi)神經(jīng)元間有反饋,可以用一個(gè)無向的完備圖表示。這種神經(jīng)網(wǎng)絡(luò)的信息處理是狀態(tài)的變換,可以用動(dòng)力學(xué)
48、系統(tǒng)理論處理。系統(tǒng)的穩(wěn)定性與聯(lián)想記憶功能有密切關(guān)系。Hopfield網(wǎng)絡(luò)、波耳茲曼機(jī)均屬于這種類型。,7.神經(jīng)網(wǎng)絡(luò)模型,71,神經(jīng)網(wǎng)絡(luò)主要類型:BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、CPN神經(jīng)網(wǎng)絡(luò)對(duì)向傳播網(wǎng)絡(luò)(Counter Propagation),簡稱CPN,是將Kohonen特征映射網(wǎng)絡(luò)與Grossberg基本競爭型網(wǎng)絡(luò)相結(jié)合,發(fā)揮各自長處的一種新型特征映射網(wǎng)絡(luò),被廣泛的運(yùn)用于模式分類,函數(shù)近似,數(shù)據(jù)壓縮等方面。,7.神經(jīng)網(wǎng)絡(luò)模型,RB
49、F神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),72,網(wǎng)絡(luò)學(xué)習(xí)的準(zhǔn)則:如果網(wǎng)絡(luò)作出錯(cuò)誤的的判決,則通過網(wǎng)絡(luò)的學(xué)習(xí),應(yīng)使得網(wǎng)絡(luò)減少下次犯同樣錯(cuò)誤的可能性。舉例:1、給網(wǎng)絡(luò)的各連接權(quán)值賦予(0,1)區(qū)間內(nèi)的隨機(jī)值,將“A”所對(duì)應(yīng)的圖象模式輸入給網(wǎng)絡(luò),網(wǎng)絡(luò)將輸入模式加權(quán)求和、與門限比較、再進(jìn)行非線性運(yùn)算,得到網(wǎng)絡(luò)的輸出。在此情況下,網(wǎng)絡(luò)輸出為“1”和“0”的概率各為50%,也就是說是完全隨機(jī)的。這時(shí)如果輸出為“1”(結(jié)果正確),則使連接權(quán)值增大,以便使網(wǎng)絡(luò)再次遇到“A”模
50、式輸入時(shí),仍然能作出正確的判斷。 2、如果輸出為“0”(即結(jié)果錯(cuò)誤),則把網(wǎng)絡(luò)連接權(quán)值朝著減小綜合輸入加權(quán)值的方向調(diào)整,其目的在于使網(wǎng)絡(luò)下次再遇到“A”模式輸入時(shí),減小犯同樣錯(cuò)誤的可能性。如此操作調(diào)整,當(dāng)給網(wǎng)絡(luò)輪番輸入若干個(gè)手寫字母“A”、“B”后,經(jīng)過網(wǎng)絡(luò)按以上學(xué)習(xí)方法進(jìn)行若干次學(xué)習(xí)后,網(wǎng)絡(luò)判斷的正確率將大大提高。這說明網(wǎng)絡(luò)對(duì)這兩個(gè)模式的學(xué)習(xí)已經(jīng)獲得了成功,它已將這兩個(gè)模式分布地記憶在網(wǎng)絡(luò)的各個(gè)連接權(quán)值上。
51、當(dāng)網(wǎng)絡(luò)再次遇到其中任何一個(gè)模式時(shí),能夠作出迅速、準(zhǔn)確的判斷和識(shí)別。一般說來,網(wǎng)絡(luò)中所含的神經(jīng)元個(gè)數(shù)越多,則它能記憶、識(shí)別的模式也就越多。,7.神經(jīng)網(wǎng)絡(luò)模型,73,7.神經(jīng)網(wǎng)絡(luò)模型:舉例,,,,,F(x)成為活化方程,可以使用線性、階躍型、S型等不同種類的函數(shù)替代。,74,問題:某公司要預(yù)測(cè)哪些用戶會(huì)對(duì)郵件促銷活動(dòng)產(chǎn)生響應(yīng)。目標(biāo)變量是二值變量,標(biāo)識(shí)用戶是否對(duì)最近的促銷產(chǎn)生響應(yīng)。該模型的輸入變量是年齡、收入、婚否以及最近六個(gè)月是否產(chǎn)生購買
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘算法介紹-huihoo
- 橋梁健康監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)挖掘模型.pdf
- 基于數(shù)據(jù)挖掘的金融預(yù)測(cè)模型.pdf
- 基于MDA的數(shù)據(jù)挖掘模型研究.pdf
- 基于數(shù)據(jù)挖掘技術(shù)的客戶流失預(yù)警模型
- 基因表達(dá)譜數(shù)據(jù)的挖掘模型構(gòu)建.pdf
- 2016年財(cái)務(wù)外文翻譯--基于數(shù)據(jù)挖掘技術(shù)對(duì)財(cái)務(wù)報(bào)表分析模型的不同選擇
- 基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)模型.pdf
- 基于數(shù)據(jù)挖掘的數(shù)字取證模型設(shè)計(jì).pdf
- 序列數(shù)據(jù)挖掘的模型和算法研究.pdf
- 面向感性設(shè)計(jì)的數(shù)據(jù)挖掘模型與應(yīng)用
- 基于數(shù)據(jù)挖掘技術(shù)的股市定價(jià)模型.pdf
- 基于數(shù)據(jù)挖掘的SEM投放模型研究.pdf
- 基于網(wǎng)格的數(shù)據(jù)挖掘框架和元數(shù)據(jù)模型研究.pdf
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 基于數(shù)據(jù)挖掘的電信客戶細(xì)分模型研究.pdf
- 基于數(shù)據(jù)挖掘的客戶價(jià)值分類模型研究.pdf
- 電力市場(chǎng)數(shù)據(jù)挖掘和電價(jià)混合模型構(gòu)建.pdf
- 基于數(shù)據(jù)挖掘技術(shù)的信用評(píng)估模型研究.pdf
- 使用數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)模型構(gòu)建.pdf
評(píng)論
0/150
提交評(píng)論