數(shù)據(jù)挖掘模型介紹2016

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-04-13 格式：pptx 頁數(shù)：78 大小：2.19MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩77頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、劉海飛,數(shù)據(jù)挖掘模型,2,,數(shù)據(jù)挖掘概念與流程數(shù)據(jù)挖掘模型介紹決策樹模型聚類模型關(guān)聯(lián)模型回歸模型時(shí)間序列模型主成分與因子模型神經(jīng)網(wǎng)絡(luò)模型,目錄,數(shù)據(jù)挖掘(Data Mining)是通過分析每個(gè)數(shù)據(jù)，從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。3個(gè)步驟：數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示。挖掘任務(wù)：關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。由Daimler Chrysler、SPSS和NCR三家機(jī)構(gòu)共同發(fā)展起來

2、的數(shù)據(jù)挖掘方法論（Http://www.crisp-dm.org）CRISP-DM（Cross-Industry Standard Process for Data Mining，跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程）注重?cái)?shù)據(jù)挖掘技術(shù)的應(yīng)用。CRISP-DM過程模型從商業(yè)的角度給出對(duì)數(shù)據(jù)挖掘方法的理解。目前數(shù)據(jù)挖掘系統(tǒng)的研制和開發(fā)大都遵循CRISP-DM標(biāo)準(zhǔn)，將典型的挖掘和模型的部署緊密結(jié)合。,3,數(shù)據(jù)挖掘--CRISP-DM模型,4,數(shù)據(jù)挖掘

3、--CRISP-DM模型,CRISP-DM模型過程的挖掘流程包括：業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)價(jià)、模型實(shí)施。,CRISP-DM數(shù)據(jù)挖掘流程,數(shù)據(jù)挖掘(Data Mining)技術(shù)主要無監(jiān)督和有監(jiān)督兩大類。無監(jiān)督數(shù)據(jù)挖掘：不區(qū)別對(duì)待各個(gè)變量，而只是考察變量間的關(guān)系。有監(jiān)督數(shù)據(jù)挖掘：從數(shù)據(jù)中獲得深度細(xì)致的信息，根據(jù)一些變量建立模型，來預(yù)測(cè)另一些變量。有監(jiān)督數(shù)據(jù)挖掘方法：聚類分析、因子分析、主成分分析、神經(jīng)網(wǎng)絡(luò)、預(yù)測(cè)等；

4、無監(jiān)督數(shù)據(jù)挖掘方法：關(guān)聯(lián)規(guī)則挖掘、時(shí)序挖掘、偏差分析等。,5,數(shù)據(jù)挖掘技術(shù),6,,找出一個(gè)類別的概念描述，它代表了這類數(shù)據(jù)的整體信息，即該類的內(nèi)涵描述，并用這種描述來構(gòu)造模型，一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法模型而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測(cè)。目前比較常見的分類算法有決策樹算法、貝葉斯分類和支持向量機(jī)算法（Support Vector Machine）等等。,分類算法,決策樹分類模型的工作

5、過程圖,Building Tree,基本思想：提取分類規(guī)則，進(jìn)行分類預(yù)測(cè),決策樹進(jìn)行分類步驟,決策樹生成算法分成兩個(gè)步驟樹的生成開始，數(shù)據(jù)都在根節(jié)點(diǎn)遞歸的進(jìn)行數(shù)據(jù)分片樹的修剪去掉一些可能是噪音或者異常的數(shù)據(jù)決策樹使用: 對(duì)未知數(shù)據(jù)進(jìn)行分割按照決策樹上采用的分割屬性逐層往下，直到一個(gè)葉子節(jié)點(diǎn),決策樹算法,基本算法（貪心算法）自上而下分而治之的方法開始時(shí)，所有的數(shù)據(jù)都在根節(jié)點(diǎn)屬性都是種類字段 (如果是連續(xù)的，將其離散化)

6、所有記錄用所選屬性遞歸的進(jìn)行分割屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量 (如, information gain：信息增益)停止分割的條件一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類別沒有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割,偽代碼(Building Tree),Procedure BuildTree(S)用數(shù)據(jù)集S初始化根節(jié)點(diǎn)R 用根結(jié)點(diǎn)R初始化隊(duì)列QWhile Q is not Empty do {取出隊(duì)列Q中的第

7、一個(gè)節(jié)點(diǎn)Nif N 不純 (Pure) { for 每一個(gè)屬性 A估計(jì)該節(jié)點(diǎn)在A上的信息增益選出最佳的屬性，將N分裂為N1、N2}},,信息增益度度量,任意樣本分類的期望信息：I(s1,s2,……,sm)=－∑Pi log2(pi) (i=1..m)其中，數(shù)據(jù)集為S，m為S的分類數(shù)目， PiCi為某分類標(biāo)號(hào)，Pi為任意樣本屬于Ci的概率， si為分類Ci上的樣本

8、數(shù)由A劃分為子集的熵：E(A)= ∑(s1j+ ……+smj)/s * I(s1j+ ……+smj)A為屬性，具有V個(gè)不同的取值信息增益：Gain(A)= I(s1,s2,……,sm) － E(A),訓(xùn)練集(舉例),使用信息增益進(jìn)行屬性選擇,Class P: buys_computer = “yes”Class N: buys_computer = “no”I(p, n) = I(9, 5) =0.940Compute t

9、he entropy for age:,HenceSimilarly,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,使用信息增益進(jìn)行屬性選擇,Decision Tree (結(jié)果輸出),age?,overcast,student?,credit rating?,no,yes,fair,excellent,,,,<=30,>40,,,,,,,,,,no,no,yes

10、,yes,yes,30..40,20,1決策樹,優(yōu)點(diǎn)：　　1)可以生成可以理解的規(guī)則；　　2)計(jì)算量相對(duì)來說不是很大；　　3) 可以處理連續(xù)和種類字段、對(duì)數(shù)據(jù)沒有特殊要求；　　4) 決策樹可以清晰的顯示哪些字段比較重要。缺點(diǎn)：　　1) 對(duì)連續(xù)性的字段比較難預(yù)測(cè)；　　2) 對(duì)有時(shí)間順序的數(shù)據(jù)，需要很多預(yù)處理的工作；　　3) 當(dāng)類別太多時(shí)，錯(cuò)誤可能就會(huì)增加的比較快；　　4) 一般的算法分

11、類的時(shí)候，只是根據(jù)一個(gè)字段來分類。,21,1決策樹,決策樹法屬于風(fēng)險(xiǎn)型決策方法，不同于確定型決策方法，二者適用的條件也不同。應(yīng)用決策樹決策方法必須具備以下條件：（1）具有決策者期望達(dá)到的明確目標(biāo)；（2）存在決策者可以選擇的兩個(gè)以上的可行備選方案；（3）存在著決策者無法控制的兩種以上的自然狀態(tài)；（4）不同行動(dòng)方案在不同自然狀態(tài)下的收益值或損失值(簡稱損益值)可以計(jì)算出來；（5）決策者能估計(jì)出不同的自然狀態(tài)

12、發(fā)生概率。,22,1決策樹——案例,一家金融服務(wù)公司為客戶提供房屋凈值貸款。該公司在過去已經(jīng)拓展了數(shù)千凈值貸款服務(wù)。但是，在這些申請(qǐng)貸款的客戶中，大約有20%的人拖欠貸款。通過使用地理、人口和金融變量，該公司希望為該項(xiàng)目建立預(yù)測(cè)模型判斷客戶是否拖欠貸款。,23,1決策樹——案例,SAMPSIO.HMEQ數(shù)據(jù)集中的變量，分析數(shù)據(jù)之后，該公司選擇了12個(gè)預(yù)測(cè)變量來建立模型判斷貸款申請(qǐng)人是否拖欠?；貞?yīng)變量（目標(biāo)變量）標(biāo)識(shí)房屋凈值貸款申請(qǐng)人是否

13、會(huì)拖欠貸款。變量，以及它們的模型角色、度量水平、描述，在下表中已經(jīng)顯示。SAMPSIO.HMEQ數(shù)據(jù)集中的變量，,24,1決策樹——案例,聚類分析無處不在,挖掘有價(jià)值的客戶，并制定相應(yīng)的促銷策略：如，對(duì)經(jīng)常購買酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告，比在大街上亂發(fā)傳單命中率更高，成本更低！,2聚類分析,聚類分析無處不在,誰是銀行信用卡的黃金客戶？利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠信度等變量對(duì)客戶分類，找出“黃金客

14、戶”！這樣銀行可以……制定更吸引的服務(wù)，留住客戶！比如：一定額度和期限的免息透資服務(wù)！百盛的貴賓打折卡！在他或她生日的時(shí)候送上一個(gè)小蛋糕！,2聚類分析,27,,2聚類分析,聚類就是把數(shù)據(jù)按照相似性歸納成若干類別，同一類中的數(shù)據(jù)彼此相似，不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念，發(fā)現(xiàn)數(shù)據(jù)的分布模式，以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。目前常見的聚類算法有基于劃分的算法、基于層次的算法、基于密度算法和基于網(wǎng)格的算法等等。

15、聚類對(duì)數(shù)據(jù)沒有特殊要求：離散的、連續(xù)的數(shù)值型、字符型不指定類別數(shù)：針對(duì)小樣本制定類別數(shù)：針對(duì)大樣本要注意變量之間的相關(guān)性（相對(duì)獨(dú)立）,數(shù)據(jù)矩陣：用m個(gè)變量（也稱為屬性）來表現(xiàn)n個(gè)對(duì)象相異度矩陣：存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似度，通常用一個(gè)維的矩陣表示,聚類分析原理介紹,相似性Similar的度量（統(tǒng)計(jì)學(xué)角度）

16、距離Q型聚類（主要討論）主要用于對(duì)樣本分類常用的距離有（只適用于具有間隔尺度變量的聚類）：明考夫斯基距離（包括：絕對(duì)距離、歐式距離、切比雪夫距離）蘭氏距離馬氏距離斜交空間距離相似系數(shù)R型聚類用于對(duì)變量分類，可以用變量之間的相似系數(shù)的變形如1－rij定義距離,聚類分析條件,相似性Similar的度量（統(tǒng)計(jì)學(xué)角度）Q型聚類主要用于對(duì)樣本分類常用的距離有（只適用于具有間隔尺度變量的聚類）：明考夫斯基距離（包括：絕對(duì)

17、距離、歐式距離、切比雪夫距離）蘭氏距離馬氏距離斜交空間距離R型聚類用于對(duì)變量分類，可以用變量之間的相似系數(shù)的變形如1－rij定義距離,30,,客戶關(guān)系管理是一個(gè)以客戶為中心保持企業(yè)與客戶互動(dòng)的過程。銷售客戶是哪些客戶層、哪些客戶需要這樣的產(chǎn)品、是否考慮客戶生命周期、是否建立以客戶為導(dǎo)向的客戶關(guān)系、誰是公司最有價(jià)值的客戶等等。要回答以上問題，綜合各種數(shù)據(jù)，從不同角度對(duì)客戶進(jìn)行分群、分組劃分。從與公司有較大業(yè)務(wù)聯(lián)系的客戶交易額出

18、發(fā)：,2聚類分析—舉例說明,說明：與本公司交易額 2003年為X1, 2004年為X2, 2005年為X3，預(yù)計(jì)將來交易額為X4,31,,利用proc fastclus語句來實(shí)現(xiàn)，程序如下：,2聚類分析—舉例說明,DATA glgz;input company $ X1 X2 X3 X4;CARDS;1 18.2750.489.9978.74222.2260.7711.7094.70317.164

19、5.0910.3272.56417.3848.458.9574.78520.4156.8611.4088.67615.8041.3410.1867.32718.6552.809.4480.89820.8459.9911.6192.44916.1749.188.2773.621015.4742.569.1767.201116.4150.339.2275.9

20、61217.6841.518.8768.061317.8652.0210.1079.981412.0626.668.0046.721521.9361.0411.8194.781614.3139.548.3962.241716.3336.947.4060.671819.7552.169.0280.931912.8034.929.2456.962022.51

21、59.3110.6592.47;RUN;,PROC FASTCLUS maxclusters=3 data=glgz list outtree=out1;var X1 X2 X3 X4;ID company;RUN;,2聚類分析—舉例說明,程序運(yùn)行結(jié)果：,第一類：價(jià)值最高的客戶2家：公司14、19第二類：價(jià)值較高的客戶有8家：公司2、5、7、8、13、15、18、20第三類：價(jià)值偏低的客戶有10家,33,,關(guān)聯(lián)規(guī)

22、則挖掘是描述兩個(gè)或兩個(gè)以上變量的取值之間存在某種規(guī)律性，就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性，還不斷引入興趣度、相關(guān)性等參數(shù)，使得所挖掘的規(guī)則更符合需求。,3.關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的挖掘就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsup和最小置信度minconf的關(guān)聯(lián)規(guī)則。

23、最小支持度minsup ：用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小支持度，它表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度。最小置信度minconf ：用戶規(guī)定的關(guān)聯(lián)規(guī)則必須滿足的最小置信度，它反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。,34,,3.關(guān)聯(lián)規(guī)則,滿足的條件：1、基于規(guī)則中處理的變量的類別，關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型例：性別=“女”=>職業(yè)=“秘書”、性別=“女”=>avg（收入）=23002、基于規(guī)則中數(shù)據(jù)的抽象層

24、次，可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則例：IBM臺(tái)式機(jī)=>Sony打印機(jī)、臺(tái)式機(jī)=>Sony打印機(jī)3、基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)，關(guān)聯(lián)規(guī)則可以分為單維的和多維的例：啤酒=>尿布、性別=“女”=>職業(yè)=“秘書”,35,,3.關(guān)聯(lián)規(guī)則,36,,3.關(guān)聯(lián)規(guī)則,37,,3.關(guān)聯(lián)規(guī)則,38,,3.關(guān)聯(lián)規(guī)則,39,,3.關(guān)聯(lián)規(guī)則,40,,3.關(guān)聯(lián)規(guī)則,41,,3.關(guān)聯(lián)規(guī)則,42,,3.關(guān)聯(lián)規(guī)則,43,,假設(shè)I是項(xiàng)的集

25、合。給定一個(gè)交易數(shù)據(jù)庫，其中每個(gè)事務(wù)(Transaction)t是I的非空子集，即，每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比，即概率；置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比，即條件概率。關(guān)聯(lián)規(guī)則是有趣的，如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。,3.關(guān)聯(lián)規(guī)則—舉例說明,左表

26、中是顧客購買記錄的數(shù)據(jù)庫D，包含6個(gè)事務(wù)。項(xiàng)集I={網(wǎng)球拍,網(wǎng)球,運(yùn)動(dòng)鞋,羽毛球}?？紤]關(guān)聯(lián)規(guī)則（頻繁二項(xiàng)集）：網(wǎng)球拍與網(wǎng)球，事務(wù)1,2,3,4,6包含網(wǎng)球拍，事務(wù)1,2,6同時(shí)包含網(wǎng)球拍和網(wǎng)球，支持度(X^Y)/D=0.5，置信度(X^Y)/X=0.6。若給定最小支持度α = 0.5，最小置信度β = 0.6，認(rèn)為購買網(wǎng)球拍和購買網(wǎng)球之間存在關(guān)聯(lián)。,44,,問題：客戶時(shí)間產(chǎn)品，即客戶在什么時(shí)間點(diǎn)購買了什么產(chǎn)品，如果客戶購買了

27、多個(gè)產(chǎn)品則有多條記錄。產(chǎn)品之間的關(guān)聯(lián)性？數(shù)據(jù)集：SAS EM自帶的數(shù)據(jù)集，SAMPSIO.ASSOCS,3.關(guān)聯(lián)規(guī)則—舉例說明,45,預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律，建立模型，并由此模型對(duì)未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。預(yù)測(cè)關(guān)心的是精度和不確定性，通常采用預(yù)測(cè)方差來度量。預(yù)測(cè)的主要方法有統(tǒng)計(jì)學(xué)中的回歸分析等等。,4.預(yù)測(cè),46,任何事物的變化都與其他事物是相互聯(lián)系和相互影響的，用于描述事物數(shù)量特征的變量之間自然也存在一定的關(guān)系。變量之間

28、的關(guān)系歸納起來可以分為兩種類型，即函數(shù)關(guān)系和統(tǒng)計(jì)關(guān)系。函數(shù)關(guān)系：當(dāng)一個(gè)變量x取一定值時(shí)，另一變量y可以按照確定的函數(shù)公式取一個(gè)確定的值，記為y = f(x)，則稱y是x的函數(shù)，也就時(shí)說y與x兩變量之間存在函數(shù)關(guān)系。統(tǒng)計(jì)關(guān)系：衡量事物之間或者變量之間的線性相關(guān)強(qiáng)弱程度用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來，稱為相關(guān)分析。比較直觀的如散點(diǎn)圖，但不精確！統(tǒng)計(jì)線性相關(guān)關(guān)系度量：回歸模型,4.預(yù)測(cè):回歸分析,47,回歸模型條

29、件：1、確實(shí)存在顯著相關(guān)關(guān)系2、確實(shí)存在直線相關(guān)關(guān)系3、應(yīng)根據(jù)最小平方法4、解釋變量為非隨機(jī)變量5、同方差：各隨機(jī)擾動(dòng)項(xiàng)的方差相同6、無自相關(guān)：各隨機(jī)擾動(dòng)項(xiàng)互不相關(guān)7、誤差項(xiàng)與解釋變量不相關(guān)8、隨機(jī)擾動(dòng)項(xiàng)均服從正態(tài)分布9、殘差項(xiàng)符合正態(tài)分布、被解釋變量符合正態(tài)分布數(shù)據(jù)要求：一般解釋變量和被解釋變量為連續(xù)性變量，但對(duì)于離散型與定性變量有特殊處理方法,4.預(yù)測(cè):回歸分析,回歸大類：線性回歸、多元回歸和非線性回歸,線

30、性回歸：Y = ? + ? X其中?和?是回歸系數(shù)，可以根據(jù)給定的數(shù)據(jù)點(diǎn)，通過最小二乘法來求得多元回歸：Y = ? + ?1X1 + ?2 X2線性回歸的擴(kuò)展，設(shè)計(jì)多個(gè)預(yù)測(cè)變量，可以用最小二乘法求得上式中的?，?1 和?2非線性回歸：Y = ? + ?1X1 + ?2 X22+ ?3 X33對(duì)不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法，然后進(jìn)行變量變換，將非線性模型轉(zhuǎn)換為線性模型，然后用最小二乘法求解,,,49,4.

31、預(yù)測(cè),logit分類預(yù)測(cè)模型：在自變量X1,X2,…,Xn作用下，某事件發(fā)生概率為P，則該事件不發(fā)生的概率為1-P，P/1-P為發(fā)生概率和不發(fā)生概率之比，記作“優(yōu)勢(shì)”（Odds）?？芍篜與Odds一一對(duì)應(yīng)！對(duì)Odds取對(duì)數(shù)，得到一般公式表現(xiàn)形式：概率計(jì)算公式：,50,4. logit分類預(yù)測(cè)模型—案例,問題：作為某商品類目公司的市場(chǎng)分析師，你可能需要為二值目標(biāo)變量（purchase）建立邏輯回歸模

32、型，判斷某個(gè)顧客是否會(huì)產(chǎn)生購買。輸入數(shù)據(jù)集存放在SAS安裝文件的SAMPSIO.DMEXA1中，該數(shù)據(jù)集包含1966個(gè)顧客觀測(cè)值信息。它包含31個(gè)區(qū)間變量輸入和18個(gè)分類變量輸用于構(gòu)建模型。該邏輯回歸模型產(chǎn)生的打分公式應(yīng)用在新的數(shù)據(jù)集中，就能產(chǎn)生購買的顧客名單。,51,4. logit分類預(yù)測(cè)模型—案例,52,5.時(shí)序模式,時(shí)序模式是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣，它也是用已知的數(shù)據(jù)預(yù)測(cè)未來的值，但這些數(shù)據(jù)的區(qū)

33、別是變量所處時(shí)間的不同。時(shí)間序列分析是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法。該方法基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律。,隨機(jī)性變化：由許多不確定因素引起的序列變化。它所使用的分析方法就是時(shí)間序列分析。確定性變化分析趨勢(shì)變化分析周期變化分析

34、循環(huán)變化分析時(shí)間序列分析隨機(jī)性變化分析 AR、MA、ARMA模型協(xié)整分析,,,53,5.時(shí)序模式,平穩(wěn)模型線性模型： Yt = b0 + b1t + ε t二次趨勢(shì)模型： Yt = b0 + b1t + b2t2 + εt,非平

35、穩(wěn)模型自回歸模型 AR( p )：,時(shí)間序列,平穩(wěn)序列,非平穩(wěn)序列,54,6.主成分分析,主成分分析是把多個(gè)指標(biāo)化為少數(shù)幾個(gè)指標(biāo)的一種統(tǒng)計(jì)分析方法。在多指標(biāo)（變量）的研究中，往往由于變量太多，且彼此之間存在著一定的相關(guān)性，因而使得所觀測(cè)的數(shù)據(jù)在一定程度有信息的重疊。主成分分析采取一種降維的方法，找出幾個(gè)綜合因子來代表原來眾多的變量，使這些綜合變量因子盡可能地反映原來變量的信息量，而且彼此之間互不相關(guān)，從而達(dá)到簡化的目的。

36、主成分分析的一般目的是：(1)變量的降維；(2)主成分的解釋。注意：主成分分析是變量降維的一種重要、常用的方法，簡單的說，該方法要應(yīng)用得成功，一是靠原始變量的合理選取，二是靠“運(yùn)氣”。,,主分量的幾何解釋,如果從研究總體中抽取 N個(gè)樣品，每個(gè)樣品有兩個(gè)指標(biāo)。設(shè)N個(gè)樣品在二維空間中的分布大致為一個(gè)橢圓。,,,x1,x2,6.主成分分析,,將坐標(biāo)系正交旋轉(zhuǎn)一個(gè)角度θ，在橢圓長軸方向取坐標(biāo)y1，在短軸方向取坐標(biāo)y2，則旋轉(zhuǎn)公式,,,,y1

37、,,y2,θ,①N個(gè)點(diǎn)的坐標(biāo)y1和y2的相關(guān)幾乎為零；②二維平面上N個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在y1軸上，而y2軸上的方差較小。Y1和y2是原始變量x1和x2的綜合變量。,6.主成分分析,如果 N個(gè)樣品中的每個(gè)樣有p個(gè)指標(biāo)x1， x2，…，xp，經(jīng)過主成分分析，將它們綜合成m個(gè)綜合變量，即,,并且滿足,,,6.主成分分析,58,6.因子分析,因子分析(factor analysis)是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)

38、系，探求觀測(cè)數(shù)據(jù)中的基本結(jié)構(gòu)，并用少數(shù)幾個(gè)假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測(cè)的顯在變量，而假想變量是不可觀測(cè)的潛在變量，稱為因子。例如，在企業(yè)形象或品牌形象的研究中，消費(fèi)者可以通過一個(gè)有24個(gè)指標(biāo)構(gòu)成的評(píng)價(jià)體系，評(píng)價(jià)百貨商場(chǎng)的24個(gè)方面的優(yōu)劣。,59,,,但消費(fèi)者主要關(guān)心的是三個(gè)方面，即商店的環(huán)境、商店的服務(wù)和商品的價(jià)格。因子分析方法可以通過24個(gè)變量，找出反映商店環(huán)

39、境、商店服務(wù)水平和商品價(jià)格的三個(gè)潛在的因子，對(duì)商店進(jìn)行綜合評(píng)價(jià)。而這三個(gè)公共因子可以表示為：,,稱是不可觀測(cè)的潛在因子。24個(gè)變量共享這三個(gè)因子，但是每個(gè)變量又有自己的個(gè)性，不被包含的部分，稱為特殊因子。,6.因子分析,,,,6.主成分分析—案例,已知紐約上市的三只化學(xué)產(chǎn)業(yè)證券(AC、DP、UC)和兩只石油產(chǎn)業(yè)證券(EX、TE)100周的收益率調(diào)查資料。各證券的收益率依次

40、用X1、X2、X3、X4、X5表示,且樣本的平均收益率和相關(guān)矩陣R如下，要求對(duì)證券收益率做主成分分析和因子分析，并解釋其意義。,,,,6.主成分分析—案例,,,,6.主成分分析—案例,data one(type=corr); _type_='corr'; input _name_ $ x1 x2 x3 x4 x5 @@; cards; x1 1 . . . . x2 0.577 1 . .

41、. x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run;proc princomp;run;,data one(type=corr); _type_='corr'; input _name_ $ x1 x2 x3 x4 x5 @@; cards; x1

42、1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run;proc factor scree nfact=2 score rotate=varimax; var x1-x5;run;,主成分分析結(jié)果：,因子分析

43、結(jié)果（1）,因子分析結(jié)果（3）,67,注意： 1、因子分析與回歸分析不同，因子分析中的因子是一個(gè)比較抽象的概念，而回歸因子有非常明確的實(shí)際意義； 2、主成分分析分析與因子分析也有不同，主成分分析僅僅是變量變換，而因子分析需要構(gòu)造因子模型。主成分分析:原始變量的線性組合表示新的綜合變量，即主成分；因子分析：潛在的假想變量和隨機(jī)影響變量的線性組合表示原始變量。,6.因子分析,68,神經(jīng)網(wǎng)絡(luò)（N

44、eural Networks,NN）是由大量的、簡單的處理單元（稱為神經(jīng)元）廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)，它反映了人腦功能的許多基本特征，是一個(gè)高度復(fù)雜的非線性動(dòng)力學(xué)習(xí)系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織、自適應(yīng)和自學(xué)能力，特別適合處理需要同時(shí)考慮許多因素和條件的、不精確和模糊的信息處理問題。神經(jīng)網(wǎng)絡(luò)的發(fā)展與神經(jīng)科學(xué)、數(shù)理科學(xué)、認(rèn)知科學(xué)、計(jì)算機(jī)科學(xué)、人工智能、信息科學(xué)、控制論、機(jī)器人學(xué)、微電子學(xué)、心理學(xué)、光計(jì)算、

45、分子生物學(xué)等有關(guān)，是一門新興的邊緣交叉學(xué)科。,7.神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),69,神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)在于神經(jīng)元。　　神經(jīng)元是以生物神經(jīng)系統(tǒng)的神經(jīng)細(xì)胞為基礎(chǔ)的生物模型。在人們對(duì)生物神經(jīng)系統(tǒng)進(jìn)行研究，以探討人工智能的機(jī)制時(shí)，把神經(jīng)元數(shù)學(xué)化，從而產(chǎn)生了神經(jīng)元數(shù)學(xué)模型。　　大量的形式相同的神經(jīng)元連結(jié)在—起就組成了神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是一個(gè)高度非線性動(dòng)力學(xué)系統(tǒng)。雖然，每個(gè)神經(jīng)元的結(jié)構(gòu)和功能都不復(fù)雜，但是神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)行為則是十分復(fù)雜的；因此

46、，用神經(jīng)網(wǎng)絡(luò)可以表達(dá)實(shí)際物理世界的各種現(xiàn)象。神經(jīng)網(wǎng)絡(luò)模型是以神經(jīng)元的數(shù)學(xué)模型為基礎(chǔ)來描述的。神經(jīng)網(wǎng)絡(luò)模型由網(wǎng)絡(luò)拓?fù)洌?jié)點(diǎn)特點(diǎn)和學(xué)習(xí)規(guī)則來表示。神經(jīng)網(wǎng)絡(luò)對(duì)人們的巨大吸引力主要在下列幾點(diǎn)：　　1．并行分布處理。　　2．高度魯棒性和容錯(cuò)能力。　　3．分布存儲(chǔ)及學(xué)習(xí)能力。　　4．能充分逼近復(fù)雜的非線性關(guān)系。,7.神經(jīng)網(wǎng)絡(luò)模型,70,目前，已有近40種神經(jīng)網(wǎng)絡(luò)模型。有反傳網(wǎng)絡(luò)、感知器、自組織映射、Hopfield網(wǎng)絡(luò)、波耳茲曼機(jī)、

47、適應(yīng)諧振理論等。根據(jù)連接的拓?fù)浣Y(jié)構(gòu)，神經(jīng)網(wǎng)絡(luò)模型可以分為：（1）前向網(wǎng)絡(luò)：網(wǎng)絡(luò)中各個(gè)神經(jīng)元接受前一級(jí)的輸入，并輸出到下一級(jí)，網(wǎng)絡(luò)中沒有反饋，可以用一個(gè)有向無環(huán)路圖表示。這種網(wǎng)絡(luò)實(shí)現(xiàn)信號(hào)從輸入空間到輸出空間的變換，它的信息處理能力來自于簡單非線性函數(shù)的多次復(fù)合。網(wǎng)絡(luò)結(jié)構(gòu)簡單，易于實(shí)現(xiàn)。反傳網(wǎng)絡(luò)是一種典型的前向網(wǎng)絡(luò)。（2）反饋網(wǎng)絡(luò)：網(wǎng)絡(luò)內(nèi)神經(jīng)元間有反饋，可以用一個(gè)無向的完備圖表示。這種神經(jīng)網(wǎng)絡(luò)的信息處理是狀態(tài)的變換，可以用動(dòng)力學(xué)

48、系統(tǒng)理論處理。系統(tǒng)的穩(wěn)定性與聯(lián)想記憶功能有密切關(guān)系。Hopfield網(wǎng)絡(luò)、波耳茲曼機(jī)均屬于這種類型。,7.神經(jīng)網(wǎng)絡(luò)模型,71,神經(jīng)網(wǎng)絡(luò)主要類型：BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、CPN神經(jīng)網(wǎng)絡(luò)對(duì)向傳播網(wǎng)絡(luò)（Counter Propagation)，簡稱CPN,是將Kohonen特征映射網(wǎng)絡(luò)與Grossberg基本競爭型網(wǎng)絡(luò)相結(jié)合，發(fā)揮各自長處的一種新型特征映射網(wǎng)絡(luò)，被廣泛的運(yùn)用于模式分類，函數(shù)近似，數(shù)據(jù)壓縮等方面。,7.神經(jīng)網(wǎng)絡(luò)模型,RB

49、F神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),72,網(wǎng)絡(luò)學(xué)習(xí)的準(zhǔn)則：如果網(wǎng)絡(luò)作出錯(cuò)誤的的判決，則通過網(wǎng)絡(luò)的學(xué)習(xí)，應(yīng)使得網(wǎng)絡(luò)減少下次犯同樣錯(cuò)誤的可能性。舉例：1、給網(wǎng)絡(luò)的各連接權(quán)值賦予(0，1)區(qū)間內(nèi)的隨機(jī)值，將“A”所對(duì)應(yīng)的圖象模式輸入給網(wǎng)絡(luò)，網(wǎng)絡(luò)將輸入模式加權(quán)求和、與門限比較、再進(jìn)行非線性運(yùn)算，得到網(wǎng)絡(luò)的輸出。在此情況下，網(wǎng)絡(luò)輸出為“1”和“0”的概率各為50%，也就是說是完全隨機(jī)的。這時(shí)如果輸出為“1”(結(jié)果正確)，則使連接權(quán)值增大，以便使網(wǎng)絡(luò)再次遇到“A”模

50、式輸入時(shí)，仍然能作出正確的判斷。 2、如果輸出為“0”(即結(jié)果錯(cuò)誤)，則把網(wǎng)絡(luò)連接權(quán)值朝著減小綜合輸入加權(quán)值的方向調(diào)整，其目的在于使網(wǎng)絡(luò)下次再遇到“A”模式輸入時(shí)，減小犯同樣錯(cuò)誤的可能性。如此操作調(diào)整，當(dāng)給網(wǎng)絡(luò)輪番輸入若干個(gè)手寫字母“A”、“B”后，經(jīng)過網(wǎng)絡(luò)按以上學(xué)習(xí)方法進(jìn)行若干次學(xué)習(xí)后，網(wǎng)絡(luò)判斷的正確率將大大提高。這說明網(wǎng)絡(luò)對(duì)這兩個(gè)模式的學(xué)習(xí)已經(jīng)獲得了成功，它已將這兩個(gè)模式分布地記憶在網(wǎng)絡(luò)的各個(gè)連接權(quán)值上。

51、當(dāng)網(wǎng)絡(luò)再次遇到其中任何一個(gè)模式時(shí)，能夠作出迅速、準(zhǔn)確的判斷和識(shí)別。一般說來，網(wǎng)絡(luò)中所含的神經(jīng)元個(gè)數(shù)越多，則它能記憶、識(shí)別的模式也就越多。,7.神經(jīng)網(wǎng)絡(luò)模型,73,7.神經(jīng)網(wǎng)絡(luò)模型：舉例,,,,,F(x)成為活化方程，可以使用線性、階躍型、S型等不同種類的函數(shù)替代。,74,問題：某公司要預(yù)測(cè)哪些用戶會(huì)對(duì)郵件促銷活動(dòng)產(chǎn)生響應(yīng)。目標(biāo)變量是二值變量，標(biāo)識(shí)用戶是否對(duì)最近的促銷產(chǎn)生響應(yīng)。該模型的輸入變量是年齡、收入、婚否以及最近六個(gè)月是否產(chǎn)生購買

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘模型介紹2016

文檔簡介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘模型介紹2016

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載