2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩79頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聚類(lèi)分析,聚類(lèi)分析是研究(樣品或指標(biāo))分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法。類(lèi)是指相似元素的集合。分類(lèi):1、系統(tǒng)聚類(lèi)法------(分層聚類(lèi))系統(tǒng)聚類(lèi)法是應(yīng)用最廣泛的一種 (Hierarchical Cluster過(guò)程) 1)、 聚類(lèi)原則:都是相近的聚為一類(lèi),即距離最近或最相似的聚為 一類(lèi)。 2)、 分層聚類(lèi)的方法可以用于樣本聚

2、類(lèi)(Q)型,也可以用于變量聚類(lèi) (R型)。2、非系統(tǒng)聚類(lèi)法-----(快速聚類(lèi)法----K-均值聚類(lèi)法)(K-means Cluster)3、兩步聚類(lèi)法-----一種探索性的聚類(lèi)方法(TwoStep Cluster),K-均值聚類(lèi)分析K-means Cluster,又稱為快速樣本聚類(lèi)法,是非系統(tǒng)聚類(lèi)中最常用的聚類(lèi)法。優(yōu)點(diǎn): 是占內(nèi)存少、計(jì)算量小、處理速度快,特別適合大

3、樣本的聚類(lèi)分析。缺點(diǎn): 應(yīng)用范圍有限,要求用戶制定分類(lèi)數(shù)目(要告知),只能對(duì)觀測(cè)量(樣本)聚類(lèi),而不能對(duì)變量聚類(lèi),且所使用的聚類(lèi)變量必須都是連續(xù)性變量。,基本原理具體做法1、按照指定的分類(lèi)數(shù)目n,按某種方法選擇某些觀測(cè)量,設(shè)為{Z1,Z2,…Zn},作為初始聚心。2、計(jì)算每個(gè)觀測(cè)量到各個(gè)聚心的歐氏距離。即 按就近原則將每個(gè)觀測(cè)量選入一個(gè)類(lèi)中,然后計(jì)算

4、各個(gè)類(lèi)的中心位置,即均值,作為新的聚心。3、使用計(jì)算出來(lái)的新聚心重新進(jìn)行分類(lèi),分類(lèi)完畢后繼續(xù)計(jì)算各類(lèi)的中心位置,作為新的聚心,如此反復(fù)操作,直到兩次迭代計(jì)算的聚心之間距離的最大改變量小于初始聚類(lèi)心間最小距離的倍數(shù)時(shí),或者到達(dá)迭代次數(shù)的上限時(shí),停止迭代。,數(shù)據(jù)標(biāo)準(zhǔn)化處理:,存儲(chǔ)中間過(guò)程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理,并存儲(chǔ)。,,指定5類(lèi),,收斂標(biāo)準(zhǔn)值,,存儲(chǔ)最終結(jié)果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2),,初始聚心選項(xiàng),輸出方差分析表,

5、,初始聚類(lèi)中心表,,具體城市看后表,,最終聚類(lèi)中心表,,聚類(lèi)結(jié)果:QCL-1說(shuō)明聚類(lèi)結(jié)果,QCL-2說(shuō)明聚類(lèi)的長(zhǎng)度情況,,系統(tǒng)聚類(lèi)法Hierarchical Cluster,系統(tǒng)聚類(lèi)法優(yōu)點(diǎn): 既可以對(duì)觀測(cè)量(樣品)也可對(duì)變量進(jìn)行聚類(lèi),既可以連續(xù)變量也可以是分類(lèi)變量,提供的距離計(jì)算方法和結(jié)果顯示方法也很豐富。,應(yīng)用實(shí)例,某電冰箱廠開(kāi)發(fā)某一新產(chǎn)品,在投放市場(chǎng)前希望對(duì)以往經(jīng)銷(xiāo)的國(guó)內(nèi)6個(gè)地區(qū)征集對(duì)新產(chǎn)品的評(píng)價(jià),若對(duì)新產(chǎn)品的評(píng)價(jià)

6、指標(biāo)有三項(xiàng):式樣、性能、顏色,評(píng)價(jià)的調(diào)整表采用10分制,調(diào)查結(jié)果的數(shù)據(jù)如下表,,,,,1 2 3 4 5 6,性能 9 1 10 9 2 8 顏色 8 2

7、 7 9 4 6 式樣 7 2 8 3 5 7,地區(qū)(樣品),指標(biāo),用分類(lèi)法對(duì)6個(gè)樣品進(jìn)行分類(lèi),以估計(jì)哪些地區(qū)最有可能經(jīng)銷(xiāo)這類(lèi)新產(chǎn)品?,按公式計(jì)算兩兩樣品間的相似系數(shù),得相似矩陣,1 2 3

8、 4 5 6,123456,Q =,按四條原則進(jìn)行分類(lèi),,,,作聚類(lèi)分析圖,X3X6X1X4X2X5,,,,,,,,,,,,,,,,,1,0.994,0.955,0.994,0.933,一、問(wèn)題提出聚類(lèi)分析——對(duì)一批樣品或指標(biāo)進(jìn)行分類(lèi)的一種統(tǒng) 計(jì)方法。,具體處理方法:(思路),1、具體研究的分類(lèi)對(duì)象:樣品或指標(biāo)2、方法:把“性質(zhì)相似”或“相

9、互關(guān)系密切”的樣品或指標(biāo)聚在一起。3、步驟:1)首先給出度量“相似”或“關(guān)系密切”的統(tǒng)計(jì)指標(biāo),,2)形成一個(gè)由小到大的分析系統(tǒng)。3)把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張分類(lèi)圖,(3)相關(guān)系數(shù)(4)關(guān)聯(lián)系數(shù),指標(biāo):(1)統(tǒng)計(jì)指標(biāo)是相似系數(shù)。 根據(jù)相似性歸為一類(lèi),否則為另一類(lèi)。 (2)統(tǒng)計(jì)指標(biāo)是樣品(空間的點(diǎn))之間的距離 將距離近的點(diǎn)歸成一類(lèi),否則為另一類(lèi)。,二、聚類(lèi)統(tǒng)計(jì)量,首先定義一些分類(lèi)統(tǒng)

10、計(jì)指標(biāo) —— 刻畫(huà)樣或指標(biāo)之間的相似程度(這些統(tǒng)計(jì)指標(biāo)稱為聚類(lèi)統(tǒng)計(jì)量),在市場(chǎng)研究中,樣品 —— 用作分類(lèi)的事物 指標(biāo) —— 用來(lái)作為分類(lèi)依據(jù)的變量。(如:年齡、收入、銷(xiāo)售量),(一)相似系數(shù)(夾角余弦) 一般式:假定每個(gè)樣品包含有P項(xiàng)指標(biāo),若有幾個(gè)樣品的調(diào)查數(shù)據(jù),每一個(gè)樣品都可看成P維空間中的一個(gè)向量,,對(duì)于任意兩個(gè)樣品Xi和Xj的相似程度可用這兩個(gè)向量之間的夾角余弦,來(lái)表示:,Xi和Xj相重合時(shí),夾角,

11、相似程度為,Xi和Xj相互垂直時(shí),,相似程度為,相似密切,,解析幾何知識(shí):相似系數(shù),其中:,如果把上述n個(gè)樣品的任何兩個(gè)樣品的相似系數(shù),都計(jì)算出來(lái)并排列成一,個(gè)矩陣:,根據(jù)算出的,,就可對(duì)n個(gè)樣品進(jìn)行聚類(lèi),用相似系數(shù)作為聚類(lèi)統(tǒng)計(jì)量時(shí)的分類(lèi)方法,1、分類(lèi)原則: (1)若選出一對(duì)樣品,在已分好的類(lèi)中未出現(xiàn),則形成一個(gè)獨(dú)立新類(lèi)。 (2)若選出兩個(gè)樣品中,有一個(gè)是在已分好的類(lèi)中出現(xiàn)過(guò),則把另一個(gè)樣品也加入到該類(lèi)中去。 (3)若選出一對(duì)樣品

12、,都分別出現(xiàn)已經(jīng)分好的兩類(lèi)中,則把這兩個(gè)類(lèi)聯(lián)結(jié)在一起。 (4)若選出的一對(duì)樣品都出現(xiàn)在同一組中,則這對(duì)樣品就不用再分組了。按上述四條原則反復(fù)進(jìn)行,直到把所有樣品都分類(lèi)完畢,最后以分類(lèi)圖形式表示,2、分類(lèi)方法,例:設(shè)有7個(gè)樣品,每個(gè)樣品測(cè)得P個(gè)指標(biāo),數(shù)據(jù)如表,,,,X1 X2 X3 X4 X5 X6 X7,,,樣品,指標(biāo),要求對(duì)此7個(gè)樣品進(jìn)行聚類(lèi),采用的聚類(lèi)統(tǒng)計(jì)量是相似系數(shù)(夾角余弦),首先

13、計(jì)算所有的兩個(gè)樣品間的相似系數(shù),1 2 3 4 5 6 7,1234567,Q =,按矩陣中的數(shù)值對(duì)7個(gè)樣品(按四個(gè)原則)進(jìn)行聚類(lèi),,1 2 3 4 5 6 7,1234567,Q =,,,,,,順序 連結(jié)樣品

14、 相似系數(shù),123456,X1 X5 0.97 X1 X5 X3 0.94 X2 X4 0.91 X2 X4 X6 0.67 X1

15、 X5 X3 X2 X4 X6 0.51 X1 X5 X3 X7 0.24 X2 X4 X6,,,,,,,,按矩陣中的數(shù)值對(duì)7個(gè)樣品(按四個(gè)原則)進(jìn)行聚類(lèi),1、記下Q中最大值q15=0.97,劃去Q中的第5行第5列2、記下Q中剩余元素最大值q13=0.94,劃去Q中的第3行第3列,行,,,,,,,,(3)記下Q中剩余元素最大值q24=0.91,

16、劃去Q中的第4行第4列(4)記下Q中剩余元素最大值q26=0.67,劃去Q中的第6行第6列(5)記下Q中剩余元素最大值q12=0.51,劃去Q中的第2行第2列(6)記下Q中剩余元素最大值q17=0.24,作聚類(lèi)圖:,X1X5X3X2X4X6X7,,,,,,,,,,,,,,,,,,,,0.97,0.94,0.91,0.67,0.51,0.24,2)利用相關(guān)作聚類(lèi)分析,例:設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)得8個(gè)指標(biāo)X1,X2,…,

17、X8。要求對(duì)8個(gè)指標(biāo)進(jìn)行聚類(lèi),聚類(lèi)統(tǒng)計(jì)量采用相關(guān)系數(shù),設(shè)相關(guān)矩陣R = ( )為:,,1 2 3 4 5 6 7 8,12345678,,,,,,順序 連結(jié)樣品 相似系數(shù),1234567,X1 X6 0.99

18、 X1 X6 X3 0.96 X2 X4 0.93 X2 X4 X7 0.68 X5 X8 0.49 X1 X6 X3

19、 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94 X2 X4 X7,,,,R=,按矩陣R中數(shù)值對(duì)8個(gè)指標(biāo)(按四個(gè)原則)進(jìn)行聚類(lèi):1)記下矩陣中的最大值,,劃去第6行第6列,2)記下矩陣中的最大值,,劃去第3行第3列,以此類(lèi)推。,作聚類(lèi)圖:,X1X6X3X4X2X7X5X8,,,,,,,,

20、,,,,,,,,,,,,,,,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照時(shí)數(shù),,注:連續(xù)變量,SPSS提供不同類(lèi)間距離的測(cè)量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,,觀測(cè)量概述表,,聚類(lèi)步驟,與圖結(jié)合看!,,,,,,,,,,,,,4、5,,聚類(lèi)方法有系統(tǒng)聚類(lèi)和逐步聚類(lèi),輸入數(shù)據(jù)集可以是普通數(shù)據(jù)集、相關(guān)矩陣(CO

21、RR過(guò)程產(chǎn)生)或協(xié)方差矩陣(FACTOR等過(guò)程產(chǎn)生)。SAS提供的聚類(lèi)過(guò)程有:1、CLUSTER對(duì)坐標(biāo)數(shù)據(jù)或距離數(shù)據(jù)的觀測(cè)值用11種方法進(jìn)行系統(tǒng)聚類(lèi),當(dāng)觀測(cè)值數(shù)太多時(shí),不宜直接采用。2、FASTCLUS對(duì)于坐標(biāo)數(shù)據(jù),用K-均值法對(duì)觀測(cè)值進(jìn)行逐步聚類(lèi),當(dāng)觀測(cè)值很多時(shí),則先用FACTCLUS過(guò)程對(duì)其進(jìn)行初步聚類(lèi),然后再用CLUSTER過(guò)程進(jìn)行系統(tǒng)聚類(lèi)。3、VARCLUS通過(guò)斜交多組分量分析對(duì)變量進(jìn)行系統(tǒng)聚類(lèi)或逐步聚類(lèi)。4、TREE為

22、CLUSTER或VARCLUS過(guò)程產(chǎn)生的輸出畫(huà)樹(shù)狀圖。,CLUSTER過(guò)程開(kāi)始每個(gè)觀測(cè)值自成一類(lèi),然后求兩兩之間的距離,將距離最近的兩個(gè)觀測(cè)值合成一類(lèi)。這個(gè)過(guò)程一直進(jìn)行下去,每次減少一類(lèi),直到合成一類(lèi)為止。聚類(lèi)方法有11種,可根據(jù)問(wèn)題的性質(zhì)選用,它們的區(qū)別在于怎樣計(jì)算兩類(lèi)之間的距離。METHOD=指定方法AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距離法)、DENSITY(密度法)、MEDIAM(

23、中位數(shù)法)等,美國(guó)十個(gè)城市的分類(lèi)根據(jù)兩個(gè)城市見(jiàn)航空距離將美國(guó)十個(gè)大城市作分類(lèi),,,,,,,聚類(lèi)分析SAS程序:,,原始數(shù)據(jù)是兩兩之間距離的三角陣(而不是坐標(biāo)),,,輸入格式,,55列為城市,,15位,,平均法重心法最小距離法,,,輸出F及t統(tǒng)計(jì)量,,觀測(cè)值之間距離的均方根,,輸出結(jié)果:,,類(lèi)數(shù),,,指出被合并的類(lèi),,新類(lèi)中的觀測(cè)值數(shù),,,類(lèi)間距離除以觀測(cè)值間距離均方根得來(lái),,,F、t**2峰值(起伏)越大說(shuō)明分類(lèi)顯著,,研究各種飲

24、料在市場(chǎng)消費(fèi)的分配規(guī)律,試確定各種飲料消費(fèi)類(lèi)型,聚類(lèi)分析的第幾步,,哪兩個(gè)樣本或小類(lèi)聚成一類(lèi),,相應(yīng)的樣本距離或小類(lèi)距離,,指明是樣本(0)還是小類(lèi)(n),,下面第幾步用到,,垂直冰柱圖顯示層次聚類(lèi)分析,從冰柱圖最后一行開(kāi)始觀察,第一列表示類(lèi)數(shù),,,,,,,,,,,兩步聚類(lèi)法TwoStep Cluster,一種探索性的聚類(lèi)方法,是隨著人工智能的發(fā)展起來(lái)的智能聚類(lèi)方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類(lèi)別結(jié)構(gòu)的聚類(lèi)分析問(wèn)題。,兩步聚類(lèi)

25、法特點(diǎn):1、同時(shí)處理離散變量和連續(xù)變量的能力2、自動(dòng)選擇聚類(lèi)數(shù)3、通過(guò)預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類(lèi)模型4、可以處理超大樣本量的數(shù)據(jù),簡(jiǎn)單介紹基本原理分兩步進(jìn)行第一步:預(yù)聚類(lèi)。對(duì)記錄進(jìn)行初始的歸類(lèi),用戶自定義最大類(lèi)別數(shù)。通過(guò)構(gòu)建和修改特征樹(shù)(CT Free)完成。第二步:正式聚類(lèi)。對(duì)第一步完成的初步聚類(lèi)進(jìn)行再聚類(lèi)并確定最終的聚類(lèi)方案,系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類(lèi)的類(lèi)別數(shù)目。以后,可以通過(guò)傳統(tǒng)的聚類(lèi)方法進(jìn)行聚類(lèi)(SPS

26、S中采用合并型分層聚類(lèi)法)。,輸出各變量在聚類(lèi)中比重圖,,輸出出聚類(lèi)餅分圖,,每個(gè)變量做一張條圖,,每一各類(lèi)別做兩張,分別為連續(xù)與離散聚類(lèi),,重要性測(cè)度,,1、質(zhì)心表和頻數(shù)表2、聚類(lèi)分析表3、自動(dòng)聚類(lèi)結(jié)果表,,聚類(lèi)數(shù)目,,數(shù)值越小效果越好,,BIC相鄰兩項(xiàng)差值,,看數(shù)據(jù)的峰值,看聚類(lèi)效果。4、8、10、14類(lèi)。,,BIC準(zhǔn)則-Schwartz Bayesian Criterion,,離散變量頻數(shù)表的圖形表示,,連續(xù)變量在各個(gè)類(lèi)別中的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論