主成分分析法_第1頁
已閱讀1頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、一、概述在處理信息時,當兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊,例如,高??蒲袪顩r評價中的立項課題數(shù)與項目經(jīng)費、經(jīng)費支出等之間會存在較高的相關(guān)性;學生綜合評價研究中的專業(yè)基礎(chǔ)課成績與專業(yè)課成績、獲獎學金次數(shù)等之間也會存在較高的相關(guān)性。而變量之間信息的高度重疊和高度相關(guān)會給統(tǒng)計方法的應(yīng)用帶來許多障礙。為了解決這些問題,最簡單和最直接的解決方案是削減變量的個數(shù),但這必然又會導致信息丟失和信息不完整等問

2、題的產(chǎn)生。為此,人們希望探索一種更為有效的解決方法,它既能大大減少參與數(shù)據(jù)建模的變量個數(shù),同時也不會造成信息的大量丟失。主成分分析正式這樣一種能夠有效降低變量維數(shù),并已得到廣泛應(yīng)用的分析方法。主成分分析以最少的信息丟失為前提,將眾多的原有變量綜合成較少幾個綜合指標,通常綜合指標(主成分)有以下幾個特點:?主成分個數(shù)遠遠少于原有變量的個數(shù)原有變量綜合成少數(shù)幾個因子之后,因子將可以替代原有變量參與數(shù)據(jù)建模,這將大大減少分析過程中的計算工作量

3、。?主成分能夠反映原有變量的絕大部分信息因子并不是原有變量的簡單取舍,而是原有變量重組后的結(jié)果,因此不會造成原有變量信息的大量丟失,并能夠代表原有變量的絕大部分信息。?主成分之間應(yīng)該互不相關(guān)通過主成分分析得出的新的綜合指標(主成分)之間互不相關(guān),因子參與數(shù)據(jù)建模能夠有效地解決變量信息重疊、多重共線性等給分析應(yīng)用帶來的諸多問題。?主成分具有命名解釋性總之,主成分分析法是研究如何以最少的信息丟失將眾多原有變量濃縮成少數(shù)幾個因子,如何使因子具

4、有一定的命名解釋性的多元統(tǒng)計分析方法。二、基本原理主成分分析是數(shù)學上對數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來眾多的具有一定相關(guān)性的指標X1,X2,…,XP(比如p個指標),重新組合成一組較少個數(shù)的互不相關(guān)的綜合指標Fm來代替原來指標。那么綜合指標應(yīng)該如何去提取,使其既能最大程度的反映原變量Xp所代表的信息,又能保證新指標之間保持相互無關(guān)(信息不重疊)。設(shè)F1表示原變量的第一個線性組合所形成的主成分指標,即由數(shù)學知識可知,每一個主成分

5、所提取的信息量可用其方11112121...ppFaXaXaX????差來度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的線性組合中選取的F1應(yīng)該是X1,X2,…,XP的所有線性組合中方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個指標的信息,再考慮選取第二個主成分指標F2,為有效地反映原信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,即F2與F1要保持獨立、不相

6、關(guān),用數(shù)學語言表達就是其協(xié)方差Cov(F1F2)=0,所以F2是與F1不相關(guān)的X1,X2,…,XP的所有線性組合中方差最大的,故稱F2為第二主成分,依此類推構(gòu)造出的F1、F2、……、Fm為原變量指標X1、X2……XP第一、第二、……、第m個主成分。1miiii??????(3)選擇主成分最終要選擇幾個主成分,即F1F2……Fm中m的確定是通過方差(信息)累計貢獻率G(m)來確定11()pmikikGm???????當累積貢獻率大于85%

7、時,就認為能足夠反映原來變量的信息了,對應(yīng)的m就是抽取的前m個主成分。(4)計算主成分載荷主成分載荷是反映主成分Fi與原變量Xj之間的相互關(guān)聯(lián)程度,原來變量Xj(j=1,2,…,p)在諸主成分Fi(i=1,2,…,m)上的荷載lij(i=1,2,…,m;j=1,2,…,p)。:()(1212)ijiijlZXaimjp??????在SPSS軟件中主成分分析后的分析結(jié)果中,“成分矩陣”反應(yīng)的就是主成分載荷矩陣。(5)計算主成分得分計算樣品

8、在m個主成分上的得分:i=1,2,…,m1122...iiipipFaXaXaX????實際應(yīng)用時,指標的量綱往往不同,所以在主成分計算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標準化,即做如下數(shù)據(jù)變換:12...12...ijjijjxxxinjps????其中:,11njijixxn???2211()1njijjisxxn?????根據(jù)數(shù)學公式知道,①任何隨機變量對其作標準化變換后,其協(xié)方差與其相關(guān)系數(shù)是

9、一回事,即標準化后的變量協(xié)方差矩陣就是其相關(guān)系數(shù)矩陣。②另一方面,根據(jù)協(xié)方差的公式可以推得標準化后的協(xié)方差就是原變量的相關(guān)系數(shù),亦即,標準化后的變量的協(xié)方差矩陣就是原變量的相關(guān)系數(shù)矩陣。也就是說,在標準化前后變量的相關(guān)系數(shù)矩陣不變化。根據(jù)以上論述,為消除量綱的影響,將變量標準化后再計算其協(xié)方差矩陣,就是直接計算原變量的相關(guān)系數(shù)矩陣,所以主成分分析的實際常用計算步驟是:☆計算相關(guān)系數(shù)矩陣☆求出相關(guān)系數(shù)矩陣的特征值及相應(yīng)的正交化單位特征向量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論