高維生物數(shù)據(jù)的分類與預(yù)測研究.pdf_第1頁
已閱讀1頁,還剩147頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、近幾年,隨著生物科學(xué)技術(shù)的飛速發(fā)展,產(chǎn)生出大量的生物數(shù)據(jù)。例如基因芯片技術(shù)大大加速了生物實(shí)驗(yàn)的進(jìn)行,并隨之產(chǎn)生了涉及數(shù)千維特征的基因表達(dá)數(shù)據(jù),如何有效的處理和分析所產(chǎn)生的高維數(shù)據(jù)越來越引起研究者們的廣泛關(guān)注。對于蛋白質(zhì)數(shù)據(jù),同樣也面臨這樣的問題,為了更好地描述一個龐大的蛋白質(zhì)信息數(shù)據(jù),需要大量的高維數(shù)據(jù)和信息。但是最初研究人員提出的用來描述蛋白質(zhì)序列信息的方法比較簡單,得到的特征所包含的序列信息量很少,所以特征的維數(shù)不是很高,例如氨基酸

2、的組成的特征描述方法。隨著研究的不斷深入,為了更好的描述蛋白質(zhì)序列,表達(dá)方法中考慮了氨基酸的各種物理化學(xué)性質(zhì),即產(chǎn)生了偽氨基酸組成等方法。現(xiàn)今,隨著蛋白質(zhì)信息的增加以及各種蛋白質(zhì)數(shù)據(jù)庫的建立與完善,利用蛋白質(zhì)數(shù)據(jù)庫信息以及進(jìn)化信息來描述蛋白質(zhì)序列的特征表達(dá)方法被提出,典型的方法包括二肽組成、位置特異性分?jǐn)?shù)矩陣(PSSM)、功能域組成、基因本體(Go)等。它們雖然比較全面的表達(dá)了蛋白質(zhì)序列的各種結(jié)構(gòu)和功能信息,但表達(dá)后相應(yīng)特征的維數(shù)也隨之

3、增大,涉及到的特征維數(shù)已從幾十維增加到幾百維、甚至幾千維。隨著維度(特征數(shù))的增加,數(shù)據(jù)之間的冗余性和不相關(guān)性都隨之增大,這樣會帶來很多問題,例如對于某些數(shù)據(jù)分析算法,算法的計(jì)算復(fù)雜性會迅速增加。因此研究者們開始考慮有效的降低數(shù)據(jù)的冗余性及計(jì)算復(fù)雜度的理論和方法,維數(shù)約簡算法即對高維數(shù)據(jù)降維的方法,是解決該問題的一種有效途徑。通過降維約簡了大量的冗余信息,但原數(shù)據(jù)中的重要信息被保留了下來。許多實(shí)驗(yàn)結(jié)果都證明采用降維方法不但使得預(yù)測系統(tǒng)得

4、到簡化,同時還提高了分類性能。
   本論文基于線性子空間降維方法來預(yù)測蛋白質(zhì)數(shù)據(jù)的類別,其有效性通過模型評估方法得以驗(yàn)證。但是線性假設(shè)的內(nèi)在不足使得線性降維方法無法揭示出數(shù)據(jù)集合中所含有的非線性結(jié)構(gòu)性,而現(xiàn)實(shí)中所獲得的真實(shí)數(shù)據(jù)集合更多的是呈現(xiàn)出非線性的結(jié)構(gòu),如本文研究的生物數(shù)據(jù)就是一種復(fù)雜的非線性結(jié)構(gòu)數(shù)據(jù)。故為了彌補(bǔ)線性降維方法的不足,有效的探求數(shù)據(jù)集的內(nèi)在非線性結(jié)構(gòu),線性子空間預(yù)測方法被推廣到高維特征空間,開發(fā)出基于核方法的

5、蛋白質(zhì)數(shù)據(jù)分類預(yù)測算法。但是核函數(shù)不利于人的感知和直接理解,流形學(xué)習(xí)降維算法的提出彌補(bǔ)了它的不足。最近,產(chǎn)生了一種新的降維方法一最大方差映射方法。它結(jié)合了流形學(xué)習(xí)和線性降維方法的優(yōu)點(diǎn),采用該方法預(yù)測蛋白質(zhì)的類別取得了較高的預(yù)測準(zhǔn)確率。最后針對經(jīng)典等距離映射(Isomap)降維算法的不足之處,提出了相應(yīng)的改進(jìn)算法MDM-Isomap,即基于最小最大距離度量準(zhǔn)則(MDM)的降維算法。通過人臉識別實(shí)驗(yàn)進(jìn)一步證明了該改進(jìn)算法的有效性。
 

6、  本文的主要貢獻(xiàn)在于:
   1.本文提出采用線性子空間降維方法來預(yù)測蛋白質(zhì)亞細(xì)胞位置和四級結(jié)構(gòu)。首先提取蛋白質(zhì)數(shù)據(jù)的序列特征生成屬性向量。屬性向量的維數(shù)一般都很高,它能全面的描述蛋白質(zhì)序列信息的同時,也帶來了“維數(shù)災(zāi)難”問題,使得蛋白質(zhì)亞細(xì)胞預(yù)測系統(tǒng)的復(fù)雜度很高。為了解決這一問題,我們采用了線性子空間的降維方法從中提取出重要的低維的特征向量,然后在降維后的低維特征向量上再進(jìn)行分類預(yù)測,最后預(yù)測結(jié)果表明采用該方法不但使得生物

7、預(yù)測系統(tǒng)得到簡化,還提高了預(yù)測性能。
   2.考慮到線性降維方法對數(shù)據(jù)的假設(shè)過于苛刻,需要滿足線性結(jié)構(gòu),而生物數(shù)據(jù)大多呈現(xiàn)出非線性的結(jié)構(gòu)特點(diǎn),所以這里將所提出的線性子空間方法推廣到高維特征空間,形成基于核方法(非線性降維方法)的蛋白質(zhì)亞細(xì)胞位置預(yù)測算法。經(jīng)實(shí)驗(yàn)證明了這種方法的有效性,預(yù)測準(zhǔn)確率高于基于線性子空間降維算法的預(yù)測方法。
   3.充分挖掘流形學(xué)習(xí)算法與線性降維算法的優(yōu)點(diǎn),以將兩種方法的相結(jié)合為切入點(diǎn),本文采

8、用線性與非線性方法相結(jié)合的算法-最大方差映射方法(MVP)來預(yù)測膜蛋白的類別。它繼承了線性判別分析算法(LDA)的最大化類間距離和最小化類內(nèi)距離的思想,并在此基礎(chǔ)上考慮了樣本的局部幾何特征,將其延伸為最大化類間的幾何特征和最小化類內(nèi)的幾何特征。MVP方法的優(yōu)點(diǎn)在于與傳統(tǒng)的線性判別分析算法相比,它考慮了樣本的空間幾何結(jié)構(gòu)信息,與基本的流形學(xué)習(xí)算法相比,它又具備判別能力,對解決分類問題的特征降維,尤其是膜蛋白的分類預(yù)測問題非常有效。

9、   4.對比了各種降維算法在蛋白質(zhì)數(shù)據(jù)分類預(yù)測中的結(jié)果,總結(jié)出了各種降維算法的優(yōu)點(diǎn)和缺點(diǎn)。針對等距離映射算法(Isomap)的鄰域大小難以有效選取的問題提出了相應(yīng)的改進(jìn)算法,即基于最小最大距離度量準(zhǔn)則(MDM)的降維算法MDM-Isomap。采用這種新的度量算法替代原始的歐式距離度量算法使得選擇的近鄰更加準(zhǔn)確更能反應(yīng)流形的本質(zhì)特點(diǎn)。通過人臉識別實(shí)驗(yàn)也證明了這種方法的有效性,預(yù)測準(zhǔn)確率高于經(jīng)典的Isomap降維方法。
   5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論