生物信息學(xué)有關(guān)的數(shù)據(jù)結(jié)構(gòu)與智能計(jì)算問(wèn)題.pdf_第1頁(yè)
已閱讀1頁(yè),還剩79頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著生物技術(shù)的發(fā)展,積累了越來(lái)越多的生物數(shù)據(jù),對(duì)生物數(shù)據(jù)的存儲(chǔ)分析形成了新的學(xué)科:生物信息學(xué)。生物信息學(xué)的發(fā)展是多種學(xué)科交叉的結(jié)果,但是另外一方面對(duì)生物數(shù)據(jù)的分析,新算法的開發(fā)對(duì)數(shù)學(xué)和計(jì)算機(jī)科學(xué)的發(fā)展也起到了一定的推動(dòng)作用。本文就是對(duì)這方面的初步探討。本文分三個(gè)部分,第一部分,從生物信息學(xué)中的生物序列的比對(duì)出發(fā),將序列的突變推廣到信息科學(xué)和計(jì)算科學(xué)中的廣義差錯(cuò),并且給出其應(yīng)用:廣義糾錯(cuò)碼和容錯(cuò)復(fù)雜度。第二部分,使用模糊神經(jīng)網(wǎng)絡(luò)算法分析基

2、因識(shí)別的因素問(wèn)題,第三部分,給出一種新的聚類算法EMR算法,并將其應(yīng)用于蛋白質(zhì)的聚類中。 在數(shù)據(jù)處理問(wèn)題中,差錯(cuò)的類型有多種,除了符號(hào)的變更外還有數(shù)據(jù)的丟失與插入等情況發(fā)生,我們統(tǒng)稱這種差錯(cuò)為廣義差錯(cuò)或突變誤差.在計(jì)算機(jī),信息論與生物信息學(xué)領(lǐng)域中,對(duì)這種廣義差錯(cuò)都有研究,并分別對(duì)這種差錯(cuò)給以度量的定義,如在計(jì)算機(jī)與信息論領(lǐng)域稱這種廣義差錯(cuò)的度量為L(zhǎng)evenshtein距離,編輯距離(Editedistance)或Evolutio

3、nary距離等,這些距離有的是等價(jià)的,也有是不等價(jià)的.在生物信息學(xué)中,為尋找序列的突變誤差的發(fā)生的狀況有一系列的比對(duì)(Alignment)計(jì)算方法與研究,由此可產(chǎn)生Alignment距離與Alignment空間,Alignment距離實(shí)際上就是Evolutionary距離.本文首先概述這幾種距離的定義與相互關(guān)系,為研究廣義差錯(cuò)的數(shù)據(jù)結(jié)構(gòu),我們引進(jìn)它們的代數(shù)結(jié)構(gòu)理論,并由此對(duì)Alignment距離滿足三角形不等式給出它的嚴(yán)格證明,本文還討

4、論了最小罰分比對(duì)與最大得分比對(duì)的關(guān)系問(wèn)題與廣義糾錯(cuò)碼的構(gòu)造問(wèn)題,給出了最優(yōu)比對(duì)的不唯一性的例子,最小罰分比對(duì)與最大得分比對(duì)的不等價(jià)性與等價(jià)條件。在碼長(zhǎng)較小時(shí)利用Alignment算法可得到一系列最優(yōu)的廣義糾錯(cuò)碼。 復(fù)雜度理論是計(jì)算機(jī)科學(xué)與密碼學(xué)的重要基礎(chǔ),所謂容錯(cuò)復(fù)雜度就是允許數(shù)據(jù)具有差錯(cuò)時(shí)的復(fù)雜度,近年來(lái)在密碼學(xué)研究中受到重視.本文對(duì)一般廣義差錯(cuò)(符號(hào)改變、插入與刪除),給出了它們一般的非線性容錯(cuò)復(fù)雜度的定義、計(jì)算與應(yīng)用。

5、 在真核生物外顯子與內(nèi)含子的識(shí)別中,由DNA序列可以產(chǎn)生多種結(jié)構(gòu)的特征參數(shù),如氨基酸的頻率分布,Z-坐標(biāo)等,我們稱這些特征參數(shù)為外顯子與內(nèi)含子的識(shí)別因素.本文的目的就是分析這些因素,及它們的組合在基因識(shí)別中的作用.為此目的,我們采用了人工神經(jīng)網(wǎng)絡(luò)理論中的模糊感知器模型,建立相應(yīng)的特征參數(shù)集與神經(jīng)網(wǎng)絡(luò)訓(xùn)練與識(shí)別模型,并以Burset-Guigo訓(xùn)練集為訓(xùn)練數(shù)據(jù),以Hmr,H178,果蠅和擬南芥等數(shù)據(jù)集構(gòu)成混合檢驗(yàn)集,選擇DNA序列的氨

6、基酸的頻率分布,Z-坐標(biāo)等為該序列的特征參數(shù),并對(duì)這些參數(shù)及它們的不同組合作學(xué)習(xí)訓(xùn)練與識(shí)別的因素分析,分別在單因素,低因素(因素?cái)?shù)為2,3,4,5),高因素(因素?cái)?shù)大于5)時(shí),得到這些因素在不同組合下識(shí)別的精度指標(biāo),由此可以看到不同因素組合在基因識(shí)別中的作用. 聚類分析是數(shù)據(jù)發(fā)掘理論與統(tǒng)計(jì)學(xué)中的一個(gè)重要領(lǐng)域.常見(jiàn)的聚類分析類型很多,如系統(tǒng)聚類,中心聚類等,這些數(shù)據(jù)的聚類一般是以它們的距離為基礎(chǔ),把距離較近的數(shù)據(jù)歸結(jié)為同一個(gè)類,本

7、文提出的分布族的聚類分析問(wèn)題,是指所討論的數(shù)據(jù)是由一大批數(shù)據(jù)序列組成,由每個(gè)序列可確定它的分布結(jié)構(gòu)(如頻率分布,二重?cái)?shù)據(jù)的聯(lián)合頻率分布等),由此就可以產(chǎn)生一分布族,為對(duì)分布族進(jìn)行聚類分析,在本文中我們以Kullback-Leibler熵為不同分布的差異性度量,給出了相應(yīng)的優(yōu)化聚類算法,這種算法與EM算法或K-mean算法思路相似,但又增加一個(gè)新的遞歸運(yùn)算步驟,所以我們稱之為EMR(Expectation-Maximization-Rec

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論