桿狀病毒偽編碼序列的識別與分析.pdf_第1頁
已閱讀1頁,還剩105頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著全基因組測序計(jì)劃的陸續(xù)完成,已有三千余株病毒的全基因組完成測序,其中桿狀病毒達(dá)48株。獲得了基因組的序列信息以后,找到其中編碼蛋白質(zhì)的基因是進(jìn)行基因組分析的首要步驟,是生物信息學(xué)研究中的一個重點(diǎn)。 我們將基因組中不具備編碼能力的開放讀碼框(Open Reading Frams)稱為偽編碼序列(Pseudo—coding sequence)。由于偽編碼序列的存在,將混淆人們對基因組的認(rèn)識,導(dǎo)致研究人員在進(jìn)行基因功能的分析時,花

2、費(fèi)不必要的時間和精力。因此,找尋高效可行的方法進(jìn)行偽編碼序列的識別顯得尤為重要。 本研究從已獲得全基因組序列的48株桿狀病毒出發(fā),提取出所有注釋為編碼序列的片段,將其分為確實(shí)已知的真實(shí)編碼序列和注釋不完全的嫌疑偽編碼序列兩大類。為進(jìn)行后續(xù)的機(jī)器學(xué)習(xí)分類,我們需要構(gòu)造與已知編碼序列相對應(yīng)的人工偽編碼序列,為此,我們提出一種人工構(gòu)造偽編碼序列的方法。該法通過改造與已知基因處于同一DNA鏈上的非編碼區(qū)域,使其成為與編碼序列等長且具有相

3、同起始與終止密碼子,中間部分為不含終止密碼子的非編碼序列。將得到的真實(shí)編碼序列與人工偽編碼序列作為訓(xùn)練集的正、負(fù)集,將嫌疑偽編碼序列作為預(yù)測集。為了更有效地量化序列特征,我們以張春霆院士提出的DNA3維Z曲線理論為基礎(chǔ),該理論將一條DNA序列根據(jù)其堿基組成特征轉(zhuǎn)換成為3維空間中的一條曲線,本研究進(jìn)一步提取該DNA的序列組成特征,通過不斷細(xì)化,將3維空間曲線逐步升至81維,以該81維曲線的平均斜率作為原始DNA序列的特征值。而后,對以上所

4、有經(jīng)過預(yù)處理的數(shù)據(jù),分別采取支持向量機(jī)(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)兩種機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練及預(yù)測,綜合兩種方法所得到的結(jié)果,最后對這些序列進(jìn)行了進(jìn)一步的分析。 結(jié)果顯示,采用本研究提出序列特征提取方法對真實(shí)編碼序列和人工偽編碼序列進(jìn)行特征提取,可以將兩者較好的區(qū)分開來,而且隨著空間曲線的維數(shù)的升高分類效果也越明顯。采用SV

5、M進(jìn)行測試,得到準(zhǔn)確率、靈敏度和特異性分別為97.49%、99.56%、95.42%,而相應(yīng)的采取ANN得到的結(jié)果為93.53%、93.07%、93.98%。取得兩種預(yù)測方法所得結(jié)果的交集,最終得到134條序列為可能的偽編碼序列。分析這134條序列,發(fā)現(xiàn)它們在已知的蛋白數(shù)據(jù)庫中較少收錄,與真實(shí)的編碼基因相比,序列相似性較低,且這些序列之間的相似性也不大。而從序列長度、GC含量、所處基因組位置等特征的分析來看,也與真實(shí)編碼序列間存在較大差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論