版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、隨著生物分子數(shù)據(jù)量的急劇增長,如何利用這些數(shù)據(jù),通過數(shù)據(jù)分析,揭示出對人類有價值的信息,從而產(chǎn)生了一門由生物學家、數(shù)學家和計算機科學家共同研究的新型交叉學科:生物信息學。它的研究重點主要是如何通過生物序列分析進而研究它們的結構和功能。在本文中,我們主要致力于通過不同的計算方法來研究蛋白質序列與結構和功能的關系,主要有以下成果:
第二章中,DNA結合蛋白在生物細胞中屬于功能蛋白,在各種重要的生物活動中起著至關重要的作用。因此,我
2、們建立了一種基于DNA結合蛋白的全面特征分析的分類預測模型。此模型是根據(jù)蛋白質序列的序列長度信息和氨基酸的組成成分信息、進化信息、二級結構信息、物理化學性質和功能信息,把每條蛋白質序列轉化為相應的特征向量。進一步,根據(jù)不同的特征選擇方法去除了特征向量中可能與預測DNA結合蛋白不相關并且特征向量之間的冗余,然后把這些特征向量作為支持向量機的輸入,我們的模型在5倍折疊交叉檢驗下預測準確率達到了85.3%,在相同的測試集DNAiset下,比D
3、NA-Binder、DNA-Prot和DNABIND方法的預測準確率高。進一步,在真實的測試集DNArset下,我們的模型比其它方法產(chǎn)生的模型有明顯的提高。本文的研究證明了我們的模型可以有效的對DNA結合蛋白進行預測。
第三章中,序列比對方法是生物信息學研究的重要方法之一,但是該方法
計算復雜度較高,對于長序列、多序列比對以及巨大的數(shù)據(jù)庫搜索,實現(xiàn)該算法是很困難的,所以很多研究者致力于非比對方法的研究。我們應用了偽氨
4、基酸組成方法的思想,將20個氨基酸的出現(xiàn)頻率和基于三個理化性質指標建立的圖形表示方法得到的3維特征向量組合在一起,從而蛋白質序列得到了23維特征向量。通過9個物種之間的相似性說明了我們的方法的有效性和合理性。并且通過與Clustal W的相關性分析,我們的方法比其它圖形表示方法能挖掘出更多的生物信息。同時,我們用兩種新的方法對產(chǎn)生的蛋白質序列的圖形表示進行了數(shù)值刻畫,用偽氨基酸組成方法得到的特征向量作為KNN和支持向量機的輸入,從而對D
5、NA結合蛋白進行了預測,此方法計算復雜度低并且得到了86%的預測準確率。本文的研究證明了我們的方法對蛋白質序列的相似性比較以及DNA結合蛋白預測的有效性。
第四章中,我們通過計算方法分析了在流感病毒H7N9 NA蛋白中,位于蛋白表面并且高保守的C-terminal28個氨基酸殘基段。根據(jù)滑動窗口的變化量來判斷氨基酸殘基段的保守性,并且給出了在相同滑動窗口下溶劑可達性的值,得到殘基段的保守性與溶劑可達性的平均值有比較好的相關性,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DNA及蛋白序列相似性分析方法研究.pdf
- DNA序列的圖形表示及其相似性分析.pdf
- DNA序列相似性比對算法研究.pdf
- 生物序列相似性比較算法的研究.pdf
- 蛋白質序列相似性分析.pdf
- DNA序列中相似性重復片段查找技術研究.pdf
- 基于信息離散度的DNA序列相似性分析研究.pdf
- 基于DTW距離的生物序列相似性分析.pdf
- 生物序列數(shù)據(jù)庫中序列相似性查詢技術的研究.pdf
- 蛋白質序列比較中的圖形表示及其相似性分析.pdf
- 生物序列相似性分析方法研究及應用.pdf
- 12799.微生物同源蛋白質序列相似性分析
- 基于模式匹配的DNA多序列比對及相似性分析.pdf
- 時間序列的曲線排齊及其相似性度量方法研究.pdf
- 序列數(shù)據(jù)的相似性查詢研究.pdf
- 時間序列相似性問題研究.pdf
- 生物序列數(shù)據(jù)庫相似性搜索算法研究.pdf
- 基于序列順序信息的DNA結合蛋白識別與遠程同源性檢測.pdf
- 時間序列的相似性挖掘及其在股票時間序列中的應用.pdf
- 基于雙鏈DNA生物傳感技術的DNA結合蛋白研究.pdf
評論
0/150
提交評論