面向模體發(fā)現(xiàn)的智能算法研究.pdf_第1頁
已閱讀1頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在模體發(fā)現(xiàn)研究中,目前研究主要集中在兩個領(lǐng)域中:一是基于蛋白質(zhì)不同家族的模體發(fā)現(xiàn)、一是基于蛋白質(zhì)同一家族不同子族的模體發(fā)現(xiàn),而后者研究又是模體發(fā)現(xiàn)的難點。前者由于不同家族有著相同的功能,故模體之間有著十分明顯的差異,而后者由于同屬于同一家族,模體之間有著極大的相似性和極微的差異,并且這些差異又蘊藏在蛋白質(zhì)氨基酸序列的長鏈之中,因此問題的解決面臨著巨大的數(shù)據(jù)處理任務(wù)。如何能夠設(shè)計更優(yōu)化的算法解決大量的計算量,同時較準(zhǔn)確地找到家族模體和基于

2、模體信息對序列進(jìn)行家族分類是本論文著重要解決的問題。
   本論文基于酶蛋白家族中連接酶的子類進(jìn)行研究,因為酶在蛋白質(zhì)家族起著十分重要的作用,負(fù)責(zé)給生物體提供能量和維持生物體所需要的物質(zhì),相當(dāng)于生物體的化工廠,同時連接酶的數(shù)據(jù)庫相對全面,首先從模體結(jié)構(gòu)特征入手,結(jié)合生物學(xué)理論,運用統(tǒng)計學(xué)等方法,抽取各子類的特征集合,然后對特征集合采用記憶鏈接方式,發(fā)現(xiàn)反映子類特征的模體,并據(jù)此對連接酶家族內(nèi)蛋白質(zhì)序列進(jìn)行分類預(yù)測:研究模體特征,

3、設(shè)計有效的模體發(fā)現(xiàn)算法發(fā)現(xiàn)序列家族內(nèi)的軟模體;并在現(xiàn)有的免疫算法和模糊分類器的基礎(chǔ)之上,建立了基于免疫算法的模糊分類器,從而提高基于序列模體分類器的準(zhǔn)確度和效率。具體而言,本論文主要研究工作有:
   從生物學(xué)理論出發(fā)分析蛋白質(zhì)家族氨基酸序列模體特征,設(shè)計模體編碼和統(tǒng)計模型從連接酶各子類中提取能夠表征各類的模體特征初始集合;結(jié)合模體特征,設(shè)計基于統(tǒng)計記憶庫的特征鏈接算法,將初始特征集中的短模體進(jìn)行連接從而得到能夠表征各類模體集;

4、建立基于模體集的分類器對家族序列進(jìn)行分類,從而驗證所得模體的性能。
   從模體結(jié)構(gòu)的角度出發(fā),研究軟模體的結(jié)構(gòu)特征,建立適合智能算法的模體發(fā)現(xiàn)編碼策略和結(jié)構(gòu)函數(shù)。在此基礎(chǔ)上建立適應(yīng)度函數(shù),從而引入適合模體發(fā)現(xiàn)的遺傳算法,挖掘結(jié)構(gòu)更加優(yōu)化的序列模體,并在AMP-binding domain signature的序列集,搜尋出該序列家族的模體。
   研究模糊分類器在模體發(fā)現(xiàn)上的運用特點(包含氨基酸種類模糊化、模體序列長度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論