版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生物信息學(xué)是將計(jì)算機(jī)領(lǐng)域內(nèi)的知識和技術(shù)應(yīng)用于研究DNA(脫氧核糖核酸)、蛋白質(zhì)等生物學(xué)問題的一個(gè)迅速發(fā)展的學(xué)科領(lǐng)域,而生物序列比較和模式發(fā)現(xiàn)是生物信息學(xué)的傳統(tǒng)課題,在系統(tǒng)進(jìn)化、基因調(diào)控、疾病治療、病毒起源等重要領(lǐng)域的研究中處于核心地位。 近年來,隨著生物測序技術(shù)的突飛猛進(jìn),生物序列數(shù)據(jù)以前所未有的速度增長。人工分析和處理生物序列數(shù)據(jù)無法再滿足需求,計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,為分析和處理生物序列提供了新的強(qiáng)大手段。本文圍繞生物序
2、列信息比較與模體(motif)發(fā)現(xiàn)算法問題展開研究,完成以下工作: (1)DNA序列模體發(fā)現(xiàn)算法研究DNA序列是最常見的生物序列數(shù)據(jù),在DNA序列集合中發(fā)現(xiàn)模體的常見方法有統(tǒng)計(jì)學(xué)習(xí)方法和組合優(yōu)化方法。本文圍繞目前最常用的FM(FixednumberofMutation)模體發(fā)現(xiàn)模型展開研究,首先給出一種基于樣本序列比較來組合生成候選模體的方法,然后在此基礎(chǔ)上設(shè)計(jì)出一種新的基于樣本驅(qū)動的精確算法,與現(xiàn)有的模式驅(qū)動算法相比,在保持精
3、度不變的情況下降低了搜索空間,同時(shí)克服了樣本驅(qū)動算法適用面窄的問題。實(shí)驗(yàn)表明,該算法相對目前最優(yōu)的MITRA(MismatchedTreeAlgorithms)精確算法的性能有了較大的提高。 (2)納米計(jì)算平臺的生物序列處理研究對生物序列進(jìn)行比較和在生物序列中發(fā)現(xiàn)模體往往涉及大計(jì)算量,因此并行化的設(shè)計(jì)是必不可少的,但是問題本身的串行處理特性使得并行處理較為困難。目前已提出的一種新的納米計(jì)算平臺上的系統(tǒng)結(jié)構(gòu)模型——CellMatr
4、ix能較好的解決序列處理問題,其同構(gòu)的二維結(jié)構(gòu)便于生產(chǎn)和擴(kuò)展,用該結(jié)構(gòu)來實(shí)現(xiàn)序列處理算法非常自然。本文實(shí)現(xiàn)了可以輸出比對結(jié)果的雙序列比對算法,它克服了CellMatrix模型上已有的雙序列比對算法只能輸出比對得分的缺陷;首次在CellMatrix模型上設(shè)計(jì)實(shí)現(xiàn)了生物序列模體發(fā)現(xiàn)算法。并用晶格數(shù)量和晶格延遲兩個(gè)參數(shù)分析了兩個(gè)算法的時(shí)空開銷。 (3)基因組序列的翻轉(zhuǎn)排序并行算法研究基因紐序列在遺傳過程中最常見變異現(xiàn)象為部分子序列翻轉(zhuǎn)
5、。通過對翻轉(zhuǎn)排序問題串行算法的研究,在PRAM模型和LARPBS模型上分別設(shè)計(jì)出時(shí)間復(fù)雜度為O(lg2n)和O(lgn)的并行計(jì)算有向符號序列翻轉(zhuǎn)距離算法(n為序列的長度);同時(shí)在LARPBS模型上設(shè)計(jì)出一個(gè)線性時(shí)間并行翻轉(zhuǎn)排序算法。 (4)計(jì)算基于翻轉(zhuǎn)距離的基因組序列的中值序列(簡稱翻轉(zhuǎn)中值)算法研究計(jì)算基因組序列的中值序列問題是用基因組信息創(chuàng)建生物進(jìn)化樹的基礎(chǔ)。本文將有向符號序列的翻轉(zhuǎn)中值問題轉(zhuǎn)化為一個(gè)圖論問題,在此基礎(chǔ)上給
6、出一個(gè)時(shí)間復(fù)雜度為O(n2d+1)精確算法,其中n為序列的長度、d為給定序列之間的距離的線性函數(shù);接著將此算法推廣到類似的計(jì)算基因組重排的中值序列問題;通過對中值路徑上排列的翻轉(zhuǎn)距離研究,推導(dǎo)出該類排列的性質(zhì),在其基礎(chǔ)上給出兩個(gè)最壞時(shí)間復(fù)雜度均為O(n2d+1)的分支限界算法,實(shí)驗(yàn)表明,在大多數(shù)情況下算法具有很好的性能。 本文的貢獻(xiàn)與創(chuàng)新之處在于:1、設(shè)計(jì)一種新的DNA序列模體發(fā)現(xiàn)精確算法該算法結(jié)合已有的模式驅(qū)動算法和樣本驅(qū)動算
7、法特點(diǎn),并首次在算法中引入序列比較來組合生成候選模體,大大縮小了搜索空間。實(shí)驗(yàn)表明該算法的性能優(yōu)于目前我們已知的最快精確算法。 2、給出計(jì)算有向符號序列的翻轉(zhuǎn)距離和翻轉(zhuǎn)排序的并行算法首次采用倍增技術(shù)設(shè)計(jì)了計(jì)算有向符號序列的翻轉(zhuǎn)距離的并行算法;在LARPBS模型上設(shè)計(jì)了使用O(n3)個(gè)處理器時(shí)間復(fù)雜度為O(lgn)的并行連通分量算法;在O(n2)處理器數(shù)目的LARPBS模型上設(shè)計(jì)出翻轉(zhuǎn)排序并行算法,該算法將現(xiàn)有的翻轉(zhuǎn)排序并行算法最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物序列模體發(fā)現(xiàn)算法研究.pdf
- 生物網(wǎng)絡(luò)中概率模體發(fā)現(xiàn)算法的研究.pdf
- 蛋白質(zhì)相互作用的序列模體對發(fā)現(xiàn)算法研究.pdf
- 模體發(fā)現(xiàn)中的參考序列選擇問題研究.pdf
- 生物序列的比對算法比較研究.pdf
- 19413.生物序列比較算法的研究
- 面向模體發(fā)現(xiàn)的智能算法研究.pdf
- 模體發(fā)現(xiàn)模型設(shè)計(jì)與研究.pdf
- 生物序列相似性比較算法的研究.pdf
- 一種基于統(tǒng)計(jì)的生物網(wǎng)絡(luò)模體發(fā)現(xiàn)算法.pdf
- 基于MapReduce的模體發(fā)現(xiàn)問題算法研究.pdf
- 模體發(fā)現(xiàn)問題中投影算法的研究.pdf
- 模體相似度比較算法研究.pdf
- 使用隨機(jī)投影技術(shù)發(fā)現(xiàn)生物序列特征的算法.pdf
- 基于最大團(tuán)求精的模體發(fā)現(xiàn)算法研究.pdf
- 不確定序列模式發(fā)現(xiàn)與查詢算法的研究.pdf
- 一種有效的SDA模體發(fā)現(xiàn)算法.pdf
- 14796.基于聚類的模體發(fā)現(xiàn)算法研究
- DNA序列模體識別問題的迭代算法.pdf
- 蛋白質(zhì)序列模式發(fā)現(xiàn)算法.pdf
評論
0/150
提交評論