版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著基因組研究的發(fā)展,人類進入了后基因組時代,生物學(xué)數(shù)據(jù)積累出現(xiàn)了前所未有的飛躍,闡明這些數(shù)據(jù)的意義因此成為一項巨大的挑戰(zhàn)。生物學(xué)家需要對細胞及組織進行不斷的了解,而我們則需要進行很多諸如對數(shù)據(jù)進行組織,分類,解析等工作,因為這些也是這項挑戰(zhàn)的重要組成部分。 對數(shù)據(jù)進行解析不僅僅是抽象的字符串的解析,由于在這些堿基或氨基酸的字符串后包含著分子生物學(xué)所有的復(fù)雜性,而在所有的方法中,斷定分子的結(jié)構(gòu)或功能的最可靠的方法是生物試驗,但得
2、到生物數(shù)據(jù)比決定其結(jié)構(gòu)功能要復(fù)雜得多。因此當下最迫切的工作就是要發(fā)展計算的方法,從序列本身得到數(shù)據(jù)的生物學(xué)信息。 目前國際上發(fā)展起來了很多基因識別軟件,但大多數(shù)軟件不能識別完整的基因結(jié)構(gòu)。本文基于統(tǒng)計學(xué)習理論-支撐向量機,構(gòu)建了一個完整基因的識別軟件。本文分別引進了兩種特征提取方法,一個是與隨機序列相比求相對差異的方法,并給出了相應(yīng)的算法;另一個是基于變長度馬爾科夫鏈求生成序列的概率的方法,也給出了相應(yīng)的算法,并基于最大差異給出
3、了變量提取的閾值。這兩種方法突破了原來對DNA序列的計算編碼方式,避免了傳統(tǒng)方式由于錯位讀取使轉(zhuǎn)碼的數(shù)列與真實的DNA序列對應(yīng)不上而出現(xiàn)錯誤的結(jié)論。我們根據(jù)找到的特征片斷序列,將DNA序列映射到歐式空間,形成了DNA序列和歐式空間向量的一一對應(yīng)關(guān)系,在歐式空間中進行基因和基因間區(qū)的識別。同時,從數(shù)學(xué)分析的角度對用到的核函數(shù)進行了討論,根據(jù)討論結(jié)果的啟示,對我們選取的核函數(shù)根據(jù)交叉驗證進行了參數(shù)選取,并取到了分類最好的參數(shù)。對基因和基因間
4、區(qū)的識別準確率在染色體水平上分別達到89%和87%。 有文獻表明,選擇性內(nèi)在外顯子具有幾個特殊的特征。1、在轉(zhuǎn)錄過程中選擇性內(nèi)在外顯子傾向于保持閱讀框架不變,所以長度基本上能被3整除。2、這種外顯子在轉(zhuǎn)錄過程中會產(chǎn)生跳躍,所以與其它外顯子相比序列長度比較短。3、其上下游序列在人和大鼠之間比較保守。本文根據(jù)內(nèi)在外顯子的長度、長度能否被3整除以及保守率,結(jié)合我找到的調(diào)控序列,用支撐向量機技術(shù)構(gòu)建了分類器模型。該分類器能有效的在基因組
5、序列中識別選擇性內(nèi)在外顯子,識別準確率達到了92%。 針對在樣本類別不知道的情況下DNA序列中功能模體和背景的分類問題,本文引進了兩個統(tǒng)計模型。這兩個模型均把模體和背景看成是由獨立同分布的隨機變量產(chǎn)生的,只是模體和背景所用的參數(shù)不一樣。其中一個模型將模體起始位點看成丟失數(shù)據(jù);另一個模型則用滑動窗口的方法將序列拆成不知類別的樣本,將類標簽處理成丟失數(shù)據(jù)。然后又分別引進了Gibbs抽樣和EM算法,在要解決的問題、模型和模型的解之間建
6、立了一個橋梁,形成了模體搜索算法。該算法最后通過程序?qū)崿F(xiàn),找出了13個選擇性內(nèi)在外顯子的調(diào)控模體。 蛋白質(zhì)的調(diào)控網(wǎng)絡(luò)分析是目前蛋白質(zhì)組研究的重點。本文對凝血系統(tǒng)的凝血因子和蛋白C之間的相互作用調(diào)控網(wǎng)絡(luò)進行了分析,在凝血酶生成的背景下,著重討論了蛋白C的動力學(xué)作用。我們建立了一個比較復(fù)雜的動力學(xué)模型,通過動力學(xué)分析和數(shù)值模擬,得到了關(guān)于蛋白C動力學(xué)作用的一一些結(jié)論,如果APC少量缺乏,對血液凝固的影響不大,大劑量的APC缺乏會導(dǎo)致
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 支撐向量機及其在雷達目標識別中的應(yīng)用研究.pdf
- 支持向量機在人臉識別中的應(yīng)用.pdf
- 基于時間序列與支持向量機的信號識別模型及預(yù)測.pdf
- 支持向量機在路面識別中的應(yīng)用.pdf
- 支撐向量機及神經(jīng)網(wǎng)絡(luò)在入侵檢測中的應(yīng)用.pdf
- 交叉分片技術(shù)在DNA序列挖掘中的應(yīng)用.pdf
- 模糊支持向量機在人臉識別中的應(yīng)用.pdf
- V支持向量機中參數(shù)的優(yōu)化及在語音識別中的應(yīng)用.pdf
- 支持向量機方法在結(jié)構(gòu)損傷識別中的應(yīng)用.pdf
- 支持向量機在圖像檢測和識別中的應(yīng)用.pdf
- 支持向量機研究及其在貨幣識別中的應(yīng)用.pdf
- 基于DNA序列的功能位點識別.pdf
- 支持向量機算法研究及在高爐煤氣識別中的應(yīng)用.pdf
- 相關(guān)向量機在語音識別中的應(yīng)用研究.pdf
- 多核支持向量機及其在人臉識別中的應(yīng)用.pdf
- 支持向量機在交通標志識別中的應(yīng)用.pdf
- 支持向量機在語音識別中的應(yīng)用研究.pdf
- 支持向量機樣本預(yù)選取技術(shù)在語音識別中的應(yīng)用研究.pdf
- 支持向量機集成研究及其在時間序列預(yù)測中的應(yīng)用.pdf
- 支持向量機方法在非線性時間序列預(yù)測中的應(yīng)用.pdf
評論
0/150
提交評論