版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、雖然攜帶遺傳信息的DNA序列在人類各組織細胞中幾乎是不變的,但其上的表觀遺傳特征卻表現(xiàn)出極大的差異性,這也被認為是導致基因表達細胞特異性的主要原因。在眾多表觀遺傳特征中,DNA甲基化被認為是當前研究較為透徹的表觀修飾現(xiàn)象之一。DNA甲基化水平的改變與基因的選擇性表達與調(diào)控具有密不可分的關(guān)系,并且在基因印記、X染色體失活等過程中扮演關(guān)鍵作用。研究表明,基因的重要調(diào)控元件區(qū)域(如啟動子)的非正常甲基化狀態(tài)與包括癌癥在內(nèi)的各種疾病的發(fā)生密切相
2、關(guān),所以準確識別給定區(qū)域的甲基化水平,不僅有助于解析基因轉(zhuǎn)錄調(diào)控機制,而且還能為人類認識各種復雜疾病的形成機制提供幫助。
早期研究者主要依賴各類實驗方法測定DNA甲基化位點,但實驗方法一方面耗時耗財,另一方面無法覆蓋到全基因組層面。一個替代的策略是利用計算方法來推斷目標位點的DNA甲基化水平。鑒于近年來機器學習的廣泛應用,研究者們開始考慮利用機器學習算法對DNA甲基化位點構(gòu)建預測模型。然而,基于機器學習的預測方法的成敗非常依賴
3、有效的特征提取算法。本研究提出一種稱為“阿貝爾復雜度”的新穎的DNA序列特征提取算法,并基于此構(gòu)建人類全基因組DNA甲基化的預測模型。
我們首次將“詞的組合”領(lǐng)域中一個新穎的數(shù)學概念—阿貝爾復雜度,應用于DNA序列的特征提取中。首先,考慮到以DNA甲基化位點為中心的窗口大小對預測準確性的影響,我們分染色體測試了100bp-2000bp(步長100bp,bp即base pair,堿基對)范圍內(nèi)的所有窗口大小,結(jié)合各條染色體上的預
4、測結(jié)果發(fā)現(xiàn)窗口大小在1300bp時預測效果最佳。進一步,我們利用卡方統(tǒng)計量和互信息兩個指標對1301維初始阿貝爾復雜度特征進行特征篩選,發(fā)現(xiàn)第14-50維是對模型貢獻最大的阿貝爾復雜度特征。另外,DNA組分特征可以被定義為DNA序列的基礎(chǔ)特征,而當綜合阿貝爾復雜度特征和DNA組分特征時模型的預測能力得到了進一步的提升。最后,為了選擇最適合的機器學習方法,本研究比較了支持向量機(support vector machine,SVM)、隨機
5、森林算法(Random Forest)、最鄰近算法(K-nearest neighbors)和樸素貝葉斯算法(Na(i)ve Bayes)四種機器學習算法。在5類細胞系數(shù)據(jù)的測試中,結(jié)果發(fā)現(xiàn)SVM具有更高更穩(wěn)定的預測效果。
綜上,本文首次應用阿貝爾復雜度方法提取DNA甲基化序列特征,并通過窗口大小選取、特征篩選過程選取第14-50維阿貝爾特征,最后結(jié)合SVM構(gòu)建DNA甲基化預測模型?;陬A測模型的全基因組掃描預測結(jié)果可以縮小或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于神經(jīng)網(wǎng)絡的全基因組DNA甲基化預測研究.pdf
- 云南宣威肺癌全基因組DNA甲基化.pdf
- 乳腺癌全基因組DNA甲基化修飾的研究.pdf
- 酒依賴患者全基因組DNA甲基化模式研究.pdf
- 全基因組DNA甲基化模式及其在復雜疾病分析中的應用研究.pdf
- 全基因組乳腺癌DNA甲基化與基因表達關(guān)聯(lián)模式.pdf
- LncRNA介導人基因組DNA甲基化研究.pdf
- 全基因組DNA甲基化參與胃癌發(fā)生發(fā)展的機制研究.pdf
- 玉米果穗不同部位種子的全基因組DNA甲基化研究.pdf
- 基于高通量測序技術(shù)的全基因組甲基化研究.pdf
- 黑色素瘤全基因組DNA甲基化與組蛋白甲基化異常譜式的研究.pdf
- 全基因組DNA甲基化對甘藍型油菜春化作用的影響.pdf
- 基于MethyLight的骨肉瘤相關(guān)基因甲基化研究及改良全基因組DNA擴增固定技術(shù).pdf
- 胃癌的DNA甲基轉(zhuǎn)移酶表達及基因組DNA甲基化譜.pdf
- 柑橘全基因組DNA甲基化分析及調(diào)控作用研究.pdf
- 不同甘蔗品種基因組DNA甲基化分析.pdf
- 中國對蝦基因組DNA甲基化MSAP技術(shù)的建立與應用.pdf
- 人類與小鼠全基因組甲基化模式與基因表達的研究.pdf
- 高溫誘導對羅非魚全基因組甲基化水平的影響研究.pdf
- 高脂血癥對大鼠基因組DNA及bcl-2甲基化的影響.pdf
評論
0/150
提交評論