版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、啟動子的識別是基因識別的重要組成部分。對啟動子區(qū)的認識,不僅有助于實驗室分析研究,而且還可以為人類認識全基因組功能、基因表達調(diào)控機制以及人類疾病與啟動子多態(tài)性或突變的關系提供很大的幫助。 本文旨在對人類RNA聚合酶(POL)II啟動子數(shù)據(jù)進行識別分類并提高識別的準確率。我們將創(chuàng)新的編碼方法應用在人類啟動子序列編碼中,建立并使用合適的共識模型,使用支持向量機(SVM)的方法對啟動子數(shù)據(jù)進行分類并提高了啟動子識別的準確率。
2、 首先,我們從真核生物啟動子數(shù)據(jù)庫(EPD)以及非啟動子數(shù)據(jù)庫中得到用于分類研究的DNA啟動子序列數(shù)據(jù)及非啟動子序列數(shù)據(jù)。正、負數(shù)據(jù)集均分別被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉驗證。另外,我們還從轉(zhuǎn)錄起始位點數(shù)據(jù)庫(DBTSS)中得到了由實驗得出的人類染色體啟動子數(shù)據(jù),準備用于后續(xù)的研究。 然后,在對數(shù)據(jù)進行處理后(包括保證數(shù)據(jù)的非冗余性等),對堿基數(shù)據(jù)進行編碼、選擇合適的參數(shù)及編碼方法
3、。這是本研究的重點和難點。根據(jù)采用編碼方式的不同,將之分為三步。 第一步,本文采用了基于知識的統(tǒng)計編碼方法,并將此方法進一步擴展成六種子編碼方式,分別是:單堿基統(tǒng)計特征編碼、相鄰雙堿基統(tǒng)計特征編碼、隔一位的雙堿基統(tǒng)計特征編碼、隔兩位的雙堿基統(tǒng)計特征編碼、隔三位的雙堿基統(tǒng)計特征編碼以及相鄰三堿基統(tǒng)計特征編碼。編碼后在SVM中進行啟動子識別,使用10-fold交叉驗證的準確率達到了89.68%,靈敏性在86.24%~90.11%,
4、特異性在85.91%~98.35%,與其他利用SVM進行啟動子識別的工具相比,均有5%左右的提高。 第二步,本文采用了CpG編碼和五聯(lián)體(Pentamers)編碼,從不同的角度對人類RNA POL II啟動子序列進行編碼,提取變量信息,找出預報結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。 第三步,本文還嘗試了一種新的編碼方法——模式字典(Pattem Dictionary)的編碼方法(由本實驗室開發(fā)),并且針對啟動
5、子數(shù)據(jù)的特點,將ATCG四堿基兩兩結(jié)合,擴展成十六種字符進行編碼,以增加數(shù)據(jù)的特征變量。 再次,基于上述編碼方法的識別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類型成員子模型的共識模型,并用雙層SVM進行識別分析。由于共識模型考慮了各子模型的獨立性和模型之間的差異性,發(fā)揮了各模型之間的互補優(yōu)勢,從而提高了最終的識別準確率。 最后,我們將優(yōu)秀的識別模型及共識模型的思想應用到人類22號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉米RNA聚合酶Ⅲ識別的啟動子活性鑒定與Waxy1基因編輯.pdf
- 人類啟動子識別算法研究.pdf
- 食管癌組織中DAN聚合酶β啟動子突變的初步研究.pdf
- 人食管癌組織DNA聚合酶β基因啟動子突變的研究.pdf
- 馬Ⅰ型RNA聚合酶啟動子在流感研究中的應用及馬IFITM蛋白抗流感病毒的研究.pdf
- 家蠶二分濃核病毒DNA聚合酶啟動子P97的相關研究.pdf
- 植物啟動子識別算法研究.pdf
- 真核啟動子識別算法研究
- 真核啟動子識別算法研究.pdf
- 豬Myostatin基因RNA干擾及啟動子研究.pdf
- 人類細胞系中遠程增強子--啟動子相互作用的識別研究.pdf
- 人類腫瘤特異性啟動子計算機識別技術研究.pdf
- 食管癌細胞EC-1DNA聚合酶β啟動子堿基突變對其轉(zhuǎn)錄活性的影響.pdf
- 人rna聚合酶??贵wrnapⅲab酶聯(lián)免疫分析
- 不同啟動子RNA干擾載體構建及驗證.pdf
- 34602.基于主成分分析法的人類啟動子識別
- 細絲蛋白A介導的RNA聚合酶Ⅲ基因轉(zhuǎn)錄機制的研究.pdf
- 實時熒光定量聚合酶鏈反應檢測人肺癌P16抑癌基因啟動子異常甲基化.pdf
- RNA聚合酶I介導轉(zhuǎn)錄的TBSV病毒表達載體研究.pdf
- 基于新一代測序技術的選擇性啟動子和雙向啟動子識別研究.pdf
評論
0/150
提交評論