2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、啟動子的識別是基因識別的重要組成部分。對啟動子區(qū)的認識,不僅有助于實驗室分析研究,而且還可以為人類認識全基因組功能、基因表達調(diào)控機制以及人類疾病與啟動子多態(tài)性或突變的關系提供很大的幫助。 本文旨在對人類RNA聚合酶(POL)II啟動子數(shù)據(jù)進行識別分類并提高識別的準確率。我們將創(chuàng)新的編碼方法應用在人類啟動子序列編碼中,建立并使用合適的共識模型,使用支持向量機(SVM)的方法對啟動子數(shù)據(jù)進行分類并提高了啟動子識別的準確率。

2、 首先,我們從真核生物啟動子數(shù)據(jù)庫(EPD)以及非啟動子數(shù)據(jù)庫中得到用于分類研究的DNA啟動子序列數(shù)據(jù)及非啟動子序列數(shù)據(jù)。正、負數(shù)據(jù)集均分別被分成5份和10份,用于5重(5-fold)及10重(10-fold)交叉驗證。另外,我們還從轉(zhuǎn)錄起始位點數(shù)據(jù)庫(DBTSS)中得到了由實驗得出的人類染色體啟動子數(shù)據(jù),準備用于后續(xù)的研究。 然后,在對數(shù)據(jù)進行處理后(包括保證數(shù)據(jù)的非冗余性等),對堿基數(shù)據(jù)進行編碼、選擇合適的參數(shù)及編碼方法

3、。這是本研究的重點和難點。根據(jù)采用編碼方式的不同,將之分為三步。 第一步,本文采用了基于知識的統(tǒng)計編碼方法,并將此方法進一步擴展成六種子編碼方式,分別是:單堿基統(tǒng)計特征編碼、相鄰雙堿基統(tǒng)計特征編碼、隔一位的雙堿基統(tǒng)計特征編碼、隔兩位的雙堿基統(tǒng)計特征編碼、隔三位的雙堿基統(tǒng)計特征編碼以及相鄰三堿基統(tǒng)計特征編碼。編碼后在SVM中進行啟動子識別,使用10-fold交叉驗證的準確率達到了89.68%,靈敏性在86.24%~90.11%,

4、特異性在85.91%~98.35%,與其他利用SVM進行啟動子識別的工具相比,均有5%左右的提高。 第二步,本文采用了CpG編碼和五聯(lián)體(Pentamers)編碼,從不同的角度對人類RNA POL II啟動子序列進行編碼,提取變量信息,找出預報結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。 第三步,本文還嘗試了一種新的編碼方法——模式字典(Pattem Dictionary)的編碼方法(由本實驗室開發(fā)),并且針對啟動

5、子數(shù)據(jù)的特點,將ATCG四堿基兩兩結(jié)合,擴展成十六種字符進行編碼,以增加數(shù)據(jù)的特征變量。 再次,基于上述編碼方法的識別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類型成員子模型的共識模型,并用雙層SVM進行識別分析。由于共識模型考慮了各子模型的獨立性和模型之間的差異性,發(fā)揮了各模型之間的互補優(yōu)勢,從而提高了最終的識別準確率。 最后,我們將優(yōu)秀的識別模型及共識模型的思想應用到人類22號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論