版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、越來越多的研究表明非編碼RNA(ncRNA)在細胞中發(fā)揮著重要的生物學功能,包括控制染色體的動態(tài),RNA的剪接,RNA的編輯,抑制翻譯和mRNA的沉默等等。盡管ncRNA不編碼蛋白質,但是大量的實驗證明眾多的非編碼RNA有著重要的調控功能。經過對人類轉錄組的分析得知,大約有70%的人類基因組被轉錄為ncRNAs,而PCT(protein-coding transcripts)只占整個基因組的2-3%。根據轉錄體的長度,ncRNAs大致可
2、分為短非編碼RNA(如microRNA(miRNA),short-interfering RNA(siRNA), piwi-interacting RNA(piRNA), small nucleolarRNA(snoRNA),and short hairpin RNA(shRNA))和長非編碼RNA(lncRNA)。本文主要研究了miRNA,piRNA和lncRNA的識別,取得了一些創(chuàng)新成果。主要分為以下3大模塊:
(1)利用
3、新型的機器學習算法(極限學習機)研究了miRNA前體的識別。
miRNA主要通過與靶基因進行完全互補配對或者不完全互補配對來調控靶基因的表達,作為一種內源的非編碼RNA在動植物的生命過程中起著重要的調控作用。同時它與癌癥等重大疾病有著密切的關聯(lián)。所以準確識別miRNA是研究miRNA功能的首要步驟。然而利用實驗的方法是非常耗時和昂貴的,并且對于那些低表達和特定環(huán)境表達的miRNA無能為力。在本文中,我們優(yōu)化了32維的局部相鄰的
4、結構序列特征。由于miRNA前體具有莖環(huán)結構,如果記錄整條序列關于每個堿基的特征,將帶來的一定的信息冗余。為了有效降低時間復雜度和信息冗余度,我們利用雙向窗口滑動來提取特征。得到了8維優(yōu)化局部相鄰的連續(xù)序列特征(OP-Triplet)。結合最小自由能和結構的多樣性指標,我們得到一個10維的特征向量。我們還介紹了一種新型的機器學習算法——極限學習機(ELM)。結果表明,ELM分類器與MiPred classifier(RF)和Triple
5、t-SVM-classifier分類器相比,分類效果有了明顯的提升。此外,基于優(yōu)化的特征集去比較這三個分類器得知ELM算法和優(yōu)化的特征集對分類效果的提高都有一定的貢獻。
(2)采用集成的極限學習機算法準確識別人類piRNA。
piwi-interacting RNA(piRNA)是一種從哺乳動物細胞中分離出來的新型的小非編碼RNA,長度大約在19-33個核苷酸,主要集中在26-33個核苷酸范圍內。piRNA通過結合p
6、iwi蛋白形成一個核蛋白復合體,是從小鼠的睪丸里面提取得到的。piRNA可以保護動物的細胞受到轉座因子的作用,另外一些研究表明piRNA可能在一些癌癥中發(fā)揮著重要的作用。
在本文中,我們引入一個新的機器學習算法——投票的極限學習機(VELM),同時利用一種混合的特征向量來識別人類piRNA。為此,我們提出了80維的短序列模式的新特征(SSM),并通過結合1364維k-mer特征和80維SSM特征形成一個1444維的混合特征向量
7、。然而,并不是所有的特征都有助于分類器的性能。我們利用特征評分標準(FSC)來優(yōu)化1444維特征向量,計算每個特征的FSC評分,然后對它們進行降序排列,F(xiàn)SC排名前400的信息特征作為分類器的輸入特征向量。因此,來自于無效的特征和算法復雜性所帶來的信息冗余將有效地減少。同時,基于投票的極限學習機(V-ELM),我們可以準確地預測分類函數邊緣的樣本。結果表明,V-ELM分類器與piRPred和piRNApredictor相比,V-ELM算
8、法更有效。
(3)基于隨機森林算法識別長非編碼RNA(incRNA)。
作為真核細胞轉錄組的主要部分,lncRNA已被證實與許多疾病如癌癥相關,例如,心力衰竭、艾滋病等等。關于與疾病相關的lncRNA的數據庫lncmadisease已被構建,其中記載了1000個lncRNA與疾病之間關系,其中包括321條LncRNA和221個疾病。因此,準確識別和注釋LncRNA是更深入了解LncRNA調控機制的關鍵一步。
9、 在本文中,我們引入了MaxORF,RMaxORF和SNR三個新特征。將86個序列特征和這3個特征組合在一起,形成一個89維的混合特征。然而,并不是所有的特征都有助于分類性能的提高,所以我們使用功能評分標準(FSC)優(yōu)化89維特征,F(xiàn)SC排名前30的特征作為分類器的輸入向量。此外,為了發(fā)現(xiàn)新的lncRNA,我們構建了RF分類器模型。RF分類器模型的構建用來發(fā)現(xiàn)新的lncRNAs。魯棒性是一個隨機森林算法RF的優(yōu)點,因為RF可以通過隨機選
10、擇特征來建立一個集成分類器。RF分類器的精度取決于訓練樣本的選取。為了選取具有代表性的樣本來構建訓練集,我們使用自組織特征映射(SOM)來選擇訓練數據集。最后,我們提供了一個高度可靠和準確并稱之為LncRNApred的工具,它可以從成千上萬轉錄中準確而快速識別lncRNA。此外, LncRNApred也可以用來預測蛋白質編碼轉錄本。結果表明,LncRNApred明顯優(yōu)于CodingPotential Calculator(CPC)。因此
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 39508.基于機器學習算法的dna重組與非編碼rna預測模型研究
- 基于多特征的長非編碼RNA識別方法.pdf
- 基于機器學習算法的隱喻識別研究.pdf
- 基于機器學習的車牌識別算法研究.pdf
- 基于高通量RNA-seq數據的水稻亞種特異性編碼基因鑒定及長非編碼RNA識別.pdf
- 基于ME和k-mer的長非編碼RNA和mRNA識別研究.pdf
- 基于機器學習的水稻病害識別算法的研究.pdf
- 非編碼RNA結構預測研究.pdf
- 基于高通量測序技術的非編碼RNA研究.pdf
- 基于機器學習的物體識別.pdf
- 基于序列-結構信息的長非編碼RNA預測方法.pdf
- 基于機器學習的P2P流量識別算法研究.pdf
- 基于Q學習算法的非完備信息機器博弈的研究.pdf
- 基于機器學習的乳腺腫瘤識別.pdf
- 基于二級結構的非編碼RNA挖掘方法研究.pdf
- 14618.基于機器學習的蛋白激酶識別算法研究
- 基于鏈編碼的棋譜識別算法研究.pdf
- 基于RNA-Seq數據的基因預測和長非編碼RNA鑒定的分析方法.pdf
- 基于ELM與非負矩陣分解的機器學習算法研究.pdf
- 非編碼rna技術與研究策略
評論
0/150
提交評論