基于從頭算法的轉座子識別方法研究.pdf_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、轉座子(Transposable Elements,TE)是可移動的、重復的基因序列,它們在真核基因組中幾乎無所不在,并對基因組的結構、功能和進化起到了十分重要的作用。目前,對轉座子的研究已經非常深入,從轉座子的鑒定和注釋,再到對其詳細的分類都有了相應的成熟軟件或分析工具。
   論文首先總結和分析比較了各種主要的關于轉座子的相關軟件方法,通過各個方法的比較,我們知道De novo(從頭)算法雖然在其得到的轉座子家族序列在以后的

2、研究中需要進一步的修正,但它卻是在鑒定、注釋新基因組中轉座子所必要的一步,也通常是全面處理的第一步,其結果對之后的研究中更是能產生深遠的影響,但在得到的轉座子家族序列以后的研究中尚需要進一步的修正,由此我們對其從頭算法進行了改進。
   本研究主要改進的是基于從頭算法中的Repeatscout軟件,它主要用于發(fā)現(xiàn)新的、未注釋的轉座子家族,對于高頻出現(xiàn)的轉座子的鑒別尤其有效。其主要優(yōu)點則是不用與已知的數據庫相比較,而主要的缺點是運

3、行時間較長。首先提出了改進的理論依據并闡述了原算法的實現(xiàn)過程,在實現(xiàn)過程中主要是考慮了數據的冗余現(xiàn)象,不僅包括在得到轉座子家族的多序列比對中的整體的遍歷計算,也考慮了在“隱藏”序列過程中的雙序列比對的遍歷過程,通過分析其轉座子數據的特征性,我們歸納其特征實現(xiàn)了以上兩種去除數據的冗余的方法。再者,我們考慮到其堿基序列的本身只要4種情況,而這個改進可以在理論上真正做到無誤差的去除冗余情況。
   研究結果表明,在整個算法的實現(xiàn)中,我

4、們總結出了其轉座子家族得到的過程可分為四個步驟:(1)從序列中計算得到k-mer種子,并給出每個k-mer種子詳細“注釋”;(2)依據不同的標準來選取一個k-mer種子;(3)通過選取的k-mer種子進行多序列比對來得到轉座子家族,再通過雙序列比對來在序列中來“隱藏”出現(xiàn)過的k-mer種子及其序列;(4)調整k-mer種子頻率及其他注釋再次來選取一個種子。
   本研究中,我們不僅對選取k-mer種子的標準進行了一定的改進,使其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論