版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、許多生物序列數(shù)據(jù)庫中都含有大量的冗余序列,這些冗余序列通常不利于對數(shù)據(jù)庫的統(tǒng)計分析和處理,而且它們要占用更多的計算機存儲和處理資源。去除這些冗余信息具有很高的實用價值,不但可以減小數(shù)據(jù)庫的大小提高序列搜索的速度,而且有助于對數(shù)據(jù)庫的統(tǒng)計分析。目前存在不少蛋白質(zhì)去冗余程序,它們多數(shù)采用Hobohm和Sander的算法來生成代表序列以達(dá)到去除冗余序列的目的。然而,這種算法生成的代表序列集合不是足夠大的,某些非冗余的蛋白質(zhì)序列也被去除了。
2、 在本文中,我們對蛋白質(zhì)去冗余問題進(jìn)行了深入的分析和研究,主要研究內(nèi)容和取得的成果如下: 1.改進(jìn)了Hobohm和Sander的算法:我們基于圖論最大獨立集的概念來生成非冗余序列集合,對目前存在的蛋白質(zhì)去冗余程序如CD—HIT、PISCES等所采用的由Hobohm和Sander最早設(shè)計的一種首先將序列集合分成若干個簇然后取出每個簇的代表序列的算法進(jìn)行了改進(jìn),使得生成了更大的非冗余代表序列集合,避免了一些非冗余的序列也被去除。
3、 2.基于上述改進(jìn)算法,開發(fā)了兩個版本的FastCluster:第一個版本基于全局比對算法來確定序列之間的相似度,提供了一種從全局比對角度來去除冗余序列的程序,其缺點在于運行速度較慢,不太適合處理大規(guī)模的數(shù)據(jù)集;第二個版本采用了Blast來確定序列之間的相似度,提高了運行速度,可以在較短的時間內(nèi)處理較大規(guī)模的蛋白質(zhì)數(shù)據(jù)庫。FastCluster的下載地址是: http://pcal.biosino.org/FastCluster
4、.html. 3.建立了蛋白質(zhì)序列數(shù)據(jù)庫的無向圖模型,并開發(fā)了相應(yīng)的程序BlastCuller:一個蛋白質(zhì)序列集合可以看作是一個無向圖,序列對應(yīng)圖中的頂點,如果兩個序列之間的相似度超過某個設(shè)定的閾值則這兩個序列之間存在一條邊?;谠撃P烷_發(fā)的BlastCuller不僅具有很高的實用價值,能夠處理較大規(guī)模的蛋白質(zhì)序列數(shù)據(jù)庫,而且為去冗余問題提供了一個有效的可擴(kuò)展的程序框架,可以加入新的算法來更好地解決去冗余問題。BlastCull
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家蠶蛋白質(zhì)數(shù)據(jù)庫的創(chuàng)建和應(yīng)用.pdf
- 凋亡蛋白質(zhì)數(shù)據(jù)庫的建立及亞細(xì)胞定位預(yù)測.pdf
- 抑郁癥相關(guān)基因和蛋白質(zhì)數(shù)據(jù)庫的構(gòu)建.pdf
- 差異表達(dá)蛋白質(zhì)數(shù)據(jù)庫與大規(guī)模蛋白質(zhì)磷酸化化學(xué)定量的方法學(xué)研究.pdf
- 蛋白質(zhì)芯片數(shù)據(jù)庫構(gòu)建研究.pdf
- 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫的信息挖掘.pdf
- 煙葉品質(zhì)數(shù)據(jù)庫的開發(fā).pdf
- 53379.細(xì)胞內(nèi)銅離子螯合蛋白質(zhì)數(shù)據(jù)庫的構(gòu)建及數(shù)據(jù)分析
- 蛋白質(zhì)序列變異與疾病相關(guān)性及蛋白質(zhì)相互作用數(shù)據(jù)庫的構(gòu)建.pdf
- 蛋白質(zhì)--核酸界面丙氨酸突變效應(yīng)數(shù)據(jù)庫與熱點殘基研究.pdf
- 蛋白質(zhì)序列GO注釋數(shù)據(jù)庫系統(tǒng)的研究和構(gòu)建.pdf
- 綜合蛋白質(zhì)翻譯后修飾數(shù)據(jù)庫的構(gòu)建和分析
- 25976.蛋白質(zhì)點突變效果預(yù)測與突變數(shù)據(jù)庫研究
- 27124.綜合地質(zhì)數(shù)據(jù)庫管理系統(tǒng)的研究與開發(fā)
- 擬南芥葉綠體蛋白質(zhì)相互作用數(shù)據(jù)庫構(gòu)建及光合作用相關(guān)蛋白質(zhì)功能挖掘.pdf
- 基于數(shù)據(jù)庫的關(guān)于蛋白質(zhì)家族和折疊子的統(tǒng)計推斷.pdf
- 38688.基于網(wǎng)絡(luò)的蛋白質(zhì)rna結(jié)合位點預(yù)測數(shù)據(jù)庫
- 基于XML的異質(zhì)數(shù)據(jù)庫數(shù)據(jù)共享與實現(xiàn).pdf
- 人鼻咽癌蛋白質(zhì)組表達(dá)譜及其數(shù)據(jù)庫的初步構(gòu)建.pdf
- 基于蛋白質(zhì)網(wǎng)絡(luò)與蛋白質(zhì)功能的關(guān)鍵蛋白質(zhì)預(yù)測研究.pdf
評論
0/150
提交評論