版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、7、比對(duì)的統(tǒng)計(jì)學(xué)顯著性、比對(duì)的統(tǒng)計(jì)學(xué)顯著性對(duì)于任何序列比對(duì),我們可以計(jì)算其相似性得分,但重要的是需要判定這個(gè)分值是否足夠高,是否具有顯著意義(KarlinAltschul,1990;AlexrovSolovyev,1998),是否能夠提供進(jìn)化同源性的證據(jù)。由于隨機(jī)因素的影響,非同源的序列也可能具有較高的相似性得分。不幸的是,沒有一種數(shù)學(xué)理論方法描述全局序列比對(duì)的期望得分的分布,無法直接分析統(tǒng)計(jì)顯著性,需進(jìn)行間接分析。下面介紹幾種顯著性檢
2、驗(yàn)的方法(王槐春,1994)。序列相似的顯著性檢驗(yàn)的典型方法是將兩條待比較的序列分別隨機(jī)打亂,再使用相同的程序與打分函數(shù)(或打分矩陣)進(jìn)行比對(duì),計(jì)算這些隨機(jī)序列的相似性得分。重復(fù)這一過程(通常為50?100次),得到隨機(jī)序列比對(duì)得分的正態(tài)分布曲線,用?和?分別表示其平均值與標(biāo)準(zhǔn)差。設(shè)原來兩條序列的比對(duì)得分為x,利用下式計(jì)算大于或等于x的比對(duì)得分概率:z=(x?)?(332)z值的單位為SD。根據(jù)正態(tài)分布,當(dāng)z值為3.1、4.3和5.2時(shí)
3、,相似性得分為x的隨機(jī)出現(xiàn)概率分別為103、105和107??梢愿鶕?jù)z值判斷兩個(gè)序列相似得分的顯著性。一般假定當(dāng)z值大于5時(shí),兩條被比較的序列在進(jìn)化上是相關(guān)的;當(dāng)z值在3?5之間時(shí),如果兩者有其他方面相似的證據(jù)(如功能相似),則兩條序列也是同源的;如果z值小于3,則表示兩條序列不同源。許多序列比較軟件都帶有計(jì)算z值的程序,可直接用于評(píng)價(jià)序列比對(duì)的顯著性。判斷兩條序列比對(duì)顯著性的另一個(gè)常用方法是分析其中的一條序列(稱為靶序列)對(duì)數(shù)據(jù)庫檢索
4、的相似性得分的分布情況,即所檢測(cè)出的其他類似序列的個(gè)數(shù)與得分大小,并根據(jù)結(jié)構(gòu)域或功能的有無設(shè)立陽性對(duì)照和陰性對(duì)照。如果靶序列所檢出序列的分布狀態(tài)與陽性對(duì)照序列的檢測(cè)結(jié)果相近,而陰性對(duì)照序列不能或僅檢出很少有關(guān)的序列,則可以斷定要比較的那兩條序列的比對(duì)結(jié)果是有統(tǒng)計(jì)意義的。這種方法稱為相似性得分分布分析方法,常用于數(shù)據(jù)庫相似性檢索的顯著性評(píng)價(jià),可以確定一些微弱的序列相似性的顯著性。karlin和Altschul(KarlinAltschul
5、1990)提出一種基于概率論的顯著性分析方法,他們推導(dǎo)出一個(gè)精確的公式,計(jì)算兩條序列比對(duì)得分大于兩條隨機(jī)序列比對(duì)得分的概率。根據(jù)這一公式,比對(duì)得分是將第一條序列的任意一個(gè)片段與第二條序列的任意一個(gè)片段進(jìn)行比對(duì)的最高得分(比較過程中不引入空位),稱為最大片段得分,比對(duì)的片段稱為高得分片段對(duì)(HSP)。HSP通常用改進(jìn)得Smithwaterman算法或簡(jiǎn)單地使用大的空位罰分方法獲得。KarlinAltschul的計(jì)算公式如下:P(Sx)=1
6、exp(Ke?x)(333)其中P(Sx)是最大片段得分大于x的概率,K和?是兩個(gè)參數(shù),它們的值取決于打分函數(shù)和序列中各種字符出現(xiàn)的頻率。該方法只限于不引入空位的序列比較得分的顯著性計(jì)算。把一個(gè)已知得比對(duì)分值S同預(yù)期的分布相關(guān)聯(lián)可以計(jì)算出P值,從而給出這個(gè)分值的比對(duì)顯著性。通常,P值越趨近于零,分值越有意義。把比對(duì)局限于沒有空位的基礎(chǔ)之上,使問題大大簡(jiǎn)化,但是卻脫離分子生物學(xué)的實(shí)際情況。要建立一個(gè)插入和缺失的精確模型需要引入空位,但如果
7、空位相對(duì)較少,在這些空位之間仍然可以獲得高分值區(qū)域,有代表性的是可能會(huì)獲得緊密相鄰的HSP。在這種情況下,從總體上去評(píng)估它的顯著性是較為合理的,也許,每個(gè)片段并不顯得很重要,但是幾個(gè)片段同時(shí)出現(xiàn)就不太像是偶然事件了。KarlinAltschul加和統(tǒng)計(jì)學(xué)可以計(jì)算N個(gè)HSP的統(tǒng)計(jì)值,這個(gè)方法的實(shí)質(zhì)是把N個(gè)最佳片段的分值進(jìn)行加總,從而計(jì)算事件偶然發(fā)生的可能性,其它一些論據(jù)也被用來確認(rèn)這些分值只是在片段與比對(duì)一致的情況下進(jìn)行加總。雖然加總的分
8、值分布與HSP分值最大值有差異,仍然可以得到解析解。上述幾種方法需要經(jīng)過計(jì)算才能進(jìn)行顯著性的判斷,有經(jīng)驗(yàn)的專家往往能夠直接進(jìn)行顯著性判斷。Doolitter(Doolittle1987)提出如下的經(jīng)驗(yàn)法則:①如果兩個(gè)序列的長(zhǎng)度都大于100,在適當(dāng)?shù)丶尤肟瘴恢?,它們配?duì)的相同率達(dá)到25%以上,字母表中的字符組成,k大于2,通過插入操作,使得各序列s1s2...sk的長(zhǎng)度一樣,從而形成這些序列的多重比對(duì)。如果將各序列在垂直方向排列起來,則
9、可以根據(jù)每一列觀察各序列中字符的對(duì)應(yīng)關(guān)系,如圖313。通過序列的多重比對(duì),可以得到一個(gè)序列家族的序列特征。當(dāng)給定一個(gè)新序列時(shí),根據(jù)序列特征,判斷這個(gè)序列是否屬于該家族。對(duì)于多序列比對(duì),現(xiàn)有的大多數(shù)算法都基于漸進(jìn)的比對(duì)的思想,在序列兩兩比對(duì)的基礎(chǔ)上逐步優(yōu)化多序列比對(duì)的結(jié)果。進(jìn)行多序列比對(duì)后可以對(duì)比對(duì)結(jié)果進(jìn)行進(jìn)一步處理,例如構(gòu)建序列模式的profile,將序列聚類構(gòu)建分子進(jìn)化樹等等。1、SP(SumofPairs)模型)模型在多重比對(duì)中,首
10、先要對(duì)所得到的比對(duì)進(jìn)行評(píng)價(jià),以確定其優(yōu)劣。例如,對(duì)圖313中的8個(gè)序列進(jìn)行比對(duì),可以得到另外兩種結(jié)果,如圖3.14所示。那么,這樣的三個(gè)多重比對(duì),哪一個(gè)更好呢?這就需要有一種方法來評(píng)價(jià)一個(gè)多重比對(duì)。評(píng)價(jià)一個(gè)多重序列比對(duì)比評(píng)價(jià)序列兩兩比對(duì)結(jié)果更復(fù)雜。這里,我們假設(shè)得分(代價(jià))函數(shù)具有加和性,即多重比對(duì)的得分是各列得分總和。因此,我們首先考慮如何給比對(duì)的每一列打分,然后將各列的和加起來,成為一個(gè)總得分。在處理每一列時(shí),自然的處理方式是尋找一
11、個(gè)具有k個(gè)變量的打分函數(shù)(k是參與多重比對(duì)的序列的個(gè)數(shù)),而每一個(gè)變量或者是一個(gè)來自特定字母表中的字符,或者是一個(gè)空白。我們很難得到這樣一種具有k個(gè)變量的表達(dá)式函數(shù)。另一方面,這種隱式函數(shù)不具有統(tǒng)一的形式,隨著k的變化,函數(shù)的表現(xiàn)形式也發(fā)生變化,不利于計(jì)算機(jī)處理。可以考慮使用顯式函數(shù),在實(shí)現(xiàn)時(shí),用一個(gè)k維數(shù)組來表示該顯式函數(shù)(類似于打分矩陣),指定對(duì)應(yīng)于k個(gè)變量各種組合的函數(shù)值。這帶來一個(gè)問題,即所需的數(shù)組空間很大,而且隨著k的變化,數(shù)
12、據(jù)結(jié)構(gòu)也要隨之動(dòng)態(tài)變化。我們所期望的函數(shù)在形式上應(yīng)該簡(jiǎn)單,具有統(tǒng)一的形式,不隨序列的個(gè)數(shù)而發(fā)生形式變化。根據(jù)得分函數(shù)的意義,函數(shù)值應(yīng)獨(dú)立于各參數(shù)的順序,即與待比較的序列先后次序無關(guān)。另外,對(duì)相同的VTISCTGSSSNIGAGNHVKWYQQLPGVTISCTGSSSNIGAG?NHVKWYQQLPGVTISCTGTSSNIGSITVNWYQQLPGVTISCTGTSSNIGS??ITVNWYQQLPGLRLSCSSSGFIFSSYAM
13、YWVRQAPGLRLSCSSSGFIFSS?YAMYWVRQAPGLSLTCTVSGTSFDDYYSTWVRQPPGLSLTCTVSGTSFDD??YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDGPEVTCVVVDVSHEDPQVKFNWYVDG??ATLVCLISDFYPGAVTVAWKADSATLVCLISDFYPGA??VTVAWKADS??AALGCLVKDYFPEPVTVSWNSGAALGCLVKDY
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑空間序列類型分析及比較.pdf
- 19413.生物序列比較算法的研究
- 生物序列的比對(duì)算法比較研究.pdf
- 異同比較中的序列效應(yīng).pdf
- 基于編碼序列、基因間序列和氨基酸序列構(gòu)建的系統(tǒng)發(fā)生關(guān)系比較.pdf
- 金融時(shí)間序列聚類研究方法比較探究
- 水文時(shí)間序列幾種預(yù)測(cè)方法比較研究.pdf
- 混沌PN序列的性能分析與比較.pdf
- 腰椎間關(guān)節(jié)軟骨MRI多序列比較研究.pdf
- 生物序列相似性比較算法的研究.pdf
- 中西方動(dòng)態(tài)景觀空間序列設(shè)計(jì)比較.pdf
- 云計(jì)算中序列比較的外包方案的研究
- 幾種水文時(shí)間序列周期分析方法的比較研究.pdf
- 3.0mri腕關(guān)節(jié)多序列成像比較研究
- 生物序列數(shù)據(jù)比較與模體發(fā)現(xiàn)算法研究.pdf
- 季節(jié)調(diào)整方法比較研究——基于中國月度CPI序列.pdf
- 云計(jì)算中序列比較的外包方案的研究.pdf
- 33060.時(shí)間序列單位根檢驗(yàn)方法比較
- 膝關(guān)節(jié)損傷的多序列MR成像比較.pdf
- 基于繭絲纖度序列的多總體分類判別及其比較.pdf
評(píng)論
0/150
提交評(píng)論