版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、分子進化分析與相關(guān)進化模式例子,分子進化分析介紹系統(tǒng)發(fā)育樹重建方法相關(guān)進化模式例子,從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。 蛋白和核酸序列通過序列同源性的比較進而了解基因的進化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。,分子進化研究的目的,,系統(tǒng)發(fā)育樹是什么?,對一組實際對象的世系關(guān)系的描述(如基因,物種等)。,一個系統(tǒng)發(fā)育樹,,,,,,,末端,物種,頂端,,,,,中間節(jié)點,中間
2、枝條,,,,,根,,,末端分支,葉子,節(jié)點,,,,,,,,,A,B,C,D,E?,F,G,,,樹只代表分支的拓撲結(jié)構(gòu),,,,,,,,F,G,C,D,E?,A,B,,分子進化研究的基礎(chǔ)(假設(shè)),核苷酸和氨基酸序列中含有生物進化歷史的全部信息。,在各種不同的發(fā)育譜系及足夠大的進化時間尺度中,許多序列的進化速率幾乎是恒定不變的。(分子鐘理論, 1965 ),分子進化研究的基礎(chǔ)(理論),雖然很多時候仍然存在爭議,但是分子進化確實能闡述一些生物系
3、統(tǒng)發(fā)生的內(nèi)在規(guī)律。,分子進化研究的基礎(chǔ)(實際),,從一個分歧數(shù)據(jù)可以推測其他,,,序 列 分 歧 度,分歧時間,,x,,,分子鐘理論,直系同源(orthologs): 同源的基因是由于共同的祖先基因進化而產(chǎn)生的.旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的. (以上定義源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. S
4、yst. Zool. 19, 99–113),直系同源與旁系同源,,,,paralogs,,,orthologs,,paralogs,,,,orthologs,Erik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002http
5、://tig.trends.com 0168-9525/02/$ – see front matter © 2002 Elsevier Science Ltd. All rights reserved.,以上兩個概念代表了兩個不同的進化事件 用于分子進化分析中的序列必須是直系同源的,才能真實反映進化過程。,,趨同進化的基因(genes have converged function by separate evolut
6、ionary paths),,異源基因或水平轉(zhuǎn)移基因(xenologous or horizontally transferred genes),,,,,,,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,Eukaryote 4,Eukaryote 3,Eukaryote 2,,,,,,,Bacterium 1,Bacterium 3,Bacterium 2,Eukaryote 1,E
7、ukaryote 4,Eukaryote 3,Eukaryote 2,Phylograms show branch order and branch lengths進化樹,有分支和支長信息,2.進化分支圖,進化樹,Cladograms show branching order - branch lengths are meaningless進化分支圖,只用分支信息,無支長信息。,Rooted by outgroup,archae
8、a,archaea,archaea,bacteria outgroup,,root,,eukaryote,eukaryote,eukaryote,eukaryote,無根樹,archaea,archaea,archaea,Monophyletic group(單源群),Monophyleticgroup,,,3.有根樹,無根樹,外圍群,有根樹,外圍群,4.基因樹,物種樹,We often assume that gene trees
9、give us species trees,a,b,c,A,B,D,Gene tree,Species tree,系統(tǒng)發(fā)育樹重建分析步驟,多序列比對(自動比對,手工比對),建立取代模型(建樹方法),建立進化樹,進化樹評估,系統(tǒng)發(fā)育樹重建的基本方法,最大簡約法(maximum parsimony,MP)距離法(distance)最大似然法(maximum likelihood,ML)Bayes法,最大簡約法(MP),最大簡約法
10、(maximum parsimony,MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分子序列的進化分析中。最大簡約法的理論基礎(chǔ)是奧卡姆(Ockham)哲學(xué)原則,這個原則認(rèn)為:解釋一個過程的最好理論是所需假設(shè)數(shù)目最少的那一個。對所有可能的拓撲結(jié)構(gòu)進行計算,并計算出所需替代數(shù)最小的那個拓撲結(jié)構(gòu),作為最優(yōu)樹。,序列個數(shù)與樹的個數(shù)的關(guān)系,優(yōu)點:最大簡約法不需要在處理核苷酸或者氨基酸替代的時候引入假設(shè)(替代模型)。此外,最大簡約法對于分析
11、某些特殊的分子數(shù)據(jù)如插入、缺失等序列有用。,最大簡約法(MP),缺點:在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進化樹。然而在分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,最大簡約法可能會給出一個不合理的或者錯誤的進化樹推導(dǎo)結(jié)果。,最大簡約法(MP),距離法,距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進化
12、距離模型)推導(dǎo)得出分類群之間的進化距離,構(gòu)建一個進化距離矩陣。進化樹的構(gòu)建則是基于這個矩陣中的進化距離關(guān)系 。,計算序列的距離,建立距離矩陣,,通過距離矩陣建進化樹,一種簡單的距離矩陣,由進化距離構(gòu)建進化樹的方法有很多,常見有:1.Fitch-Margoliash Method(FM法)2. Neighbor-Joining Method (NJ法/鄰接法)3. Neighbors Relaton Method(鄰居關(guān)系
13、法)4.Unweighted Pair Group Method (UPGMA法),通過矩陣建樹的方法,最大似然法(ML),最大似然法(maximum likelihood,ML)最早應(yīng)用于系統(tǒng)發(fā)育分析是在對基因頻率數(shù)據(jù)的分析上,后來基于分子序列的分析中也已經(jīng)引入了最大似然法的分析方法。,最大似然法分析中,選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個拓撲結(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓撲結(jié)構(gòu)作
14、為最優(yōu)樹。在最大似然法的分析中,所考慮的參數(shù)并不是拓撲結(jié)構(gòu)而是每個拓撲結(jié)構(gòu)的枝長,并對似然率球最大值來估計枝長 。,最大似然法(ML),最大似然法的建樹過程是個很費時的過程,因為在分析過程中有很大的計算量,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性。最大似然法是一個比較成熟的參數(shù)估計的統(tǒng)計學(xué)方法,具有很好的統(tǒng)計學(xué)理論基礎(chǔ),在當(dāng)樣本量很大的時候,似然法可以獲得參數(shù)統(tǒng)計的最小方差。只要使用了一個合理的、正確的替代模型,最大似然法可以推導(dǎo)出一
15、個很好的進化樹結(jié)果。,最大似然法(ML),堿基變化的通用模型,由于最大似然法的分析過程需要耗費較多的時間,針對這種情況,發(fā)展出了許多優(yōu)化的可以加快最大似然法尋找最優(yōu)樹的搜索方法,如啟發(fā)式搜索,分枝交換搜索等。最大似然法具有堅實的統(tǒng)計學(xué)理論基礎(chǔ),充分的使用了分析序列中的信息資源,只要采用了合理的替代模型,可以得出很好的進化樹分析結(jié)果。,最大似然法(ML),選擇外類群(Outgroup),選擇一個或多個已知與分析序列關(guān)系較遠的序列作為外類
16、群外類群可以輔助定位樹根外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。,bacteria outgroup,eukaryote,eukaryote,eukaryote,eukaryote,archaea,archaea,archaea,外圍群,,進化樹的可靠性分析,自展法(Bootstrap Method),從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列序列重復(fù)上面
17、的過程,得到多組新的序列對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性,原始排列Alpha AACAACBeta AACCCCGamma ACCAACDelta CCACCAEpsilon CCAAAC,Bootstrap1Alpha ACAAACBeta ACCCCCGamma ACAAACDelta CACCCA
18、Epsilon CAAAAC Bootstrap2Alpha AAAACCBeta AACCCCGamma CCAACCDelta CCCCAAEpsilon CCAACC Bootstrap3Alpha ACAAACBeta ACCCCCGamma CCAAACDelta CACCCAEpsilon CAAAAC,,,分子進化
19、模式,1、專性胞內(nèi)菌Rickettsia核心基因進化機制2、藍藻二元信號轉(zhuǎn)導(dǎo)中的環(huán)化酶進化機制3、藍藻限制性修復(fù)系統(tǒng)進化機制4、蘇云金芽孢桿菌殺蟲蛋白進化機制5、SARS進化機制,1、專性胞內(nèi)菌Rickettsia核心基因進化機制,,,,,2、藍藻二元信號轉(zhuǎn)導(dǎo)中的環(huán)化酶進化機制,,,,,,,,,,,,3、藍藻限制性修復(fù)系統(tǒng)進化機制,,,,,,,,4、蘇云金芽孢桿菌殺蟲蛋白進化機制,,,,,,5、SARS進化機制,,,,,
20、,,,,,此部分供同學(xué)們自學(xué),常見的分子進化分析程序,1.Phylip 由華盛頓大學(xué)遺傳學(xué)系開發(fā),是一個免費的系統(tǒng)發(fā)育分析軟件包,可以通過以下地址下載。http://evolution.genetics.washington.edu/phylip.html2. PAUP* 最早是在蘋果機上開發(fā)的具有菜單界面的進化分析軟件,早先版本只有MP法,后續(xù)版本已經(jīng)包括距離法和ML法,現(xiàn)今有mac,win,linux等多種版本,
21、該軟件不是免費軟件,使用者需要向開發(fā)者購買。,Phylip軟件包介紹,Phylip是一個免費的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。以下鏈接可以下載: http://evolution.genetics,washington.edu/phylip.html 由華盛頓大學(xué)遺傳學(xué)系開發(fā),1980年首次公布,目前的版本是3.6(2000年6月)。,Phylip軟件包介紹,Phylip包含了35個獨立的程序,這些獨立的程序
22、都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。 Phylip有多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。,Phylip是目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括一下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進化樹繪制組。,Phylip軟件包介紹,分子序列組: 1.蛋白質(zhì)序列:protpars,proml,promlk,
23、 protdist 2.核酸序列:dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp,Phylip軟件包分組介紹,距離矩陣組:Fitch,kitsch,neighbor基因頻率組:Gendist,contml離散字符組P
24、ars,mix,move,penny,dollop,dolmove,dolpenny,clique,factor,Phylip軟件包分組介紹,進化樹繪制組:drawtree,drawgram其他:restdist,restml,seqboot,contrast treedist,consense,retree,Phylip軟件包分組介紹,Phylip軟件包的文檔是非常詳細的,對于每個獨立的程序,都有一個獨立的文
25、檔,詳細的介紹了該程序的使用及其說明。 此外,Phylip軟件包還包括程序的源代碼(c語言)。,Phylip軟件包的文檔,Phylip軟件包的應(yīng)用,1,根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦?如,你分析的是DNA數(shù)據(jù),就在核酸序列分析類中選擇程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,
26、dnacomp )如果分析的是離散數(shù)據(jù),如突變位點數(shù)據(jù),就在離散字符組里面選擇程序。,2.選擇適當(dāng)?shù)姆治龇椒ㄈ缒惴治龅氖荄NA數(shù)據(jù),可以選擇簡約法(DNAPARS),似然法(DNAML, DNAMLK),距離法等(DNADIST)。。。,Phylip軟件包的應(yīng)用,3.進行分析 選擇好程序后,執(zhí)行,讀入分析數(shù)據(jù),選擇適當(dāng)?shù)膮?shù),進行分析,結(jié)果自動保存為outfile,outtree。,Phylip軟件包的應(yīng)用,Outfile是一個
27、記錄文件,記錄了分析的過程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeview,Phylip軟件包的應(yīng)用,出發(fā)數(shù)據(jù)-已經(jīng)排列好的蛋白序列。重構(gòu)算法-距離法(protdist.exe) 最大簡約法(protpars.exe) 最大似然法(proml.
28、exe)統(tǒng)計分析-撥靴法(bootstrap),實際應(yīng)用(從蛋白序列推導(dǎo)進化樹),實際操作,Phylip軟件包中的每個分析程序都是一個獨立的應(yīng)用程序。我們選擇好了分析算法后,按一定的順序組合使用選擇的程序,就可以獲得按選擇的算法分析的結(jié)果(進化樹)。例子:從我們剛剛通過clustal比對獲得的蛋白序 列推測進化樹。 選擇方法:距離法(protdist.exe),,第一步:雙擊執(zhí)行protdist.exe,根據(jù)提示輸入分析的
29、 文件名(程序默認(rèn)是infile)。,第二步:設(shè)定各個參數(shù),執(zhí)行程序,獲得距 離矩陣數(shù)據(jù)輸出文件outfile。第三步:選擇通過距離矩陣推測進化樹的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:將剛獲得的輸出文件改名為infile,執(zhí)行選擇的推測算法(neighbor.exe)。設(shè)置好參數(shù)后執(zhí)行程序,獲得outfile和ou
30、ttree兩個結(jié)果輸出。,獲得的結(jié)果文件中,outtree文件是一個樹文件,可以用treeview等軟件打開。outfile是一個分析結(jié)果的輸出報告,包括了樹和其他一些分析報告,可以用記事本直接打開。,outfile,outtree,加入統(tǒng)計分析(bootstrap),我們剛剛獲得的進化樹是純粹的根據(jù)先前獲得的排列數(shù)據(jù)所推導(dǎo)出來的。有很多可能使得這個樹并不一定可靠。1.測序的出錯。2.多序列比對算法本身的問題。3.其他的問題。我
31、們可以引進一些統(tǒng)計分析來尋找更優(yōu)的進化樹最常見的就是bootstrap分析。,Bootstrap分析,Phylip軟件包中有兩個用于執(zhí)行bootstrap分析的程序。(seqboot.exe,consence.exe)。分析過程:1.Seqboot產(chǎn)生大量的數(shù)據(jù)組2.應(yīng)用選擇的算法對產(chǎn)生的數(shù)據(jù)組進行分析。3.由consence獲得最優(yōu)樹。,PAUP*的使用,PAUP*的數(shù)據(jù)格式(Nexus),#NEXUSbegin tax
32、a;dimensions ntax=12;taxlabelsLemur_catta…Tarsius_syrichta;end;begin characters;dimensions nchar=898;format missing=? gap=- matchchar=. interleave datatype=dna;options gapmode=missing;matrixLemur_catt
33、a AAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiens AAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPan AAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCAT
34、TATTATTGorilla AAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongo AAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobates AAGCTTTACAGGTGCAACCGTCCTCATAA
35、TCGCCCACGGACTAACCTCTTCCCTGCTATT,begin assumptions;charset coding = 2-457 660-896;charset noncoding = 1 458-659 897-898;charset 1stpos = 2-457\3 660-896\3;charset 2ndpos = 3-457\3 661-896\3;charset 3rdpos = 4-45
36、7\3 662-.\3;exset coding = noncoding;exset noncoding = coding;usertype 2_1 = 4[weights transversions 2 times transitions]a c g t[a]. 2 1 2[c] 2 . 2 1[g]1 2 . 2[t]2 1 2 .;user
37、type 3_1 = 4[weights transversions 3 times transitions]a c g t[a]. 3 1 3[c] 3 . 3 1[g]1 3 . 3[t]3 1 3 .;taxset hominoids = Homo_sapiens Pan Gorilla Pongo Hylobates;end;begin paup
38、;constraints ch = ((Homo_sapiens,Pan));constraints chg = ((Homo_sapiens,Pan,Gorilla));end;,PAUP*的數(shù)據(jù)格式(Nexus) 主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八個數(shù)據(jù)塊。 對于一個常規(guī)的分析,taxa,characters塊是
39、必須的。而分析的命令可以通過菜單操作(mac),或者鍵盤命令(win,linux),也可以在nexus文件中加入paup命令塊,1.TAXA塊 主要是定義所分析的數(shù)據(jù)(如分子序列)個數(shù),以及這些數(shù)據(jù)的名稱(如物種名稱)。2. CHARACTERS 塊 主要是定義數(shù)據(jù)矩陣(如多序列比對結(jié)果)和其他一些相關(guān)的信息(如序列特征值,序列有效區(qū)域等),PAUP*的Nexus的文件塊,3. ASSUMPTIONS塊 定義了
40、對數(shù)據(jù)的一些設(shè)定,如那些特征值是不需考慮的,怎么處理gap這個特征值等,用戶自定義的一些數(shù)據(jù)也放在這塊,如自定義的打分矩陣。4. SETS塊 定義了一系列的數(shù)據(jù)組,如特征值組,物種組等,這些設(shè)置都是為了方便后續(xù)的分析。,5. TREES 塊 定義了用戶自己設(shè)定的樹。用于后續(xù)的分析,如作為限制樹等。6. CODONS 塊 定義了遺傳密碼子的一些信息。如編碼的位置(哪些是編碼的,密碼子的位點等)。7. DIS
41、TANCES 塊 定義了一些距離矩陣。,8. PAUP 塊 是軟件的核心塊,所有的分析命令和一些參數(shù)設(shè)置(90多個命令)都放在這一塊。 這一塊并不是分析輸入數(shù)據(jù)所必須的,這些命令可以寫在這一塊(文件中),這時載入文件時就開始根據(jù)該塊的命令進行分析(有點類似dos的批處理過程)。當(dāng)然也可以通過鍵盤命令逐一敲入 ,交互進行分析。 批處理的方式在分析過程比較長,耗時比較久的時候是比較有用的。當(dāng)然在進行處理之前一定要先
42、保證該批處理過程沒有問題。,一個PAUP*的基本分析實例,1.通過clustalw/clustalx獲取一個多序列比對結(jié)果(可能要經(jīng)過人工調(diào)整,推薦用bioedit做輔助編輯器)。保存成nexus格式的文件,或者用其他格式轉(zhuǎn)換軟件轉(zhuǎn)換成nexus格式。paup*中也有一個tonexus命令可以將其他格式(包括phylip,GCG等格式)的文件轉(zhuǎn)換為nexus格式的文件。,2.在PAUP*程序中讀入數(shù)據(jù)(Nexus格式),輸入命令的地方,
43、打開文件的窗口,程序自帶的測試數(shù)據(jù),執(zhí)行該文件還是編輯該文件?執(zhí)行文件時將文件數(shù)據(jù)讀入程序,編輯文件則調(diào)用一個文本編輯器。如果不是nexus格式,執(zhí)行時候會出錯,然后調(diào)用文本編輯器打開。,3.數(shù)據(jù)輸入完成,開始分析… 兩個很有用的命令 ?:顯示所有的命令 命令 ?:顯示命令的所有參數(shù),分析…(開始一),1.開始之前 打開記錄文件?(跟蹤整個分析過程)命令:log start file =your_log_f
44、ile_name;停止:log stop;,2.設(shè)置數(shù)據(jù) 哪些用于分析?如:include coding/only; exclude coding/only;哪些物種要分析(刪除不要的)?如: delete 1; 或者 delete taxa_name… undelete 1;……,分析…(開始二),3.確定建樹方法最大簡約法?最大似然法? 距離法?命令:Set crite
45、rion=parsimony|likelihood|distance;,分析…(建樹一),4.確定其他參數(shù)Set ?查看其他參數(shù)的設(shè)置,改為自己所需要的設(shè)置。如:set maxtree=10000 increase=no autoclose=yes;,分析… (建樹二),5.確定搜索方法(對于距離法不適用) 窮盡法:alltrees 分支跳躍查找:bandb 啟發(fā)式搜索:hsearch 其他:puz
46、zle(只在likelihood時有效)…,分析… (建樹三),6.開始搜索樹之前(設(shè)置各個建樹方法的參數(shù))距離法:dset如:dset distance=tamnei negbrlen=allow最大簡約法:pset如 pset collapse=no gapmode=newstate最大似然法:lset如:lset nst=6 clock=yes,分析… (建樹四),7.再次確認(rèn)參數(shù) 是否要設(shè)置外圍群(outgro
47、up)?如 outgroup 1,2 ;或者 outgroup taxa_set;其他參數(shù)?,分析… (建樹五),7.開始搜索樹距離法:NJ,UPGMA最大簡約法,最大似然法Hsearch ?參數(shù)是否要更改?如:hsearch andseq=random swap=spr,分析… (建樹六),8.進化樹的評估 選擇評估方法?Bootstrap(自展法) 用的最多,是對進化樹重新取樣的評估方法,可以對距離法,
48、簡約法,似然法以及衍生出的任何其他方法構(gòu)建的進化樹進行評估。其分析結(jié)果是一組數(shù)字,這個數(shù)字描述了進化樹進化分支的支持比例,也就是進化樹分支的穩(wěn)健性。,分析…(樹評估一),分析… (樹評估二),未經(jīng)過bootstrap的樹,Bootstrap后的樹,BOOTSTRAP [options][/heuristic-search-options|branch-and-bound-search-options]; 使用分支限制或者是
49、啟發(fā)式搜索的方法進行bootstrap分析。參數(shù):? BSEED = integer-value 隨機數(shù)種子。? NREPS = integer-value bootstrap重復(fù)的次數(shù),默認(rèn)值為100。? SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 搜索方式? CONLEVEL = integer-value bootstrap重復(fù)次數(shù)的最低比率,默認(rèn)為50。? KEEPALL
50、= YES|NO? WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL? NCHAR = CURRENT|number-of-characters 每次重復(fù)采樣的數(shù)目。? GRPFREQ = YES|NO 顯示bootstrap分割頻率? TREEFILE = bootstrap-tree-file-name 樹的文件? FORMAT= NEXUS|ALTNEXUS|FREQPARS|PHY
51、LIP|HENNIG ? BRLENS = YES|NO 分支的長度? *REPLACE = YES|NO? CUTOFFPCT = integer-value 定義顯示的最低bootstrap分割頻率。Examplebootstrap nreps=200 treefile=boot.tre search=heuristic/addseq=random;,分析… (樹評估三),PAUP*中的bootstrap命令,對折分析(j
52、ackknife) 跟bootstrap類似,只是在對原始數(shù)據(jù)取樣的時候不會取重復(fù)的數(shù)據(jù)位點。因為它重復(fù)取樣的時候是在原始數(shù)據(jù)中除去一個或者多個比對位點。 對折分析得出的結(jié)果和bootstrap是一樣的。命令和參數(shù)都類似,用的比bootstrap少很多。,分析… (樹評估四),JACKKNIFE [options][/heuristic-search-options|branchand-bound-search-options]
53、; 對折分析? PCTDELETE = real-value 每個對折分析循環(huán)中刪除的data set百分?jǐn)?shù)? JSEED = integer-value 隨機數(shù)種子? NREPS = integer-value 對折循環(huán)次數(shù)? SEARCH = HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA 樹的搜索方法(NJ和UPGMA僅在最優(yōu)規(guī)則為distance時才可用)? RESA
54、MPLE = NORMAL|JAC ? CONLEVEL = integer-value boostrap中出現(xiàn)的最小比例(最為保留group),默認(rèn)為50,即50%? KEEPALL = YES|NO 低于conlevel的樹,若與一致樹兼容,也保留? WTS = IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL ? GRPFREQ = YES|NO 顯示對折分區(qū)頻率? TREEFIL
55、E = tree-file-name? FORMAT = NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG? *REPLACE = YES|NO? CUTOFFPCT = integer-value 對折頻率表中顯示的最小頻率。ExampleJACKKNIFE nreps=200 treefile=tree.tre search=heuristic/addseq=random,分析… (樹評估五)
56、,PAUP*中的jackknife命令,KHtest和SHtest 用來測試一個特定的次優(yōu)化的ml或者mp拓撲結(jié)構(gòu)同最優(yōu)化的拓撲結(jié)構(gòu)相比是否顯著不同(通常用來做Hypothesis test)。 PAUP*中這兩個測試是作為pscores和lscores的一個參數(shù),默認(rèn)關(guān)閉,需要進行這兩個測試的時候,要打開該參數(shù)。Pscore中有KHtest,不支持SHtestLscore中有KHtest和SHtest,分析…
57、(樹評估六),如:Pscores all/khtest=normal;Lscores all/khtest= normal shtest=rell; 測試得出的結(jié)果是返回一個顯著性差異系數(shù)(P值)。,分析… (樹評估七),其他測試隨機測試:permute不一致的長度差異測試: hompart…,分析… (樹評估八),分析結(jié)束之前,1.保存分析結(jié)果Savetrees 根據(jù)要求將內(nèi)存中的樹保存到文件如:savetre
58、es file=tree.tre brlens=yes savebootp=both from=1 to=2;2.停止記錄文件Log stop;,退出,3.如果要進行下一項分析,想讓原來改過的參數(shù)全部變回默認(rèn)設(shè)置 命令:factory 所有參數(shù)恢復(fù)默認(rèn)設(shè)置4.確定要退出后 命令 :quit,一些有用的命令,1.Treeinfo 查看內(nèi)存中樹的情況(多少個?有根還是無根?…)。2.clear 清除內(nèi)存
59、中所有的樹。3.showtree 查看內(nèi)存中的樹(默認(rèn)顯示第一個樹,可以加入?yún)?shù)) 如:showtree all;showtree 2,3;4.gettrees 從樹文件中讀取樹到內(nèi)存中,5.dscores,pscores,lscores 計算樹的距離,簡約性,相似性分值。6.ingroup/outgroup 取消和設(shè)定外圍群7.Contree 根據(jù)一定的規(guī)則求解一致樹8.Deroott
60、rees 將有根樹轉(zhuǎn)換為無根樹9.Roottrees 根據(jù)當(dāng)前設(shè)定的outgroup將無根樹轉(zhuǎn)換為有根樹,10.Filter根據(jù)設(shè)定的規(guī)則篩選樹。11.詳細的命令請參考paup*軟件的command reference。,Paup塊的一個例子,begin paup;Log star file=log.txt; set criterion=likelihood autoclose=yes maxtree
61、s=10000 increase=no;lset nst=6 rmatrix=estimate basefreq=estimate pinv=estimate rates=gamma shape=estimate; hsearch addseq=random nreps=100; bootstrap nreps=1000 search=heuristic brlens=yes;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金屬硫蛋白基因的分子進化分析.pdf
- 皂莢屬系統(tǒng)進化分析及SSR分子標(biāo)記開發(fā).pdf
- 細胞周期調(diào)節(jié)關(guān)鍵分子Rb和CDK的分子進化分析.pdf
- 魚類TLR9及TfR基因的分子進化分析.pdf
- 魚類MIF和SOCS基因家族的分子克隆和進化分析.pdf
- 類黃酮生物合成途徑核心位點的分子進化分析.pdf
- 植物SAMDC基因分子進化分析以及ySAMDC基因轉(zhuǎn)化番茄研究.pdf
- 24055.哺乳動物gjb6的分子克隆和進化分析
- 中國近海十三種石首魚類的分子系統(tǒng)進化分析.pdf
- 赤擬谷盜iap基因的克隆、表達模式及其分子進化分析.pdf
- 47594.復(fù)制基因的進化分析
- 7種紫膠蟲的系統(tǒng)發(fā)育與分子進化分析(Homoptera:Tachardiidae).pdf
- 湖北省牛瑟氏泰勒蟲的分子進化分析及分子iELISA診斷方法的建立.pdf
- 絹絲昆蟲線粒體DNA A+T豐富區(qū)序列的克隆與分子進化分析.pdf
- Insulin-IGF途徑基因共進化分析及人類基因酵母雙雜結(jié)果的共進化分析.pdf
- 擬南芥轉(zhuǎn)錄因子WRKY超家族進化分析.pdf
- T--box基因家族的進化分析.pdf
- 病媒蚊bHLH轉(zhuǎn)錄因子的進化分析.pdf
- 小麥近緣種谷蛋白新亞基鑒定與編碼基因克隆及其分子進化分析.pdf
- 孕婦顯性和隱匿性乙型肝炎病毒感染及分子進化分析.pdf
評論
0/150
提交評論