2生物信息學(xué)-生物信息數(shù)據(jù)庫完美版

上傳人：奔*** IP屬地：河北更新時間：2024-10-15 格式：ppt 頁數(shù)：178 大小：7.61MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩177頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、Bioinformatics,生物信息學(xué),劉紅,liuhongseminar@126.com,復(fù)習(xí)內(nèi)容第一章要點,生物信息學(xué)(Bioinformatics）：生物信息學(xué)是一門交叉學(xué)科，它包含了生物信息的獲取、處理、存儲、分發(fā)、分析和解釋在內(nèi)的所有方面。他綜合的應(yīng)用數(shù)學(xué)、計算機科學(xué)和生物學(xué)的各種工具，來闡明和理解大量數(shù)據(jù)中包含的生物學(xué)意義。人類基因組計劃(human genome project,HGP）規(guī)

2、模模宏大的科學(xué)計劃，其旨在測定組成人類染色體（指單倍體）中所包含的30億個核苷酸序列的堿基組成，從而繪制下人類基因組圖譜，并且辨識并呈現(xiàn)其上的所有基因及其序列，進而破譯人類遺傳信息。人類基因組計劃是人類為了解自身的奧秘所邁出的重要一步，是繼曼哈頓計劃和阿波羅登月計劃之后，人類科學(xué)史上的又一個偉大工程。,,Sanger 測序法又稱雙脫氧末端終止法。 Sanger法是根據(jù)核苷酸在某一固定的點開始，隨機在某一個特定的堿基處終止，并

3、且在每個堿基后面進行熒光標記，產(chǎn)生以A、T、C、G結(jié)束的四組不同長度的一系列核苷酸，然后在尿素變性的PAGE膠上電泳進行檢測，從而獲得可見的DNA堿基序列。 Sanger法測序的原理就是，每個反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)使之擴增，并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)使之終止。由于ddNTP缺乏延伸所需要的3‘-OH基團，使延長的寡聚核苷酸選擇性地在G、A、T或C處終止，終止點由反應(yīng)中相應(yīng)的雙脫

4、氧而定。每一種dNTPs和ddNTPs的相對濃度可以調(diào)整，使反應(yīng)得到一組長幾個至千以上個，相差一個堿基一系列片斷。它們具有共同的起始點，但終止在不同的的核苷酸上，可通過高分辨率變性凝膠電泳分離大小不同的片段，凝膠處理后可用X-光膠片放射自顯影或非同位素標記進行檢測。,鳥槍法序列測定（Shotgun sequencing）是一種廣泛使用的為長DNA測序的方法，比傳統(tǒng)的定序法快速，但精確度較差。曾經(jīng)使用于塞雷拉基因組（Celera

5、 Genomics）公司所主持的人類基因組計劃。原理：將基因組打斷為數(shù)百萬個DNA片斷，然后用一定的算法將片斷的序列信息重新整合在一起，從而得到整個基因組序列。為了提高這一方法的效率，1980年代，測序和片斷信息整合達到了自動化。這一方法雖然已被用于序列長達6百萬個堿基對的細菌基因組測序，但對于人類基因組中3千萬個堿基對的序列測定，這一技術(shù)能否成功在當時還未有定論。,生物信息學(xué)數(shù)據(jù)庫,內(nèi)容提綱,生物信息計算機基礎(chǔ)知識簡介分

6、子生物信息數(shù)據(jù)庫生物信息數(shù)據(jù)存儲格式生物信息的檢索和提交,,生物信息計算機基礎(chǔ)知識簡介,Linux 系統(tǒng)BioperlMySQLDBMS DBSDM,,Linux 系統(tǒng),Linux 系統(tǒng) 免費使用和自由傳播的類UNIX操作系統(tǒng)。 1991，芬蘭赫爾辛基大學(xué) Linus Torvalds 命名為Linux 特點： 1. 開放性 2. 多用戶

7、3. 多任務(wù) 多任務(wù)運行時效率高于Windows系統(tǒng),,Bioperl,正式開發(fā)于1995年，開源項目，基于Perl語言開發(fā)，由OBF（Open Bioinformatics Foundation)支持。專門用于生物信息學(xué)、基因組學(xué)以及其他生命科學(xué)領(lǐng)域的工具和函數(shù)模塊集，超過1000個模塊。www.bioperl.org,,數(shù)據(jù)庫管理系統(tǒng)(database management system, DBMS)

8、對數(shù)據(jù)庫進行管理的系統(tǒng)軟件，提供DB的建立、查詢、更新以及各種數(shù)據(jù)控制功能。數(shù)據(jù)庫系統(tǒng)（database system, DBS) 采用數(shù)據(jù)庫技術(shù)的計算機系統(tǒng)。DBS是計算機軟件/硬件、數(shù)據(jù)資源和數(shù)據(jù)庫管理員共同組成的系統(tǒng)。數(shù)據(jù)模型（data model) 數(shù)據(jù)庫結(jié)構(gòu)和語義的一種抽象描述。由數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)操作和完整性約束三部分組成。,生物信息學(xué)數(shù)據(jù)庫產(chǎn)生的動力,生物分子數(shù)據(jù)的高速增長有效的

9、存儲計算機技術(shù)迅速發(fā)展數(shù)據(jù)存貯技術(shù)的成熟互聯(lián)網(wǎng) 生物信息分析是現(xiàn)代生物學(xué)研究的基礎(chǔ) 及時的獲取高效的利用分子生物學(xué)數(shù)據(jù),,（1）時間性新的數(shù)據(jù)可以及時在互聯(lián)網(wǎng)獲?。?）注釋對每個序列有一致的、詳細的說明信息（3）支撐數(shù)據(jù) 相關(guān)的研究背景，原始數(shù)據(jù)。文獻支持（4）數(shù)據(jù)質(zhì)量數(shù)據(jù)庫管理者對數(shù)據(jù)質(zhì)量進行核查（5）集成性

10、三種基本數(shù)據(jù)（核酸、蛋白、蛋白結(jié)構(gòu)）的集成。有效提高研究者的研究效率,生物信息數(shù)據(jù)庫應(yīng)滿足的主要需求,,現(xiàn)代生物信息數(shù)據(jù)庫的特征（*）,,（1）數(shù)據(jù)更新速度快，數(shù)據(jù)量呈指數(shù)增長趨勢（2）數(shù)據(jù)庫使用頻率快速增長，重要性日益被科研工作者所認識（3）數(shù)據(jù)庫的復(fù)雜程度不斷增加（4）數(shù)據(jù)庫網(wǎng)絡(luò)化互聯(lián)網(wǎng)上訪問；公共數(shù)據(jù)庫之間相互鏈接；集成數(shù)據(jù)庫系統(tǒng)。（5）面向應(yīng)用。如提供在

11、線分析工具。（7）先進的計算機硬件和軟件的配置,http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html,GenBank 堿基數(shù)每年增長幅度約為100% ！,分子生物數(shù)據(jù)庫的分類,,,一級數(shù)據(jù)庫概念：數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只經(jīng)過簡單的歸類整理和注釋包含：基因組數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白一級結(jié)構(gòu)序列數(shù)據(jù)庫、

12、生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫（主要為蛋白質(zhì)）,二級數(shù)據(jù)庫概念：對原始生物分子數(shù)據(jù)進行整理、分類的結(jié)果，是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標而建立的。包含：種類繁多：真核生物啟動子序列庫 EPD ；功能模體(motif)數(shù)據(jù)庫 PROSITE,數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只經(jīng)過簡單的歸類整理和注釋。,一級數(shù)據(jù)庫,,基因組數(shù)據(jù)庫,基因組數(shù)據(jù)庫的主體是模式生物基因組數(shù)據(jù)庫，此外還包括染色體，

13、基因突變，遺傳疾病，分類學(xué)，比較基因組，基因表達和調(diào)控，放射雜交，基因圖譜等各種數(shù)據(jù)庫。,,NCBI 基因組數(shù)據(jù)庫 Genome http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome,Map view http://www.ncbi.nlm.nih.gov/projects/mapview/,生物基因組計劃信息,,基因組數(shù)據(jù)庫(GDB),創(chuàng)建：1990 Johns Hopkins

14、大學(xué)創(chuàng)建目標：構(gòu)建關(guān)于人類基因組的百科全書，除了構(gòu)建基因組圖譜之外，開發(fā)了描述序列水平的基因組內(nèi)容的方法：包括序列變異和其它對功能和表型的描述內(nèi)容：人類基因組區(qū) 域 ( 包括基因、克隆、 amplimers PCR 標記、斷點breakpoints、細胞遺傳標記 cytogenetic markers、易碎位點 fragile sites、EST 序列、綜合區(qū)域 syn

15、dromic regions、contigs 和重復(fù)序列)；人類基因組圖譜(包括細胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig 圖譜和綜合圖譜等)；人類基因組內(nèi)的變異(包括突變和多態(tài)性，加上等位基因頻率數(shù)據(jù))。,,http://www.gdb.org國內(nèi)鏡像是：http://gdb.pku.edu.cn/gdb/,EMBL-EBI和Sanger研究所共同開發(fā)的一個系統(tǒng)。Ensembl產(chǎn)生并維護關(guān)于各種

16、模式生物基因組的自動注釋。人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖跟蹤這些基因組的序列片段，并將序列片段組裝成單個長序列，進而分析這些經(jīng)過組裝的DNA序列，搜索其中的基因，發(fā)現(xiàn)生物學(xué)家或醫(yī)學(xué)工作者感興趣的序列。Ensembl所用的基因預(yù)測程序為GenScan。單核苷酸多態(tài)性（SNP）、重復(fù)序列與其它序列高度相似（或同源）的序列。Ensembl 數(shù)據(jù)庫還提供疾病、細胞等方面的信息，并且提供

17、數(shù)據(jù)搜索、數(shù)據(jù)下載、統(tǒng)計分析等服務(wù)。,綜合基因組數(shù)據(jù)庫(Ensembl Genome）,,Ensembl (http://www.ensembl.org/),,,,模式生物基因組的數(shù)據(jù)庫,酵母,大腸桿菌,果蠅,線蟲,老鼠,,,AceDB 線蟲基因數(shù)據(jù)庫,是數(shù)據(jù)庫也是靈活和通用數(shù)據(jù)庫管理系統(tǒng)Sanger中心已將其用于線蟲和人類基因的瀏覽和檢索庫內(nèi)資源包括：限制性圖譜、基因結(jié)構(gòu)信息、質(zhì)粒圖譜、參考文獻等。,秀麗線蟲Caen

18、orhabditis elegans一種透明的、生活在海灘泥沙中的小蟲細胞數(shù)目一定：成蟲細胞數(shù)目只有959個，其中包括302個神經(jīng)元；有6條染色體，1998，長9.7Mb,序列數(shù)據(jù)庫,,主要核酸序列數(shù)據(jù)庫: GenBank、EMBL、 DDBJ主要蛋白質(zhì)序列數(shù)據(jù)庫：Swissprot, PIR,核酸序列數(shù)據(jù)庫,美國國家生物技術(shù)信息中心的GenBank http://www.ncbi.nlm.nih.gov/Web/Ge

19、nbank/index.html 歐洲分子生物學(xué)實驗室的EMBL http://www.embl-heidelberg.de 日本遺傳研究所的DDBJ http://www.ddbj.nig.ac.jp/,,1979年開始建設(shè)，1982年正式運行美國國家生物信息中心負責維護 Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7,

20、GenBank數(shù)據(jù)庫,,GenBank數(shù)據(jù)庫的數(shù)據(jù)來源有三種：直接來源于測序工作者提交的序列與其它數(shù)據(jù)機構(gòu)協(xié)作交換的數(shù)據(jù)美國專利局提供的專利數(shù)據(jù),1980年開始建設(shè)，1982年正式運行歐洲主要的核酸序列收集單位歐洲生物信息中心（EBI),德國海德堡站點負責維護,EMBL數(shù)據(jù)庫,,EMBL數(shù)據(jù)庫的數(shù)據(jù)來源有三種：直接來源于測序工作者提交的序列（Sanger測序中心）與其它數(shù)據(jù)機構(gòu)協(xié)作交換的數(shù)據(jù)歐洲專利局提供的專利數(shù)據(jù),日

21、本1984年開始建立，并于1987年正式服務(wù)。亞洲唯一的核酸序列數(shù)據(jù)庫生物信息學(xué)中心和日本國家遺傳研究所的DNA數(shù)據(jù)庫（CIB-DDBJ),共同組建。,DDBJ數(shù)據(jù)庫,,DDBJ數(shù)據(jù)庫的數(shù)據(jù)來源有二種：90%直接來源于日本研究者提交的序列與其它數(shù)據(jù)機構(gòu)協(xié)作交換的數(shù)據(jù),在短短的約18年間，數(shù)據(jù)量增長了近十萬倍,公共序列數(shù)據(jù)庫（Public Sequence Database）,1988 年3個數(shù)據(jù)庫達成協(xié)議，組成合作聯(lián)合體。它們

22、每天交換信息，并對數(shù)據(jù)庫 DNA 序列記錄的統(tǒng)一標準達成一致。每個機構(gòu)負責收集來自不同地理分布的數(shù)據(jù) （EMBL 負責歐洲， GenBank 負責美洲， DDBJ負責亞洲等），將所有信息匯總在一起，共同享有并向世界開放，故這 3 個數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫,,GenBank,DDBJ,EMBL,,,,蛋白質(zhì)序列數(shù)據(jù)庫,重要蛋白質(zhì)序列數(shù)據(jù)庫：SWISS－PROT(歐洲)PIR(美國),,蛋白質(zhì)序列數(shù)據(jù)庫,SWISS

23、-PROT和PIR是國際上二個主要的蛋白質(zhì)序列數(shù)據(jù)庫，目前這二個數(shù)據(jù)庫在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像 (mirror) 站點。SWISS-PROT數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列，這些序列經(jīng)過檢驗和注釋。PIR數(shù)據(jù)庫的數(shù)據(jù)由美國家生物技術(shù)信息中心(NCBI)翻譯自GenBank的DNA序列。,,二種蛋白質(zhì)數(shù)據(jù)庫種類和特點,,SWISS－PROT 蛋白數(shù)據(jù)庫,1986創(chuàng)建瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系

24、和歐洲生物信息學(xué)研究所(EBI)合作維護在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點; 數(shù)據(jù)庫包括了從EMBL翻譯而來的蛋白質(zhì)序列這些序列經(jīng)過檢驗和注釋；數(shù)據(jù)記錄包括兩部分：序列注釋：結(jié)構(gòu)域、功能位點、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾數(shù)據(jù)存在滯后性,,http://cn.expasy.org/sprot,PIR 蛋白數(shù)據(jù)庫,PIR

25、(Protein information resource) 1. 由美國NCBI翻譯自GenBank的DNA序列(1984年)； 2. 在EMBL和GenBank數(shù)據(jù)庫上均建立了鏡像站點； 3. 數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。,,PIR數(shù)據(jù)庫的分類情況,http://www-nbrf.georgetown.edu/,PIR 數(shù)據(jù)庫的特點,,幫助研究者鑒別和解釋蛋白質(zhì)序列信息，研究

26、分子進化、功能基因組。它是一個全面的、經(jīng)過注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫。所有序列數(shù)據(jù)都經(jīng)過整理，超過99%的序列已按蛋白質(zhì)家族分類，一半以上還按蛋白質(zhì)超家族進行了分類。,生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫 PDB 蛋白質(zhì)分類數(shù)據(jù)庫 SCOP和CATH,,PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫,PDB,Protein Data Bank,1. 目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫； 2. 1970年代建立，美國Bro

27、okhaven國家實驗室維護管理; 3. 1988年，由美國RCSB(research collaboratory for structural biology)管理； 4. 以文本格式存放數(shù)據(jù)，包括原子坐標、物種來源、測定方法、提交者信息、一級結(jié)構(gòu)、二級結(jié)構(gòu)等； 5. PDBsum數(shù)據(jù)庫：PDB注釋信息綜合數(shù)據(jù)庫，具有檢索、分析、可視化的功能。,,http://www.rcsb.org/pdb,http:

28、//www.ebi.ac.uk/thornton-rv/databases/pdbsum/,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫,SCOP (Structural Classification of Proteins)CATH( Class, Architecture, Topology, Homology),,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫SCOP,描述了結(jié)構(gòu)和進化關(guān)系。SCOP數(shù)據(jù)庫從不同層次對蛋白質(zhì)結(jié)構(gòu)進行分類，以反映它們結(jié)構(gòu)和進化的相關(guān)性。第一個分

29、類層次為家族，通常將序列相似性程度在30%以上的蛋白質(zhì)歸入同一家族，有比較明確的進化關(guān)系。超家族：序列相似性較低，結(jié)構(gòu)和功能特性表明它們有共同的進化起源，將其視作超家族。折疊類型：無論有無共同的進化起源，只要二級結(jié)構(gòu)單元具有相同的排列和拓撲結(jié)構(gòu)，即認為這些蛋白質(zhì)具有相同的折疊方式。在這些情況下，結(jié)構(gòu)的相似性主要依賴于二級結(jié)構(gòu)單元的排列方式或拓撲結(jié)構(gòu)。,,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫CATH,類型Class、構(gòu)架Architecture 、拓

30、撲結(jié)構(gòu)Topology和同源性Homology 。分類基礎(chǔ)是蛋白質(zhì)結(jié)構(gòu)域。與SCOP不同的是，CATH把蛋白質(zhì)分為4類，即a主類、b主類，a-b類（a/b型和a+b型）和低二級結(jié)構(gòu)類。低二級結(jié)構(gòu)類是指二級結(jié)構(gòu)成分含量很低的蛋白質(zhì)分子。CATH數(shù)據(jù)庫的第二個分類依據(jù)為由α螺旋和β折疊形成的超二級結(jié)構(gòu)排列方式，而不考慮它們之間的連接關(guān)系。,,第三個層次為拓撲結(jié)構(gòu)，即二級結(jié)構(gòu)的形狀和二級結(jié)構(gòu)間的聯(lián)系。第四個層次為結(jié)構(gòu)的同源性，它是先通過

31、序列比較然后再用結(jié)構(gòu)比較來確定的。CATH數(shù)據(jù)庫的最后一個層次為序列(Sequence)層次，在這一層次上，只要結(jié)構(gòu)域中的序列同源性大于35%，就被認為具有高度的結(jié)構(gòu)和功能的相似性。對于較大的結(jié)構(gòu)域，則至少要有60%與小的結(jié)構(gòu)域相同。,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫CATH,,End of PART 1,,現(xiàn)代生物信息數(shù)據(jù)庫的特征（*）,,（1）數(shù)據(jù)更新速度快，數(shù)據(jù)量呈指數(shù)增長趨勢（2）數(shù)據(jù)庫使用頻率快速增長，重要性日益被科研工作者所認識

32、（3）數(shù)據(jù)庫的復(fù)雜程度不斷增加（4）數(shù)據(jù)庫網(wǎng)絡(luò)化互聯(lián)網(wǎng)上訪問；公共數(shù)據(jù)庫之間相互鏈接；集成數(shù)據(jù)庫系統(tǒng)。（5）面向應(yīng)用。如提供在線分析工具。（7）先進的計算機硬件和軟件的配置,分子生物數(shù)據(jù)庫的分類,,,一級數(shù)據(jù)庫概念：數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只經(jīng)過簡單的歸類整理和注釋包含：基因組數(shù)據(jù)庫、核酸序列數(shù)據(jù)庫、蛋白一級結(jié)構(gòu)序列數(shù)據(jù)庫、

33、生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫（主要為蛋白質(zhì)）,二級數(shù)據(jù)庫概念：對原始生物分子數(shù)據(jù)進行整理、分類的結(jié)果，是在一級數(shù)據(jù)庫、實驗數(shù)據(jù)和理論分析的基礎(chǔ)上針對特定的應(yīng)用目標而建立的。包含：種類繁多：真核生物啟動子序列庫 EPD ；功能模體(motif)數(shù)據(jù)庫 PROSITE,數(shù)據(jù)直接來源于實驗獲得的原始數(shù)據(jù)，只經(jīng)過簡單的歸類整理和注釋。,一級數(shù)據(jù)庫,,序列數(shù)據(jù)庫,,主要核酸序列數(shù)據(jù)庫: GenBank、EMBL、 DDBJ主要蛋白質(zhì)序列

34、數(shù)據(jù)庫：Swissprot, PIR,公共序列數(shù)據(jù)庫（Public Sequence Database）,1988 年3個數(shù)據(jù)庫達成協(xié)議，組成合作聯(lián)合體。它們每天交換信息，并對數(shù)據(jù)庫 DNA 序列記錄的統(tǒng)一標準達成一致。每個機構(gòu)負責收集來自不同地理分布的數(shù)據(jù) （EMBL 負責歐洲， GenBank 負責美洲， DDBJ負責亞洲等），將所有信息匯總在一起，共同享有并向世界開放，故這 3 個數(shù)據(jù)庫又被稱為公共序列數(shù)據(jù)庫,,Ge

35、nBank,DDBJ,EMBL,,,,內(nèi)容提綱（Part 2),生物信息數(shù)據(jù)存儲格式生物信息的檢索和提交,,生物信息的存貯格式,GTAAGACTAAGATATCATGATGGATCCTGTGTCTGTTGTACATAGCTTTGCTAGGAGTCAGGGCCTGCCACTTAACTTCAAAACTGTGGGTTGTGAGGGTCCAAGTCACGACCCACGATTCGTAATTGAATGTAAACTTCTTGATMVHLPEE

36、KDAVTALWGKVNVGGEALGRLLVVYPWTQRFFESFGDLSTDAVMGNPKVKAHGKKVLGAFSD,RAW序列格式,實驗所得的原始序列數(shù)據(jù)序列可以是一行也可以是多行，行的長度沒有限制序列中可以包含ATCGUY(TC)R(GA),以及與之對應(yīng)的小寫形式其他的字符不可以出現(xiàn)交流性差,,FASTA格式,又稱Pearson 格式特點：最常用、最簡單的序列注釋格式命名規(guī)則： 1、以大于號“>&

37、quot;起始 2、標題行（ a single-line description) 位于文件的第一行，（中英） 3、序列行隨后，序列行中不允許有空間，每行文字不超過80個字符 4、組成序列信息字符串的符號應(yīng)為IUB/IUPAC （International Union Of Pure And Applied Chemistry）核苷酸或氨基酸的符號 5、核苷酸字符大小寫均可，氨基酸

38、字符應(yīng)大寫 6、"-"單個連字符表示一個空位 “gap” 7、序列中不允許有數(shù)字、不明確的核苷酸用N表示，氨基酸用X表示 8、氨基酸序列中“*”表示終止 9、常保存為.TXT文檔,,IUB-IUPAC堿基代碼表,IUB-IUPAC氨基酸代碼表,FASTA文件格式示例,,FASTA格式示例,錯誤,,FASTA格式示例,,正確,新的問題的提出簡單的命名如何區(qū)分眾多的序列？,F

39、ASTA格式示例,,標題行相關(guān)部分用 “|”分隔；命名的順序：gi號| Accesion number|相對應(yīng)的英文名稱，“[ ]” 相應(yīng)物種的拉丁文名稱,gi ： GenoInfo Identifier 的簡寫，指的序列標識號。序列的任何改變都會被分配一個新的GI號。一條核苷酸序列翻譯成蛋白質(zhì)序列，也會分配一個新的GI號,,RefSeq的數(shù)據(jù)特點,,GenBank中一個基因的索引號可能

40、有上百個,但對應(yīng)一個基因的RefSeq只有一個,GBFF,GBFF (GenBank Flat File)文本文件GBFF是GenBank數(shù)據(jù)庫的基本信息單位最為廣泛使用的生物信息學(xué)序列格式之一三大數(shù)據(jù)庫交換數(shù)據(jù)是采用的格式,,GBFF的格式,第一部分：描述符包含了關(guān)于整個記錄的信息第二部分：特征表

41、包含了注釋這一記錄的特性第三部分：核酸序列本身在最后一行以“// ”結(jié)尾。,,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; an

42、d Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces

43、cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibb

44、s,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 150

45、3-1509 (1994) PUBMED 7871890 ......FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta"

46、 /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRAR

47、PRTANRQHM" gene 687..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagtt

48、aggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITIO

49、N Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces

50、 cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFE

51、RENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis

52、in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 ......FEATURES Location/Qualifiers CDS <1..206 /codon_start=3

53、 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADM

54、RQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct ca

55、ggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,,描述符(包含整個記錄的信息）,,特征表(注釋這一紀錄的信

56、息）,,序列信息,所有序列數(shù)據(jù)庫的最后一行均以 // 結(jié)尾,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (RE

57、V7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi;

58、 Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TI

59、TLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 .....

60、.FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1&quo

61、t; /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687

62、..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gta

63、gtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,定義行,CDS 指的是編碼區(qū)序列（Coding sequence)。序列功能區(qū)域的表示方法： 1. 確定的功能區(qū)，直接寫作n........m 2. 表示partial on t

64、he 3'end 4.complement 互補序列。表示CDS位于互補鏈,EMBL Format,EMBL數(shù)據(jù)庫序列詳細注釋的格式與GBFF類似僅字符的標識符是兩個字的簡寫,,EMBL格式,EMBL:酵母菌TCB1-β,蛋白序列數(shù)據(jù)庫的存儲格式,SWISS-PROT的存儲格式和EMBL的存儲格式相似PIR的存儲格式與GenBank d的存儲格式詳細,,重點掌握GBFF格式,練習(xí) GBFF注釋A

65、ccession number:GQ331973.1,生物信息的檢索,信息檢索（informal retrieval)：是將無序的數(shù)據(jù)有序化，形成信息集合，并根據(jù)需要從信息集合中提取特定信息的過程。實質(zhì)：將用戶的檢索標識和信息集中存儲的信息標識進行比較和選擇（或稱匹配）,,,GenBank 和EMBL格式等數(shù)據(jù)存儲格式兩大部分組成：序列數(shù)據(jù)和對序列數(shù)據(jù)的注釋,數(shù)據(jù)庫查詢與數(shù)據(jù)庫搜索,數(shù)據(jù)庫查詢(d

66、atabase query) 是指對序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)庫中的注釋信息進行關(guān)鍵詞匹配查找。數(shù)據(jù)庫搜索(database search) 分子生物信息學(xué)中有特定含義，它是指通過特定的序列相似性比對算法，找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測序列具有一定程度相似性的序列。,,生物信息檢索系統(tǒng),Entrez（http://www.ncbi.nlm.nih.gov/sites/gquery) SR

67、S （Sequence Retrieval System）,,生物信息檢索系統(tǒng)—Entrez（*）,Entrez （http://www.ncbi.nlm.nih.gov/sites/gquery) NCBI著名的用于提取序列信息的工具，它將科學(xué)文獻、DNA和蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群研究數(shù)據(jù)以及全基因組組裝數(shù)據(jù)整合成一個高度集成的系統(tǒng)。,,生物信息檢索系統(tǒng)—SRS,SRS SRS是Sequence Re

68、trieval System的縮寫，由EMBL(歐洲分子生物學(xué)實驗室)開發(fā)的以萬維網(wǎng)界面運行的生物數(shù)據(jù)庫檢索系統(tǒng)。最初是為核酸序列數(shù)據(jù)庫EMBL和蛋白質(zhì)序列數(shù)據(jù)庫SwissProt的查詢開發(fā)的系統(tǒng)。隨著分子生物信息數(shù)據(jù)庫的應(yīng)用和開發(fā)需求不斷增長，SRS已經(jīng)成為歐洲生物信息網(wǎng)主要的數(shù)據(jù)檢索工具,,Entrez,集成NCBI的各種數(shù)據(jù)庫：生物醫(yī)學(xué)文獻數(shù)據(jù)庫（PubMed,Books,Journals date

69、base and PMC) 核酸序列數(shù)據(jù)庫 (GenBank/ EMBL/ DDBJ,Genome Datebase,Unigene,STS) 　蛋白質(zhì)序列數(shù)據(jù)庫 (Swiss-Prot, PIR）三維結(jié)構(gòu)數(shù)據(jù)庫（Conserved Domains, 3D Domains) 基因組和染色體圖譜資料 (Genomes,Gene,Cancer Chromo

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2生物信息學(xué)-生物信息數(shù)據(jù)庫完美版

文檔簡介

溫馨提示

最新文檔

評論

2生物信息學(xué)-生物信息數(shù)據(jù)庫完美版

文檔簡介

溫馨提示

最新文檔

評論

免費下載