基于串聯(lián)質譜的肽段與修飾鑒定的質量控制算法研究與應用.pdf_第1頁
已閱讀1頁,還剩146頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、蛋白質是細胞結構的重要構成物質,也是細胞內各項功能的直接執(zhí)行者。蛋白質組學的主要任務是定性和定量地鑒定某生物體組織或細胞內的全部蛋白質,并進一步對這些蛋白質的亞細胞定位、相互作用與翻譯后修飾進行系統(tǒng)分析。蛋白質翻譯后修飾在真核生物細胞內廣泛存在,對蛋白質結構和功能有重要影響。磷酸化修飾在信號轉導、代謝、增殖與分化等重要細胞進程中發(fā)揮著重要作用,是目前蛋白質組學研究最廣泛的修飾類型之一。串聯(lián)質譜技術的快速發(fā)展,為蛋白質組學研究提供了良好的

2、技術平臺。其中鳥槍法蛋白質組學策略以肽段為核心,可實現(xiàn)肽段、蛋白質及其翻譯后修飾的高通量快速鑒定,是目前蛋白質組學研究最主要的技術手段。
  蛋白質序列數(shù)據(jù)庫搜索是串聯(lián)質譜數(shù)據(jù)解析最主要的策略。然而受質譜數(shù)據(jù)復雜性影響,數(shù)據(jù)庫搜索鑒定結果中會存在相當比例的錯誤匹配。因此采用合理策略對數(shù)據(jù)庫搜索結果進行質量控制已成為數(shù)據(jù)解析的必要環(huán)節(jié)。正偽庫搜索是目前質量控制領域應用最廣泛的策略,可以估計不同來源質譜數(shù)據(jù)肽段鑒定的準確性。然而隨著蛋

3、白質組學數(shù)據(jù)規(guī)模的不斷提升,現(xiàn)有質量控制算法開始面臨更多的挑戰(zhàn):
  1.在肽段質控層面,多種數(shù)據(jù)搜索引擎被應用于大規(guī)模串聯(lián)質譜數(shù)據(jù)分析。質控算法需要處理不同搜索引擎的鑒定結果,進行合理整合,以保證肽段鑒定的準確性與靈敏度。
  2.在修飾質控層面,以磷酸化為代表的翻譯后修飾質控研究需要在保證肽段鑒定準確性基礎上,進一步保證修飾位點判定的準確性。隨著修飾組學數(shù)據(jù)集規(guī)模的不斷提升,現(xiàn)有質量控制算法不能有效保證大規(guī)模磷酸化肽段與

4、位點鑒定的準確性。
  3.受磷酸化修飾中性丟失、譜圖噪聲以及肽段序列潛在修飾位點臨近等因素影響,相當比例的高可信匹配修飾肽段不能實現(xiàn)修飾位點的精確判定,嚴重降低了質譜數(shù)據(jù)的利用效率。
  4.在蛋白質分析方面,采用多批次串聯(lián)質譜數(shù)據(jù)集累加策略,人類蛋白質編碼基因的鑒定覆蓋度可以達到60%甚至更高。采用合理質控策略整合不同來源的蛋白質組數(shù)據(jù)集,避免多批次鑒定結果累加引入的假陽性,保證最終蛋白質列表的準確性,已成為蛋白質組信息

5、學關注的重要問題。
  本文主要關注大規(guī)模串聯(lián)質譜數(shù)據(jù)鑒定結果的質量控制問題。在常規(guī)肽段質控研究基礎上,構建了高靈敏度、高準確性的修飾肽段與位點質控算法,進一步添加序列特征,提升了質譜數(shù)據(jù)利用效率。質控流程應用于人類染色體蛋白質組計劃與酵母大規(guī)模蛋白質組學數(shù)據(jù)分析,建立了蛋白質水平鑒定準確性評估機制,實現(xiàn)不同來源數(shù)據(jù)集的整合質控,為后續(xù)生物學分析提供高可信的數(shù)據(jù)支撐。
  首先在常規(guī)肽段質控研究方面,對已有的基于迭代支持向量

6、機整合多特征的質量控制策略進行改進。通過構建質控算法標準輸入格式、改進理論碎裂模型與特征計算策略,使得算法可以適用多種質譜儀器平臺數(shù)據(jù)與不同搜索引擎鑒定結果的質控分析。進一步建立常規(guī)肽段的多搜索引擎整合質控模型,利用不同搜索引擎性能的互補性,提升肽段鑒定靈敏度。
  在常規(guī)肽段質控研究基礎上,針對已有磷酸化修飾質量控制算法存在的問題以及大規(guī)模修飾組學數(shù)據(jù)分析的需要,開發(fā)了一套完整的磷酸化修飾數(shù)據(jù)集搜庫結果質控流程PhosphoDi

7、stiller,保證修飾肽段與位點鑒定的準確性與靈敏度。流程主要包括修飾肽段質控、修飾位點概率打分、修飾位點Motif特征重打分以及蛋白質水平統(tǒng)計展示模塊。
  修飾肽段質控與常規(guī)肽段質控的基本原理相同,但整合的特征有所不同。在常規(guī)肽段質控使用特征集合基礎上,修飾肽段質控算法加入了磷酸化修飾中性丟失相關特征,針對不同碎裂模式質譜數(shù)據(jù)進行特征篩選,保證肽段鑒定靈敏度。實現(xiàn)多餾分數(shù)據(jù)集整合質控,避免不同餾分數(shù)據(jù)質量差異引入的假陽性。大

8、規(guī)模標準肽段數(shù)據(jù)集評估顯示,算法估計的錯誤發(fā)現(xiàn)率不低于真實值,可以保證修飾肽段鑒定準確性。
  位點概率打分算法主要作用是評估不同潛在修飾位點理論碎裂譜圖與噪聲過濾之后實驗譜圖的相似關系,利用基于二項分布的數(shù)學模型,將匹配子離子數(shù)轉化成概率,評估位點鑒定的準確性。為降低噪聲對位點判定的影響,結合位點特征離子總數(shù)引入一個虛擬的潛在修飾位點,校正概率打分算法,避免位點錯誤發(fā)現(xiàn)率的低估。評估結果顯示,校正之后的位點概率打分算法估計的位點

9、錯誤發(fā)現(xiàn)率接近真實值,有效提升了修飾位點鑒定的準確性。
  之后針對那些概率打分算法不能精確定位的高可信修飾肽段匹配結果,在修飾位點概率打分基礎上,引入Motif序列特征,提升修飾位點判定的靈敏度。算法以貝葉斯模型為核心,采用概率打分中位點高可信的修飾肽段與非修飾肽段作為訓練集,分析每個激酶及其對應Motif在樣品中的活性,作為特征應用于位點概率打分模型,提升算法對于臨近潛在修飾位點的區(qū)分能力。該策略將不同譜圖鑒定信息相關聯(lián),降低

10、位點打分算法對單一二級譜數(shù)據(jù)質量的依賴。采用人類磷酸化富集數(shù)據(jù)集分析顯示,Motif特征打分與位點概率打分有很好的一致性,可以將位點鑒定規(guī)模提升15%左右。
  最后應用構建的質量控制體系對人類染色體蛋白質組計劃的大規(guī)模數(shù)據(jù)展開分析。針對不同儀器平臺、不同樣本來源的串聯(lián)質譜數(shù)據(jù)集,在肽段水平質量控制基礎上,進行蛋白質水平的整合質控,推出高可信的大規(guī)模整合蛋白質組數(shù)據(jù)集,為注釋人類基因組——補充蛋白質水平證據(jù)提供高可信的數(shù)據(jù)支撐。之

11、后以轉錄組豐度為背景,采用模擬策略對人類大規(guī)模蛋白質組數(shù)據(jù)飽和性進行分析,為后續(xù)染色體蛋白質組研究的實驗設計指明方向。除了人類蛋白質組數(shù)據(jù),我們的質量控制體系還應用于酵母深度覆蓋蛋白質組數(shù)據(jù)分析,進一步研究飽和狀態(tài)下組學數(shù)據(jù)特性與質控算法性能,為深入研究酵母基因組的表達特性提供高可信的數(shù)據(jù)支撐。
  綜上所述,本研究針對鳥槍法蛋白質組研究中大規(guī)模串聯(lián)質譜數(shù)據(jù)肽段與翻譯后修飾鑒定結果的質量控制問題,構建基于正偽庫搜索的質量控制流程P

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論