定量蛋白質組算法研究與應用.pdf_第1頁
已閱讀1頁,還剩134頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、自Marc Wilkins于1994年提出首次“proteome”(蛋白質組)以來,蛋白質組學作為繼基因組學之后的一個研究熱點領域,已經(jīng)走過了二十個年頭。期間,隨著質譜儀器的不斷更新,以及相應實驗技術的不斷完善,蛋白質組學呈現(xiàn)出高速發(fā)展的趨勢。質譜技術憑借其高通量、高靈敏性等優(yōu)點已經(jīng)成為了蛋白質組研究的主流技術。質譜數(shù)據(jù)解析也成為蛋白質組信息學的主要研究內容之一。
  然而,早期的質譜儀器精度較低,數(shù)據(jù)往往包含較多的噪聲,譜圖質量

2、較差。因此研究人員首先要解決定性鑒定的相關問題,比如如何找到譜圖對應的肽段序列、鑒定結果中的假陽性如何過濾即質量控制等多方面的問題。值得欣慰的是,經(jīng)過多年來科研人員的共同努力,一方面質譜儀器的精度和分辨率得到了大幅度提升,質譜數(shù)據(jù)質量越來越高;另一方面,相應的分析方法和工具也日趨完善,這些基本的鑒定問題已經(jīng)得到了較好的解決。近年來,蛋白質組學的研究重點已經(jīng)逐漸從之前的定性研究轉移到了定量研究。定量蛋白質組學已經(jīng)成為組學領域的研究熱點之一

3、,它既包含了相同蛋白質在不同狀態(tài)中的豐度變化研究,又包含了不同蛋白質在同一狀態(tài)中的絕對定量研究。它的發(fā)展對蛋白質相互作用、疾病相關的生物標志物以及蛋白質豐度規(guī)律變化等多方面的研究都具有重大意義。
  目前,定量蛋白質組按照是否研究蛋白質的絕對豐度,又可以分為相對定量與絕對定量兩類。在相對定量研究中,按照是否需要穩(wěn)定同位素標記又可以分為有標定量與無標定量。針對不同的類別,眾多的實驗策略應運而生,但是相應的計算方法研究卻稍顯滯后。一方

4、面,質譜數(shù)據(jù)規(guī)模增長迅速,數(shù)據(jù)復雜度不斷增加,對定量分析方法的準確性、靈敏性以及分析效率的要求越來越高;另一方面,質譜數(shù)據(jù)的精度也在逐漸提高,如何有效結合定量實驗策略,充分挖掘高精度質譜數(shù)據(jù)中的定量信息,這將是一個挑戰(zhàn)。
  針對上述問題,本研究主要關注于定量蛋白質組學的定量算法研究以及定量軟件和工具的研發(fā)與應用,為后續(xù)定量蛋白質組學的發(fā)展提供方法學支撐。本文具體研究內容包括以下四個方面:
  (1)考慮了定量可靠性的蛋白質

5、相對定量算法研究。在譜圖層面,我們提出了動態(tài)選峰誤差算法,提高了定量結果的靈敏性。在肽段層面,我們首次提出了定量可靠性的概念,定義了三種定量可靠性過濾指標以及兩種定量可靠性打分。定量可靠性過濾指標能夠減少肽段定量結果中的假陽性,保證了結果的準確性。定量可靠性打分則可以為后續(xù)分析提供定量可靠性判別依據(jù)。在蛋白質層面,我們實現(xiàn)了三種孤點肽段排除算法,有效提升了蛋白質定量的準確性。最后,采用上述定量算法,我們針對穩(wěn)定同位素標記的數(shù)據(jù)設計并開發(fā)

6、了自動化有標定量工具SILVER,并在一組大規(guī)模復雜數(shù)據(jù)集以及兩組不同標記比例的標準數(shù)據(jù)集上驗證了SILVER的準確性、靈敏性和高效性。
  (2)基于肽段定量效率指標的蛋白質絕對定量算法研究。首先,我們第一次提出并定義了肽段定量效率指標,即一個肽段能被質譜檢測并定量的效率,用以表征肽段實際豐度值與肽段質譜信號強度之間的關系。然后,我們收集和整理了587種肽段各方面的性質特征,采用半監(jiān)督式學習的計算模型,構建了樣本特異性的肽段定量

7、效率指標。最后,我們將肽段定量效率指標用于蛋白質絕對定量中,并在三組不同復雜度的數(shù)據(jù)集上和幾種常用絕對定量方法進行了比較,結果表明基于肽段定量效率的絕對定量算法能夠顯著降低一個蛋白質對應不同肽段的定量偏差以及重復實驗中定量值的波動,在肽段和蛋白質層面都具有更好的定量準確性和定量可重復性,在高復雜度的樣本中效果更加明顯。
  (3)綜合性、并行化定量軟件包PANDA的設計與開發(fā)。在蛋白質定量算法研究的基礎上,我們設計并開發(fā)了包含各類

8、常用定量方法的綜合性、并行化定量軟件包PANDA。其中,我們構建了譜圖、肽段和蛋白質三個層面的底層定量算法庫,囊括了無標定量、母離子標記定量、子離子標記定量以及絕對定量的分析流程。同時,我們設計了多核多線程的并行化架構,實現(xiàn)了多種定量算法的并行化和優(yōu)化,能夠完成多個餾分之間以及單個餾分內部的多重并行化計算,極大地提高了計算效率。除此之外,PANDA還具有結果展示與統(tǒng)計分析功能,能夠進行定量結果的列表展示與各種圖形展示。最后,PANDA包

9、含了差異蛋白質篩選的基本流程,具有缺失值插補、統(tǒng)計檢驗以及層次聚類、主成分分析等多種功能。
  (4)建立大規(guī)模蛋白質組定量數(shù)據(jù)分析流程并在實際分析中應用。近年來,中國人類蛋白質組計劃以及中國人類染色體蛋白質組計劃陸續(xù)啟動,產出了大量來自于不同實驗室和不同質譜平臺的蛋白質組數(shù)據(jù)。為了統(tǒng)一分析、整合這些不同來源的質譜數(shù)據(jù),我們在前期定量方法研究和工具開發(fā)的基礎上,建立了針對大規(guī)模蛋白質組數(shù)據(jù)的定量分析與歸一化流程,克服了不同實驗操作

10、、不同質譜儀器的差別,連續(xù)兩年完成了中國人類染色體蛋白質組計劃中全部實驗室產出的蛋白質組數(shù)據(jù)定量分析任務,提供了準確的定量結果,為后續(xù)分析奠定了基礎。
  綜上所述,本研究緊密結合最新的定量蛋白質組學實驗技術和儀器的發(fā)展,著眼于質譜數(shù)據(jù)中定量信息的深度解析和挖掘,重點研究了定量算法,并針對不同的定量實驗策略設計、開發(fā)了相應的定量軟件和工具。這些研究成果能夠直接應用于蛋白質組學的定量研究中,目前已經(jīng)在中國人類染色體蛋白質組計劃等多批

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論