基于注釋信息的基因芯片數(shù)據(jù)分析.pdf_第1頁
已閱讀1頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基因芯片技術(shù)使得我們可以同時觀測成千上萬個基因的表達(dá)。這一技術(shù)一經(jīng)問世便得到生物學(xué)和醫(yī)學(xué)領(lǐng)域的廣泛應(yīng)用。計算生物學(xué)和生物信息學(xué)中眾多新算法被提出以分析芯片實驗產(chǎn)生的海量數(shù)據(jù)。但多數(shù)方法僅僅只利用基因表達(dá)量這一個屬性?;蜃陨淼钠渌鼘傩?,如功能相似性、所屬的生物學(xué)通路和基因產(chǎn)物的相互作用,在這些算法中都被忽略了。為了更好地利用基因的其它屬性來輔助芯片數(shù)據(jù)分析,本研究將基因注釋信息這一重要資源引入算法設(shè)計和評估,工作著眼于差異基因選擇和基因

2、聚類分析這兩個最重要的方面。
   尋找基因表達(dá)中與特定生物條件相關(guān)的基因是最常見的實驗設(shè)計,這一任務(wù)卻充滿了挑戰(zhàn)性。多數(shù)的基因選擇算法都受到表達(dá)數(shù)據(jù)的高維度和高噪聲考驗。我們對比了五種常用的基因選擇算法,包括倍數(shù)法(fold-change,F(xiàn)C)、t-檢驗法(t-test)、基因芯片顯著性分析算法(significance analysis of microarray, SAM)、Baldi經(jīng)驗貝葉斯算法(Baldi)和基因芯

3、片線性模型算法(linear models for microarray analysis,Limma)。結(jié)果證實Limma在多數(shù)情況下具有較好的性能。同時我們也指出了Limma算法的不足。它視每個基因為獨(dú)立表達(dá)、互不影響,忽略了基因和基因之間的相互作用。這一相互作用往往是多基因疾病尤其是癌癥的致病機(jī)理。針對這一點(diǎn),我們提出一種新的算法Deam。Deam保持了Limma中先驗分布的模型,但改進(jìn)了超參數(shù)的估計方法。Deam引入Gene O

4、ntology的注釋信息,通過注釋的語義相似性來衡量的基因與基因之間的功能相似性。算法中依次為每個基因?qū)ふ夜δ芟嗨频幕蛉后w,并用群體的表達(dá)信息來加強(qiáng)該基因方差的估計。三組基因芯片實驗數(shù)據(jù)集和一組模擬數(shù)據(jù)證實,在多數(shù)情況下Deam相對Limma具有更好的性能。隨著現(xiàn)有衡量基因相似性算法的改進(jìn)和新算法的提出,Deam具有更大的性能提升空間。我們給出了Deam算法的R語言程序?qū)崿F(xiàn)。為了方便沒有統(tǒng)計和編程背景的研究者使用,還建立了該算法基于R

5、Apache模塊的Web前端。
   基因芯片數(shù)據(jù)分析的另一個常用手段是聚類分析。聚類分析相對于基因選擇更具開放性和不確定性。選擇怎樣的距離度量基因,在這些度量基礎(chǔ)上使用什么聚類算法,如何評價聚類效果的優(yōu)劣,這些問題一直是眾說紛紜。我們首先提出一個結(jié)合Kyoto Encyclopedia of Genes and Genomes(KEGG)生物學(xué)通路數(shù)據(jù)信息來衡量聚類性能的外部評價指標(biāo)PS。在證明了該指標(biāo)的可靠性之后,我們以它為

6、標(biāo)準(zhǔn)比較了常用的六種聚類算法,包括四種層次聚類算法,k-重心算法和自組織圖算法。結(jié)果證實Ward層次聚類和k-重心聚類具有較好效果。另一方面,在聚類的相關(guān)工作中主成分分析經(jīng)常被用于縮減基因表達(dá)數(shù)據(jù)的維度。我們試圖分析主成分是否可以更好地抓住類和類之間的結(jié)構(gòu)信息。仍然使用指標(biāo)PS,我們比較了對原有數(shù)據(jù)直接聚類和對它們的主成分集合聚類的效果后,得出結(jié)論基于主成分集合的聚類并不一定能提高聚類性能。因此我們建議謹(jǐn)慎使用主成分的集合來代替原有數(shù)據(jù)

7、進(jìn)行基因芯片聚類分析。
   本研究的主要創(chuàng)新之處在于:
   1)提出了一個新的基因選擇算法Deam,結(jié)合基因的注釋信息對表達(dá)數(shù)據(jù)先驗分布進(jìn)行估計。實驗結(jié)果證明Deam比現(xiàn)有算法具有更好的性能和更大的提升空間。
   2)提出了一種新的基因表達(dá)模擬數(shù)據(jù)生成方法。以往的模擬數(shù)據(jù)多是通過來自不同均值的一元正態(tài)分布描述表達(dá)差異性,而我們提出的方法使用多元正態(tài)分布生成模擬數(shù)據(jù),分布參數(shù)中的協(xié)方差矩陣體現(xiàn)了基因和基因之間

8、的關(guān)聯(lián)性。
   3)給出了一種高效的方法,利用人類全基因組的基因相似性矩陣生成針對特定芯片的基因探針相似性矩陣。將數(shù)據(jù)維度從n×n縮減為n×d0',其中n>>d0'。
   4)實現(xiàn)了Deam算法在Web上的應(yīng)用。
   5)提出了一種新的利用生物學(xué)通路資源衡量聚類算法性能的外部評價指標(biāo)PS。聚類的性能體現(xiàn)在一類中來自同一通路的基因的聚集性。PS的有效性被實驗結(jié)果證實。
   6)利用提出的外部評價指標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論