基因探針富集分析(gsea)_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基因探針富集分析(GSEA)翻譯心得(例子部分除外)2011010416:24:44|分類:【主】微陣列|標(biāo)簽:探針基因gsea富集表型|字號訂閱作者:為為作者:為為基因探針富集分析:通過基礎(chǔ)知識(shí)來揭示基因組表達(dá)數(shù)據(jù)的一種方法基因探針富集分析:通過基礎(chǔ)知識(shí)來揭示基因組表達(dá)數(shù)據(jù)的一種方法盡管通過RNA表達(dá)分析基因組在生物醫(yī)學(xué)研究中已經(jīng)成為一種直接途徑,但從這些信息中能顯示出生物學(xué)的重大發(fā)現(xiàn)(insight)現(xiàn)在仍然是一個(gè)大問題(2005)

2、。在這里,我們將講述一個(gè)給力的分析軟件(GSEA:GeneSetEnrichmentAnalysis基因探針富集分析)是如何揭示基因芯片所表達(dá)的數(shù)據(jù)關(guān)系。這個(gè)分析軟件是源于一個(gè)強(qiáng)力的聚集基因理論——有很多基因成組具有共同的生理功能,或染色體位置,或調(diào)節(jié)位點(diǎn)。我們將討論GSEA如何在癌癥晚期(包括白血病和肺癌)的基因探針集大顯身手。尤其是在單獨(dú)分析兩個(gè)獨(dú)立研究組的肺癌病人基因組時(shí),能發(fā)現(xiàn)不同基因組的細(xì)微類似之處的能力。GSEA的初始數(shù)據(jù)包

3、已經(jīng)含有了1325有生物學(xué)意義的探針集,并在很多免費(fèi)的軟件包中可用了。ByEricS.LerAugust22005當(dāng)今通過DNA微陣列分析基因表達(dá)已成為基因研究的主流。獲得基因表達(dá)數(shù)據(jù)已不再是困難與挑戰(zhàn),但是從獲得的數(shù)據(jù)(基因表達(dá))中揭示出生物的意義的原理和方法才是研究的終極目的。在一個(gè)典型實(shí)驗(yàn)中,mRNA的表達(dá)文件(無數(shù)基因)大部分(既是概率也是數(shù)量)都會(huì)被分為一到兩個(gè)大類,對于癌癥基因來說相對(其他生物意義(如疾?。┑拿舾?。根據(jù)這

4、些基因的不同表達(dá)值可以排成一個(gè)序列(按大小順序),暫且成為L。現(xiàn)在的最大問題就是找出其中的意義所在。一個(gè)普遍的方法是把注意力放在L的頂部和底部的少數(shù)基因上(因?yàn)槟荏w現(xiàn)最大的差別),來辨別其中的跡象以揭示生物意義的線索。但這種一般方法有很多主要的限制。(i)在校正多重假設(shè)實(shí)驗(yàn)后,沒有任何單獨(dú)基因顯示出有統(tǒng)計(jì)學(xué)意義的臨界值,這是因?yàn)橄嚓P(guān)的生物學(xué)意義誤差值被微陣列技術(shù)處理中的相關(guān)噪聲掩蓋了。步驟1:計(jì)算富集積分(EnrichmentSce,E

5、S)我們計(jì)算出一個(gè)富集積分值(ES),其為S的基因超表達(dá)在整個(gè)L序列的頭部和尾部的多少。積分值的計(jì)算是從L序列的頭部開始往尾部走,每當(dāng)遇到一個(gè)基因是在S上就加分,沒有則減分。加分的分值大小根據(jù)基因表型相關(guān)系數(shù)大小。富集分值是從沒有遇到的時(shí)候開始計(jì)算直到最大值誤差值;而且它還與KStest統(tǒng)計(jì)加權(quán)值有關(guān)。步驟2:估計(jì)ES的顯著程度我們估計(jì)統(tǒng)計(jì)學(xué)上有意義部分的ES值(名義上的P值),是通過一個(gè)經(jīng)驗(yàn)基礎(chǔ)表型方法——置換檢驗(yàn),保存基因表達(dá)數(shù)據(jù)的

6、結(jié)構(gòu)的復(fù)雜相關(guān)系數(shù)。明確地,我們置換不同表型標(biāo)簽下的數(shù)據(jù),并且再一次計(jì)算ES值,使之形成一個(gè)新的ES分布(假分布)。從經(jīng)驗(yàn)上說,交換之后,ES的P值相對于新的ES值(統(tǒng)計(jì)分布)來說若是顯著的變化,則有理由說明此基因集是有一定的生物學(xué)意義的。步驟3:多重假設(shè)檢驗(yàn)的調(diào)整當(dāng)評估了所有基因探針數(shù)據(jù)之后,我們會(huì)用多重假設(shè)檢驗(yàn)來評價(jià)它們的顯著性。我們首先把每一個(gè)探針的ES值做根據(jù)探針多少的一個(gè)標(biāo)準(zhǔn)化,生成一個(gè)標(biāo)準(zhǔn)化富集積分值(NES)。之后我們計(jì)算

7、出假陽性發(fā)現(xiàn)率(FDR),并以此劃出假陽性部分對應(yīng)每一個(gè)NES值。FDR是評估一個(gè)NES表達(dá)值中所發(fā)現(xiàn)的假陽性可能性大??;它是由NES的觀測值和零分布時(shí)比較得出的。以上幾步的實(shí)行細(xì)節(jié)在附錄附錄里面有更詳細(xì)的說明。(在相關(guān)出刊物和PNAS網(wǎng)頁上也有支持文件。)我們注意到GSEA方法中很重要的幾步跟初始版本很不一樣了。在原始版本中,統(tǒng)計(jì)表達(dá)值總和的時(shí)候,我們用的是平均權(quán)重的方法,這樣探針會(huì)被認(rèn)為富集在列表中間,則使高分段集中在列表中部。這樣

8、子的探針分布不能代表出跟表型相關(guān)的生物學(xué)意義。所以我們改變權(quán)重加權(quán)方式為與表型的相關(guān)性。這樣就會(huì)發(fā)現(xiàn),ES值會(huì)偏差于一兩種表型上了。因此我們評估顯著性以此來分離陽性與陰性功能基因集。我們初始運(yùn)用了一個(gè)不同以往的交換方法,叫做FWER,來糾正多重假設(shè)檢驗(yàn)。FWER是一種保守的修改方法,所以會(huì)保證沒有一個(gè)假陽性的基因探針值。但是這種標(biāo)準(zhǔn)實(shí)在太過保守以至于很多程序產(chǎn)生了沒有顯著的統(tǒng)計(jì)結(jié)果。因?yàn)槲覀兊某踔允钱a(chǎn)生一個(gè)假設(shè)能夠成立(譯者注:霸王硬上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論