2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩99頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因芯片技術(shù)使得我們可以同時(shí)觀測(cè)成千上萬(wàn)個(gè)基因的表達(dá)。這一技術(shù)一經(jīng)問(wèn)世便得到生物學(xué)和醫(yī)學(xué)領(lǐng)域的廣泛應(yīng)用。計(jì)算生物學(xué)和生物信息學(xué)中眾多新算法被提出以分析芯片實(shí)驗(yàn)產(chǎn)生的海量數(shù)據(jù)。但多數(shù)方法僅僅只利用基因表達(dá)量這一個(gè)屬性。基因自身的其它屬性,如功能相似性、所屬的生物學(xué)通路和基因產(chǎn)物的相互作用,在這些算法中都被忽略了。為了更好地利用基因的其它屬性來(lái)輔助芯片數(shù)據(jù)分析,本研究將基因注釋信息這一重要資源引入算法設(shè)計(jì)和評(píng)估,工作著眼于差異基因選擇和基因

2、聚類(lèi)分析這兩個(gè)最重要的方面。
   尋找基因表達(dá)中與特定生物條件相關(guān)的基因是最常見(jiàn)的實(shí)驗(yàn)設(shè)計(jì),這一任務(wù)卻充滿了挑戰(zhàn)性。多數(shù)的基因選擇算法都受到表達(dá)數(shù)據(jù)的高維度和高噪聲考驗(yàn)。我們對(duì)比了五種常用的基因選擇算法,包括倍數(shù)法(fold-change,F(xiàn)C)、t-檢驗(yàn)法(t-test)、基因芯片顯著性分析算法(significance analysis of microarray, SAM)、Baldi經(jīng)驗(yàn)貝葉斯算法(Baldi)和基因芯

3、片線性模型算法(linear models for microarray analysis,Limma)。結(jié)果證實(shí)Limma在多數(shù)情況下具有較好的性能。同時(shí)我們也指出了Limma算法的不足。它視每個(gè)基因?yàn)楠?dú)立表達(dá)、互不影響,忽略了基因和基因之間的相互作用。這一相互作用往往是多基因疾病尤其是癌癥的致病機(jī)理。針對(duì)這一點(diǎn),我們提出一種新的算法Deam。Deam保持了Limma中先驗(yàn)分布的模型,但改進(jìn)了超參數(shù)的估計(jì)方法。Deam引入Gene O

4、ntology的注釋信息,通過(guò)注釋的語(yǔ)義相似性來(lái)衡量的基因與基因之間的功能相似性。算法中依次為每個(gè)基因?qū)ふ夜δ芟嗨频幕蛉后w,并用群體的表達(dá)信息來(lái)加強(qiáng)該基因方差的估計(jì)。三組基因芯片實(shí)驗(yàn)數(shù)據(jù)集和一組模擬數(shù)據(jù)證實(shí),在多數(shù)情況下Deam相對(duì)Limma具有更好的性能。隨著現(xiàn)有衡量基因相似性算法的改進(jìn)和新算法的提出,Deam具有更大的性能提升空間。我們給出了Deam算法的R語(yǔ)言程序?qū)崿F(xiàn)。為了方便沒(méi)有統(tǒng)計(jì)和編程背景的研究者使用,還建立了該算法基于R

5、Apache模塊的Web前端。
   基因芯片數(shù)據(jù)分析的另一個(gè)常用手段是聚類(lèi)分析。聚類(lèi)分析相對(duì)于基因選擇更具開(kāi)放性和不確定性。選擇怎樣的距離度量基因,在這些度量基礎(chǔ)上使用什么聚類(lèi)算法,如何評(píng)價(jià)聚類(lèi)效果的優(yōu)劣,這些問(wèn)題一直是眾說(shuō)紛紜。我們首先提出一個(gè)結(jié)合Kyoto Encyclopedia of Genes and Genomes(KEGG)生物學(xué)通路數(shù)據(jù)信息來(lái)衡量聚類(lèi)性能的外部評(píng)價(jià)指標(biāo)PS。在證明了該指標(biāo)的可靠性之后,我們以它為

6、標(biāo)準(zhǔn)比較了常用的六種聚類(lèi)算法,包括四種層次聚類(lèi)算法,k-重心算法和自組織圖算法。結(jié)果證實(shí)Ward層次聚類(lèi)和k-重心聚類(lèi)具有較好效果。另一方面,在聚類(lèi)的相關(guān)工作中主成分分析經(jīng)常被用于縮減基因表達(dá)數(shù)據(jù)的維度。我們?cè)噲D分析主成分是否可以更好地抓住類(lèi)和類(lèi)之間的結(jié)構(gòu)信息。仍然使用指標(biāo)PS,我們比較了對(duì)原有數(shù)據(jù)直接聚類(lèi)和對(duì)它們的主成分集合聚類(lèi)的效果后,得出結(jié)論基于主成分集合的聚類(lèi)并不一定能提高聚類(lèi)性能。因此我們建議謹(jǐn)慎使用主成分的集合來(lái)代替原有數(shù)據(jù)

7、進(jìn)行基因芯片聚類(lèi)分析。
   本研究的主要?jiǎng)?chuàng)新之處在于:
   1)提出了一個(gè)新的基因選擇算法Deam,結(jié)合基因的注釋信息對(duì)表達(dá)數(shù)據(jù)先驗(yàn)分布進(jìn)行估計(jì)。實(shí)驗(yàn)結(jié)果證明Deam比現(xiàn)有算法具有更好的性能和更大的提升空間。
   2)提出了一種新的基因表達(dá)模擬數(shù)據(jù)生成方法。以往的模擬數(shù)據(jù)多是通過(guò)來(lái)自不同均值的一元正態(tài)分布描述表達(dá)差異性,而我們提出的方法使用多元正態(tài)分布生成模擬數(shù)據(jù),分布參數(shù)中的協(xié)方差矩陣體現(xiàn)了基因和基因之間

8、的關(guān)聯(lián)性。
   3)給出了一種高效的方法,利用人類(lèi)全基因組的基因相似性矩陣生成針對(duì)特定芯片的基因探針相似性矩陣。將數(shù)據(jù)維度從n×n縮減為n×d0',其中n>>d0'。
   4)實(shí)現(xiàn)了Deam算法在Web上的應(yīng)用。
   5)提出了一種新的利用生物學(xué)通路資源衡量聚類(lèi)算法性能的外部評(píng)價(jià)指標(biāo)PS。聚類(lèi)的性能體現(xiàn)在一類(lèi)中來(lái)自同一通路的基因的聚集性。PS的有效性被實(shí)驗(yàn)結(jié)果證實(shí)。
   6)利用提出的外部評(píng)價(jià)指標(biāo)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論