數(shù)學(xué)建模及數(shù)據(jù)挖掘方法在結(jié)直腸癌轉(zhuǎn)移機(jī)制中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、結(jié)直腸癌是最常見的惡性腫瘤之一,2007年全球結(jié)直腸癌新發(fā)病例數(shù)達(dá)近120萬,63萬人死于結(jié)直腸癌,結(jié)直腸癌死亡病例占所有癌癥的8%。結(jié)直腸癌轉(zhuǎn)移是結(jié)直腸癌患者最主要的死因。結(jié)直腸癌在早期階段相對容易治愈,到晚期階段(發(fā)生遠(yuǎn)處轉(zhuǎn)移)則往往預(yù)后較差。無侵襲轉(zhuǎn)移的結(jié)直腸患者的5年生存率可高達(dá)90%,有局部轉(zhuǎn)移的結(jié)直腸癌患者的5年生存率有68%,而帶有遠(yuǎn)處轉(zhuǎn)移的結(jié)直腸癌患者的5年生存率很低,僅有11%。據(jù)估計(jì),大約60%的結(jié)直腸癌患者最終會發(fā)

2、生轉(zhuǎn)移。
  結(jié)直腸癌的轉(zhuǎn)移,作為結(jié)直腸癌發(fā)生發(fā)展的后期過程,是一個(gè)復(fù)雜的、多步驟的生物學(xué)過程,目前開展的系統(tǒng)研究較少,機(jī)理尚不完全明了。在結(jié)直腸癌轉(zhuǎn)移過程中需要多個(gè)原癌基因和抑癌基因的參與。識別這些基因,有助于建立新的診斷方法,確定正確的術(shù)后治療方案,開發(fā)靶向治療藥物和提高對患者預(yù)后的判斷能力。
  染色體異常通常被認(rèn)為是癌細(xì)胞的一個(gè)重要特征,接近90%的腫瘤被觀察到不同類型的染色體異?,F(xiàn)象。當(dāng)前,各實(shí)驗(yàn)室和公共數(shù)據(jù)庫已積

3、累了大量的染色體變異數(shù)據(jù),使得數(shù)學(xué)建模成為可能。本文通過系統(tǒng)的回顧,總結(jié)了幾個(gè)實(shí)際應(yīng)用的數(shù)學(xué)模型:樹模型、貝葉斯網(wǎng)絡(luò)模型、多元分析模型。并對這幾個(gè)模型的優(yōu)缺點(diǎn)進(jìn)行了相互的比較,闡述了數(shù)學(xué)模型在腫瘤發(fā)生發(fā)展分子機(jī)制研究中的原理,方法和應(yīng)用??偟膩碚f,以上模型有不同的數(shù)學(xué)背景,它們有各自的優(yōu)勢和缺陷,在這種情況下,我們可以通過整合這些模型來獲得對腫瘤的發(fā)生發(fā)展分子機(jī)制的進(jìn)一步了解。通過這些模型的建立,將深化我們對于腫瘤發(fā)病機(jī)理的生物學(xué)認(rèn)識,

4、可以為我們后續(xù)的分子生物學(xué)實(shí)驗(yàn)提供新的線索。
  為了解釋結(jié)直腸癌發(fā)生發(fā)展的分子機(jī)制,1988年,Vogelstein等人提出了一個(gè)經(jīng)典的線性模型,該模型得到了學(xué)術(shù)界的廣泛認(rèn)可。然而,最近的研究表明了結(jié)直腸癌的腫瘤遺傳異質(zhì)性,挑戰(zhàn)了經(jīng)典的線性模型。結(jié)直腸癌的發(fā)生發(fā)展并非線性這么簡單,可能是一個(gè)多途徑非線性的過程。有鑒于此,Desper等人設(shè)計(jì)了腫瘤發(fā)病機(jī)制的樹模型,該模型旨在刻畫腫瘤的異質(zhì)性,界定腫瘤的染色體異常模式,確定染色體畸

5、變之間的關(guān)聯(lián)性。
  在本文的研究中,我們從9篇公開的文獻(xiàn)中收集了244例比較基因組雜交技術(shù)(CGH)數(shù)據(jù),構(gòu)建了結(jié)直腸癌發(fā)病機(jī)制的樹模型。識別了6個(gè)最常見的結(jié)直腸癌染色體位點(diǎn)擴(kuò)增區(qū)域,包括7p(37.0%),7q11-32(34.8%),8q(48.3%),13q(49.1%),20p(36.1%)和20q(50.4%)等;9個(gè)最重要的結(jié)直腸癌染色體位點(diǎn)缺失區(qū)域,包括1p13-36(30.9%),4p15(24.3%),4q33

6、-34(24.3%),8p12-23(50.9%),15q13-14(23.5%),15q24-25(24.3%),17p(34.8%),18p(36.5%)和18q(61.7%)等。通過對分支樹和距離樹的分析,發(fā)現(xiàn)散發(fā)性結(jié)直腸癌可被區(qū)分為兩個(gè)亞型:一個(gè)亞型以+20q事件為標(biāo)志,另一個(gè)以-8p12-23事件為標(biāo)志。構(gòu)建了基于樣本的分類樹,發(fā)現(xiàn)結(jié)直腸癌樣本可被分為-8p12-23事件和+20q事件標(biāo)志的子樹,驗(yàn)證了這一結(jié)論。
  結(jié)

7、合相關(guān)的臨床資料,對145例結(jié)直腸癌原發(fā)灶和85例轉(zhuǎn)移灶樣本中的以上15重要染色體改變位點(diǎn)進(jìn)行了統(tǒng)計(jì)學(xué)分析。將該結(jié)果與樹模型對照,提出了包括(-18q,-18p),(-8p12-23,-4p15,-4q33-34),(+20q,+20p),(+20q,+7p,+7q11-32)和+8q等五個(gè)分子事件子集有可能組成結(jié)直腸癌發(fā)生發(fā)展的轉(zhuǎn)移通路。基于15個(gè)重要染色體改變位點(diǎn)的分布模式,對結(jié)直腸癌原發(fā)灶和轉(zhuǎn)移灶樣本進(jìn)行分類,用特征消減算法,得到

8、-8p12-23和+20q是區(qū)分原發(fā)灶和轉(zhuǎn)移灶樣本的最重要事件。對-8p12-23和+20q事件在原發(fā)灶和轉(zhuǎn)移灶樣本的分布進(jìn)一步分析,發(fā)現(xiàn)92.9%(79/85)的結(jié)直腸癌轉(zhuǎn)移灶樣本發(fā)生-8p12-23或+20q事件,提示-8p12-23和+20q是結(jié)直腸癌轉(zhuǎn)移的可能標(biāo)志物。
  大量的研究表明,采用基因表達(dá)譜可有效地對各類腫瘤進(jìn)行分類,對于腫瘤的診斷和預(yù)后有重要意義?;蜻x擇是基于基因芯片數(shù)據(jù)分類中的關(guān)鍵技術(shù)。Guyon等人提出

9、了支持向量機(jī)遞歸基因消除算法(support vector machine recursivefeature elimination,SVM-RFE)。SVM-RFE基因選擇算法近年來吸引了眾多的研究者。在本文的研究中,我們結(jié)合t檢驗(yàn)統(tǒng)計(jì)量,提出了一種新的基于SVM-RFE的基因選擇算法(support vector machine and t statistics recursive feature elimination,SVM-T

10、-RFE)。
  在5個(gè)公開的基因芯片數(shù)據(jù)集中,比較了SVM-F-RFE和SVM-RFE算法的性能。在結(jié)直腸癌,淋巴瘤和前列腺癌數(shù)據(jù)集中,SVM-T-RFE算法與SVM-RFE算法預(yù)測精度相同(均為100%),但SVM-T-RFE算法獲得的最小基因集更小,其中結(jié)直腸癌數(shù)據(jù)集(n=5 vs n=9),淋巴瘤數(shù)據(jù)集(n=3 vs n=5)和前列腺癌數(shù)據(jù)集(n=5 vs n=6)。在白血病和髓母細(xì)胞瘤數(shù)據(jù)集中,由于SVM-RFE算法取得

11、了最高預(yù)測精度(均為100%),且最小基因集基因數(shù)目已經(jīng)很少,其中髓母細(xì)胞瘤(n=2),白血病(n=3),給另外算法留出的提高空間很小,SVM-T-RFE算法取得的預(yù)測精度相同(均為100%),最小基因數(shù)量相同。
  從GEO網(wǎng)站獲取了55例結(jié)直腸癌原發(fā)灶早期樣本(病理分期:0或1,n=55,組1),56例結(jié)直腸癌原發(fā)灶晚期樣本(病理分期:4,n=56,組2),以及34例結(jié)直腸癌轉(zhuǎn)移灶樣本(組3)。所有樣本的表達(dá)譜數(shù)據(jù)采用HG-U

12、133Plus2.0芯片(Affymetrix公司)檢測獲得,包含54,675條探針值。為了挖掘結(jié)直腸癌轉(zhuǎn)移相關(guān)基因,我們對結(jié)直腸癌原發(fā)灶早期樣本和晚期樣本分類,組1和組2樣本合并為PRI數(shù)據(jù)集.同樣,對結(jié)直腸癌原發(fā)灶晚期樣本和轉(zhuǎn)移灶樣本進(jìn)行分類,組2和組3樣本合并為META數(shù)據(jù)集。
  基因選擇算法輸出有序基因集,該基因集中的基因排序得分由高至低。選擇200個(gè)排序得分最高的探針作為基因子集。依次將200個(gè)探針減為1,并用留一交叉

13、驗(yàn)證法評估分類器的性能。在PRI數(shù)據(jù)集,SVM-RFE算法得到PRI-GS-1基因子集,PRI-GS-1基因子集采用最少12個(gè)探針獲得100%的預(yù)測精度。SVM-T-RFE算法得到PRI-GS-2基因子集,PRI-GS-2基因子集采用最少10個(gè)探針獲得100%的預(yù)測精度。在META數(shù)據(jù)集中,SVM-RFE算法得到META-GS-1基因子集,該子集采用10個(gè)探針得到100%的預(yù)測精度,SVM-T-RFE算法得到META-GS-2基因子集,

14、該基因子集采用6個(gè)探針得到100%的預(yù)測精度。就分類表現(xiàn)而言,SVM-T-RFE算法優(yōu)于SVM-RFE算法。
  PRI-GS-1基因子集包含20個(gè)表達(dá)差異顯著探針(P<0.05),而PRI-GS-2基因子集包含132個(gè)表達(dá)差異顯著探針。META-GS-1基因子集包含15個(gè)表達(dá)差異顯著探針(P<0.05),而META-GS-2基因子集包含29個(gè)表達(dá)差異顯著探針。相比SVM-RFE算法,SVM-T-RFE算法能挖掘更多的表達(dá)差異顯著

15、基因。
  下載Jorissen等人研究中發(fā)表的基因表達(dá)譜數(shù)據(jù)。該數(shù)據(jù)集包含364個(gè)結(jié)直腸癌樣本,其中86例Dukes A期,94例Dukes B期,91例Dukes C期和93例DukesD期。樣本均采用HG-U133Plus2.0芯片(Affymetrix公司)檢測,包含54,675條探針值。對Dukes A和Dukes D樣本分類,SVM-T-RFE算法采用16個(gè)探針獲得100%預(yù)測精度,少于SVM-RFE算法的21個(gè)探針。

16、采用SVM-T-RFE算法獲得的16個(gè)探針訓(xùn)練模型,對Dukes B期樣本分類,將樣本分為預(yù)后好(stage A-like)和預(yù)后差(stage D-like)。通過Kaplan-Meier生存分析,發(fā)現(xiàn)stage A-like的病人生存預(yù)期好于stage D-like病人(log-rank P=.019)。證實(shí)了16條探針與Dukes B期病人的預(yù)后相關(guān)。
  總之,SVM-T-RFE算法優(yōu)于現(xiàn)有的SVM-RFE算法:首先,使用

17、同樣數(shù)量或更小數(shù)量的基因,獲得了同等的預(yù)測準(zhǔn)確度。其次,在選擇的基因子集中,有更多的差異表達(dá)基因。通過我們的實(shí)驗(yàn),發(fā)現(xiàn)基因芯片技術(shù)具有很強(qiáng)的分類預(yù)測能力.在選擇的基因子集中,部分基因已知與結(jié)直腸癌發(fā)生發(fā)展或腫瘤轉(zhuǎn)移相關(guān),另外一些基因則需要進(jìn)一步的實(shí)驗(yàn)證實(shí)。
  近年來由于分子生物學(xué)實(shí)驗(yàn)技術(shù)突飛猛進(jìn)的發(fā)展,產(chǎn)生了包括基因組、轉(zhuǎn)錄組和蛋白質(zhì)組各種檢測平臺得到的大量數(shù)據(jù),以往的研究往往只是局限于來自某個(gè)平臺的某組數(shù)據(jù),很少將各種平臺數(shù)據(jù)

18、進(jìn)行整合研究。DNA拷貝數(shù)的變化會對原癌基因和抑癌基因產(chǎn)生影響。普遍認(rèn)為,染色體擴(kuò)增區(qū)域存在原癌基因,而抑癌基因很可能位于染色體的缺失片段。
  在15個(gè)重要染色體變異位點(diǎn),結(jié)合基因芯片數(shù)據(jù),采取集成策略挖掘結(jié)直腸癌轉(zhuǎn)移相關(guān)基因。在PRI數(shù)據(jù)集中,發(fā)現(xiàn)基因DNA拷貝數(shù)的增加或缺失對表達(dá)值的上調(diào)或下調(diào)有著直接的影響。在PRI數(shù)據(jù)集中,獲得重疊基因集的探針161條,應(yīng)用SVM-T-RFE基因選擇算法選擇特征基因,得到了最小基因數(shù)量(n

19、=14)且分類準(zhǔn)確度最高(100%)的最小基因集。在META數(shù)據(jù)集中,重疊基因集含有探針70條,應(yīng)用SVM-T-RFE算法選擇特征基因,得到了最小基因數(shù)量(n=14)且分類準(zhǔn)確度最高(100%)的最小基因集。研究顯示,整合分析策略是挖掘腫瘤相關(guān)基因的有效策略。
  通過上述的研究,得出以下結(jié)論:
  1.采用244例比較基因組雜交技術(shù)數(shù)據(jù),構(gòu)建了結(jié)直腸癌發(fā)病機(jī)制的樹模型。識別了15個(gè)最常見的結(jié)直腸癌染色體變異位點(diǎn)。散發(fā)性結(jié)直

20、腸癌可被區(qū)分為兩個(gè)亞型:一個(gè)亞型由+20q事件標(biāo)志,另一個(gè)由-8p12-23事件標(biāo)志。
  2.-8p12-23或+20q是結(jié)直腸癌轉(zhuǎn)移的標(biāo)志物。包括(-18q,-18p),(-8p12-23,-4p15,-4q33-34),(+20q,+20p),(+20q,+7p,+7q11-32)和+8q等五個(gè)分子事件子集有可能組成結(jié)直腸癌發(fā)生發(fā)展的轉(zhuǎn)移通路。
  3.提出了SVM-T-RFE算法,該算法優(yōu)于SVM-RFE算法。使用同

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論