定量結(jié)構(gòu)活性相關(guān)性研究與高維微陣列數(shù)據(jù)分析中的化學(xué)計(jì)量學(xué)新算法.pdf_第1頁(yè)
已閱讀1頁(yè),還剩145頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本文作者對(duì)定量結(jié)構(gòu)活性相關(guān)性研究以及高維微陣列數(shù)據(jù)分析領(lǐng)域中的一些難點(diǎn)問題進(jìn)行深入研究后,提出了多種新型的化學(xué)計(jì)量學(xué)算法,并應(yīng)用于實(shí)際體系的研究。本論文的內(nèi)容主要涉及到以下幾個(gè)方面:
   1.提出了一種基于徑向基函數(shù)網(wǎng)絡(luò)轉(zhuǎn)換的全局最優(yōu)的非線性支持向量機(jī)算法。該算法通過(guò)一個(gè)只有一個(gè)輸入層和一個(gè)隱含層的徑向基函數(shù)網(wǎng)絡(luò)實(shí)現(xiàn)原始變量到特征空間的非線性變換。該變換本質(zhì)上是實(shí)現(xiàn)了原始變量的核變換。用粒子群優(yōu)化算法協(xié)同優(yōu)化所有參數(shù)包括核中心

2、、核寬度以及支持向量機(jī)中系數(shù)使得按照全模型的性能作出靈活的核變換成為可能。對(duì)艾滋病毒I型逆轉(zhuǎn)錄酶抑制劑與1-苯基苯并咪唑活性的定量構(gòu)效關(guān)系研究結(jié)果表明,所提出的算法性能相當(dāng)穩(wěn)定,且要優(yōu)于反向傳播神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)的非線性支持向量機(jī)。
   2.為克服傳統(tǒng)方法構(gòu)建的分類與回歸樹中存在的過(guò)擬合和局部最優(yōu)等問題,引入了改進(jìn)的離散粒子群算法來(lái)自適應(yīng)構(gòu)建分類與回歸樹,即同時(shí)搜索每個(gè)分枝節(jié)點(diǎn)中最優(yōu)的分枝變量和分枝值以及合適的樹結(jié)構(gòu)(即:樹的復(fù)

3、雜性)。該方法集樹的生長(zhǎng)、修剪于一體,并不需要選擇子樹。另外,我們還提出了一個(gè)新的目標(biāo)函數(shù)來(lái)確定合適的樹的復(fù)雜性和最優(yōu)的分枝變量及相應(yīng)的分枝值。將所提出的分類與回歸樹構(gòu)建方法用于預(yù)測(cè)類黃酮衍生物的生物活性和表皮生長(zhǎng)因子受體酪氨酸酶抑制劑的抑制活性,結(jié)果表明,改進(jìn)的離散粒子群算法為一種有效的分類與回歸樹構(gòu)建方法,能快速地收斂到最優(yōu)解,所構(gòu)建的分類與回歸樹能在很大程度上避免了過(guò)擬合問題的產(chǎn)生,由改進(jìn)的離散粒子群算法構(gòu)建的分類與回歸樹要優(yōu)于傳

4、統(tǒng)方法所構(gòu)建的樹。
   3.在定量構(gòu)效關(guān)系研究中,任何人為對(duì)分子結(jié)構(gòu)描述變量的拋棄將帶來(lái)有用結(jié)構(gòu)信息的損失。為了獲得更加靈活的變量選擇和建模,以粒子群優(yōu)化算法為基礎(chǔ),提出了一種變量加權(quán)版本的支持向量機(jī)用于定量結(jié)構(gòu)活性相關(guān)性研究。變量加權(quán)的策略旨在不人為刪除和保留變量,允許變量的非負(fù)加權(quán)。采用粒子群優(yōu)化算法實(shí)現(xiàn)非負(fù)的變量加權(quán)實(shí)質(zhì)上可視為對(duì)分子結(jié)構(gòu)描述變量的某種最優(yōu)化重新刻度。若使用粒子群優(yōu)化算法同時(shí)優(yōu)化模型其它參數(shù)則使得變量加權(quán)

5、的支持向量機(jī)變成一個(gè)無(wú)需人為調(diào)節(jié)參數(shù)的全自動(dòng)建模方法,因此將比傳統(tǒng)的變量選擇及建模方法有更多的靈活性,且更智能化。對(duì)糖原合成酶激酶-3α抑制劑以及碳酸酐酶Ⅱ抑制劑的研究表明,變量加權(quán)支持向量機(jī)方法確實(shí)能在定量構(gòu)效關(guān)系模型中實(shí)現(xiàn)對(duì)變量的最優(yōu)化刻度,保留更多的結(jié)構(gòu)信息,從而幫助得到訓(xùn)練和預(yù)測(cè)能力更優(yōu)且智能化的回歸模型。
   4.微陣列技術(shù)是從基因尺度進(jìn)行疾病探究和診斷的關(guān)鍵。為實(shí)現(xiàn)高維微陣列數(shù)據(jù)分析中的基因選擇,提出了一種基于不同

6、類別間概率密度函數(shù)相似性的變量選擇方法用于疾病重要標(biāo)識(shí)基因的鑒定。與多類問題中常用的變量選擇方法相比,該方法并不要求所選基因能同時(shí)對(duì)多數(shù)類別都有很好的判別能力,而是為每個(gè)感興趣的類別選擇出與之對(duì)應(yīng)的重要標(biāo)識(shí)基因,保證為每個(gè)類別均提供足夠的判別信息。同時(shí),因?yàn)樵摲椒ㄍㄟ^(guò)計(jì)算樣本在不同基因上的概率密度函數(shù)來(lái)衡量各基因?qū)Σ煌悇e的判別能力,能充分尊重組間組內(nèi)樣本的真實(shí)分布,即使某些重要基因在組內(nèi)樣本中的表達(dá)出現(xiàn)系統(tǒng)性差異時(shí)也能被很好地選擇,這

7、正是傳統(tǒng)基因選擇方法所欠缺的。此外,為消除不同類別變量組之間的相互干擾,我們進(jìn)一步提出了分塊核變換的支持向量機(jī)用于建立微陣列數(shù)據(jù)的分類模型。實(shí)際癌癥診斷數(shù)據(jù)驗(yàn)證結(jié)果表明,該變量選擇方法與分塊核變換的支持向量機(jī)的結(jié)合,能有效地為各類疾病鑒定出相關(guān)的重要標(biāo)識(shí)基因,并提供令人滿意的分類準(zhǔn)確度。
   5.致病機(jī)理的多樣性導(dǎo)致了疾病的多樣性,同種疾病經(jīng)常存在不同的亞型。因此對(duì)基因微陣列數(shù)據(jù)進(jìn)行變量選擇時(shí),若考慮組內(nèi)樣本間的差異性將能有效

8、提高基因選擇的可靠性。針對(duì)這一思想,我們提出了基于分割區(qū)間純度的變量選擇方法用于感興趣類別標(biāo)識(shí)基因的鑒定。該方法通過(guò)搜索組內(nèi)樣本的單模分布區(qū)間并評(píng)價(jià)樣本在各單模分割區(qū)間的分布狀況來(lái)衡量各基因?qū)Ω信d趣類別的判別能力。因?yàn)樵摲椒ㄍ瑫r(shí)考慮了組內(nèi)樣本的單模分布區(qū)間,從而能對(duì)具有多模分布的重要標(biāo)識(shí)基因進(jìn)行合理評(píng)價(jià),彌補(bǔ)了常用基因選擇方法的不足。此外,采用的均值漂移算法在反映樣本真實(shí)分布的前提下,能并行獲取所有類別樣本的單模區(qū)間,提高了變量選擇的效

9、率。對(duì)兩個(gè)實(shí)際基因微陣列數(shù)據(jù)集的分析結(jié)果表明,結(jié)合分塊核變換的支持向量機(jī),該方法能快速、有效地為各類疾病鑒定其重要的標(biāo)識(shí)基因,并實(shí)現(xiàn)準(zhǔn)確的疾病類別預(yù)測(cè)。
   6.高維微陣列數(shù)據(jù)通常具有變量維數(shù)極高,樣本量相對(duì)極少的特點(diǎn)。分類與回歸樹作為一種基于大樣本統(tǒng)計(jì)的分析方法,在樣本量較小時(shí)模型不穩(wěn)定。而因疾病多樣性帶來(lái)的組內(nèi)樣本差異表現(xiàn)為樣本間的同質(zhì)性不理想時(shí),更將加劇分類回歸樹模型不穩(wěn)定、過(guò)擬合的風(fēng)險(xiǎn)。另外,分類回歸樹對(duì)微陣列數(shù)據(jù)的窮

10、盡搜索也會(huì)因?yàn)槿哂嘈畔⒌母蓴_帶來(lái)過(guò)擬合的風(fēng)險(xiǎn)。為解決上述問題,我們采用了單模變換基于分割區(qū)間純度所選變量用于分類回歸樹建模的策略。變量選擇是數(shù)據(jù)降維的積極措施,同時(shí)能大大減少數(shù)據(jù)中的冗余信息。使用基于分割區(qū)間純度的變量選擇方法鑒定基因微陣列數(shù)據(jù)中的重要標(biāo)識(shí)基因能有效地實(shí)現(xiàn)這一目的。對(duì)變量的單模變化則意將通過(guò)特征提取將變量在組內(nèi)樣本間的“表達(dá)單?;?以提高組內(nèi)樣本的同質(zhì)性,旨在幫助建立復(fù)雜度更低、穩(wěn)定性更好的分類預(yù)測(cè)模型。對(duì)兩個(gè)真實(shí)癌癥

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論