因果圖理論驅(qū)動下系統(tǒng)流行病學(xué)設(shè)計與分析的理論方法研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、為了推斷“暴露因子→組學(xué)生物標記→疾病終點”間的通路效應(yīng)大小,需要在研究設(shè)計和數(shù)據(jù)分析層面上,解決一系列關(guān)鍵問題。
  (1)在設(shè)計層面上,雖然系統(tǒng)流行病學(xué)研究仍可借鑒傳統(tǒng)流行病學(xué)研究的設(shè)計方法(如病例對照研究、隊列研究和實驗流行病學(xué)研究等),但因“暴露因子→組學(xué)生物標記→疾病終點”間往往存在復(fù)雜的網(wǎng)絡(luò)調(diào)控關(guān)系(不僅存在著因果關(guān)系,還同時存在大量的非因果關(guān)系),使得準確識別因果通路并估計出其因果效應(yīng)變得十分困難。需要從因果推斷理論

2、層面上探討復(fù)雜網(wǎng)絡(luò)環(huán)境下因果效應(yīng)的推斷方法。
  (2)在組學(xué)生物標記篩選層面上,雖然可以采用傳統(tǒng)的統(tǒng)計學(xué)方法(如卡方檢驗,t檢驗,回歸模型等)篩選出與疾病終點相關(guān)的生物標記,但這些篩選方法本質(zhì)是關(guān)聯(lián)分析而非標記與疾病終點之間的因果關(guān)系。
  (3)在特定“暴露因子→組學(xué)生物標記→疾病終點”因果通路(或病因網(wǎng)絡(luò))的識別及其效應(yīng)估計方面,由于通路(或網(wǎng)絡(luò))節(jié)點之間不僅存在因果關(guān)系還存在復(fù)雜而廣泛的非因果關(guān)系,因此,需要去除非因

3、果關(guān)系并準確識別因果通路(或因果網(wǎng)絡(luò)),進而估計通路效應(yīng)大小。
  為了解決上述三個方面的問題,本論文進行了如下四個方而的研究工作:
  一、因果推斷的圖模型理論及因果推斷準則(第一章)
  引入了近年來發(fā)展起來的因果圖理論,在Judea Pearl提出的因果圖模型框架內(nèi),概括綜述了因果推斷的基本理論和因果推斷準則。
  二、基于因果推斷的匹配策略與回歸策略的理論方法研究(第二章)
  在系統(tǒng)流行病學(xué)研究中

4、,推斷暴露→組學(xué)標記、組學(xué)標記→組學(xué)標記、組學(xué)標記→疾病終點等各個環(huán)節(jié)的因果關(guān)系是識別暴露因子致病通路及其因果效應(yīng)估計的核心。盡管在病因網(wǎng)絡(luò)中,暴露因子、組學(xué)標記和疾病終點呈現(xiàn)出錯綜復(fù)雜的網(wǎng)絡(luò)關(guān)系,但推斷任何復(fù)雜因果網(wǎng)絡(luò)節(jié)點之間的因果關(guān)系均可簡化和縮減為三個節(jié)點之間三種核心關(guān)系:因果路(E→C→D)、混雜路(E←C→D)和碰撞路(E→C←D)。在推斷暴露E對D的因果效應(yīng)時,若對節(jié)點C施加條件(匹配或回歸調(diào)整)則對因果路(E→C→D)和碰

5、撞路(E→C←D)會造成過度調(diào)整,從而歪曲因果關(guān)系;而對混雜路(E←C→D)則可以消除混雜作用,從而能夠準確推斷E對D的因果效應(yīng)。然而,對于復(fù)雜的病因網(wǎng)絡(luò)中的任意三個節(jié)點而言,畢竟不僅僅包含上述三種關(guān)系,從因果拓撲結(jié)構(gòu)上存在27中關(guān)系。為此,本研究首先定義了病因網(wǎng)絡(luò)中的如下9種關(guān)系情形:a)C是暴露E和疾病D的混雜;b)C是暴露E和疾病D的共同原因并且E對D沒有因果作用;c)C是疾病D的獨立病因;d)C是E的原因但是對D沒有直接因果作用

6、;e)C是E和D的共同子節(jié)點;f)C是D的子節(jié)點;g)C是E的子節(jié)點;h)C是從E到D因果路上的中間環(huán)節(jié);i)C是一個工具變量。進而,在Judea Pearl的因果圖理論框架下,采用do-算子(do-caculus)和后門準則(back-door criterion)計算E→D的真實因果效應(yīng)(β);以此作為金標準,從理論推導(dǎo)和統(tǒng)計模擬兩個層面上,考察對C施加條件(包括匹配策略和回歸調(diào)整策略)后,對估計E→D的真實因果效應(yīng)(β)的偏倚((

7、β)1-β)和精度(SE((β)1))的影響;從而,概括總結(jié)出系統(tǒng)流行病學(xué)研究中,使用匹配策略和回歸調(diào)整策略的正確方法。
  主要結(jié)果:
  (1)當C為混雜(情形a)時,在傳統(tǒng)分析流行病學(xué)研究中,認為匹配病例對照研究可以有效提高精度(即SE((β)1)),而且可以降低偏倚((β)1-β)。然而本研究經(jīng)理論推導(dǎo)證明,匹配C對精度沒有明顯的提升;同時,也不能完全消除偏倚。在匹配后仍然需要采用條件logistic回歸模型或非條件

8、logistic回歸模型對 C進行調(diào)整,但以非條件 logistic回歸模型(logit(p(D=1| E,C))=β0+β1"E+β2C)調(diào)整的精度最高。
  (2)當C與E或者D相關(guān)但又不是一個混雜因素(包括情形b,情形c,情形d,情形e,情形g,情形h)時,理論推導(dǎo)和統(tǒng)計模擬均證明:對C進行匹配、以及采用條件logistic回歸模型或非條件logistic回歸模型對C進行調(diào)整,均可造成額外的偏倚,從而歪曲E→D的真實因果效應(yīng)

9、。
  (3)當C不是一個混雜而是D的結(jié)果(情形f),對C進行匹配或采用條件logistic回歸模型及非條件logistic回歸模型對C調(diào)整均是沒必要的。不僅如此,還能降低E→D的因果效應(yīng)估計精度。
  (4)當C是一個工具變量(情形i)時,對C進行匹配或采用條件logistic回歸模型及非條件logistic回歸模型進行調(diào)整均不能減少偏倚,這主要是由于觀測不到的混雜U的存在。
  結(jié)論:
  在系統(tǒng)流行病學(xué)網(wǎng)絡(luò)

10、環(huán)境下,研究暴露(E)對疾病終點(D)的因果效應(yīng),必須統(tǒng)籌考慮網(wǎng)絡(luò)中其它眾多因素(C1,C2,C3,…,Cn)與E和D的關(guān)系;在此基礎(chǔ)上根據(jù)上述理論推導(dǎo)及統(tǒng)計模擬結(jié)果,科學(xué)合理地使用匹配策略和回歸調(diào)整策略,方可準確地、精確地估計E→D的因果效應(yīng)。否則,任意武斷地使用匹配和回歸策略,勢必損失準確性和精確性。
  三、基于條件獨立準則的組學(xué)生物標記篩選策略(第三章)
  本研究針對高維組學(xué)生物標記篩選問題,基于因果圖理論的馬爾科

11、夫毯(Markov Blanket)條件獨立準則,提出了組學(xué)標記篩選的重復(fù)釣魚策略(MB-based Repeated-fishing strategy,MBRFS),構(gòu)建了篩選與疾病終點具有潛在因果關(guān)系的組學(xué)標記的新方法,為進一步構(gòu)建組學(xué)生物標記→疾病終點之間的因果通路(或網(wǎng)絡(luò))提供了潛在的因果證據(jù)。
  主要結(jié)果:
  (1)針對傳統(tǒng)馬爾科夫毯算法(KS算法、GS算法、IAMB算法、MMMB、HITON-MB,DASSO

12、-MB和FEPI-MB算法等)在處理高維組學(xué)數(shù)據(jù)中的缺陷,本研究提出了組學(xué)標記篩選的重復(fù)釣魚策略和算法(MBRFS)。
  (2)基于功能基因組學(xué)中的“gain of function”研究策略,創(chuàng)建了模擬基因組數(shù)據(jù)的研究策略。設(shè)計了四種不同情形的模擬基因組數(shù)據(jù)。
  (3)統(tǒng)計模擬表明,與傳統(tǒng)方法(test with Bonferroni or B-H adjustment,LASSO,DASSO-MB)相比,MBRFS具

13、有以下優(yōu)勢:1)在原假設(shè)成立的情況下,我們提出的MBRFS算法在上述三種模擬情景下的真陽性發(fā)現(xiàn)率(TDR)接近于0。2)遍歷不同的效應(yīng)強度(OR)和最小等位基因頻率(MAF),MBRFS表現(xiàn)出最好的篩選效果。3)更重要的是,由于MBRFS策略使用了重復(fù)釣魚策略,能有效地捕捉到Bonferroni矯正漏掉的效應(yīng)小的,但與疾病表型有潛在因果關(guān)系的組學(xué)標記。
  (4)使用我們創(chuàng)建的MBRFS算法,分析GWAS數(shù)據(jù)(706個麻風病患者和

14、514個健康對照的491,883個SNPs)、乳腺癌的基因表達數(shù)據(jù)和甲基化數(shù)據(jù)和關(guān)于精神分裂癥的代謝組數(shù)據(jù),結(jié)果表明,我們提出的MBRFS算法優(yōu)于其他算法
  結(jié)論:
  我們提出的MBRFS算法,適合于系統(tǒng)流行病學(xué)研究中篩選與疾病表型有潛在因果關(guān)系的組學(xué)標記;它能夠在真實自然的組學(xué)數(shù)據(jù)環(huán)境中,準確地識別出與疾病表型有潛在因果關(guān)系的組學(xué)標記。
  四、基于因果推斷的致病通路識別及其效應(yīng)估計模型研究(第四章)
  

15、以Judea Pearl提出的因果推斷的do算子為理論基礎(chǔ),本研究仿照上游河流匯集是造成下游河水增加的水文因果關(guān)系,提出了“暴露因子→組學(xué)生物標記→疾病終點”因果通路識別及其效應(yīng)估計的因果圖模型,定義了因果通路識別及其效應(yīng)估計的統(tǒng)計量(PSEM),從而為系統(tǒng)流行病學(xué)致病通路識別及其效應(yīng)估計提供了新方法。
  主要結(jié)果:
  (1)針對復(fù)雜致病網(wǎng)絡(luò)中的特定因果路,基于因果圖理論,提出了從復(fù)雜致病網(wǎng)絡(luò)中簡化和抽提特定致病網(wǎng)絡(luò)的5

16、種新準則。
  (2)在識別復(fù)雜致病網(wǎng)絡(luò)中的特定致病通路(E→M1→M2→M3→…→D)時,針對其不可識別性,本研究提出了分段連乘因果效應(yīng)統(tǒng)計量計算公式(PSE=ΠK(l)-1AR=AR1·AR2,…,ARK),從而有效地解決了系統(tǒng)流行病學(xué)復(fù)雜致病網(wǎng)絡(luò)中,計算特定致病通路因果效應(yīng)的不可識別性。
  (3)定義了識別和檢驗致病通路(E→M1→M2→M3→…→D)的統(tǒng)計量(StatisticPSE),該統(tǒng)計量不僅能夠通過顯著性檢

17、驗識別致病通路,而且還能同時估計致病通路的絕對因果效應(yīng);為了在系統(tǒng)流行病學(xué)復(fù)雜網(wǎng)絡(luò)中,比較多條致病通路的致病效應(yīng)大小,本研究又定義了致病通路的標化絕對效應(yīng)量度(ARSPSE)和相對效應(yīng)統(tǒng)計量(RRSPSE)。從而,建立了完備的致病通路識別及其效應(yīng)估計的定量方法。
  (4)統(tǒng)計模擬結(jié)果表明:基于上述統(tǒng)計量的Permutation test表現(xiàn)出良好的穩(wěn)定性和較高的檢驗效能,可用于在復(fù)雜致病網(wǎng)絡(luò)中識別特定致病通路,并比較致病通路的效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論