零頻數(shù)過多資料的統(tǒng)計學(xué)模型應(yīng)用研究——亞健康狀態(tài)研究中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩117頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在醫(yī)學(xué)研究中,經(jīng)常遇到零頻數(shù)過多的計數(shù)資料,如亞健康癥狀數(shù)。此種數(shù)據(jù)表現(xiàn)為離散型資料,其觀察值為零或正整數(shù),但是近半數(shù)甚至于大多數(shù)觀察值為零,過多零頻數(shù)的存在使得數(shù)據(jù)過度離散。傳統(tǒng)的負(fù)二項回歸和Poisson回歸模型的擬合效果將受到影響,在模型擬合過程中,如果忽略這些零的存在,對參數(shù)的估計就會產(chǎn)生偏差。在這種情況下可把原始數(shù)據(jù)集看成是由一個全零數(shù)據(jù)集和一個服從Poisson分布或負(fù)二項分布的數(shù)據(jù)集混合而成,這就是零頻數(shù)過多的回歸模型,簡

2、稱ZI模型。
   已報道的關(guān)于ZI模型應(yīng)用的研究都是通過一個實際樣本探討ZI模型的應(yīng)用效果,并與傳統(tǒng)的Poisson回歸和負(fù)二項回歸模型進(jìn)行比較,沒有一項研究能夠在各種零頻數(shù)比例下驗證ZI模型的擬合優(yōu)度,探討零頻數(shù)比例多大時則過多,及在何種零頻數(shù)比例下數(shù)據(jù)分布將不滿足傳統(tǒng)的Poisson回歸或負(fù)二項回歸模型的要求。本研究利用bootstrap方法在實例樣本中通過隨機模擬獲取各種比例零頻數(shù)的模擬樣本,得到各種零頻數(shù)比例的隨機樣本

3、,探討各種比例零頻數(shù)時的最優(yōu)擬合模型,解決零頻數(shù)比例何時過大而必須采用ZI模型的問題;同時研究ZI模型在亞健康癥狀數(shù)資料中的適用性。
   研究方法:
   ZI模型產(chǎn)生的前提正是可以同時解決資料的過度離散和零頻數(shù)過多的問題。ZI模型可在醫(yī)學(xué)領(lǐng)域中用于估計一個兩階段的疾病進(jìn)程,其基本思想是把零事件的發(fā)生看做兩部分,模型也包括兩部分,第一部分來源于那些從未可能發(fā)生事件的個體或處于低風(fēng)險個體,模型參數(shù)的解釋和一般的logis

4、tic回歸相似,說明協(xié)變量是否影響事件發(fā)生;第二部分來源于在Poisson分布或負(fù)二項分布條件下沒有發(fā)生事件的個體或處于高風(fēng)險個體,模型參數(shù)的解釋與傳統(tǒng)的Poisson回歸或負(fù)二項回歸一樣,說明協(xié)變量影響事件發(fā)生多少的問題。
   本研究以亞健康癥狀數(shù)為響應(yīng)變量,以性別、年齡、婚姻狀況、民族、職業(yè)、吸煙、飲酒、血壓高和肥胖為解釋變量,用SAS9.2軟件分別對各種零頻數(shù)比例的bootstrap樣本擬合Poisson回歸、負(fù)二項回歸

5、、ZI模型和序數(shù)回歸模型。用α系數(shù)、O檢驗和Vuong檢驗等進(jìn)行數(shù)據(jù)的過度離散性和零頻數(shù)是否過多的判斷,并用回歸模型對各種計數(shù)值的預(yù)測概率及似然比、AIC、BIC等指標(biāo)對各種模型的擬合優(yōu)度進(jìn)行判定,以選擇最優(yōu)的模型。
   研究結(jié)果:
   在樣本量為11227的實際樣本中,43.3%的受試者沒有陽性的亞健康癥狀,離散系數(shù)α為1.013,95%CI為0.965-1.063,可以認(rèn)為α顯著大于0,對亞健康癥狀數(shù)進(jìn)行過度離散

6、性檢驗,(x)=2.90,s=3.85,離散統(tǒng)計量O=308.011,P<0.0001,方差顯著大于均數(shù),表明存在過度離散,亞健康癥狀數(shù)不符合Poisson分布。Vuong檢驗的統(tǒng)計量Z=31.93,P<0.0001,表明此數(shù)據(jù)的零頻數(shù)過多,遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)負(fù)二項分布的估計范圍,用負(fù)二項分布也不能很好的擬合數(shù)據(jù)特征。ZINB模型的Log likelihood最大(-22170.741),AIC(44363.482)和BIC(44444.0

7、69)最小,且ZINB模型對各種頻數(shù)的預(yù)測概率與實測頻率的吻合程度最高。從各擬合優(yōu)度指標(biāo)和預(yù)測概率而言,ZINB模型是進(jìn)行亞健康癥狀數(shù)影響因素分析的最佳模型。
   在ZINB模型中,從Logit部分可見,年齡越高(β=-0.436,P<0.001)、民族為朝鮮族(β=-2.253,P<0.001)是出現(xiàn)亞健康癥狀的危險因素,而單身(β=2.175,P=0.006)和從事腦力勞動(β=1.527,P<0.001)的受試者不容易受

8、到亞健康癥狀的危害。而由負(fù)二項部分發(fā)現(xiàn),年齡、性別、腦力勞動、飲酒和婚姻狀況是亞健康癥狀數(shù)多少的影響因素,即在處于亞健康狀態(tài)的受試者中,女性(β=0.280,P<0.001)、飲酒者(β=0.098,P=0.008)、離異或喪偶的受試者(β=0.200,P<0.001),具有更多的亞健康癥狀;而年齡越大(β=-0.003,P=0.009)和從事腦力勞動(β=-0.076,P=0.012)的受試者可能具有較少的亞健康癥狀。
  

9、各種零頻數(shù)比例的bootstrap抽樣模擬樣本中,當(dāng)零頻數(shù)比例小于15%時,ZINB模型的擬合效果與傳統(tǒng)的負(fù)二項回歸模型相當(dāng),ZINB模型未體現(xiàn)出擬合效果和結(jié)果解釋上的優(yōu)勢;而當(dāng)零頻數(shù)比例在20%以上時,ZINB模型的擬合效果明顯優(yōu)于傳統(tǒng)的負(fù)二項回歸模型,此時綜合考慮擬合優(yōu)度、預(yù)測概率、結(jié)果解釋的合理性方面,ZINB模型是最佳模型,特別是當(dāng)零頻數(shù)比例達(dá)到70%以上時,ZINB模型對響應(yīng)變量的各觀察值的預(yù)測概率與實際頻率幾乎完全一致。

10、r>   當(dāng)零頻數(shù)比例達(dá)到或超過85%時,序數(shù)回歸模型的似然比和AIC等指標(biāo)也較為理想,但從模型對各種頻數(shù)的預(yù)測效果而言,不管零頻數(shù)的比例大小如何,序數(shù)回歸模型的預(yù)測效果與實測頻率均相差較大,序數(shù)模型不是進(jìn)行此類計數(shù)資料分析的最佳選擇。在任何零頻數(shù)比例時,由于本樣本數(shù)據(jù)過度離散,Poisson回歸的擬合效果都是最差的,ZIP模型的擬合效果也不好。
   結(jié)論:
   當(dāng)零頻數(shù)的比例達(dá)到20%以上時,各種模型預(yù)測概率、擬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論