版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、有關(guān)logistic回歸的樣本量估計(jì)目前尚無(wú)實(shí)用的理論方法,實(shí)踐中更多的是基于經(jīng)驗(yàn)方法,即所謂應(yīng)變量(結(jié)局變量)事件數(shù)(EPV,events per variable)方法,即應(yīng)變量發(fā)生的事件數(shù)(陽(yáng)性事件數(shù)和陰性事件數(shù)的最小值)需不少于模型中納入的自變量個(gè)數(shù)乘以的倍數(shù)。目前已經(jīng)開(kāi)展的EPV方法的研究較多,如Harrell(1984),Concato(1995),Peduzzi(1995),Vittinghoff等(2006),通過(guò)模擬研
2、究得出,采用基于最大似然估計(jì)(MLE,maximum likelihood estimate)的Wald方法時(shí),EPV不小于5,10,甚至20等,才可保證回歸分析結(jié)果穩(wěn)健;楊曉妍(2005)的研究認(rèn)為EPV應(yīng)不小于10。
然而,有關(guān)自變量的事件數(shù)(EIV,events of independent variable),即納入模型的某一二分類(lèi)自變量發(fā)生事件的個(gè)數(shù)(二分類(lèi)中個(gè)數(shù)較小的那類(lèi)),對(duì)模型的影響卻鮮有研究,而此問(wèn)題恰恰也是
3、實(shí)際數(shù)據(jù)中經(jīng)常會(huì)遇到的問(wèn)題。如果EIV太小會(huì)導(dǎo)致logistic回歸模型的估計(jì)失準(zhǔn)或不穩(wěn)定,可認(rèn)為僅僅依靠EPV方法確定樣本量是不夠的,還需要結(jié)合EIV一起來(lái)確定樣本量。為此,本研究將通過(guò)模擬研究探討EIV對(duì)模型的影響,進(jìn)而得到EIV界值的確定策略,為logistic回歸的樣本量估計(jì)提供更完善的經(jīng)驗(yàn)方法。
目的:
本研究采用Monte Carlo技術(shù)從EIV的角度探討logistic回歸模型的穩(wěn)定性,并建立確定EIV
4、界值的方法。
方法:
Logistic回歸分析最常用的參數(shù)估計(jì)方法是MLE,還有罰分似然估計(jì)(PLE,penalized likelihood estimate)、精確logistic回歸、稀有事件logistic回歸等。PLE最早被提出用于解決最大似然估計(jì)收斂但至少有一個(gè)參數(shù)估計(jì)發(fā)散至正/負(fù)無(wú)窮的問(wèn)題,主要發(fā)生在EIV與非事件數(shù)不平衡和高風(fēng)險(xiǎn)因素情況下,該方法校正了MLE的偏倚,具有較好的性能,效果優(yōu)于精確logi
5、stic回歸和最大似然估計(jì),但在實(shí)際應(yīng)用中較少。稀有事件logistic回歸原理是校正應(yīng)變量發(fā)生事件的概率,從而保證回歸結(jié)果的穩(wěn)健性,且從楊曉妍模擬結(jié)果來(lái)看,該方法對(duì)模型結(jié)果改善較小。最常用的估計(jì)logistic回歸系數(shù)的置信區(qū)間和假設(shè)檢驗(yàn)方法是Wald方法,但輪廓似然方法(profile likelihood method)較Wald方法和Bootstrap方法更為穩(wěn)健,能?chē)?yán)格控制一類(lèi)錯(cuò)誤率,且檢驗(yàn)效能優(yōu)于Wald方法。因此,本研究分
6、別選取MLE和PLE進(jìn)行參數(shù)估計(jì),選取Wald方法和輪廓似然方法估計(jì)回歸系數(shù)的置信區(qū)間及假設(shè)檢驗(yàn)。
本研究采用Monte Carlo技術(shù)進(jìn)行模擬研究,后經(jīng)實(shí)例驗(yàn)證,所有模擬及計(jì)算均通過(guò)R3.1.2軟件實(shí)現(xiàn)。
首先,模擬產(chǎn)生logistic回歸的自變量(IV,independent variable)與應(yīng)變量,6類(lèi)模擬參數(shù)的設(shè)置為:自變量個(gè)數(shù)(1,4,8)、回歸系數(shù)絕對(duì)值(0,1,2)、樣本量(50,70,80,90,
7、100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自變量間的相關(guān)性(0,0.5,0.8)、自變量事件發(fā)生率(5%,10%,15%,30%,50%)。參數(shù)設(shè)置非完全組合,其中,EIV最多為樣本量的一半,且MLE下EIV最小為5;1個(gè)自變量模型不涉及相關(guān)性;僅在8個(gè)自變量模型中,設(shè)置自變量事件發(fā)生率。
8、應(yīng)變量則通過(guò)概率抽樣獲得,概率由人為設(shè)定的β和模擬自變量計(jì)算得到。每種參數(shù)組合下模擬10000次。
其次,分別采用MLE和PLE對(duì)模擬數(shù)據(jù)進(jìn)行參數(shù)估計(jì),采用Wald方法和輪廓似然方法進(jìn)行假設(shè)檢驗(yàn)及置信區(qū)間估計(jì)。
最后,以一類(lèi)錯(cuò)誤(TypeⅠ Error)、均方根誤差(MSE,mean square error)、準(zhǔn)確性(Accuracy)、精確性(Precision)和置信區(qū)間覆蓋率(CI Coverage)等五個(gè)指
9、標(biāo)評(píng)價(jià)統(tǒng)計(jì)性能,由參數(shù)收斂的回歸結(jié)果與開(kāi)始設(shè)定值比較獲得,從而探究EIV對(duì)模型結(jié)果的影響。當(dāng)指標(biāo)值達(dá)到期望值或達(dá)到相對(duì)穩(wěn)定狀態(tài)時(shí)對(duì)應(yīng)的EIV即為EIV界值。
結(jié)果:
EIV對(duì)logistic回歸結(jié)果具有規(guī)律性影響,而自變量事件率的影響需結(jié)合樣本量共同發(fā)揮作用。表1,給出不同方法和五個(gè)評(píng)價(jià)指標(biāo)下,EIV的具體選擇策略。
基于MLE的Wald方法和基于PLE的輪廓似然方法,均可以較好地控制一類(lèi)錯(cuò)誤率,但是后者明
10、顯優(yōu)于前者?;贛LE的Wald方法需要EIV達(dá)到20以上,一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在4%到6%之間;而基于PLE的輪廓似然方法需要EIV達(dá)到12以上,一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在5%附近。而基于MLE的輪廓似然方法需EIV達(dá)到12以上,但樣本量要達(dá)到200以上,一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在5%附近;基于PLE的Wald方法需EIV達(dá)到45以上,且樣本量也需達(dá)到200以上,一類(lèi)錯(cuò)誤率可穩(wěn)定保持在5%附近。
第二步為量化危險(xiǎn)因素的強(qiáng)度,即
11、參數(shù)估計(jì)的精準(zhǔn)性方面。采用MLE方法時(shí),EIV需分別達(dá)到18、12、16以獲得穩(wěn)定的均方根誤差、準(zhǔn)確性和精確性;而采用PLE方法時(shí),EIV需分別達(dá)到12、12、7。
最后為置信區(qū)間覆蓋率方面,基于MLE的Wald方法和基于PLE的輪廓方法,可以將覆蓋率較好控制在預(yù)期范圍內(nèi),穩(wěn)定控制在95%附近,但后者明顯優(yōu)于前者?;贛LE的Wald方法需要EIV達(dá)到30以上;而基于PLE的輪廓方法需要EIV達(dá)到14以上。而另外兩種情況,基于
12、MLE的輪廓似然方法受其他因素影響較大,很多情況不能達(dá)到預(yù)期值;而基于PLE的Wald方法EIV達(dá)到45以上,且樣本量也需達(dá)到200以上。此外,自變量個(gè)數(shù)、回歸系數(shù)絕對(duì)值、樣本量及相關(guān)性對(duì)EIV界值存在一定影響,但在影響方向和強(qiáng)度上略微不同。
結(jié)論:
在實(shí)際應(yīng)用logistic回歸模型時(shí),應(yīng)結(jié)合EPV和EIV一起確定樣本量。就EIV而言,應(yīng)不小于12。當(dāng)EIV在12→20之間,可采用基于PLE的輪廓似然方法,以較好地
13、控制一類(lèi)錯(cuò)誤并獲得精準(zhǔn)的參數(shù)估計(jì);當(dāng)EIV大于等于20時(shí),基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。進(jìn)一步,當(dāng)EIV在14→30之間,可采用基于PLE的輪廓似然方法,以較好地控制置信區(qū)間覆蓋率;當(dāng)EIV大于等于30時(shí),基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。以上兩種方法在推薦的EIV情況下均可使用,優(yōu)先推薦基于PLE的輪廓似然方法。在EIV較小又無(wú)法擴(kuò)大樣本量的情況下,logistic回歸模型中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Logistic回歸和稀有事件logistic回歸模型的模擬研究.pdf
- 自變量和因變量的確定
- 檢驗(yàn)的樣本量確定及模擬研究.pdf
- 第5章自變量的選擇與逐步回歸
- 分類(lèi)變量的logistic回歸模型及其應(yīng)用研究.pdf
- 自變量為區(qū)間刪失型數(shù)據(jù)的線(xiàn)性回歸分析.pdf
- 自變量與應(yīng)變量的關(guān)系
- 基于混合Copula和Logistic回歸的極端事件研究.pdf
- 因變量 自變量 控制變量 調(diào)節(jié)變量 介入變量
- 高維數(shù)據(jù)回歸模型自變量相對(duì)重要性排秩方法的研究.pdf
- 基于輔助變量的隨機(jī)效應(yīng)logistic回歸及其加權(quán)平均分估計(jì).pdf
- 回歸分析中樣本容量的確定.pdf
- 15823.多類(lèi)型復(fù)發(fā)事件數(shù)據(jù)的變量選擇
- logistic回歸模型
- logistic回歸分析
- logistic回歸研
- 戰(zhàn)略企業(yè)組織結(jié)構(gòu)變革的自變量
- 多元線(xiàn)性回歸與logistic回歸
- 考慮自變量個(gè)數(shù)先驗(yàn)分布的貝葉斯變量選擇.pdf
- 40456.雙自變量的結(jié)合似然
評(píng)論
0/150
提交評(píng)論