2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩80頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、有關(guān)logistic回歸的樣本量估計(jì)目前尚無(wú)實(shí)用的理論方法,實(shí)踐中更多的是基于經(jīng)驗(yàn)方法,即所謂應(yīng)變量(結(jié)局變量)事件數(shù)(EPV,events per variable)方法,即應(yīng)變量發(fā)生的事件數(shù)(陽(yáng)性事件數(shù)和陰性事件數(shù)的最小值)需不少于模型中納入的自變量個(gè)數(shù)乘以的倍數(shù)。目前已經(jīng)開(kāi)展的EPV方法的研究較多,如Harrell(1984),Concato(1995),Peduzzi(1995),Vittinghoff等(2006),通過(guò)模擬研

2、究得出,采用基于最大似然估計(jì)(MLE,maximum likelihood estimate)的Wald方法時(shí),EPV不小于5,10,甚至20等,才可保證回歸分析結(jié)果穩(wěn)健;楊曉妍(2005)的研究認(rèn)為EPV應(yīng)不小于10。
  然而,有關(guān)自變量的事件數(shù)(EIV,events of independent variable),即納入模型的某一二分類(lèi)自變量發(fā)生事件的個(gè)數(shù)(二分類(lèi)中個(gè)數(shù)較小的那類(lèi)),對(duì)模型的影響卻鮮有研究,而此問(wèn)題恰恰也是

3、實(shí)際數(shù)據(jù)中經(jīng)常會(huì)遇到的問(wèn)題。如果EIV太小會(huì)導(dǎo)致logistic回歸模型的估計(jì)失準(zhǔn)或不穩(wěn)定,可認(rèn)為僅僅依靠EPV方法確定樣本量是不夠的,還需要結(jié)合EIV一起來(lái)確定樣本量。為此,本研究將通過(guò)模擬研究探討EIV對(duì)模型的影響,進(jìn)而得到EIV界值的確定策略,為logistic回歸的樣本量估計(jì)提供更完善的經(jīng)驗(yàn)方法。
  目的:
  本研究采用Monte Carlo技術(shù)從EIV的角度探討logistic回歸模型的穩(wěn)定性,并建立確定EIV

4、界值的方法。
  方法:
  Logistic回歸分析最常用的參數(shù)估計(jì)方法是MLE,還有罰分似然估計(jì)(PLE,penalized likelihood estimate)、精確logistic回歸、稀有事件logistic回歸等。PLE最早被提出用于解決最大似然估計(jì)收斂但至少有一個(gè)參數(shù)估計(jì)發(fā)散至正/負(fù)無(wú)窮的問(wèn)題,主要發(fā)生在EIV與非事件數(shù)不平衡和高風(fēng)險(xiǎn)因素情況下,該方法校正了MLE的偏倚,具有較好的性能,效果優(yōu)于精確logi

5、stic回歸和最大似然估計(jì),但在實(shí)際應(yīng)用中較少。稀有事件logistic回歸原理是校正應(yīng)變量發(fā)生事件的概率,從而保證回歸結(jié)果的穩(wěn)健性,且從楊曉妍模擬結(jié)果來(lái)看,該方法對(duì)模型結(jié)果改善較小。最常用的估計(jì)logistic回歸系數(shù)的置信區(qū)間和假設(shè)檢驗(yàn)方法是Wald方法,但輪廓似然方法(profile likelihood method)較Wald方法和Bootstrap方法更為穩(wěn)健,能?chē)?yán)格控制一類(lèi)錯(cuò)誤率,且檢驗(yàn)效能優(yōu)于Wald方法。因此,本研究分

6、別選取MLE和PLE進(jìn)行參數(shù)估計(jì),選取Wald方法和輪廓似然方法估計(jì)回歸系數(shù)的置信區(qū)間及假設(shè)檢驗(yàn)。
  本研究采用Monte Carlo技術(shù)進(jìn)行模擬研究,后經(jīng)實(shí)例驗(yàn)證,所有模擬及計(jì)算均通過(guò)R3.1.2軟件實(shí)現(xiàn)。
  首先,模擬產(chǎn)生logistic回歸的自變量(IV,independent variable)與應(yīng)變量,6類(lèi)模擬參數(shù)的設(shè)置為:自變量個(gè)數(shù)(1,4,8)、回歸系數(shù)絕對(duì)值(0,1,2)、樣本量(50,70,80,90,

7、100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自變量間的相關(guān)性(0,0.5,0.8)、自變量事件發(fā)生率(5%,10%,15%,30%,50%)。參數(shù)設(shè)置非完全組合,其中,EIV最多為樣本量的一半,且MLE下EIV最小為5;1個(gè)自變量模型不涉及相關(guān)性;僅在8個(gè)自變量模型中,設(shè)置自變量事件發(fā)生率。

8、應(yīng)變量則通過(guò)概率抽樣獲得,概率由人為設(shè)定的β和模擬自變量計(jì)算得到。每種參數(shù)組合下模擬10000次。
  其次,分別采用MLE和PLE對(duì)模擬數(shù)據(jù)進(jìn)行參數(shù)估計(jì),采用Wald方法和輪廓似然方法進(jìn)行假設(shè)檢驗(yàn)及置信區(qū)間估計(jì)。
  最后,以一類(lèi)錯(cuò)誤(TypeⅠ Error)、均方根誤差(MSE,mean square error)、準(zhǔn)確性(Accuracy)、精確性(Precision)和置信區(qū)間覆蓋率(CI Coverage)等五個(gè)指

9、標(biāo)評(píng)價(jià)統(tǒng)計(jì)性能,由參數(shù)收斂的回歸結(jié)果與開(kāi)始設(shè)定值比較獲得,從而探究EIV對(duì)模型結(jié)果的影響。當(dāng)指標(biāo)值達(dá)到期望值或達(dá)到相對(duì)穩(wěn)定狀態(tài)時(shí)對(duì)應(yīng)的EIV即為EIV界值。
  結(jié)果:
  EIV對(duì)logistic回歸結(jié)果具有規(guī)律性影響,而自變量事件率的影響需結(jié)合樣本量共同發(fā)揮作用。表1,給出不同方法和五個(gè)評(píng)價(jià)指標(biāo)下,EIV的具體選擇策略。
  基于MLE的Wald方法和基于PLE的輪廓似然方法,均可以較好地控制一類(lèi)錯(cuò)誤率,但是后者明

10、顯優(yōu)于前者?;贛LE的Wald方法需要EIV達(dá)到20以上,一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在4%到6%之間;而基于PLE的輪廓似然方法需要EIV達(dá)到12以上,一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在5%附近。而基于MLE的輪廓似然方法需EIV達(dá)到12以上,但樣本量要達(dá)到200以上,一類(lèi)錯(cuò)誤率可以穩(wěn)定保持在5%附近;基于PLE的Wald方法需EIV達(dá)到45以上,且樣本量也需達(dá)到200以上,一類(lèi)錯(cuò)誤率可穩(wěn)定保持在5%附近。
  第二步為量化危險(xiǎn)因素的強(qiáng)度,即

11、參數(shù)估計(jì)的精準(zhǔn)性方面。采用MLE方法時(shí),EIV需分別達(dá)到18、12、16以獲得穩(wěn)定的均方根誤差、準(zhǔn)確性和精確性;而采用PLE方法時(shí),EIV需分別達(dá)到12、12、7。
  最后為置信區(qū)間覆蓋率方面,基于MLE的Wald方法和基于PLE的輪廓方法,可以將覆蓋率較好控制在預(yù)期范圍內(nèi),穩(wěn)定控制在95%附近,但后者明顯優(yōu)于前者?;贛LE的Wald方法需要EIV達(dá)到30以上;而基于PLE的輪廓方法需要EIV達(dá)到14以上。而另外兩種情況,基于

12、MLE的輪廓似然方法受其他因素影響較大,很多情況不能達(dá)到預(yù)期值;而基于PLE的Wald方法EIV達(dá)到45以上,且樣本量也需達(dá)到200以上。此外,自變量個(gè)數(shù)、回歸系數(shù)絕對(duì)值、樣本量及相關(guān)性對(duì)EIV界值存在一定影響,但在影響方向和強(qiáng)度上略微不同。
  結(jié)論:
  在實(shí)際應(yīng)用logistic回歸模型時(shí),應(yīng)結(jié)合EPV和EIV一起確定樣本量。就EIV而言,應(yīng)不小于12。當(dāng)EIV在12→20之間,可采用基于PLE的輪廓似然方法,以較好地

13、控制一類(lèi)錯(cuò)誤并獲得精準(zhǔn)的參數(shù)估計(jì);當(dāng)EIV大于等于20時(shí),基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。進(jìn)一步,當(dāng)EIV在14→30之間,可采用基于PLE的輪廓似然方法,以較好地控制置信區(qū)間覆蓋率;當(dāng)EIV大于等于30時(shí),基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。以上兩種方法在推薦的EIV情況下均可使用,優(yōu)先推薦基于PLE的輪廓似然方法。在EIV較小又無(wú)法擴(kuò)大樣本量的情況下,logistic回歸模型中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論