農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)的缺失值處理:模型、方法及應(yīng)用.pdf_第1頁
已閱讀1頁,還剩176頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中國(guó)是農(nóng)業(yè)大國(guó),雖然農(nóng)業(yè)產(chǎn)值占GDP的比重不到10%,但農(nóng)業(yè)就業(yè)人口仍占到了總就業(yè)人口的28.3%,農(nóng)業(yè)仍舊是國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的基礎(chǔ)。在科學(xué)研究中,農(nóng)業(yè)經(jīng)濟(jì)以及農(nóng)業(yè)管理的研究仍是必要和重要的,而這些農(nóng)業(yè)經(jīng)濟(jì)管理研究很多都需要開展農(nóng)業(yè)經(jīng)濟(jì)調(diào)查以獲取數(shù)據(jù),然后在數(shù)據(jù)分析的基礎(chǔ)上得到結(jié)論。
  跟任何調(diào)查一樣,農(nóng)業(yè)經(jīng)濟(jì)調(diào)查會(huì)遇到一個(gè)幾乎無可避免的問題:缺失值,農(nóng)戶的無回答或者調(diào)查人員的疏忽都會(huì)讓農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)產(chǎn)生缺失值。但跟其它調(diào)查

2、,如市場(chǎng)調(diào)查、民意調(diào)查不同的是,農(nóng)業(yè)經(jīng)濟(jì)調(diào)查有很強(qiáng)的特殊性,比如農(nóng)業(yè)經(jīng)濟(jì)調(diào)查仍使用古老的人員訪問方法、調(diào)查問卷中存在大量的開放性問題、能獲得較多輔助信息、隨機(jī)性不高但農(nóng)戶調(diào)查配合度較高等等。
  結(jié)合農(nóng)業(yè)經(jīng)濟(jì)調(diào)查的特點(diǎn)和數(shù)據(jù)缺失的原因,提出本研究特定的假設(shè)條件:調(diào)查數(shù)據(jù)來自一個(gè)正態(tài)總體;調(diào)查數(shù)據(jù)是隨機(jī)獲得的;變量類型以數(shù)量變量為主;數(shù)據(jù)的缺失模式是單一缺失和一般缺失;數(shù)據(jù)的缺失機(jī)制是完全隨機(jī)缺失(MCAR)和隨機(jī)缺失(MAR)?;?/p>

3、于這些基本假設(shè),本研究提出了農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)的缺失值處理構(gòu)建一套較系統(tǒng)的模型和方法。這套模型其實(shí)是一個(gè)完整的邏輯體系,但為了敘述方便分成三部分:刪除模型、單一插補(bǔ)模型和多重插補(bǔ)模型,每一個(gè)模型又包括很多具體的方法。
  本研究的基本邏輯是,根據(jù)假設(shè)和條件提出一個(gè)模型,在這個(gè)模型中提出基本方法,利用理論分析和模擬分析其缺陷,然后改進(jìn)提出新的方法;如果假設(shè)和條件改變,又使用新的模型,為新的模型尋求方法并分析改進(jìn)。
  刪除是缺失

4、值處理的最基礎(chǔ)模型。大部分農(nóng)業(yè)經(jīng)濟(jì)調(diào)查人員都采取該模型將缺失值當(dāng)作無效數(shù)據(jù)刪除,大部分的數(shù)據(jù)分析軟件也默認(rèn)刪除缺失值。刪除一般是指成列刪除,也就是刪除所有含缺失值的個(gè)案,留下完整數(shù)據(jù)。當(dāng)數(shù)據(jù)的缺失比重很低時(shí),刪除缺失值倒也無所謂,但是當(dāng)數(shù)據(jù)缺失比重較大或者變量很多時(shí),就會(huì)導(dǎo)致大量個(gè)案被刪除。本文用不同的缺失比例模擬隨機(jī)產(chǎn)生農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù),分析發(fā)現(xiàn)當(dāng)變量很少時(shí),缺失比重略高一點(diǎn)刪除比例也不會(huì)太高,但當(dāng)變量稍微多一點(diǎn),哪怕很小的缺失比

5、重都致使大量的數(shù)據(jù)被刪除。
  一個(gè)可供替代的刪除方法是,如果我們不需要完整數(shù)據(jù),只要使用可用的個(gè)案計(jì)算參數(shù)估計(jì),這樣就可以盡量減少數(shù)據(jù)刪除,這就是成對(duì)刪除。但成對(duì)刪除會(huì)讓估計(jì)量來自不同大小的樣本,造成很多參數(shù)估計(jì)麻煩。此外本文的模擬分析發(fā)現(xiàn),其實(shí)成對(duì)刪除在對(duì)缺失農(nóng)業(yè)經(jīng)濟(jì)調(diào)查的相關(guān)關(guān)系估計(jì)上并沒有顯著超過成列刪除。
  當(dāng)數(shù)據(jù)不是完全隨機(jī)缺失(MCAR)時(shí),無論是成列刪除還是成對(duì)刪除都會(huì)產(chǎn)生有偏的估計(jì)。可以利用輔助信息將目標(biāo)

6、缺失變量分層,根據(jù)各層的完整觀測(cè)數(shù)據(jù)計(jì)算各層均值,然后再將各層均值以缺失概率作權(quán)數(shù)加權(quán)平均,這樣就可以一定程度上彌補(bǔ)成列刪除估計(jì)的有偏性,這就是加權(quán)調(diào)整的方法。本文通過模擬生成隨機(jī)缺失(MAR)下的目標(biāo)缺失變量和與之正相關(guān)的輔助變量,然后加權(quán)調(diào)整方法的獲得的均值估計(jì)非常接近真值,而成列刪除的均值估計(jì)明顯偏小。
  用刪除方法刪掉的數(shù)據(jù)信息也許是有用的,再者對(duì)農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)因?yàn)槿笔е档拇嬖诙直┑貏h除,從心理上也是難以接受的,對(duì)數(shù)

7、據(jù)的缺失值進(jìn)行插補(bǔ)也許是一種更好的模型。插補(bǔ)分為單一插補(bǔ)和多重插補(bǔ),前者指為缺失值提供單一插補(bǔ)值,后者是指對(duì)每一個(gè)缺失值,其插補(bǔ)值不止一個(gè)。插補(bǔ)的基本思想是根據(jù)數(shù)據(jù)的后驗(yàn)分布,用數(shù)據(jù)的觀測(cè)部分為缺失部分提供合理的填補(bǔ)值。
  簡(jiǎn)單均值插補(bǔ)是將目標(biāo)缺失變量的觀測(cè)部分的均值作為缺失值的插補(bǔ),是最先能想到的單一插補(bǔ)方法。但簡(jiǎn)單均值插補(bǔ)的插補(bǔ)值完全集中于數(shù)據(jù)的中心位置,通過理論分析容易發(fā)現(xiàn)其顯著低估了總體方差。一個(gè)解決方法是在其基礎(chǔ)上加上

8、隨機(jī)誤差項(xiàng),這就是隨機(jī)均值插補(bǔ)。進(jìn)一步本文還做了一個(gè)模擬研究,那就是模擬產(chǎn)生變量正相關(guān)的農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù)進(jìn)行均值插補(bǔ),最后發(fā)現(xiàn)其相關(guān)系數(shù)矩陣和協(xié)方差矩陣中的值明顯小于真實(shí)相關(guān)系數(shù)矩陣和協(xié)方差矩陣的值。但無論是簡(jiǎn)單均值插補(bǔ)還是隨機(jī)均值插補(bǔ)在數(shù)據(jù)非完全隨機(jī)(MCAR)的情況下,估計(jì)都是有偏的。分層均值插補(bǔ)可以修正這個(gè)問題,分層均值插補(bǔ)是指將目標(biāo)缺失變量按照輔助信息分層,然后再各層中進(jìn)行均值插補(bǔ),這樣其估計(jì)是無偏的。
  分層均值插

9、補(bǔ)雖然解決了一般均值插補(bǔ)的估計(jì)有偏問題,但插補(bǔ)值仍過于集中,回歸插補(bǔ)可以解決這個(gè)問題。簡(jiǎn)單回歸插補(bǔ)是指根據(jù)農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù)的后驗(yàn)分布,利用數(shù)據(jù)的觀測(cè)部分產(chǎn)生缺失部分的回歸預(yù)測(cè)值,通過理論分析發(fā)現(xiàn)其對(duì)總體方差的估計(jì)仍偏小,可以加上隨機(jī)殘差項(xiàng),這就是隨機(jī)回歸插補(bǔ)。將回歸插補(bǔ)和均值插補(bǔ)對(duì)比模擬研究顯示,回歸插補(bǔ)是一個(gè)比均值插補(bǔ)更好的方法,尤其是隨機(jī)回歸插補(bǔ)有很好的插補(bǔ)效果,而簡(jiǎn)單均值插補(bǔ)是最不被推薦的。
  如果農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù)

10、沒有明顯的后驗(yàn)分布,熱平臺(tái)插補(bǔ)方法會(huì)是更好的選擇。熱平臺(tái)方法直接從數(shù)據(jù)的完整部分產(chǎn)生缺失部分的插補(bǔ)值,其插補(bǔ)值一般比較穩(wěn)健,不用擔(dān)心像回歸插補(bǔ)一樣產(chǎn)生異常的插補(bǔ)值。一個(gè)簡(jiǎn)單的熱平臺(tái)插補(bǔ)是從完整觀測(cè)數(shù)據(jù)中簡(jiǎn)單隨機(jī)抽樣產(chǎn)生插補(bǔ)值,這就是簡(jiǎn)單隨機(jī)插補(bǔ)。如果數(shù)據(jù)是隨機(jī)缺失(MAR)的一個(gè)更好的方法是利用輔助信息將目標(biāo)缺失變量分層,然后在各層的完整觀測(cè)數(shù)據(jù)中隨機(jī)產(chǎn)生該層的插補(bǔ)值,這就是分層隨機(jī)插補(bǔ)。熱平臺(tái)插補(bǔ)還有一個(gè)很有效率的方法,就是利用輔助變

11、量,找到缺失值最接近的觀測(cè)值作為自己的插補(bǔ)值,這就是最近距離方法。本文的一個(gè)針對(duì)熱平臺(tái)插補(bǔ)和均值插補(bǔ)、回歸插補(bǔ)進(jìn)行對(duì)比的模擬分析發(fā)現(xiàn),在完全隨機(jī)缺失(MCAR)下,基于熱平臺(tái)的隨機(jī)插補(bǔ)效果顯著好于均值插補(bǔ),但可能比回歸插補(bǔ)略差。
  根據(jù)單一插補(bǔ)后的數(shù)據(jù)進(jìn)行估計(jì)檢驗(yàn)時(shí),其標(biāo)準(zhǔn)誤差常常是被低估的,多重插補(bǔ)是解決這個(gè)問題的最有效的模型。多重插補(bǔ)的基本思想是,對(duì)同一缺失值產(chǎn)生多個(gè)插補(bǔ)值,這樣就產(chǎn)生多個(gè)“完整”數(shù)據(jù),然后對(duì)每一個(gè)“完整”數(shù)

12、據(jù)估計(jì)檢驗(yàn),最后將其匯總成一個(gè)總的估計(jì)檢驗(yàn)結(jié)果。
  基于單一缺失的一元正態(tài)模型仍然利用回歸插補(bǔ)產(chǎn)生插補(bǔ)值,但其從兩個(gè)角度讓缺失值的不同插補(bǔ)值差異加大,一是跟回歸插補(bǔ)一樣在插補(bǔ)值中加入殘差項(xiàng),二是讓每一次插補(bǔ)的回歸模型參數(shù)隨機(jī)產(chǎn)生?;貧w模型參數(shù)的隨機(jī)產(chǎn)生方法有兩個(gè),一是根據(jù)回歸模型參數(shù)的后驗(yàn)分布隨機(jī)產(chǎn)生模型參數(shù),這就是貝葉斯方法;二是用數(shù)據(jù)的Bootstrap樣本來產(chǎn)生模型參數(shù),這就是Bootstrap方法。本文首先研究分析了這兩

13、個(gè)方法的假設(shè)和理論,然后為了比較這兩個(gè)方法的應(yīng)用效果,在完全隨機(jī)缺失的假設(shè)下模擬產(chǎn)生缺失數(shù)據(jù),然后分別用貝葉斯法和Bootstrap法進(jìn)行插補(bǔ),并跟單一插補(bǔ)進(jìn)行比較,結(jié)果發(fā)現(xiàn)無論是貝葉斯法還是Bootstrap方法,都有很好的估計(jì)檢驗(yàn)效果,其估計(jì)的準(zhǔn)確性顯著超過單一插補(bǔ)。
  多元正態(tài)模型是基于一般缺失模式的農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù)的插補(bǔ)。多元正態(tài)模型,由于其缺失模式的復(fù)雜性,為缺失值的插補(bǔ)提出了更大的挑戰(zhàn)。本文研究了其中最為廣泛應(yīng)用

14、的聯(lián)合分布方法以及條件分布方法的假設(shè)和理論。更進(jìn)一步本文模擬了一個(gè)多變量隨機(jī)缺失的農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù),然后運(yùn)用這兩個(gè)方法進(jìn)行插補(bǔ),結(jié)果顯示兩者都有很好的估計(jì)檢驗(yàn)效果,而且兩者之間差異并不大,都是很好的方法。
  在理論和模擬分析的基礎(chǔ)上,本文對(duì)一個(gè)實(shí)際農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù)進(jìn)行了應(yīng)用分析并取得較好的效果。通過實(shí)際應(yīng)用分析可以得到一個(gè)基本的結(jié)論,那就是如果數(shù)據(jù)基本符合缺失值處理模型的假設(shè),多重插補(bǔ)優(yōu)于單一插補(bǔ),而單一插補(bǔ)又優(yōu)于刪除;如果

15、不符合假設(shè),比如出現(xiàn)極端值,那么基于明確后驗(yàn)分布的缺失值插補(bǔ)效果會(huì)大打折扣,而此時(shí)基于熱平臺(tái)的插補(bǔ)方法會(huì)得到更穩(wěn)健的結(jié)果。
  基于本研究,為農(nóng)業(yè)經(jīng)濟(jì)管理研究人員在缺失值處理前和缺失值處理中兩個(gè)階段分別給出了一定的具體建議。在缺失值處理前建議:調(diào)查前通過良好的問卷設(shè)計(jì)減少缺失值產(chǎn)生;調(diào)查中與通過農(nóng)戶良好的溝通減少缺失值產(chǎn)生;及時(shí)處理無意義值,以免跟缺失值混淆;不要用不科學(xué)的方法消除缺失值。在缺失值處理中建議:正視缺失值問題;盡量不

16、要?jiǎng)h除缺失值;善于利用分類變量處理缺失值;插補(bǔ)缺失值前對(duì)缺失數(shù)據(jù)進(jìn)行描述考察;單一插補(bǔ)時(shí)選擇回歸插補(bǔ);在數(shù)據(jù)一般缺失時(shí)使用多重插補(bǔ)。
  本研究可能的創(chuàng)新有:
  (1)本文率先關(guān)注了農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)的缺失值處理問題,并基本厘清其學(xué)理。雖然在農(nóng)業(yè)經(jīng)濟(jì)調(diào)查中缺失值無可避免,但絕大部分農(nóng)業(yè)經(jīng)濟(jì)管理研究人員都將其忽略,更鮮有人對(duì)其系統(tǒng)研究,使得該領(lǐng)域的研究特別是國(guó)內(nèi)研究基本空白,這也是作者開啟這項(xiàng)研究的重要原因。
  (2)

17、本文專門針對(duì)中國(guó)農(nóng)業(yè)經(jīng)濟(jì)調(diào)查的特點(diǎn)模擬缺失數(shù)據(jù)進(jìn)行分析,具有一定創(chuàng)新性和開創(chuàng)性。本文針對(duì)中國(guó)農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)的缺失值處理,提出了一整套具體而又可行的模型和方法體系,為了分析這些方法的可行性和使用條件,并對(duì)不同模型和方法的效果進(jìn)行比較,采用了理論分析和模擬分析。而其中的很多模擬分析針對(duì)中國(guó)農(nóng)業(yè)經(jīng)濟(jì)調(diào)查特點(diǎn)、缺失模式、缺失機(jī)制進(jìn)行了專門的設(shè)計(jì)。
  (3)本文為農(nóng)業(yè)經(jīng)濟(jì)調(diào)查數(shù)據(jù)中缺失值實(shí)際處理和應(yīng)用自編了一套具體的基于R軟件的程序代碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論