抽樣調(diào)查-第5章-不等概抽樣_第1頁(yè)
已閱讀1頁(yè),還剩68頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、§5.1 不等概抽樣,一、概念與特點(diǎn),前面所學(xué)的簡(jiǎn)單隨機(jī)抽樣,總體中的每個(gè)單元具有同樣的入樣概率,它是等概率抽樣。與等概率抽樣對(duì)應(yīng)的另一類方法是不等概抽樣,也就是在抽樣前賦予總體每個(gè)單元一個(gè)入樣概率.一般而言,每個(gè)單元的入樣概率是由該單元在整體中的地位來(lái)確定的.因此每個(gè)單元的入樣概率可能是不相同的.,什么時(shí)候使用不等概抽樣?實(shí)際工作中,如果遇到下面幾種情況,則可以考慮使用不等概抽樣:1、抽樣單元在總體中所占的地位不一致

2、2、調(diào)查的總體單元與抽樣總體的單元不一致3、改善估計(jì)量,不等概抽樣的優(yōu)點(diǎn):提高估計(jì)精度,減少抽樣誤差。,二、不等概抽樣的種類,1、放回不等概抽樣首先給整體的每一個(gè)單元賦予一個(gè)確定的入樣概率(通常是不相等的),然后在總體中對(duì)每個(gè)單元按入樣概率進(jìn)行抽樣,抽取出來(lái)的樣本單元記錄后又放回總體,再進(jìn)行下一次的抽樣,很顯然每次抽樣都是獨(dú)立的。,放回不等概抽樣中,最常用的是按照整體單元的規(guī)模大小來(lái)確定單元在每次抽樣時(shí)的入樣概率,假設(shè)總體中第i

3、個(gè)單元的規(guī)模度量為 ,總體的總規(guī)模為 每次抽樣中,第i個(gè)單元被抽中的概率用 表示,其中,這種不等概抽樣稱作放回的與規(guī)模大小成比例的概率抽樣(probability proportional to size),簡(jiǎn)稱PPS抽樣。實(shí)際問(wèn)題中,總體單元大小的度量往往不止一個(gè),比如企業(yè)員工數(shù)量、產(chǎn)值、銷售量、利潤(rùn)等都可以度量企業(yè)規(guī)模的大小。 PPS抽樣的

4、實(shí)施主要有兩種方法:代碼法和拉希里(Lahiri)法,下面我們用一個(gè)實(shí)例分別介紹這兩種方法。,則代碼m所對(duì)應(yīng)的單元被抽中。,(1)代碼法,,【例5.1】設(shè)某個(gè)總體有N=10個(gè)單元,相應(yīng)的單元大小 及其代碼數(shù)如下表,我們要在其中產(chǎn)生一個(gè)n=3的樣本.,先在[1,738]中產(chǎn)生一個(gè)隨機(jī)數(shù)為354,再在[1,738]中產(chǎn)生第二個(gè)隨機(jī)數(shù)為553,最后產(chǎn)生第三個(gè)隨機(jī)493。則它們所對(duì)應(yīng)的第5,7,6號(hào)單元被抽中。,(2)拉希里法,令

5、 每次抽樣都分別產(chǎn)生,因此,第4,7, 9號(hào)單元被抽中。,2、不放回不等概抽樣每次在總體中對(duì)每個(gè)單元按入樣概率進(jìn)行抽樣,抽取出來(lái)的樣本單元不放回總體,對(duì)總體中剩下的單元進(jìn)行下一次抽樣。不放回不等概抽樣的效率比放回時(shí)的效率高,但是樣本不獨(dú)立會(huì)加大抽樣實(shí)施、參數(shù)估計(jì)及精度計(jì)算的難度。,對(duì)于不放回不等概抽樣,樣本的抽取可以有以下幾種方法:(1)逐個(gè)抽取法。每次從總體未被抽中的單元中

6、以一定的概率取一個(gè)樣本單元。(2)重抽法。以一定的概率逐個(gè)進(jìn)行放回抽樣,如果抽到重復(fù)單元,則放棄所有抽到的單元,重新抽取。(3)全樣本抽取法。對(duì)總體每個(gè)單元分別按一定概率決定其是否入樣。這種方法的樣本量是隨機(jī)的,事先不能確定。(4)系統(tǒng)抽樣法。將總體單元按某種順序排列,根據(jù)樣本量確定抽樣間距k,在[1,k]中產(chǎn)生一個(gè)隨機(jī)數(shù)。,§5.2 放回不等概抽樣,一、只抽取一個(gè)樣本單元(n=1)的不等概抽樣 為了便

7、于了解不等概抽樣的基本思想,我們先看一個(gè)總體已知,只抽取一個(gè)樣本單元的例子。 【例】一個(gè)城市有四個(gè)超市營(yíng)業(yè)面積從100平方米到1000平方米不等(見下表),我們的目標(biāo)是通過(guò)抽取一家超市來(lái)估計(jì)這四個(gè)超市上個(gè)月的總營(yíng)銷量。通常超市面積越大則銷售量越大,因此,我們選擇的入樣概率與超市的營(yíng)業(yè)面積成正比。,四個(gè)超市的背景數(shù)據(jù),:第i個(gè)超市的包含概率, :第i個(gè)超市的銷售量,如果超市的營(yíng)業(yè)面積近似正比于超市的銷售額,那么超市A

8、的銷售額就占所有超市銷售額的1/16,因此超市A的銷售額乘以權(quán)重16(包含概率的倒數(shù))可以近似地估計(jì)所有超市的銷售額。因此,樣本量為1的不等概抽樣的總體總值估計(jì)量為:,式中,四個(gè)n=1可能的不等概樣本及其估計(jì)量,從上表可以算出:,可見不等概抽樣的總體總值估計(jì)量是無(wú)偏的,我們用同一個(gè)例題將不等概抽樣與簡(jiǎn)單隨機(jī)抽樣作一比較,以此認(rèn)識(shí)不等概抽樣的意義。 與n=1的簡(jiǎn)單隨機(jī)抽樣相比,簡(jiǎn)單隨機(jī)抽樣的樣本,所有可能的樣本見下表,四個(gè)可能

9、的簡(jiǎn)單隨機(jī)樣本的數(shù)據(jù)及其估計(jì)量,我們來(lái)計(jì)算簡(jiǎn)單隨機(jī)抽樣的估計(jì)量方差,前面按不等概抽樣的估計(jì)量方差為 14248, 是無(wú)偏估計(jì),期望為300萬(wàn)元,但是其方差大于不等概抽樣,這是因?yàn)椴坏雀懦闃永昧溯o助信息,即與銷售額相關(guān)的超市面積。,二、一般有放回不等概抽樣,對(duì)于放回不等概抽取樣本容量為n的樣本,總體總值的估計(jì)量為樣本中所有 的平均,我們得到漢森—赫維慈(Hansen-Hurwitz)估計(jì) :,上式是總體總值的無(wú)

10、偏估計(jì),如果采用的是PPS抽樣,即 ,則,上面估計(jì)量是n個(gè)獨(dú)立觀測(cè)的平均,因此每個(gè)單元的總值估計(jì)量方差是:,【例5.2】某部門要了解所屬8500家生產(chǎn)企業(yè)當(dāng)月完成的利潤(rùn),該部門手頭已有一份上年各企業(yè)完成產(chǎn)量的報(bào)告,將其匯總得到所屬企業(yè)上年完成產(chǎn)量為3676萬(wàn)噸.考慮到時(shí)間緊,準(zhǔn)備采用抽樣調(diào)查來(lái)推算當(dāng)月完成的利潤(rùn).根據(jù)經(jīng)驗(yàn),企業(yè)的產(chǎn)量和利潤(rùn)相關(guān)性比較強(qiáng),且企業(yè)的特點(diǎn)是規(guī)模和管理水平差異比較大,通常大企業(yè)的管理水平

11、較高,因此采用與上年產(chǎn)量成比例的PPS抽樣,從所屬企業(yè)中抽出一個(gè)樣本量為30的樣本,調(diào)查結(jié)果如下表.,不等概抽樣例題,樣本單元的有關(guān)數(shù)據(jù),紅色數(shù)字表示被兩次抽到,mi為企業(yè)上年完成的產(chǎn)量,yi為企業(yè)當(dāng)月完成的產(chǎn)量。,要根據(jù)以上調(diào)查結(jié)果估計(jì)該部門所屬企業(yè)當(dāng)月完成的利潤(rùn),并給出95%置信度下的相對(duì)誤差.如果要求在相同條件下相對(duì)誤差達(dá)到20%,所需的樣本量應(yīng)該是多少?,解:由上述條件知,估計(jì)當(dāng)月完成的利潤(rùn)為:,方差及標(biāo)準(zhǔn)差的估計(jì),,

12、在置信度為95%時(shí),對(duì)應(yīng)的t=1.96, 的相對(duì)誤差,因此,在置信度仍為95%、相對(duì)誤差時(shí) ,所需樣本量為:,三、有放回不等概整群抽樣 在群規(guī)模不等的整群抽樣中,如果群的規(guī)模差異較大,各個(gè)群對(duì)總體的影響會(huì)產(chǎn)生很大差別。這時(shí)可以采用不等概方式抽取群。其好處是把群的規(guī)模作為抽取樣本的輔助信息,提高了估計(jì)的精度,而且方差估計(jì)有比較簡(jiǎn)單的形式。下面主要討論以PPS抽樣抽取群的情況。,每次按

13、 的概率抽取第i個(gè)群,由于群內(nèi)的單元全部參與調(diào)查,第i個(gè)群的總值為:,,根據(jù)上節(jié)講到的漢森—赫維茨估計(jì)量,PPS整群抽樣的總體總值估計(jì)量為:,我們知道,這是一個(gè)無(wú)偏估計(jì)。,估計(jì)量的方差是:,估計(jì)量方差的估計(jì)為:,【例5.3】 某企業(yè)欲估計(jì)上季度每位職工的平均病假天數(shù)。該企業(yè)共有8個(gè)分廠(工人數(shù)資料見下表),現(xiàn)用不等概整群抽樣擬抽取三個(gè)分廠為樣本,并以95%的置信度計(jì)算其置信區(qū)間。有關(guān)數(shù)

14、據(jù)及抽樣過(guò)程如下:,8個(gè)分廠的職工人數(shù)資料,,【解】 采用PPS抽樣,利用隨機(jī)數(shù)表在數(shù)字 1~12950之間隨機(jī)抽取3個(gè)數(shù),分別是02011, 07972和10281,于是3分廠、6分廠和8分廠入選樣本。用 分別表示三個(gè)分廠職工的病假天數(shù),調(diào)查結(jié)果為:,同樣可求得估計(jì)量方差的估計(jì)值為:,其95%的置信區(qū)間為:,【評(píng)價(jià)】 對(duì)于群規(guī)模不等的整群抽樣,采用不等概PPS抽樣,可以得到總體目標(biāo)量的無(wú)偏估

15、計(jì),估計(jì)量和估計(jì)量方差都有比較簡(jiǎn)明的形式,估計(jì)的效率也比較高,確實(shí)是值得優(yōu)先采用的方法。但是此方法使用的條件是:在抽取樣本前,要了解有關(guān)群規(guī)模大小的信息。此外,抽樣過(guò)程比等概整群抽樣更為復(fù)雜。,§5.3 多階段有放回不等概抽樣,一、兩階段有放回不等概抽樣 抽樣方法:對(duì)初級(jí)單元進(jìn)行抽樣時(shí),先確定每個(gè)初級(jí)單元的入樣概率。對(duì)被抽中的初級(jí)單元,再抽取 個(gè)二級(jí)單元。如果某個(gè)初級(jí)單元被抽中多次,則將這

16、 個(gè)二級(jí)單元放回,重新抽取 個(gè)二級(jí)單元。當(dāng)然,這兩個(gè)樣本中的二級(jí)單元可能會(huì)有重復(fù)。在實(shí)際調(diào)查時(shí),對(duì)重復(fù)的二級(jí)單元只調(diào)查一次,但計(jì)算的時(shí)候,應(yīng)該按照被抽中的次數(shù)進(jìn)行重復(fù)計(jì)算。,總體總值的估計(jì):先構(gòu)造初級(jí)單元總值 的無(wú)偏估計(jì) 然后利用漢森-赫魏茨估計(jì)量對(duì)總體總值Y進(jìn)行估計(jì):,特別地 記總體中所有二級(jí)單元數(shù)為 ,如果抽樣時(shí)每個(gè)初級(jí)單元被抽中的概率與其擁有的二級(jí)單元數(shù)成比例,即初級(jí)單元

17、被抽中的概率為 第二階段對(duì)二級(jí)單元進(jìn)行簡(jiǎn)單隨機(jī)抽樣,則 ,樣本是自加權(quán)的,對(duì)總體總值的估計(jì)為:,在實(shí)際調(diào)查中,如果初級(jí)單元大小不相等,人們通常喜歡在第一階段時(shí)按放回的與二級(jí)單元成比例的PPS抽樣,第二階段抽樣則進(jìn)行簡(jiǎn)單隨機(jī)抽樣,且每個(gè)初級(jí)單元的二級(jí)單元樣本都相同,這樣得到的樣本是自加權(quán)的,估計(jì)量的形式非常簡(jiǎn)單。,,【例5.4 】某小區(qū)擁有10座高層建

18、筑,每座高層建筑擁有的樓層數(shù)如下表,10座高層建筑的層數(shù),,,我們用兩階段抽樣方法抽出10個(gè)樓層進(jìn)行調(diào)查,第一階段抽樣為放回的按與每層建筑擁有的樓層成比例的不等概抽取5座建筑,第二階段按簡(jiǎn)單隨機(jī)抽樣對(duì)每座建筑抽取兩個(gè)樓層。對(duì)10個(gè)樓層居民人數(shù)的調(diào)查結(jié)果如下,試對(duì)小區(qū)總居民數(shù)進(jìn)行估計(jì),并給出估計(jì)的誤差。,,被選中的高層建筑序號(hào)及10個(gè)樓層的居民數(shù),,【解】已知,,,二、多階段有放回不等概抽樣 (略) 參

19、看教材P174,,§5.3 不放回不等概抽樣,一、πPS 抽樣,不放回不等概抽樣:,我們知道,若采用放回抽樣,對(duì)總體參數(shù)的估計(jì)及其方差估計(jì)比較簡(jiǎn)單,但樣本單元中可能有單元被抽中多次.因此,放回抽樣得到的樣本其代表性比不放回抽樣差.在相同樣本量的條件下,放回抽樣的估計(jì)精度較低. 不放回不等概抽樣是指不放回的與單元大小成比例的概率抽樣.,包含概率: 在不放回不等概抽樣中,每個(gè)單元入樣的概率 及任意兩個(gè)單

20、元同時(shí)入樣的概率 統(tǒng)稱為包含概率.,對(duì)固定的 n ,包含概率滿足下面等式:,二、赫魏慈—湯普森估計(jì)量,對(duì)于不放回不等概抽樣,其總體總量Y的估計(jì)是:,赫魏慈—湯普森估計(jì):,如果 n 固定,則,【例5.3】假設(shè)有5個(gè)居委會(huì),每個(gè)居委會(huì)的住戶數(shù)X已知,但常住居民人數(shù)未知,我們從這5個(gè)居委會(huì)抽出兩個(gè)來(lái)估計(jì)常住居民的總?cè)藬?shù),調(diào)查數(shù)據(jù)如下表.,上面表中的包含概率為:,從5個(gè)居委會(huì)中不放回地抽出2個(gè)居委會(huì),無(wú)論是不放回不等概抽樣還是簡(jiǎn)單

21、隨機(jī)抽樣,共有10種不同的樣本,我們用這些樣本分別利用霍維茨—湯普森估計(jì)計(jì)算及簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)單估計(jì)計(jì)算對(duì)總量的估計(jì),計(jì)算結(jié)果列于下表.,不同估計(jì)量的估計(jì)結(jié)果,從理論上來(lái)說(shuō), 和 都是無(wú)偏的,它們的均值是2520. 本例題的結(jié)果表明:不放回不等概赫魏慈—湯普森估計(jì)量比簡(jiǎn)單隨機(jī)抽樣簡(jiǎn)單估計(jì)更精確,其原因是X 和Y 之間有較強(qiáng)的相關(guān)關(guān)系。,情形的嚴(yán)格的 抽樣。,1、 的情形在總體中只抽兩個(gè)單元

22、,通常用逐個(gè)抽取法來(lái)保證抽樣是不放回的。我們可以采用幾種不同的抽樣方法。對(duì)總體所有的單元,如果有 就可以采用布魯爾方法。,概率抽取第一個(gè)單元,記為j ,按與,布魯爾方法的包含概率為:,對(duì)于總體總量估計(jì)可采用赫魏慈—湯普森估計(jì)量:,【例5.7】對(duì)于例5.6,如果抽樣是按布魯爾方法的,則其所有可能樣本的包含概率如下表:,我們可以按下述公式總體均值的估計(jì)及其方差:,2. n > 2的情形

23、,一般采用水野法,也是一種逐個(gè)抽取方法,它以概率,i=1,2,…,N,抽取第一個(gè)樣本單元,在剩下的N-1個(gè)單元中,不放回等概地抽出n-1個(gè)樣本單元。為了保證每個(gè)要求每個(gè)單元的大小滿足:,,耶茨—格隆迪方法的 不易計(jì)算,因而不能用赫魏慈—湯普森估計(jì)量,我們采用拉奇估計(jì)量。,設(shè) 為按抽中順序排列的樣本單元的指標(biāo)值,相應(yīng)的Z值為 ,令,則拉奇估計(jì)量為:,解 (1)首先利

24、用代碼來(lái)進(jìn)行抽樣。如下表(下頁(yè)),(2)接下來(lái)由樣本推算總體 按被抽出的順序排列,樣本單元為4,8,3號(hào)單元,相應(yīng)的 值為 調(diào)查完畢后,如果相應(yīng)的指標(biāo)值為先計(jì)算,2. 泊松(Poisson) 抽樣,本章小結(jié)(1)不等概抽樣方法是與簡(jiǎn)單隨機(jī)抽樣方法平行的一類方法.它主要用于總體單元差異非常大的情形.(2)不等概抽樣的效率比較高,它能大大提高估計(jì)精度.(3)不等概抽樣分為PPS抽樣和 抽樣.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論