第十三講量的資料統(tǒng)計(jì)與分析_第1頁
已閱讀1頁,還剩68頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1,第十三講 量的資料統(tǒng)計(jì)與分析,呂國光西北師范大學(xué)教育科學(xué)學(xué)院,2,統(tǒng)計(jì)學(xué)家視數(shù)據(jù)為資源,并且試圖從數(shù)據(jù)中看出平常人所看不到的景致來。,,3,內(nèi)容復(fù)習(xí),統(tǒng)計(jì)學(xué)的定義、分類;認(rèn)識數(shù)據(jù)的第一步:你得到的是什么類型的數(shù)據(jù)?利用圖表展示數(shù)據(jù)中的信息;運(yùn)用指標(biāo)刻畫數(shù)據(jù)的某些特征和程度;使用EXCEL和SPSS來描述數(shù)據(jù);,4,,抽樣分布和估計(jì),5,統(tǒng)計(jì)推斷的基本概念,總體:有限總體、無限總體;樣本;統(tǒng)計(jì)推斷的任務(wù):通過樣本的統(tǒng)計(jì)量

2、來了解總體的參數(shù)。為什么需要抽樣: 1) 總體無法得到; 2) 時(shí)間成本不允許; 3) 實(shí)驗(yàn)具有破壞性。,6,統(tǒng)計(jì)推斷的基本思想,1)選用一個概率模型來刻畫總體,使用樣本對模型做出推斷;2)樣本的獲取的可能性依賴于你選用的模型;根據(jù)這種可能性來分析我們由部分來認(rèn)識總體所可能犯的錯誤(風(fēng)險(xiǎn))。,7,統(tǒng)計(jì)推斷的內(nèi)容之一,估計(jì)參數(shù)點(diǎn)估計(jì)和區(qū)間估計(jì)點(diǎn)

3、估計(jì)的例子 居民家庭年收入,8,統(tǒng)計(jì)推斷內(nèi)容之二,假設(shè)檢驗(yàn):是否可以選用這個模型?例子: 是否可以使用模型N(570,306)來刻畫所有居民的家庭年收入?思想: 如果該模型是好的,那么 和570相差很多的可能性不能太大。,9,簡單隨機(jī)抽樣,有限總體的簡單隨機(jī)抽樣:等概率抽樣; 有放回抽樣:獨(dú)立性 無放回抽樣:非獨(dú)立性抽樣方法:利用隨即數(shù)表

4、 利用 Excel,10,隨機(jī)數(shù)表的使用,77191 25860 55204 73417 83920 6948676298 26678 89334 33938 95567 2938057099 10528 09925 89773 41335 9624415987 46962 67342 77592 57651 9550853122 16025 84299

5、 53310 67380 8424937203 64516 51530 37069 40216 61374,11,,無限總體的簡單隨機(jī)抽樣:獨(dú)立性;例子:擲硬幣,12,樣本和總體分布,例子:薯片一個箱子中有10000包薯片,其中50%標(biāo)價(jià)5元, 30%標(biāo)價(jià)10元, 10%標(biāo)價(jià)15元, 10%標(biāo)價(jià)30元。,13,點(diǎn)估計(jì)的方法,估計(jì)量(統(tǒng)計(jì)量);估計(jì)值?;谝欢ǖ臏?zhǔn)則求最好的估計(jì)量。 極大似然法則;

6、 矩估計(jì); 最小二乘估計(jì)等,14,抽樣分布,樣本不同, 值也不同。那么 取不同值的可能性分別是什么? 的概率分布稱作它的抽樣分布。抽樣分布在統(tǒng)計(jì)推斷中的中心地位。抽樣分布取決于總體的分布(模型)以及抽樣的方式。 抽樣方式 總體分布=====? 抽

7、樣分布,15,樣本均值的抽樣分布(無限總體),如果總體服從 , 那么簡單隨機(jī)樣本的均值服從正態(tài)分布如果樣本容量n非常大,而且總體的期望是?,方差是?2〈+?,那么簡單隨機(jī)樣本的均值 近似服從正態(tài)分布 (中心極限定理),16,樣本比率的抽樣分布 (無限總體),小樣本情況 x服從二項(xiàng)式分布B(n,p).大樣本情況,按照中心極限定理,近似地,17,正態(tài)分布

8、的圖形,18,有限總體的修正系數(shù),設(shè)N是總體中個體的個數(shù),n是樣本容量,那么樣本均值的方差是:樣本比率的方差是:注:如果N相比n大很多,比如n/N?5%,可以視為無限總體。,19,樣本方差的抽樣分布,如果 是來自正態(tài)總體 的一個隨機(jī)樣本,定義樣本方差為:,20,認(rèn)識卡方分布,21,方差未知時(shí)樣本均值的抽樣分布,正態(tài)總體,?2未知,使用樣本方差s2來替代?2,則樣本均值滿足:n&

9、gt;30時(shí),可以用標(biāo)準(zhǔn)正態(tài)分布近似。,22,正態(tài)分布和t 分布的比較,23,估計(jì)的誤差,不能以個別估計(jì)值作為評價(jià)準(zhǔn)則;估計(jì)的誤差:,24,對估計(jì)量的評價(jià),無偏性:偏差是零;有效性:方差最??;一致性:樣本容量增加會降低估計(jì)誤差。樣本均值(比率)是對總體均值(比率)的一個無偏的、有效的、一致的估計(jì)量。,25,將概率模型引入統(tǒng)計(jì)推斷中來刻畫總體,可以使得我們能夠測量和控制由部分(樣本)來推斷總體時(shí)所犯的錯誤。,,26,,Estim

10、ate Population,,Parameter...,,with Sample,,Statistic,,,,,,,,,,Mean,?,,,Proportion,p,,,,,Variance,s,2,,,,,Population Parameters Estimated,?,2,,,Difference,? - ?,1,2,x - x,1,2,,,,,,,_,_,_,27,,的抽樣分布: 1)正態(tài)總體

11、 時(shí),,28,,2)非正態(tài)總體時(shí),大樣本情況(n?30),29,,S2的抽樣分布: 當(dāng)總體是正態(tài)分布時(shí),,30,,的抽樣分布:,31,,有限總體時(shí)樣本均值和樣本比率的標(biāo)準(zhǔn)誤差,有限總體修正系數(shù)。,32,聯(lián)合食品公司的案例,針對“聯(lián)合食品公司”的案例(P.44 案例2-1),我們假設(shè)調(diào)查的100個客戶組成一個簡單隨機(jī)樣本。嘗試回答下面的問題:1)所有客戶一次購買金額的平均值是多少?2)所有使用信用

12、卡的客戶一次購買金額的平均值是多少?3)使用信用卡的客戶占的比例是多少?,33,34,35,,1)所有客戶一次購買金額的平均值是多少?(29.4449)2)所有使用信用卡的客戶一次購買金額的平均值是多少?(40.8768)3)使用信用卡的客戶占的比例是多少?(0.22),36,我們的估計(jì)值離真值有多遠(yuǎn)?,我們希望通過樣本的信息給出一個范圍,使這個范圍按足夠大的概率包含我們所感興趣的參數(shù)。如何尋找K和L ,使得以95%的概率成立

13、:,37,,抽樣誤差:無偏點(diǎn)估計(jì)值與總體參數(shù)之差的絕對值。,38,樣本均值的抽樣分布,z???,-z???,1-?,39,大樣本且?已知的情況,,40,理解置信區(qū)間的含義,抽取100個樣本,計(jì)算出100個平均值和100個區(qū)間,它們當(dāng)中至少有(1-?)*100個包含了未知的總體均值?。 因此,可以以(1-?)的程度確信?落在每一個區(qū)間里面。 邊際誤差:,41,Confidence Intervals,,,,,Intervals Ex

14、tend from,(1 - ?) % of Intervals Contain ?. ??% Do Not.,,,,,,,,,1 -,??,?,/2,,?,/2,,,,,,X,_,?,x,,,_,Intervals & Level of Confidence,Sampling Distribution of the Mean,to,,42,聯(lián)合食品公司的例子,如果已知所有消費(fèi)者一次購買金額的標(biāo)準(zhǔn)差是22,那么一次購買平均金

15、額的一個95%的置信區(qū)間是: 29.4449?1.96*(22/10)或者(25.1329, 33.7569),其中邊際誤差=4.312.問題:對這個區(qū)間的含義你知道了什么? 怎么可能知道 標(biāo)準(zhǔn)差?,43,大樣本且?未知的情形,,44,聯(lián)合食品公司的例子,所有顧客一次購買金額的平均值的95%的置信區(qū)間: 29.4449?1.96*(20.4162/10)

16、或者 (25.44333, 33.44506)問題:對使用信用卡的顧客一次購買金額的平均值能否類似進(jìn)行區(qū)間估計(jì)?,45,小樣本且?未知的情形,,46,聯(lián)合食品公司的例子,所有持信用卡的顧客一次購買金額的平均值的95%的置信區(qū)間是:問題:1)你獲得上述結(jié)論時(shí)對總體作了什么假定?是否合理? 2)如何使用EXCEL解決該問題?,47,小樣本且?已知的情形,你自己可以解決這一問題嗎?,

17、48,大樣本下總體比率p的區(qū)間估計(jì),,49,聯(lián)合食品公司的例子,使用信用卡支付的顧客的比率的95%的置信區(qū)間是多少?問題:是否符合大樣本的條件?進(jìn)一步的問題:如果嫌精度不夠怎麼辦?,50,Data Variation ?Sample Size nLevel of Confidence (1 - ?),Intervals Extend,,?1984-1994 T/Maker Co.,,,,,,,,,,,,,,

18、,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,影響區(qū)間長度的因素,,,,51,90% Samples,95% Samples,,,,Confidence Intervals,,,,,,99% Samples,,,X,,,,,_,52,樣本容量的確定(1),給定邊際誤差E和置信系數(shù)1-?,問題是:確定樣本容量n使得總體均值(比率)的1-? 水平的置信區(qū)間長度不超過2E?(該問題有什么實(shí)際

19、意義?),53,樣本容量的確定(2),?怎么獲得? 1)用以前相同或類似的樣本的樣本標(biāo)準(zhǔn)差代替; 2)用試驗(yàn)調(diào)查的方法選擇初始樣本,用該樣本的樣本標(biāo)準(zhǔn)差代替; 3)對?進(jìn)行判斷或者猜測:比如全距的1/4作為估計(jì)。為什么用正態(tài)分布的?/2分位數(shù)而不用t分布?,54,樣本容量的確定(3),對于總體比率來說:如何確定p? 1)類似對?的確定方法; 2)使用p=0.

20、5,此時(shí)p(1-p)最大,從而高估樣本容量。,55,聯(lián)合食品公司的例子,為使得所有顧客一次購買金額的平均值的95%的置信區(qū)間長度不超出6美圓,需至少采用多大的樣本? E=? ?=? (全距=77.07) n=(1.96*77.07/4)^2/9=158.46?159,56,聯(lián)合食品公司的例子,為了使得對持信用卡購買的顧客比率p的95%的置信區(qū)間長度不超過0.2,樣本至少多大?E=?P=? N=

21、(1.96)^2*0.5*0.5/0.1^2=96.04?97,57,區(qū)間估計(jì)內(nèi)容小結(jié),置信區(qū)間的含義;從抽樣分布求置信區(qū)間;給定精度,確定樣本大小。,58,,,Mean, ?, is unknown,Population,Random Sample,I am 95% confident that ? is between 40 & 60.,,,Mean = 50,,,Estimation Process,Sa

22、mple,,59,對總體模型的推斷另一種方式:假設(shè)檢驗(yàn),參數(shù)估計(jì)的思路:選擇一個合適的模型;假設(shè)檢驗(yàn)的思路:檢驗(yàn)一個給定的模型。,60,Population,Assume the,population,mean age is 50.,(Null Hypothesis),,,,,REJECT,,,,,,The Sample,Mean Is 20,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Sample,Nul

23、l Hypothesis,Hypothesis Testing Process,No, not likely!,61,從一個例子看假設(shè)檢驗(yàn)的思路,摸球試驗(yàn):有放回地在一個袋子中連續(xù)摸6次,都是紅球,你能否接受“袋子中一半是紅球一半是白球”的說法?為什么?如果我接受你的說法(假設(shè)),那么我看到的現(xiàn)象(樣本)出現(xiàn)的可能性是多少?如果這種可能性太小,會是什么情況?,62,假設(shè)檢驗(yàn)的基本概念,H0: 一半紅球一半白球。 (或者p=0.5)

24、;H1:紅球白球不是各一半。(或者p不是0.5)。原假設(shè);備擇假設(shè);選擇的態(tài)度:拒絕?接受? (To be or not to be,……)更多的例子,簡單假設(shè)和復(fù)合假設(shè):,63,拒絕域,拒絕域:哪些樣本出現(xiàn)后,你會拒絕原假設(shè)?你建立你的拒絕域的根據(jù)是什么?抽樣分布。所謂檢驗(yàn)就是選擇一個拒絕域。為什么這是一個問題?,64,你會犯什么錯誤?,65,,H0: Innocent,,,Jury Trial,Hyp

25、othesis,Test,,,,,,,,,,,,,,,,,,,Actual Situation,,,,,Actual Situation,,,,,,,,,,,,,,,,,,,,,,,,,,Verdict,,Innocent,,,Guilty,,,Decision,,H,0,True,,H,0,False,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Innocent,,Correct,Error,,Do Not,,Rej

26、ect,,H,0,1 -,a,Type II,Error (,b,),,,,,,,,,,,,,,,,,,,,,,,,Guilty,,Error,Correct,,Reject,,H,0,,Type I,Error,(,a,),Power,(1 -,b,),Result Possibilities,66,,,a,b,Reduce probability of one error and the other one goes up.,,a

27、 & b Have an Inverse Relationship,67,Neymann-Pearson原則,找一個不犯錯誤的檢驗(yàn)???N-P原則:控制犯第一類錯誤的概率。顯著水平:犯第一類錯誤的最大概率。啟示:拒絕原假設(shè)、接受原假設(shè)?設(shè)置原假設(shè)和備擇假設(shè)的學(xué)問:一種藥品中含某元素超過0.01克為不合格。如何設(shè)置原假設(shè)? H0: 該藥品合格; H0:該藥品不合格。,68,一個例子,所有聯(lián)合食品公司的顧客一次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論