第1、2、3章-緒論、計量統(tǒng)計描述_第1頁
已閱讀1頁,還剩115頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第一章 醫(yī)學(xué)統(tǒng)計學(xué)中的基本概念,葉孟良,統(tǒng)計學(xué)(statistics):1.Statistics: A science dealing with the collection, analysis, interpretation, and presentation of numerical data. (Webster’s 國際大辭典)2.Statistics:The science and art of dealing with

2、 variation in data through collection, classification, analysis in such a way as to obtain reliable results. (John M. Last,流行病學(xué)詞典)總之,統(tǒng)計學(xué)是一門處理數(shù)據(jù)中變異性的科學(xué)與藝術(shù),內(nèi)容包括收集、分析、解釋和表達(dá)數(shù)據(jù),目的是求得可靠的結(jié)論,一、緒論,統(tǒng)計學(xué)思維和方法已經(jīng)滲透到醫(yī)學(xué)研究和衛(wèi)生決策之中,在科研的總體

3、設(shè)計、資料的收集、整理、分析直到最后得出結(jié)論都與之密切相關(guān)。,例: 1.北京某醫(yī)院某大夫使用“烏貝散”治療胃潰瘍出血107例,有效101例,有效率94.4%,那么別的醫(yī)生也一定是94.4%嗎?那么是多少?高還是低?(求置信區(qū)間),2.重慶某醫(yī)院有位老大夫,用“冠心靈”治療冠心病,其對照組用西藥,觀察結(jié)果如表,表 冠心靈與單存西藥療效對比,請問:冠心靈是否比單純西藥有效?(涉及統(tǒng)計學(xué)中假設(shè)檢驗的問題),二、醫(yī)學(xué)統(tǒng)計工作的內(nèi)容和資料的類型

4、,1、醫(yī)學(xué)統(tǒng)計工作的內(nèi)容:① design (設(shè)計)②collection data(收集)③sorting data(整理資料)④analyzing data (分析資料),① design (設(shè)計),根據(jù)研究目的制定研究方案 專業(yè)設(shè)計: 統(tǒng)計設(shè)計:研究對象的選擇(納入與排除標(biāo)準(zhǔn)),樣本量和樣本取得的方法,實驗組與對照組的分組原則,觀察指標(biāo)及其精度,試驗過程中的質(zhì)量控制,擬采用的統(tǒng)計分析方法等。,②c

5、ollection data(收集),收集準(zhǔn)確、完整、充滿信息的原始資料資料的來源: 專題試驗(實驗)研究、流行病學(xué)調(diào)查等 常規(guī)登記資料:例如門診病例、住院登記資料等 衛(wèi)生工作報表,③sorting data(整理資料),把收集到的原始資料,有目的地進(jìn)行加工,使資料系統(tǒng)化、條理化,以便進(jìn)一步統(tǒng)計分析歸類核查資料的完整性、可靠性(例如:漏項、邏輯性檢查、專業(yè)合理性、專業(yè)一致性檢查

6、),④analyzing data (分析資料),統(tǒng)計描述統(tǒng)計分析 統(tǒng)計推斷,,,參數(shù)估計,假設(shè)檢驗,,把經(jīng)過整理的資料做一系列的統(tǒng)計描述和統(tǒng)計推斷,闡明事物的特征和規(guī)律。,2、type of data(資料的類型),兩類: ①定量(計量、數(shù)值變量)資料 ② 定性(計數(shù)、分類變量)資料,①定量(計量、數(shù)值變量)資料,每個觀察對象通過定量測定的方法都有一個確切的值,通常有單位,但也有例外(例如

7、 淋巴細(xì)胞轉(zhuǎn)化率)。醫(yī)學(xué)中:身高、體重、血壓、血紅蛋白值等,② 定性(計數(shù)、分類變量)資料,按照研究對象的某個特征進(jìn)行分組,然后分組計數(shù)所獲得的資料。例如:男 25 女35,無序分類資料:分組時表現(xiàn)為互不相容的類別 二分類:性別(男25 女35 有效 無效) 多分類:血型(A 10 B 5 AB 7 O 3)、職業(yè)有序分類資料(等級資料):按照

8、程度遞增或遞減 例: ①癌癥分期:早、中、晚。 ②藥物療效:治愈、好轉(zhuǎn)、無效、死亡。 ③幽門螺旋桿菌感染程度 (- ++ +++ ++++),,,判斷資料類型的標(biāo)準(zhǔn): 看每個觀察對象是否有一個確切的值,有:計量 無:計數(shù) 資料可以由高級向低級轉(zhuǎn)化(高精度

9、向低精度),如 血壓值 (正常、異常),,觀察單位observations個體individuals,,,變量variables,,Quantitative data 計量資料,,Qualitative data 計數(shù)資料,,Units;elements,三、統(tǒng)計學(xué)中的幾個基本概念,(一)同質(zhì)與變異(二)總體與樣本(三)參數(shù)與統(tǒng)計量(四)誤差(五)頻率與概率,(一)同質(zhì)與變

10、異 homogeneity and variation,1、同質(zhì):是指觀察單位間被研究指標(biāo)的影響因素相同。如:研究兒童的生長發(fā)育,規(guī)定的同性別、同年齡、同地區(qū)、同民族、健康的兒童即為同質(zhì)的兒童。 研究目的條件下的性質(zhì)相同 觀察單位的研究特征為變量。 變量的觀察結(jié)果為變量值。2、變異:性質(zhì)相同的同質(zhì)對象的某個或某幾個特征值

11、不同。,同質(zhì)與變異的例子,例1 調(diào)查2006年重慶7歲男童的身高和體重同質(zhì):2006年、重慶市、7歲男童變異:身高和體重各不相同例2 研究某降壓藥的療效同質(zhì):高血壓患者、用某藥治療變異:療效各不相同,(二) 總體與樣本 population and sample,總體:根據(jù)研究目的確定的同質(zhì)研究對象的全體(集合)。分有限總體與無限總體,樣本:從總體中隨機(jī)抽取的部分觀察單位,代表性的條件,隨機(jī)抽樣

12、足夠數(shù)量(樣本含量)樣本的分布與總體的分布一致(構(gòu)成),隨機(jī)抽樣 random sampling,為了保證樣本的可靠性和代表性,需要采用隨機(jī)的抽樣方法(在總體中每個個體具有相同的機(jī)會被抽到)。,足夠數(shù)量:樣本含量樣本的結(jié)構(gòu)分布與總體的分布特征一致 例如:欲研究重慶市7歲兒童的生長發(fā)育情況 總體:男107:女100 樣

13、本:應(yīng)該接近或近似男107:女100,(三) 參數(shù)與統(tǒng)計量 parameter and statistic,參數(shù):總體的統(tǒng)計指標(biāo),如總體均數(shù)、標(biāo)準(zhǔn)差,采用希臘字母分別記為μ、σ。固定的常數(shù),推斷inference,統(tǒng)計量:樣本的統(tǒng)計指標(biāo),如樣本均數(shù)、標(biāo)準(zhǔn)差,采用拉丁字母分別記為 。 參數(shù)附近波動的隨機(jī)變量 。,(四) 誤差 error,誤差:實際觀察值與客觀真實值之差,以及

14、統(tǒng)計量與參數(shù)之差。,(1)系統(tǒng)誤差(2)隨機(jī)誤差,(1)系統(tǒng)誤差 systematic error,在實際觀測過程中,由受試對象、研究者、儀器設(shè)備、研究方法、非實驗因素影響等原因造成的有一定傾向性或規(guī)律性的誤差。流行病學(xué)稱之為偏倚(bias)。 特點:觀察值有系統(tǒng)性、方向性、周期性的偏離真值。 可以通過嚴(yán)格的實驗設(shè)計和技術(shù)措施消除。,(2)隨機(jī)誤差random error,排除上述誤差后尚存的誤差,受多

15、種無法控制的因素的影響。 特點:大小方向不一的隨機(jī)變化。隨機(jī)測量誤差(random measurement error) ——提高操作者熟練程度可以減少這種誤差 隨機(jī)抽樣誤差( random sampling error):由抽樣造成的樣本統(tǒng)計量和總體參數(shù)間的差異?!豢杀苊?,但有一定的分布規(guī)律,可估計。,(五) 概率與頻率 probability and frequency,確定性現(xiàn)象:在一定條件下,一定會發(fā)生

16、或一定不會發(fā)生的現(xiàn)象。其表現(xiàn)結(jié)果為兩種事件:肯定發(fā)生某種結(jié)果的叫必然事件;肯定不發(fā)生某種結(jié)果的叫不可能事件。,隨機(jī)現(xiàn)象:在同樣條件下可能會出現(xiàn)兩種或多種結(jié)果,究竟會發(fā)生哪種結(jié)果,事先不能確定。其表現(xiàn)結(jié)果稱為隨機(jī)事件。 隨機(jī)事件的特征:①隨機(jī)性;②規(guī)律性:每次發(fā)生的可能性的大小是確定的。,概率:隨機(jī)事件發(fā)生的可能性大小,用大寫的 P 表示,是一個穩(wěn)定的值;取值[0,1]。,必然事件 P = 1

17、 不可能事件 P =0 隨機(jī)事件 0 < P < 1 P ≤ 0.05(5%)或P ≤ 0.01(1%)稱為小概率事件(習(xí)慣),統(tǒng)計學(xué)上認(rèn)為不大可能發(fā)生。,,小概率事件,樣本的實際發(fā)生率稱為頻率,具有波動性。設(shè)在相同條件下,獨立重復(fù)進(jìn)行n次試驗,事件A出現(xiàn)f 次,則事件A出現(xiàn)的頻率為f

18、/ n。 頻率與概率間的關(guān)系: 樣本頻率總是圍繞概率上下波動樣本含量n越大,波動幅度越小,頻率越接近概率。,,頻率 frequency,復(fù)習(xí):總體與樣本、統(tǒng)計量與參數(shù)、系統(tǒng)誤差與抽樣誤差1、 調(diào)查某地某年7歲正常男童的身高2、 觀察某人群脈搏數(shù)(次/分)3、 觀察某人群脈搏數(shù),定義脈搏數(shù)在60次/分-100次/分為正常,100次/分為異常,按“正?!迸c“異?!狈謩e清點人數(shù)得到的資料,4、某

19、單位職工體檢101名正常成年女子的血清總膽固醇(mmol/L)5、某醫(yī)院1998年在某城區(qū)隨機(jī)調(diào)查了8589例60歲以上老人,體檢發(fā)現(xiàn)高血壓患者為2823例,高血壓患病率為2823/8589*100/%=32.87%,資料的統(tǒng)計描述,葉孟良,統(tǒng)計描述的意義,社會活動看似雜亂無章,對個體來說有很多不確定性,但總體上都是服從一些統(tǒng)計規(guī)律的。 醫(yī)學(xué)工作有很多數(shù)據(jù),統(tǒng)計學(xué)描述就是對這些數(shù)據(jù)進(jìn)行加工和提煉,找出規(guī)律、預(yù)測未知。

20、 統(tǒng)計描述是最簡潔有力的語言。,概念:即用少量幾個統(tǒng)計指標(biāo)刻畫出原始數(shù)據(jù)的特征稱為統(tǒng)計描述。計量資料的統(tǒng)計描述方法: (單變量) 1. 通過頻數(shù)表描述數(shù)據(jù)特征 2.用統(tǒng)計指標(biāo) 定量描述數(shù)據(jù)的特征。,描述計量資料的統(tǒng)計方法有兩類: 統(tǒng)計圖表:主要是頻數(shù)分布表(圖) 統(tǒng)計指標(biāo):定量描述數(shù)據(jù)的特征,,一、數(shù)值變量的頻數(shù)分布,(一)、頻數(shù)分布

21、表頻數(shù)分布表:將變量值分為不同數(shù)量的組段,清點各組段的例數(shù)。意義:概括了解變量值在各組段的分布和規(guī)律。頻數(shù)表的編制 例:某年某市120名12歲男童的身高(cm)資料如下,作統(tǒng)計描述。,142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5 134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.

22、0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6 151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1 143.5 139.2 144.7 139.3 141

23、.9 147.8 140.5 138.9 148.9 142.4 134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4 150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7

24、 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4 134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4 129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9,1、求數(shù)據(jù)的極差(range): 極差是全部

25、數(shù)據(jù)中的最大值與最小值之差,它描述了數(shù)據(jù)變異的幅度。本例極差: R=160.9-125.9=35cm,,,,,,,,,2、劃分組段(1)確定組數(shù): 制作頻數(shù)表是為了簡化資料,顯示數(shù)據(jù)的分布規(guī)律,因此組數(shù)不能太多。也不能太少,太少會掩蓋數(shù)據(jù)分布的規(guī)律。 適宜的分組數(shù)與觀察值的個數(shù)n的多少有關(guān)。n為30時,可分5到6組,隨著n的增加,分組適當(dāng)增加,較大樣本時,一般

26、取10組左右。,(2)確定組距 一般采取等距分組。 組距=極差/組數(shù) 本例組距=35/10=3.5≈4,(3)確定各組段的上下限: 下限(low limit):每個組段的起點 上限(upper limit):每個組段的終點 上限=下限+組距 第一

27、組段必須包含最小值,其下限一般取包含最小值的較為整齊的數(shù)值。本例最小值為125.9,取125為第一組段的下限。其上限=125+4=129。 各組段不能重疊,每一組段均為半開半閉區(qū)間。,3、用手工或電腦編制畫記表,3、統(tǒng)計各組段內(nèi)的數(shù)據(jù)頻數(shù)得到頻數(shù)表,,組段 劃記 頻數(shù) f 頻率(%) 累計頻數(shù)(1)

28、(2) (3) (4) (5)125~ 一 1 0.8 1 129~ 正 4 3.3

29、 5133~ 正 正 9 7.5 14137~ 正正正正正正 28 23.3 42141~ 正正正正正正正 35 29

30、.2 77145~ 正正正正正正 27 22.5 104149~ 正正一 11 9.2 115153~ 正

31、 4 3.3 119157~161 一 1 0.8 120合計 120 100,,,,,,,,,,,,,,,,,,,身高是一個連續(xù)變化的

32、量,被稱為連續(xù)性變量。 已婚育齡婦女的現(xiàn)有子女?dāng)?shù)、幼兒的牙齒數(shù)等,其取值是0、1、2等不連續(xù)的量,這種變量被稱為離散型變量。,4、頻率與累計頻率頻率:頻數(shù)表中的各組頻數(shù)之和等于總例數(shù)n,將各組的頻數(shù)除以n所得的比值被稱為頻率。累計頻數(shù):某組段及前面各組段的頻數(shù)之和。累計頻率:累計頻數(shù)除以總例數(shù)。,(二)頻數(shù)分布圖,125 129 133 137 141 145 149 153 157,(三)頻數(shù)分布特征從頻數(shù)表

33、,特別是頻數(shù)分布圖可以看到頻數(shù)分布有兩個特征:1、大多數(shù)12歲男童的身高向中央集中,為集中趨勢;2、少部分男童的身高較低和較高,向兩端離散,為離散趨勢。,(四)、頻數(shù)分布的類型1、對稱分布: 指集中位置在中間,左右兩側(cè)對稱。2、偏態(tài)分布: 指集中位置偏向一側(cè),頻數(shù)分布不對稱。 正偏態(tài) 負(fù)偏態(tài),,(五)頻數(shù)分布

34、表的用途1、揭示資料的分布類型及特征2、便于發(fā)現(xiàn)某些特大或特小的可疑值3、便于進(jìn)一步計算統(tǒng)計指標(biāo)和作統(tǒng)計處理4、 組段的頻率作為概率的估計。,,125 129 133 137 141 145 149 153 157,對稱分布,,,,圖2-1 101名正常成年女性血清總膽固醇頻數(shù)分布,頻數(shù),血清總膽固醇,正態(tài)分布,對稱分布,圖2-2 59名鏈球菌咽喉炎患者潛伏期,正偏態(tài)分布,負(fù)偏態(tài)分布,集中趨勢的描述,平均數(shù)指標(biāo)的概念和作用

35、 平均數(shù)表示一組同質(zhì)計量數(shù)據(jù)集中趨勢的位置和平均水平。作用:是一組計量數(shù)據(jù)平均水平的代表值;可作為不同組間的比較值。 常用的三種平均數(shù)指標(biāo)有:算術(shù)均數(shù)、幾何均數(shù)、中位數(shù),(一)算術(shù)均數(shù),簡稱均數(shù) 總體均數(shù)用 表示 樣本均數(shù)用 表示,公式適用頻數(shù)為正態(tài)或近似正態(tài)分布的計量資料.,適用條件,1、直接法(樣本例數(shù)較少)

36、 將所有數(shù)據(jù)直接相加,再除以總例數(shù)n:,例如:測定了5名健康人第一小時末血沉,分別是6、3、2、9、10mm,求均數(shù),2、加權(quán)法( 樣本例數(shù)較多,近似計算) 用各組段的組中值代替該組段中的任一觀察值,該組段的頻數(shù)是f,即有f個組中值,則有組中值與頻數(shù)的乘積代替該組段的各個值相加. 計算公式:,利用頻數(shù)表,將每組段的組中值即(下限+上限)/2代替該組段觀察值的實際取值,用加權(quán)法求算術(shù)平均數(shù)。

37、 在樣本例數(shù)較多的情況下,加權(quán)法與直接法算得的結(jié)果相差不大。見P10,當(dāng)數(shù)據(jù)呈單峰對稱分布時,  位于分布的中心,它是頻數(shù)分布最集中的位置。若數(shù)據(jù)分布不對稱,則  不位于分布的中心,也不在分布的集中趨勢位置,它不反映數(shù)據(jù)的一般水平。,二、幾何均數(shù)(G,geometric mean) 適用于原始?、贁?shù)據(jù)分布不對稱,但經(jīng)對數(shù)轉(zhuǎn)換后呈對稱分布的資料;②滴度資料(等比資料)。

38、 如血清滴度資料。公式:,例2.2 測得10個人的血清滴度的倒數(shù)分別為2,2,4,4,8,8,8,8,32,32,求平均滴度。,,,幾何均數(shù)是對數(shù)轉(zhuǎn)換后的數(shù)據(jù)的算術(shù)均數(shù)的反對數(shù)。當(dāng)資料中出現(xiàn)相同觀察值時,也可用加權(quán)法計算幾何均數(shù): 例2.3 (頻數(shù)表資料) 應(yīng)用:主要用于血清學(xué)和微生物學(xué)中。,三、中位數(shù)(median) 中位數(shù)是指將一組觀察值從小到大排序后居于中間位置的那個數(shù)值,全

39、部觀察值中,大于和小于中位數(shù)的觀察值個數(shù)相等。 任何分布的定量數(shù)據(jù)均可用中位數(shù)描述其分布的集中趨勢。,直接法公式: 當(dāng)n為偶數(shù)時 當(dāng)n為奇數(shù)時,,1.原始資料 如測得5個人的V

40、LDL中的apo_B的含量(mg/dl)為0.84、 2.85、 5.46、 8.58、 9.60,則 M=5.46(mg/dl) 若測量結(jié)果:0.84、 2.85、 8.58、 9.6,則 M=(2.85+8.58)/2=5.72(mg/dl),2.頻數(shù)表資料 表2-4 某地630名正常女性血清甘油三脂含量(mg/dl),,,,,L、iM、fM分別為M所在組段的下限、組距和頻數(shù)

41、, fL為M所在組段之前各組段的累積頻數(shù)。,連續(xù)型變量中位數(shù)的的計算可用公式: 組距

42、 中位數(shù)所在組前 一組的累計頻數(shù) 中位數(shù)所在組下限 中位數(shù)所在組的頻數(shù),,,,,,,,,四、百分位數(shù)(percentile) 是一種位置指標(biāo),樣本的第X百分位數(shù)常記為Px,它是指把數(shù)據(jù)

43、從小到大排列后處于第X百分位置的數(shù)值。它將全部數(shù)據(jù)分成兩部分,在不包括Px的全部數(shù)據(jù)中有X%的數(shù)據(jù)小于Px,有(100-X)%的數(shù)據(jù)大于Px。,中位數(shù)是特殊的百分位數(shù),第50百分位數(shù),M=P50 。連續(xù)性變量頻數(shù)表資料百分位數(shù)計算公式:,百分位數(shù)的應(yīng)用,1、中位數(shù)是百分位數(shù)的特例。其特點是不易受異常值的影響,適用于描述明顯偏態(tài)分布、或兩端無確定數(shù)值數(shù)據(jù)的平均水平。2、多個百分位數(shù)相結(jié)合可以用來說明一特定的問題:離散程度、參考值范圍

44、、把資料劃分等級,第三章 變異程度的統(tǒng)計描述,前面一節(jié)講述了一組觀察值的集中趨勢,但平均數(shù)并不能使我們?nèi)娴卣J(rèn)識事物,試看下例: 例:  對甲、乙兩名高血壓患者連續(xù)觀察5天,測得的收縮壓分別為(mmHg): 甲患者 162 145 178 142 186 (   =162.6) 乙患者 164 160 163 159 166 (  =162.4),平均水平差不

45、多,但甲患者的血液波動較大,第一節(jié) 衡量變異程度的指標(biāo),分為兩類:1、間距計算:極差(R)、四分位數(shù)間距 (Q)2、平均差距計算: 平均偏差、離均差平方和 、均方差(σ2 、s2) 、標(biāo)準(zhǔn)差(σ 、s)和變異系數(shù)(cv)等,一、極差和四分位數(shù)間距1、全距(range)極差R=max-min  優(yōu)點: 該法簡單明了、容易使用,如用于說明傳染病、食物中毒等的最短、最長潛伏期等缺點:①只用

46、到最大、最小值,樣本信息沒能充分利用。②當(dāng)資料呈明顯偏態(tài)時,最大、最小值不穩(wěn)③樣本例數(shù)越多,R可能越大,兩組觀察值例數(shù)懸殊時不用R比較。,2、 四分位間距(inter-quartile range)Q,極差不穩(wěn)定,主要是受兩端的數(shù)據(jù)的影響,所以有人建議將兩端數(shù)據(jù)截去一定比例,如各去掉25% Q=p75-p25=Qu-QL 例如:50歲~60歲正常女性血清甘油三脂含量的百分位數(shù)P75和P25的位置分別為63

47、.2 mg/dl和135.7 mg/dl,則 四分位間距比R穩(wěn)定,但仍未考慮每個觀察值,在統(tǒng)計分析應(yīng)用得不普遍。,二 、離均差平方和、方差、標(biāo)準(zhǔn)差和變異系數(shù),,1、平均偏差(Mean Difference) 如對于例3.1:甲患者: 乙患者:,,,,特點:直觀 , 易理解;但由于用了絕對值,不便于數(shù)學(xué)處理,實際中很少使用。,2、離均差平方和( sum of square,簡寫為SS ),公式為:通過計算可轉(zhuǎn)化為

48、下式:,總體方差 σ2=在樣本中,μ未知,常用下式替代, S2=,,,3、方差將離均差平方和再取平均,其結(jié)果稱作均方差,簡稱方差。,注意: 樣本方差的分母 n-1 稱為自由度,意在所有的n個離均差平方和中,只有n-1個是獨立的,由于樣本均數(shù)  的限制,在所有離均差平方項中只要有n-1個已知,剩下的一項便自動確定.,n-1,4、 標(biāo)準(zhǔn)差(standard deviation)表示每一個數(shù)對均值的離散程度,是

49、絕對變異指標(biāo),總體標(biāo)準(zhǔn)差σ=μ未知,樣本標(biāo)準(zhǔn)差,,,例如對于例3.1經(jīng)計算有 甲患者: 同理乙患者:,如果是頻數(shù)表資料,公式如下:,例140正常成年男子的紅細(xì)胞的標(biāo)準(zhǔn)差:(見P18 例3.2),標(biāo)準(zhǔn)差的優(yōu)點:1、可以求合并標(biāo)準(zhǔn)差2、與均數(shù)結(jié)合能完整的概括一個正態(tài)分布,標(biāo)準(zhǔn)差的應(yīng)用:描述變異程度、計算標(biāo)準(zhǔn)誤、計算變異系數(shù)、描述正態(tài)分布、估計正常值范圍,5. 變異系數(shù)(coeffici

50、ent of variation)C.V.,適用于各組觀察值單位不同或單位雖同而平均數(shù)相差很大的情況。是相對變異指標(biāo)例如1、同年齡同性別學(xué)生的身高和體重兩組觀察值。2、同年齡同性別學(xué)生的身高和胸圍兩組觀察值。3、不同年齡兒童的身高的幾組觀察值。,,例3.3 測得某地成年人舒張壓的均數(shù)為77.5mmHg,標(biāo)準(zhǔn)差為10.7mmHg;收縮壓的均數(shù)為122.9mmHg,標(biāo)準(zhǔn)差為17.1mmHg.試比較舒張壓和收縮壓的變異程度。,計

51、算:舒張壓收縮壓,第二節(jié) 正態(tài)分布,(normal distribution),正態(tài)分布又稱高斯(Gauss分布),是統(tǒng)計學(xué)中最重要的分布,醫(yī)學(xué)資料中有許多指標(biāo)如身高、體重、紅細(xì)胞數(shù)、血紅蛋白、收縮壓、脈搏數(shù)等頻數(shù)分布都呈正態(tài)分布。,一.概念,,二.   圖形,正態(tài)分布密度函數(shù) 其中是μ均數(shù),σ是標(biāo)準(zhǔn)差。記N(μ,σ2),,正態(tài)分布的特殊形式:標(biāo)準(zhǔn)正態(tài)分布N(0 ,1);即μ=0, σ=1時(z分布

52、、u分布) 標(biāo)準(zhǔn)正態(tài)變換(變換公式);u=,三.    特征,1.  是單峰曲線,x=μ 2.  以均數(shù)μ為中心左右對稱 3.  有2個參數(shù),μ:位置參數(shù), σ:變異度參數(shù) σ越大,數(shù)據(jù)越分散,曲線越平坦。,,4.正態(tài)曲線下面積的分布規(guī)律,橫軸上曲線下的面積為1曲線下,橫

53、軸上對稱于μ的左右兩邊面積相等,通過對密度函數(shù)積分我們可以知道正態(tài)曲線下,橫軸上所夾的面積為1,標(biāo)準(zhǔn)正態(tài)分布下-1.96~1.96部分的面積為0.95 (可以通過積分求得)。也就是說|u|>1.96的面積為0.05,對任意的x,-x~x區(qū)間面積為多少呢?統(tǒng)計學(xué)家已將此編制成了正態(tài)分布界值表,不過表中的面積是指p(u<x), 也記作φ(x)。,,以上討論的是標(biāo)準(zhǔn)正態(tài)分布,對一般的正態(tài)分布,某指標(biāo)x~N(μ,σ2),則

54、u=(x-μ)/σ~N(0,1) 即-1.96<u<1.96的面積為0.95μ-1.96σ<x<μ+1.96σ的面積為0.95經(jīng)過標(biāo)準(zhǔn)化轉(zhuǎn)換,就可以利用標(biāo)準(zhǔn)正太分布求出原始變量x有關(guān)的概率值.,例如成年男子紅細(xì)胞數(shù)近似服從正太分布, , 現(xiàn)想知道在4*1012/L以下所占的比例.P(x<4)查附表1得:表明成年

55、男子的紅細(xì)胞數(shù)低于4*1012/L的人約占總體的2%.,五.  正態(tài)分布的應(yīng)用,1.許多醫(yī)學(xué)指標(biāo)服從正態(tài)分布或近似正態(tài)分布,如同性別、同年齡兒童的身高,同性別健康成人的紅細(xì)胞數(shù)、血紅蛋白量、脈搏數(shù)等,及實驗中的誤差。,2.  估計醫(yī)學(xué)正常值范圍,,,例 120名健康成年男性農(nóng)民舒張壓的均數(shù)為10.1kPa,標(biāo)準(zhǔn)差為0.93kPa,求舒張壓的95%雙側(cè)正常值范圍。 10.1±1.96×0.

56、93 即8.28~11.92 kPa,注意 95%參考范圍(reference range)或正常范圍(normal range)僅僅告知95%健康者的測定值在此范圍之內(nèi),并非告知凡在此范圍之內(nèi)皆健康,也非告知凡在此范圍之外皆不健康,所以不可將之作為診斷標(biāo)準(zhǔn)。,3.  正態(tài)分布是許多統(tǒng)計方法的理論基礎(chǔ),如后面要講的t檢驗、方差分析、相關(guān)回歸等,t分布、二項分布、Poisson分布的極限分布也是正態(tài)分布

57、。,4.估計頻數(shù)分布,例 出生體重低于2500克為低體重兒。若由某項研究得某地嬰兒出生體重均數(shù)為3200克,標(biāo)準(zhǔn)差為350克,估計該地當(dāng)年低體重兒所占的比例。,記x為當(dāng)年該地嬰兒出生體重,則x服從正態(tài)分布 N(3200,3502)P(x<2500) 查標(biāo)準(zhǔn)正態(tài)分布界值表 Φ(-2)=0.0228即估計該地當(dāng)年低體重兒所占的比例為2.28%,,,,?定義:又

58、稱參考值范圍,是指特定健康人群的解剖、生理、生化等各種數(shù)據(jù)的波動范圍。習(xí)慣上是確定包括95%的人的界值。,第三節(jié)、醫(yī)學(xué)正常值范圍的估計,?單雙側(cè): 根據(jù)指標(biāo)的實際用途,有的指標(biāo)有上下界值,過高過低均屬異常;某些指標(biāo)過高為異常,只需確定上限;某些指標(biāo)過低為異常,只需確定下限。?估計的方法:1、正態(tài)分布法2、百分位數(shù)法,?應(yīng)用條件:正態(tài)分布或近似正態(tài)分布資料 ●計算  95% 正常值(醫(yī)學(xué)參考值)范圍公式: 雙側(cè):   

59、       即  單下: 單上:例如:某地正常成年男子紅細(xì)胞數(shù)的95%的參考值范圍。,1.正態(tài)分布法,2.百分位數(shù)法,● 應(yīng)用條件 : 偏態(tài)分布資料 ●計算公式: 雙側(cè)界值:P 2.5 ~ P 97.5 單側(cè) 上界: P 95 單側(cè) 下界: P 5 P14例題2.4 630名正常女性血清甘油三酯含量的資料,,,小 結(jié) 1.描述一組觀察值,除需要

60、表示其平均水平外,還要說明它的離散或變異的情況。 2.衡量變異程度大小的指標(biāo)有多種: 極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差和變異系數(shù)。其中應(yīng)用最多的是標(biāo)準(zhǔn)差和變異系數(shù)。 3.標(biāo)準(zhǔn)差與均數(shù)結(jié)合能夠完整地描述一個正態(tài)分布。對任何參數(shù)的正態(tài)分布,都可以通過一個簡單的變量變換化成標(biāo)準(zhǔn)正態(tài)分布。利用正態(tài)分布可以很容易地確定其數(shù)值出現(xiàn)在任意指定范圍內(nèi)的概率。,4.醫(yī)學(xué)參考值范圍指“正常參照人群”的解剖、生理、生化、免疫及組織代謝

61、產(chǎn)物的含量等各種數(shù)據(jù)的波動范圍。主要用作劃分正常人與異常人的界線。 5.醫(yī)學(xué)參考值范圍的制定需要按照一定步驟進(jìn)行。實際中最好結(jié)合正常人和病人的數(shù)據(jù)分布特點,權(quán)衡假陽性和假陰性的比例,選擇一個適當(dāng)?shù)陌俜址秶?,最常用的百分界限?5%。 6.參考值范圍估計的方法有多種,其中最基本的有百分位數(shù)法和正態(tài)分布法。正態(tài)法的優(yōu)點是結(jié)果較穩(wěn)定,但對資料要求嚴(yán)格;百分位數(shù)法適合于任何分布類型的資料,但要求大樣本。,小結(jié)習(xí)

62、題:1.各觀察值加同一數(shù)后:A.均數(shù)不變,標(biāo)準(zhǔn)差改變 B.均數(shù)改變,標(biāo)準(zhǔn)差不變C.二者均不變 D.均改變2.用均數(shù)和標(biāo)準(zhǔn)差可全面描述:A.正偏態(tài)資料 B.負(fù)偏態(tài)資料 C.正態(tài)分布和近似正態(tài)分布 D.任何分布3.正態(tài)分布曲線下,從均數(shù)u 到u +1.96?的面積為;A.95% B.45% C. 97.5% D.47.5%,例如:N=200, ,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論