生物統(tǒng)計與sas軟體課程教學(二)單變項描述(descriptivestatistics)_第1頁
已閱讀1頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、生物統(tǒng)計與SAS軟體課程教學(二)單變項描述(Descriptive Statistics),臺大衛(wèi)生政策與管理研究所江宜珍2005.1.15,課程宗旨,著重於描述性統(tǒng)計,瞭解各種變項類型所適用的單變項分析方法 介紹SAS視窗及基本功能資料管理步驟及程式語法單變項描述之語法及報表解讀,使用目的及時機,瞭解資料的分佈情形有助於瞭解資料的樣貌提供選擇後續(xù)統(tǒng)計分析方法的依據(jù)對重要變項做基本的描述Check dat

2、a, clean data極端值(outlier)除錯:不合邏輯的值?有許多方法可供選擇,但要選對方法?。?等距&比例變項,「等距」意指每個數(shù)值的間隔相等,即「1與2的差別」和「101與102的差別」相同,亦即每個單位都是一樣大小(ex.身高、體重、收入、生病次數(shù)、住院人數(shù)、溫度)「比例變項」又稱為「等比變項」,為等距變項中,具有絕對的「0」(真正的0)的變項!(ex.身高、體重、收入、生病次數(shù)、住院人數(shù)),意即包含了「沒有」

3、者,因此可以計算倍數(shù)「溫度」則不是!因為0℃是武斷給予的,所以不能說0℃是「沒有溫度」,且40℃也非20℃的兩倍熱通常此種變項所具有的訊息最豐富、最詳細?最高級的變項,亦可轉(zhuǎn)換成其他級的變項,等距變項的描述1,資料的集中趨勢又稱為資料的「趨中性」、「中央趨勢」目的是找出最具代表性的數(shù)值來代表全部個體資料的離散趨勢又稱為資料的「變異性」,等距變項的描述2 — 集中趨勢,平均值(Mean)母全體樣本特色:每個個體

4、的數(shù)值均包括在內(nèi)、每個個體的數(shù)值所佔份量(對平均值的影響)均等 缺點:易受極端值影響,若資料有許多極端值時,以平均值代表全體的集中趨勢會有問題,中位數(shù)(Median)又稱為「中間值」即將全部個體的數(shù)值,由最小排至最大,位於最中間的那個數(shù)值就是中位數(shù)(若為樣本數(shù)為偶數(shù),則將中間兩個個體的數(shù)值相加÷2)優(yōu)點:不會受極端值影響,若資料有許多極端值時,以中位數(shù)較能代表全體數(shù)值的集中趨勢,等距變項的描述3 — 離散趨勢,最大值(

5、Maximum)、最小值(Minimun)差距(range)=最大值-最小值ex. A組資料最大值為95、最小值為5,則差距為90 B組資料最大值為60、最小值為40,則差距為20 ?A組資料的變異性>B組資料的變異性但僅以差距來描述資料的變異性並非理想,因為只以最大值及最小值兩個數(shù)值來決定,若兩個資料的差距相等,不等於變異性(離散情形)相同,等距變項的描述4 — 離散趨勢,變異數(shù)(Variance)母全體的變異

6、數(shù)樣本的變異數(shù)?即每個數(shù)值減平均值後,以平方的方式去除負值,再將全部平方值相加,除以個案數(shù)標準差(Standard Deviation)即變異數(shù)開平方根,因為母群的變異情形大,樣本的變異情形小,所以要調(diào)整樣本的標準差使其可代表母群,等距變項的描述5 — 離散趨勢,變異係數(shù)(Coefficient of variance,C.V.)以「標準差」除以「平均值」,通常會以%表示即 或目的在比較兩種不同變項的變異情形,

7、以此方法可以去除因變項「測量單位」不同的情形,即是比較各變項的標準差是平均值的多少%,CV值越大表示該變項的變異性(離散情形)越大ex.想知道全班同學的「身高」變異較大還是「體重」變異較大,序位或類別變項的描述,頻率(frequency)每個數(shù)值的出現(xiàn)次數(shù)眾數(shù)(Mode)又稱為流行值在資料中出現(xiàn)頻率最多的數(shù)值,即最多個案為此數(shù)值,畫圖,次數(shù)分佈圖:通常以變項為x軸、次數(shù)(人數(shù))為y軸等距變項連續(xù)性的直方圖(histogr

8、am,或稱長條圖)需先將等距變項分組,依據(jù)每個組距中出現(xiàn)的次數(shù)畫圖可檢視是否呈現(xiàn)「常態(tài)分佈」可在圖中標出最大值、最小值、中位數(shù)、眾數(shù)枝葉圖(stem-and-leaf plot)可檢視是否呈現(xiàn)「常態(tài)分佈」可在圖中標出最大值、最小值、中位數(shù)、眾數(shù)盒狀圖(box plot)可在圖中標出最大值、最小值、中位數(shù)、上四分位數(shù)、下四分位數(shù)、極端值(outlier)序位或類別變項棒狀圖(bar chart, bar graph)

9、因為變項非為連續(xù)變項,所以 x軸所列的變項次序可以交換,但不可將 x軸的變項連接起來,連續(xù)性的直方圖,枝葉圖,盒狀圖,枝葉圖 & 盒狀圖,棒狀圖,常態(tài)分佈1,等距變項的分佈多呈現(xiàn)「常態(tài)分佈(Normal Distribution)」越接近平均值,個案數(shù)越多or頻率越高越遠離平均值,個案數(shù)越少or頻率越低曲線分佈圖呈現(xiàn)鐘型對稱(Gausian shape, symmetric),即「>平均值」和「<平均值」的個案數(shù)各佔50%平均值

10、、中位數(shù)、眾數(shù)為同一數(shù)值,常態(tài)分佈2,由「平均值」決定曲線的中央位置,「標準差」來決定平均值兩旁曲線的伸展及變異情形,mean = median = mode,非常態(tài)分佈1—偏右分佈(positively skewed),mean > median > mode,非常態(tài)分佈2—偏左分佈(negatively skewed),mean < median < mode,非常態(tài)分佈3—雙峰分佈(bimodal d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論