中國醫(yī)科大學(xué)醫(yī)學(xué)統(tǒng)計學(xué)--直線回歸分析_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十四章 直線回歸分析 上一章我們學(xué)習(xí)了對每個研究對象同時觀察兩個指標(biāo) 的成對數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析方法。本章將討論成對觀 察數(shù)據(jù)中變量間的數(shù)量依存關(guān)系。 “回歸”一詞最早由Golton在一項有關(guān)父親與兒子身高 的研究中提出。后來人們借用“回歸”這個詞來描述通 過自變量的數(shù)值預(yù)測反應(yīng)變量的平均水平。 為了通過可測或易測的變量對未知或難測或不可測變 量的狀態(tài)進(jìn)行估計,可以借助于回歸

2、分析。,,,,為了研究父親與成年兒子身高之間的關(guān)系,卡爾.皮爾遜測量了1078對父子的身高。把1078對數(shù)字表示在坐標(biāo)上,如圖。例如兒子的身高與父親的身高有著某種依存關(guān)系,可以用回歸分析的方法去研究這種關(guān)系,即把兩個變量間的數(shù)量依存關(guān)系用函數(shù)形式表示出來,用一個或多個變量去推測另一個變量的估計值和波動范圍,這就是回歸分析。,例如,我們可以用身高、體重、肺活量的這些容易測 量的指標(biāo)來估計心室輸出量、體循環(huán)總血量等相對難

3、 測的指標(biāo)。 我們把被估計或預(yù)測的變量稱為因變量(dependent variable),或稱反應(yīng)變量(response variable),常用 y表示; y 所依存的變量稱為自變量(independent variable),或稱解釋變量(explanatory variable),或稱預(yù)測因子(predictor),常用x表示。,第一節(jié) 直線回歸方程的建立 一、直線回歸的概念 本章重點介紹兩個連續(xù)性

4、變量之間的線性依存關(guān)系的統(tǒng)計方法,簡稱線性回歸(linear regression)。 例14.1 某研究欲探討男性腰圍與腹腔內(nèi)脂肪面積的關(guān)系,對20名男性志愿受試者測量其腰圍(cm),并采用磁共振成像法測量其腹腔內(nèi)脂肪面積(cm2),結(jié)果如表14.1所示。試建立腹腔內(nèi)脂肪面積( y )和腰圍( x )的直線回歸方程。,表 20名男性志愿受試者腰圍和腹腔內(nèi)脂肪面積的測量值,為直觀理解男性腰圍與腹腔內(nèi)脂肪面積的關(guān)系,以腰圍

5、為橫軸,腹腔內(nèi)脂肪面積為縱軸,描出20對數(shù)據(jù)散點圖如圖14.1。,腰圍 (cm),圖14.1 兩變量直線回歸關(guān)系散點圖,腹腔內(nèi)脂肪面積 (cm2),如上圖所示,可見散點大致呈直線趨勢。 即假設(shè)有一條潛在的直線可用來刻畫兩變量之間的關(guān)系,這樣的直線稱為回歸直線。 通常用 來表示回歸直線上各點的縱坐標(biāo),其數(shù)值是當(dāng) x 取某一值時因變量 y 的總體均數(shù)的估計值。,在數(shù)學(xué)上,描述因變量(y)依賴于另一自變量(x)的變化而變

6、化的方程稱為直線回歸方程,也稱為直線回歸模型,表述為: 其中, y為個體的因變量值,x為其自變量值,?為回歸直線的截距參數(shù),?為回歸直線的斜率參數(shù),又稱回歸系數(shù)。,通常情況下,研究者只能獲取一定數(shù)量的樣本數(shù)據(jù),用該樣本數(shù)據(jù)建立的有關(guān) y 依 x 變化的線性表達(dá)式稱為回歸方程,記為:,,直線回歸參數(shù)的含義,:回歸直線在軸上的截距。 >0,表示直線與縱軸的交點在原點的上方; 0,表示 y 隨 x 增大而增

7、大; <0,表示 y 隨 x 增大而減??; =0,表示直線與軸平行,即 y 與 x 無直線關(guān)系。,,,,,,,,,,,a>0,a=0,a<0,,b的統(tǒng)計學(xué)意義,x增(減)一個單位,y 平均改變b個單位。說明存在回歸關(guān)系的兩變量間依存變化的數(shù)量關(guān)系。,二、回歸方程的估計(一) 回歸方程估計的最小二乘原則參數(shù)α和β一般只能通過用樣本數(shù)據(jù)來估計。當(dāng)x取值為xi時,y的平均值的估計值 應(yīng)為

8、 而實際觀察值是yi。兩者之差為殘差,即:其中,(xi, yi),i=1, 2, ???, n為已知的樣本數(shù)據(jù)。,,,,,根據(jù)數(shù)學(xué)上的最小二乘法原理,導(dǎo)出 a 和 b 的算式如下:,的意義,,殘差絕對值: 實測點到直線的縱向距離。,回歸直線的有關(guān)性質(zhì),直線通過點 各實測點到該回歸線的縱向距離平方和較到其它任何直線者為小。,(二) 回歸系數(shù)的估計方法 例 現(xiàn)以例14.1資料說明建立直線回歸方程的具

9、體步驟。 1. 繪制兩變量間的散點圖,如圖14.1所示,觀察到二者 存在直線趨勢,故可進(jìn)行直線回歸分析。 2. 由樣本數(shù)據(jù)計算如下統(tǒng)計量,,3. 求回歸系數(shù)b。,,4. 求回歸截距α。5. 最小二乘原則下的回歸方程。,,第二節(jié) 直線回歸的統(tǒng)計推斷 一、總體回歸系數(shù)β的假設(shè)檢驗 在簡單回歸模型中,參數(shù)β的意義是: 若自變量x增加一個單位,反應(yīng)變量y的平均值便增

10、加β。如果β=0,說明y與x之間并不存在線性關(guān)系;反之,β≠0,說明y與x之間存在線性關(guān)系。 從β=0的總體中抽樣,計算出的樣本回歸系數(shù) b 很可能不為零。所以需對樣本回歸系數(shù) b 進(jìn)行假設(shè)檢驗。,例 試對例14.1資料的樣本回歸方程進(jìn)行假設(shè)檢驗。 Ⅰ. 建立假設(shè) H0:β=0 H1:β≠0 Ⅱ. 確定檢驗水準(zhǔn) α=0.05 Ⅲ

11、. 計算統(tǒng)計量,(一) 方差分析(1) lyy的分析。 如圖 P點的縱坐標(biāo)被回歸直線與均數(shù) 截成三個線段:第一段 ,表示P點與回歸直線的縱向距離,為實際值y與估計值 之差,即殘差。第二段 ,即估計值 與均數(shù) 之差,它與回歸系數(shù)的大小有關(guān)。?b ?值越大, 的差值也越大,反之亦然。當(dāng)b=0時, 亦為零,則

12、 ,也就是回歸直線并不能使殘差減少。,,,,,,,應(yīng)變量 y 的平方和劃分示意,x,P (x, y),y,,,,,,,,,,,,,第三段 ,是因變量 y 的均數(shù)。上述三個線段的代數(shù)和為:移項 這里P點是散點圖中任取的一點,若將全部點子都按上法處理,并將等式兩端平方后再求和,則有,,,,,,,,,,,上式用符號表示為:SS總= SS回+SS殘式中SS總,即 ,為y的離

13、均差平方和lyy,又稱總平方和,說明未考慮x與y的回歸關(guān)系時y的變異。SS回,即 ,它反映在y的總變異中由于x與y的直線關(guān)系而使y變異減少的部分,也就是在總平方和中可以用x解釋的部分。SS回越大,說明回歸效果越好。SS殘,即 ,為殘差平方和,它反映x對y的線性影響之外的一切因素對y的變異的影響,也就是總平,,,,,,,,,,,,方和中無法用x解釋的部分。在散點圖中,各實測點與回歸

14、直線越近, 也就越小,說明直線回歸的殘差越小。上述三個平方和各自的自由度?及相互關(guān)系如下:?總=?回+?殘?總=n-1,?回=1,?殘=n-2在H0為β=0的假設(shè)下,統(tǒng)計量F服從自由度為?回、?殘的F分布。,,,,,,,,,,,,,,,,,,,,,,SS殘=SS總-SS回,因為SS總= SS回+SS殘 所以SS殘=SS總-SS回 =

15、7293.650-4235.086 =3058.564,,,,,,,,,,(2) 方差分析這里的方差分析的基本思想是:將SS總分解為SS回與 SS殘兩個部分,然后按下式計算F統(tǒng)計量。式中MS回為回歸均方,MS殘為殘差均方,?回為直線回歸的自由度,?殘為殘差變異的自由度。求得F值后,查F界值表,按所取檢驗水準(zhǔn)?作出推斷結(jié)論。,,,,,,,,,,,,,,上面已算得SS總,SS回,SS殘列

16、方差分析表,如下表:表 直線回歸的方差分析表,,,,,,,,,,,,,,現(xiàn)?1=1,?2=18,查F界值表,得P<0.01,按?=0.05水準(zhǔn)拒絕H0,接受H1,差異有統(tǒng)計學(xué)意義,故可認(rèn)為腹腔內(nèi)脂肪面積與腰圍之間存在直線回歸關(guān)系,總體回歸系數(shù)不等于零。,,,,,,,,,,,,,,(二) t 檢驗 這里t 檢驗的基本思想與定量變量中樣本均數(shù)與總體均數(shù)比較的t 檢驗類似,統(tǒng)計量t 計算如下式:,,Sb為樣本回歸系數(shù)b的標(biāo)

17、準(zhǔn)誤,Sy?x為回歸殘差的標(biāo)準(zhǔn)誤。求得t值后查t界值表得到P值,按?水準(zhǔn)作出推斷結(jié)論。,Ⅳ. 確定概率P值 v=n-2=20-2=18,tb=4.9924,查 t 界值表, 得p<0.001。,,Ⅴ. 下結(jié)論 因為p<0.01,按?=0.05水準(zhǔn),拒絕H0,接受H1, 差異有統(tǒng)計學(xué)意義。即故可認(rèn)為腹腔內(nèi)脂肪面積

18、 與腰圍之間存在直線回歸關(guān)系,總體回歸系數(shù)不 等于零。,,對于同一資料,對總體回歸系數(shù)?的假設(shè)檢驗與總體相關(guān)系數(shù)?的假設(shè)檢驗等價,并且檢驗統(tǒng)計量值具有如下關(guān)系:,,二、總體回歸系數(shù)β的置信區(qū)間 類似于總體均數(shù)的置信區(qū)間,參數(shù)β的(1-α)的置信區(qū)間為,,,,例14.4 試估計例14.1資料的總體回歸系數(shù)?的95%置信區(qū)間。,三、決定系數(shù) 回歸平方和與總離均差平方和之比稱為決定系數(shù),即

19、為R。 R2之值在0到1之間,且無單位。直觀地表示R2是回歸平方和在總平方和中所占的比例,它反映了回歸貢獻(xiàn)的相對程度,即在應(yīng)變量Y的總變異中回歸關(guān)系所能解釋的比例。(本例為R2=0.581) 在實際應(yīng)用中,通過決定系數(shù)來反映回歸的實際效果。,,第三節(jié) 直線回歸分析的應(yīng)用利用回歸方程進(jìn)行統(tǒng)計預(yù)測是回歸分析最重要的應(yīng)用。所謂預(yù)測就是將預(yù)報因子(自變量x)代入回歸方程對預(yù)報變量進(jìn)行估計。,,(一) y 的總體均數(shù)的

20、置信區(qū)間給定x=xP 時,yP的總體均數(shù) 的點估計為:其標(biāo)準(zhǔn)誤為:,,,,的(1-?)的置信區(qū)間為:容易知道,當(dāng) 時標(biāo)準(zhǔn)誤 最小,所以在均 數(shù) 點處置信帶寬度最小,越遠(yuǎn)離均數(shù)點,置信帶寬度越大。(1-?)的置信帶的意義是:在滿足線性回歸的假設(shè)條件下,可以認(rèn)為真實的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi),其置信度為1-?。,,,(二) 個

21、體y值的預(yù)測區(qū)間總體中,當(dāng)xP為某一固定值時,個體y值圍繞著對應(yīng)與xP值的 波動。其方差為:,,,所以,個體Y值的標(biāo)準(zhǔn)差按下式計算:個體Y值的預(yù)測區(qū)間為:可見,在相同置信度下,個體值預(yù)測帶的曲線要比回歸線置信帶的曲線離回歸線更遠(yuǎn)。,,,,直線回歸分析需注意的問題,回歸分析前應(yīng)繪制散點圖(必需有直線趨勢時,才適宜作直線回歸分析。應(yīng)注意資料有無離群點(outlier)及離群點的處理。,,模型假設(shè)條件的考察(殘差圖)

22、,,結(jié)果的解釋及正確應(yīng)用 反映自變量對應(yīng)變量數(shù)量上影響大小的是回歸系數(shù) ,而非P值。 內(nèi)插與外推,直線回歸與相關(guān)的區(qū)別和聯(lián)系,區(qū)別 資料要求不同應(yīng)用情況不同聯(lián)系,直線回歸與相關(guān)的區(qū)別,資料要求不同回歸要求因變量y服從正態(tài)分布;y是可以精確測量和嚴(yán)格控制的變量,稱為Ⅰ型回歸。相關(guān)要求兩個變量x、y服從雙變量正態(tài)分布,稱為Ⅱ型回歸。應(yīng)用情況不同說明兩變量間依存變化的數(shù)量關(guān)系用回歸,說明變量間的

23、相關(guān)關(guān)系用相關(guān)。,直線回歸與相關(guān)的聯(lián)系,方向一致,即r與b正負(fù)號一致r和b假設(shè)檢驗等價用回歸解釋相關(guān),,應(yīng)用直線回歸應(yīng)注意的問題,回歸分析要有實際意義。在進(jìn)行直線回歸分析前,應(yīng)繪制散點圖??紤]建立線性回歸模型的基本假定。直線回歸方程應(yīng)用與圖示應(yīng)以自變量的取值范圍為限。兩變量間的直線關(guān)系不一定是因果關(guān)系。,給定X時,Y是正態(tài)分布、等方差示意圖,二、回歸模型的適用條件 線性回歸模型的適用條件如下: (1)

24、因變量Y與自變量X呈線性關(guān)系。 線性指反應(yīng)變量Y的總體平均值與自變量X呈線性 關(guān)系。 如果發(fā)現(xiàn)數(shù)據(jù)違背該線性的假定,可尋求最適合 客觀實際的非線性模型。 (2) 每個個體觀察值之間互相獨(dú)立。,(3) 在一定范圍內(nèi),任意給定X值,對應(yīng)的隨機(jī)變量Y都 服從正態(tài)分布。 如果數(shù)據(jù)不滿足正態(tài)性假設(shè)首先考慮對原始數(shù)據(jù)進(jìn)

25、 行數(shù)據(jù)變換,使其正態(tài)化后進(jìn)行線性模型擬合與分 析。(4) 在一定范圍內(nèi)(自變量X取值范圍內(nèi)),不同的X值對 應(yīng)的隨機(jī)變量Y都具有相同的方差。 如果數(shù)據(jù)不滿足等方差性假設(shè),可試用變量變換使 其方差齊性后再進(jìn)行回歸分析,或者采用加權(quán)回歸 的方法。,,,圖 美國肺癌的監(jiān)測數(shù)據(jù)年及美國煙草消耗量的數(shù)據(jù)(American Cancer Society 2005),,,,,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論