2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩231頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、一. 一元數(shù)據(jù)處理方法,二. 多元數(shù)據(jù)處理方法,三.如何寫好建模競賽論文,數(shù)據(jù)處理專題,數(shù)據(jù)處理是指用簡明而嚴格的方法把獲得的實驗數(shù)據(jù)所代表的事物內(nèi)在的規(guī)律提煉出來,得出結(jié)果的加工過程,包括數(shù)據(jù)記錄、描繪曲線,從帶有誤差的數(shù)據(jù)中提取參數(shù),驗證和尋找經(jīng)驗規(guī)律,外推實驗數(shù)據(jù)等等。本章介紹一些最基本的數(shù)據(jù)處理方法。,1.插值 2.擬合及線性回歸,1. 一元數(shù)據(jù)處理方法,在解決實際問題的生產(chǎn)(或工程)實踐和科學實驗過程中

2、,通常需要通過研究某些變量之間的函數(shù)關(guān)系來幫助我們認識事物的內(nèi)在規(guī)律和本質(zhì)屬性,而這些變量之間的未知函數(shù)關(guān)系又常常隱含在從試驗、觀測得到的一組數(shù)據(jù)之中。因此,能否根據(jù)一組試驗觀測數(shù)據(jù)找到變量之間相對準確的函數(shù)關(guān)系就成為解決實際問題的關(guān)鍵,例如在工程實踐和科學實驗中,常常需要從一組試驗觀測數(shù)據(jù)(xi ,yi ) ,i = 0,1,....,n之中找到自變量x與因變量y 之間的函數(shù)關(guān)系,一般可用一個近似函數(shù)y = f (x)來表示。函數(shù)y

3、 = f (x)的產(chǎn)生辦法因觀測數(shù)據(jù)和要求不同而異,通??刹捎脭?shù)據(jù)擬合與函數(shù)插值兩種辦法來實現(xiàn)。 數(shù)據(jù)擬合主要是考慮到觀測數(shù)據(jù)受隨機觀測誤差的影響,進而尋求整體誤差最小、能較好反映觀測數(shù)據(jù)的近似函數(shù)y = f (x),此時并不要求所得到的近似函數(shù)y = f (x)滿足yi= f (xi) , i = 0,1,…,n。 函數(shù)插值則要求近似函數(shù)y = f (x)在每一個觀測點 xi 處一定要滿足y i= f (xi) ,

4、 i = 0,1,…,n ,在這種情況下,通常要求觀測數(shù)據(jù)相對比較準確,即不考慮觀測誤差的影響。,在實際問題中,通過觀測數(shù)據(jù)能否正確揭示某些變量之間的關(guān)系,進而正確認識事物的內(nèi)在規(guī)律與本質(zhì)屬性,往往取決于兩方面因素。其一是觀測數(shù)據(jù)的準確性或準確程度,這是因為在獲取觀測數(shù)據(jù)的過程中一般存在隨機測量誤差,導致所討論的變量成為隨機變量。其二是對觀測數(shù)據(jù)處理方法的選擇,即到底是采用插值方法還是用擬合方法,插值方法之中、擬合方法之中又選用哪一種插

5、值或擬合技巧來處理觀測數(shù)據(jù)。插值問題忽略了觀測誤差的影響,而擬合問題則考慮了觀測誤差的影響。但由于觀測數(shù)據(jù)客觀上總是存在觀測誤差,而擬合函數(shù)大多數(shù)情況下是通過經(jīng)驗公式獲得的,因此要正確揭示事物的內(nèi)在規(guī)律,往往需要對大量的觀測數(shù)據(jù)進行分析,尤為重要的是進行統(tǒng)計分析。統(tǒng)計分析的方法有許多,如方差分析、回歸分析等。,數(shù)據(jù)擬合雖然較有效地克服了隨機觀測誤差的影響,但從數(shù)理統(tǒng)計的角度看,根據(jù)一個樣本計算出來的擬合函數(shù)(系數(shù)),只是擬合問題的一個點

6、估計,還不能完全說明其整體性質(zhì)。因此,還應該對擬合函數(shù)作區(qū)間估計或假設檢驗,如果置信區(qū)間太大或包含零點,則由計算得到的擬合函數(shù)系數(shù)的估計值就毫無意義。這里所采用的統(tǒng)計分析方法就是所謂的回歸分析。另外還可用方差分析的方法對模型的誤差作定量分析。 對于插值方法,本文簡單介紹最常用的插值法的基本結(jié)論及其Matlab實現(xiàn)問題。由于數(shù)據(jù)擬合問題必須作區(qū)間估計或假設檢驗,所以除了介紹最基本的數(shù)據(jù)擬合方法——最小二乘法的基本結(jié)論及其Matlab實

7、現(xiàn)問題外,我們專門介紹了對數(shù)值擬合問題進行區(qū)間估計或假設檢驗的統(tǒng)計方法。,即介紹回歸分析方法及其Matlab實現(xiàn)。 數(shù)據(jù)處理問題通常情況下只是某個復雜實際問題的一個方面或部分內(nèi)容,因而這里所介紹的數(shù)據(jù)處理方法——函數(shù)插值和數(shù)據(jù)擬合的方法(包括回歸分析)通常只能解決實際問題中的部分問題——計算問題。一般來說,對實際問題進行數(shù)學建模需要用到多方面知識,只有很少的情況下可以單獨使用本章所介紹的內(nèi)容,故我們最后以修改后的美國91年數(shù)

8、學建模A題為例說明如何使用數(shù)值計算知識建立數(shù)學模型,從而解決實際問題的方法。,1、插 值 法,在生產(chǎn)和實驗中,常常需要根據(jù)一張表格表示的函數(shù)推算該表中沒有的函數(shù)值.解決此類問題的簡單途徑之一利用插值法。,插值在數(shù)學發(fā)展史上是一個老問題,它是和Gauss, Lagrange, Newton等在著名數(shù)學家連在一起的。它最初來源于天體計算——由若干觀測值計算人一時刻星球的位置?,F(xiàn)在,插值法在工程技術(shù)和數(shù)據(jù)處理有許多直接應用,而且也是數(shù)值積分、

9、數(shù)值微分的基礎。,1.1 插值概念與基礎理論,1.1.1 插值問題的提法,對于給定的函數(shù)表,(其中 在[a,b]上連續(xù), x0,x1,…,xn 是 [a,b]上的 n+1個互異的點),在某函數(shù)類{?(x) }中求一個函數(shù)?(x) ,使,?(xi)=yi , (i=0,1,2,…,n) (2),(1),并用函數(shù)?(x) 作為函數(shù) y=f(x) 的近似函數(shù),即

10、y= f(x) ? ?(x) , ( x∈[a,b] ),這類問題稱為插值問題。 [a,b]稱為插值區(qū)間, x0 , x1, ... , xn 稱為插值節(jié)點,(2)稱為插值條件,插值條件是選擇近似函數(shù)的標準,滿足此條件的近似函數(shù) ?(x) 稱為插值函數(shù), f(x) 稱為被插值函數(shù)。,函數(shù)類{?(x) }有多種取法,常用的有代數(shù)多項式、三角函數(shù)和有理函數(shù)。,最簡單的插值函數(shù)是代數(shù)多項式,相應的插值問題稱為多項式插值。,最簡

11、單的插值函數(shù)是代數(shù)多項式,相應的插值問題稱為多項式插值。,,§1.2 插值多項式的求法,在前面討論插值多項式的存在唯一性時,實際上已提供了它的一種求法,即通過求解線性方程組來確定其系數(shù)ai (i=0,1,2,…,n),但是這種方法不僅計算量大,而且因不能獲得簡明的表達式而給理論和應用研究帶來不便。在這里我們學習兩種簡便而實用的求答。,1.2.1 拉格朗日插值多項式,在線性代數(shù)中知道,所有次數(shù)不超過n次的多項式構(gòu)成一個n+1維線

12、性空間。其基有各種不同的取法。因此盡管滿足條件(4)的n次插值多項式是唯一的,然而它的表達式可以有多種不同的形式。如果取滿足條件:,的一組n次多項式,,作為上述,線性空間的基,則容易看出,因此,由n+1個代數(shù)多項式,線性生成的多項式(10)就是滿足插值條件的n次插值多項式。,(10),(9),滿足條件(9)的多項式,稱為n+1個節(jié)點的n次基本插值多項式(或n次基函數(shù)),顯然,求拉格朗日多項式的關(guān)鍵是求n次插值基函數(shù)。,因此,可設,,因為

13、,為n次多項式,且,兩種特殊的Lagrange插值多項式,1.線性插值(兩點插值),最簡單的插值是線性插值(此時n=1), 這時插值問題就是求一次多項式,P1(x)=a0+a1x,使它滿足條件,P1(x0)=y0 , P1(x1)=y1 ,,這時,于是線性插值多項式為,即,它就是通過M0(x0,y0)和M1(x1,y1)兩點的線段.,2.拋物插值,線性插值僅僅用兩個節(jié)點以上的信息,精確度較差。為了提高精確度,我們進一步考察以下三點

14、的插值問題(n=2):,這時,由此得到拋物插值多項式,拋物插值又稱三點插值.,,,例1 已知,的函數(shù)表,并估計誤差。,分別用拉格朗日線性和拋物線插值求,的近似值,,%lagrange插值法的程序function y=lagrange(x0,y0,x);n=length(x0);m=length(x);for i=1:mz=x(i);s=0.0;for k=1:np=1.0;for j=1:nif j~=kp=p*(

15、z-x0(j))/(x0(k)-x0(j));endends=p*y0(k)+s;endy(i)=s;end,clearx0=[10 11 12 13 14 ];y0=[2.3026 2.3979,2.4849,2.5649 2.6391];x=10:0.1:15;y=lagrange(x0,y0,x);plot(x0,y0,’+’,x,y),1901年龍格(Runge) 給出一個例子:

16、 定義在區(qū)間[-1,1]上,這是一個光滑函數(shù),它的任意階導數(shù)都存在,對它在[-1,1]上作等距節(jié)點插值時,插值多項式情況,見圖:,從圖中,可見,在靠近-1或1時,余項會隨n值增大而增大,如P12(0.96)=3×6!但f(0.96)=0.25,從圖中,還可發(fā)現(xiàn),在0附近插值效果是好的,即余項較小,另一種現(xiàn)象是插值多項式隨節(jié)點增多而振動更多。 這種插值多項式當節(jié)點增加時反而不

17、能更好地接近被插之數(shù)的現(xiàn)象,稱為龍格現(xiàn)象。,上述現(xiàn)象和定理,告訴我們用高次插值多項式是不妥當?shù)?,從?shù)值計算上可解釋為高次插值多項式的計算會帶來舍入誤差的增大,從而引起計算失真。那么如何提高插值精度呢?采用分段插值是一種辦法。實踐上作插值時一般只用一次、二次最多用三次插值多項式。,分段線性插值的構(gòu)造:,設f(x)是定義在[a,b]上的函數(shù),在[a,b]上節(jié)點 a= x0< x1<x2<…&l

18、t;xn-1<xn=b, 的函數(shù)值為 y0 , y1 ,y2 ,…yn-1 ,yn 。,?(x)在每個子區(qū)間[xi , xi+1](i=0,1,2,???,n-1)上是一次插 值多項式;,這種分段低次插值稱為分段線性插值.在幾何上就是用折線段帶代替曲線,故分段線性插值又稱為折線插值.,1.2.2 分段線性插值,分段線性插值:matalb調(diào)用格式:yi=interp1(x,y,xi,’linear’),x,y

19、為插值節(jié)點,xi為待求節(jié)點,分段線性插值曲線圖:,曲線的光滑性較差,在節(jié)點處有尖點,但如果增加節(jié)點的數(shù)量,減小步長,會改善插值效果,,,例1 已知,的函數(shù)表,并估計誤差。,分別用拉格朗日線性和拋物線插值求,的近似值,,clearx0=[10 11 12 13 14 ];y0=[2.3026 2.3979,2.4849 2.5649 2.6391 ];x=10:0.1:15;y1=interp1(x0,y0,x,’linea

20、r’);yy1=interp1(x0,y0,11.5,’linear’); y2=interp1(x0,y0,x,‘cubic');yy2=interp1(x0,y0,11.5,‘cubic');subplot(1,2,1)plot(x0,y0,'+',x,y1,11.5,yy1,’rO’)title('Piecewise linear')subplot(1,2,2)plo

21、t(x0,y0,'+',x,y2,11.5,yy2,’rO’)title('Piecewise cubic'),分段二次插值即:選取跟節(jié)點x最近的三個節(jié)點xi-1,xi, xi+1進行二次插值,即在區(qū)間[xi-1, xi+1],取:這種分段的低次插值叫分段二次插值,在幾何上就是用分段拋物線代替y=f(x),故分段二次插值又和分段拋物插值。,matlab調(diào)用格式y(tǒng)i=interp1(x,y

22、,xi,’cubic’) %二次多項式插值,什么是樣條:,是 指飛機或輪船等的制造過程中為描繪出光滑的外形曲線(放樣)所用的工具,樣條本質(zhì)上是一段一段的三次多項式拼合而成的曲線,在拼接處,不僅函數(shù)是連續(xù)的,且一階和二階導數(shù)也是連續(xù)的,1946年,Schoenberg將樣條引入數(shù)學,即所謂的樣條函數(shù),1.3 三次樣條插值,,------(1),定義1.,1.4.1、三次樣條插值函數(shù),clearx0=[0 1 2 3];y0=[0

23、0.5 2 1.5];x=0:0.1:3;pp1=csape(x0,y0,’complete’);y3=ppval(pp1,x);%計算插值函數(shù)在x處的值plot(x0,y0,’+’,x,y3,’r’),一維插值總結(jié) 插值函數(shù)一般是已知函數(shù)的線性組合或者稱為加權(quán)平均。在已知數(shù)據(jù)點較少時,插值技術(shù)在工程實踐和科學實驗中有著廣泛而又十分重要的應用。例如在信息技術(shù)中的圖像重建、圖像放大過程中為避免圖像失真、扭曲而增加的插值補點,

24、建筑工程的外觀設計,化學工程試驗數(shù)據(jù)與模型分析,天文觀測數(shù)據(jù)、地理信息數(shù)據(jù)的處理,社會經(jīng)濟現(xiàn)象的統(tǒng)計分析等方面,插值技術(shù)的應用是不可或缺的。插值技術(shù)(或方法)遠不止這里所介紹的這些,但在解決實際問題時,對于一位插值問題而言,前面介紹的插值方法已經(jīng)足夠了。剩下的問題關(guān)鍵在于什么情況下使用、怎樣使用和使用何種插值方法的選擇上。拉格朗日插值函數(shù)在整個插值區(qū)間上有統(tǒng)一的解析表達式,其形式關(guān)于節(jié)點對稱,光滑性好。但缺點同樣明顯,這主要體現(xiàn)在高

25、次插值收斂性差(龍格現(xiàn)象);增加節(jié)點時前期計算作廢,導致計算量大;一個節(jié)點函數(shù)值的微小變化(觀測誤差存在)將導致整個區(qū)間上插值函數(shù)都發(fā)生改變,因而穩(wěn)定性差等幾個方面。因此拉格朗日插值法多用于理論分析,在采用拉格朗日插值方法進行插值計算時通常選取n < 7。分段線性插值函數(shù)(僅連續(xù))與三次樣條插值函數(shù)(二階導數(shù)連續(xù))雖然光滑性差,但他們都克服了拉格朗日插值函數(shù)的缺點,不僅收斂性、穩(wěn)定性強,而且方法簡單實用,計算量小。因而應用十分廣泛

26、。,2、數(shù) 據(jù) 擬 合,在科學計算中經(jīng)常要建立實驗數(shù)據(jù)的數(shù)學模型。給定函數(shù)的實驗數(shù)據(jù),需要用比較簡單和合適的函數(shù)來逼近(或擬合)實驗數(shù)據(jù)。這種逼近的特點是:(a) 適度的精度是需要的;(b) 實驗數(shù)據(jù)有小的誤差;(c) 對于某些問題,可能有某些特殊的信息能夠用來選擇實驗數(shù)據(jù)的數(shù)學模型。逼近離散數(shù)據(jù)的基本方法就是曲線擬合,常采用最小二乘擬合,曲線擬合問題的數(shù)學描述是,已知一組(二維)數(shù)據(jù)(xi,yi ) ,i = 1,2,。。。

27、,n(即平面上的n個點(xi, yi ) ,i = 1,2,。。,n), x i 互不相同。尋求一個函數(shù)(曲線) y = f (x),使f (x)在某種準則下與所有數(shù)據(jù)點最為接近,即曲線擬合得最好。最小二乘擬合分為線性最小二乘擬合和非線性最小二乘擬合。,2.1線性最小二乘擬合(多項式擬合)方法在線性最小二乘擬合中,用的較多的是多項式擬合。如果取{ r1( x), ‥, rm+1( x)} ={1, ‥ ,xm } ,即用m 次多項

28、式擬合給定數(shù)據(jù),則Matlab中有現(xiàn)成的函數(shù) a=polyfit(x0,y0,m),其中輸入?yún)?shù)x0,y0為要擬合的數(shù)據(jù),m為擬合多項式的次數(shù),輸出參數(shù)a為擬合多項式y(tǒng)=amxm+…+a1x+a0系數(shù)a=[ am, …, a1, a0]。多項式在x處的值y可用下面的函數(shù)計算 y=polyval(a,x)。例4 某鄉(xiāng)鎮(zhèn)企業(yè)1990-1996年的生產(chǎn)利潤如下表:,年份 1990 1991

29、1992 1993 1994 1995 1996利潤(萬元) 70 122 144 152 174 196 202試預測1997年和1998年的利潤。,解 作已知數(shù)據(jù)的的散點圖,x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202];plot(x0,y0,'*')發(fā)現(xiàn)該鄉(xiāng)鎮(zhèn)企業(yè)的年生產(chǎn)利潤幾乎直線上升。因此,我們可以用y

30、= a1 x + a0 作為擬合函數(shù)來預測該鄉(xiāng)鎮(zhèn)企業(yè)未來的年利潤。編寫程序如下:x0=[1990 1991 1992 1993 1994 1995 1996];y0=[70 122 144 152 174 196 202];a=polyfit(x0,y0,1)y97=polyval(a,1997)y98=polyval(a,1998)求得a1 = 20 ,a0 = -4.0705×104 ,1997年的生產(chǎn)利潤y

31、97=233.4286,1998年的生產(chǎn)利潤y98=253.9286。,2 非線性最小二乘擬合Matlab的優(yōu)化工具箱中提供了兩個求非線性最小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個命令時,都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit設已知xdata=(xdata1,xdata2,…,xdatan ),ydata=(ydata1,ydata2,…,ydatan ),cu

32、rvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), …,f(x,xdata n )) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為:(1)x=curvefit('fun',x0,xdata,ydata);(2)x=curvefit('fun',x0,xdata,ydata,options);(3)x=c

33、urvefit('fun',x0,xdata,ydata,options, 'grad');(4)[x,options]=curvefit('fun',x0,xdata,ydata,…);(5)[x,options,funval]=curvefit('fun',x0,xdata,ydata,…);(6)[x,options,funval,Jacob]=curvefit

34、('fun',x0,xdata,ydata,…).輸出目標函數(shù)值格式:f=fun(x,xdata).其中x0為迭代初值,options為控制參數(shù)。,3 非線性最小二乘擬合Matlab的優(yōu)化工具箱中提供了兩個求非線性最小二乘擬合的函數(shù):curvefit和leastsq。使用這兩個命令時,都要先建立M文件fun.m,但它們定義f (x)的方式是不同的。,1 curvefit設已知xdata=(xdata1,xdata

35、2,…,xdatan ),ydata=(ydata1,ydata2,…,ydatan ),curvefit用以求含參量x(向量)的向量值函數(shù)F(x,xdata)=(f(x,data1), …,f(x,xdata n )) T中的參變量x(向量),使得 Sum(F(x,xdatai)-ydatai)2最小,輸入格式為:(1)x=curvefit('fun',x0,xdata,ydata);(2)x=curvef

36、it('fun',x0,xdata,ydata,options);(3)x=curvefit('fun',x0,xdata,ydata,options, 'grad');輸出目標函數(shù)值格式:f=fun(x,xdata).其中x0為迭代初值,options為控制參數(shù)。,2 leastsq設已xdata=(xdata1,xdata2,…,xdatan ),ydata=(ydata1,y

37、data2,…,ydatan ),leastsq 用以求含參量x(向量)的向量值函數(shù),輸入格式為:(1)x= leastsq ('fun',x0,options);(2)x= leastsq ('fun',x0,options, 'grad');,例5 用下面一組數(shù)據(jù)擬合函數(shù)c(t) = a + be-0.02kt 中的參數(shù)a,b, k 。,t 1

38、00 200 300 400 500 600 700 800 900 1000cj×103 4.54 4.99 5.35 5.65 5.90 6.10 6.26 6.39 6.50 6.59,1 用命令curvefit。此時 F(x,tdata)=(a+b e-0.02kt1,…,a+be-0.02kt10)T,x=(a,b,k)(1) 編寫M文件curvefun1.mfunction f=cur

39、vefun1(x,tdata)f=x(1)+x(2)*exp(-0.02*x(3)*tdata) %其中x(1)=a;x(2)=b;x(3)=k;(2) 輸入命令tdata=100:100:1000cdata=1e03*[4.54,4.99,5.35,5.65,5.90,6.10,6.26,6.39,6.50,6.59];x0=[0.2,0.05,0.005];x=curvefit(‘curvefun1’,x0,tdata,

40、cdata)f=curvefun1(x,tdata)即擬合得a=0.0070,b=-0.0030,k=0.0066,變量之間的關(guān)系,確定性關(guān)系,相關(guān)關(guān)系,確定性關(guān)系,身高和體重,相關(guān)關(guān)系,相關(guān)關(guān)系的特征是:變量之間的關(guān)系很難用一種精確的方法表示出來.,2.1.1 引言,2.2.回歸分析方法,確定性關(guān)系和相關(guān)關(guān)系的聯(lián)系,由于存在測量誤差等原因,確定性關(guān)系在實際問題中往往通過相關(guān)關(guān)系表示出來;另一方面,當對事物內(nèi)部規(guī)律了解得更加深

41、刻時,相關(guān)關(guān)系也有可能轉(zhuǎn)化為確定性關(guān)系.,回歸分析——處理變量之間的相關(guān)關(guān)系的一種數(shù)學方法,它是最常用的數(shù)理統(tǒng)計方法.,回歸分析的任務——根據(jù)試驗數(shù)據(jù)估計回歸函數(shù);討論回歸函數(shù)中參數(shù)的點估計、區(qū)間估計;對回歸函數(shù)中的參數(shù)或者回歸函數(shù)本身進行假設檢驗;利用回歸函數(shù)進行預測與控制等等.,一元線性回歸,多元線性回歸,,,,回歸分析方法,,,,,,,,數(shù)學模型及定義,模型參數(shù)估計,檢驗、預測與控制,可線性化的一元非線性回歸(曲線回歸

42、),,,,,,數(shù)學模型及定義,模型參數(shù)估計,多元線性回歸中的檢驗與預測,逐步回歸分析,,2.2一元線性回歸分析,例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:,以身高x為橫坐標,以腿長y為縱坐標將這些數(shù)據(jù)點(xi,yi)在平面直角坐標系上標出.,散點圖,,,2.2.1 數(shù)學模型,一元線性回歸分析的主要任務是:,、,2.2.2 模型參數(shù)估計,(1)回歸系數(shù)的最小二乘估計,其中,,,,稱Qe為殘差平方和或剩余平方和. 可以證明:,,,2

43、.2.3 回歸方程的顯著性檢驗,F檢驗法,,可以用三種不同方法進行檢驗,它們的本質(zhì)是相同的.這里介紹,回歸系數(shù)的置信區(qū)間,線性回歸matlab,b=regress( Y, X ),,,,,1.確定回歸系數(shù)的點估計值:,,b為一元函數(shù)y系數(shù)的估計值,3.畫出殘差及其置信區(qū)間: rcoplot(r,rint),2.求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型: [b, bint,r,rint,stats]=regress(Y,X

44、,alpha),,,例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:,clearx=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';[b,bint,r,rint,stats]=regre

45、ss(Y,X);b,bint,statsrcoplot(r,rint)figure(2)z=b(1)+b(2)*x;plot(x,Y,'k+',x,z,'r')F=finv(0.95,1,14)%及求F0.05(1,16-2),,b = -16.0730 0.7194bint = -33.7071 1.5612 0.6047 0.8340st

46、ats = 0.9282 180.9531 0.0000,,,,F0.05(1,16-2)=4.6,1.2.4 預測與控制,(1)預測:對固定的x值預測相應的y值,例1 測16名成年女子的身高與腿長所得數(shù)據(jù)如下:,請你預測一下身高為170cm時該女子的腿長應該是在什么范圍(置信度為0.05),clearx0=170x=[143 145 146 147 149 150 153 154 155 156 157 158

47、159 160 162 164];y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d],clearx=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]&

48、#39;;X=[ones(16,1) x];Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';[b,bint,r,rint,stats]=regress(Y,X);x0=170x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164];y0=-16.073+0.7194*x0;t=

49、tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d],(2)控制,1.3 可線性化的一元非線性回歸曲線回歸,例2 出鋼時所用的盛鋼水的鋼包,由于鋼水對耐火材料的侵蝕, 容積不斷增大.我們希望知道使用次數(shù)與增大的容積之間的關(guān) 系.對一鋼包作試驗,測得的數(shù)據(jù)列

50、于下表:,,散點圖,此即非線性回歸或曲線回歸問題(需要配曲線),配曲線的一般方法是:,通常選擇的六類曲線如下:,,二. 多元數(shù)據(jù)處理方法,1、二維插值2、多元回歸分析3、聚類分析4、主成分分析,二維插值的定義,第一種(網(wǎng)格節(jié)點):,,已知 m?n個節(jié)點,第二種(散亂節(jié)點):,注意:最鄰近插值一般不連續(xù)。具有連續(xù)性的最簡單的插值是分片線性插值。,最鄰近插值,二維或高維情形的最鄰近插值,與被插值點最鄰近的節(jié)點的函數(shù)值即為所求。,

51、將四個插值點(矩形的四個頂點)處的函數(shù)值依次簡記為:,分片線性插值,f (xi, yj)=f1,f (xi+1, yj)=f2,f (xi+1, yj+1)=f3,f (xi, yj+1)=f4,插值函數(shù)為:,第二片(上三角形區(qū)域):(x, y)滿足,插值函數(shù)為:,注意:(x, y)當然應該是在插值節(jié)點所形成的矩形區(qū)域內(nèi)。顯然,分片線性插值函數(shù)是連續(xù)的;,分兩片的函數(shù)表達式如下:,第一片(下三角形區(qū)域): (x, y)滿足,雙線性插值是

52、一片一片的空間二次曲面構(gòu)成。雙線性插值函數(shù)的形式如下:,其中有四個待定系數(shù),利用該函數(shù)在矩形的四個頂點(插值節(jié)點)的函數(shù)值,得到四個代數(shù)方程,正好確定四個系數(shù)。,雙線性插值,要求x0,y0單調(diào);x,y可取為矩陣,或x取行向量,y取為列向量,x,y的值分別不能超出x0,y0的范圍。,z=interp2(x0,y0,z0,x,y,’method’),用MATLAB作網(wǎng)格節(jié)點數(shù)據(jù)的插值,‘nearest’ 最鄰近插值‘linear’

53、 雙線性插值‘cubic’ 雙三次插值缺省時, 雙線性插值,,例:測得平板表面3*5網(wǎng)格點處的溫度分別為: 82 81 80 82 84

54、 79 63 61 65 81 84 84 82 85 86

55、 試作出平板表面的溫度分布曲面z=f(x,y)的圖形。,輸入以下命令:x=1:5;y=1:3;temps=[82 81 80 82 84;79 63 61 65 81;84 84 82 85 86];mesh(x,y,temps),1.先在三維坐標畫出原始數(shù)據(jù),畫出粗糙的溫度分布曲圖.,2.以

56、平滑數(shù)據(jù),在x、y方向上每隔0.2個單位的地方進行插值.,再輸入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi',yi,'cubic');mesh(xi,yi,zi)畫出插值后的溫度分布曲面圖.,通過此例對最近鄰點插值、雙線性插值方法和雙三次插值方法的插值效果進行比較。,插值函數(shù)griddata格式為:,cz =griddata(x,y,z,cx,c

57、y,‘method’),用MATLAB作散點數(shù)據(jù)的插值計算,要求cx取行向量,cy取為列向量。,‘nearest’ 最鄰近插值‘linear’ 雙線性插值‘cubic’ 雙三次插值'v4'- Matlab提供的插值方法缺省時, 雙線性插值,,例 在某海域測得一些點(x,y)處的水深z由下表給出,船的吃水深度為5英尺,在矩形區(qū)域(75,200)*(-50,150)里的哪些地方船要避免進入。,,,,,

58、,4.作出水深小于5的海域范圍,即z=5的等高線.,3、作海底曲面圖,實驗作業(yè),山區(qū)地貌:在某山區(qū)測得一些地點的高程如下表:(平面區(qū)域1200<=x<=4000,1200<=y<=3600),試作出該山區(qū)的地貌圖和等高線圖,并對幾種插值方法進行比較。,1.4 多元線性回歸,多元線性回歸在工程上更為有用。,,1.4.1數(shù)學模型及定義,,,1.4.2模型參數(shù)估計,,解得估計值,1.4.4多元線性回歸中的檢驗與預測,(

59、殘差平方和),F檢驗法,(2)預測,(A)點預測,(B)區(qū)間預測,1.5 逐步回歸分析,實際問題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著的自變量來建立回歸模型,這就涉及到變量選擇的問題。逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。它是在多元線性回歸的基礎上派生出來的一種算法技巧。,“最優(yōu)”的回歸方程就是包含所有對Y有影響的變量, 而不包含對Y影響不顯著的變量回歸方程。,如果采用的自變量越多,則回歸平方和越大,殘差平

60、方和越小,然而較多的變量來擬合回歸方程,得到的防策劃能夠穩(wěn)定性差,用它作預測可靠性差,精度低.另一方面,如果采用了y 影響較小的變量而遺漏了重要變量,可導致估計量產(chǎn)生偏崎和不一致性.為此,我們希望得到“最優(yōu)”的回歸方程.,(4)“有進有出”的逐步回歸分析。,(1)從所有可能的因子(變量)組合的回歸方程中選擇最優(yōu)者;,(2)從包含全部變量的回歸方程中逐次剔除不顯著因子;,(3)從一個變量開始,把變量逐個引入方程;,選擇“最優(yōu)”的回歸方程有

61、以下幾種方法:,以第四種方法,即逐步回歸分析法在篩選變量方面較為理想.,這個過程反復進行,直至既無不顯著的變量從回歸方程中剔除,又無顯著變量可引入回歸方程時為止。,逐步回歸分析法的思想:,從一個自變量開始,視自變量Y作用的顯著程度,從大到小地依次逐個引入回歸方程。,當引入的自變量由于后面變量的引入而變得不顯著時,要將其剔除掉。,引入一個自變量或從回歸方程中剔除一個自變量,為逐步回歸的一步。,對于每一步都要進行Y值檢驗,以確保每次引入新的

62、顯著性變量前回歸方程中只包含對Y作用顯著的變量。,1.6.1多元線性回歸,b=regress( Y, X ),,,1)確定回歸系數(shù)的點估計值:,1.6 MATLAB統(tǒng)計工具箱中的回歸分析命令,對一元線性回歸,取p=1即可.,3、畫出殘差及其置信區(qū)間: rcoplot(r,rint),2)求回歸系數(shù)的點估計和區(qū)間估計、并檢驗回歸模型: [b, bint,r,rint,stats]=regres

63、s(Y,X,alpha),,,例1,解:,1、輸入數(shù)據(jù): x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';,2、回歸分

64、析及檢驗: [b,bint,r,rint,stats]=regress(Y,X) b,bint,stats,To MATLAB(liti11),題目,3、殘差分析,作殘差圖: rcoplot(r,rint),從殘差圖可以看出,除第二個數(shù)據(jù)外,其余數(shù)據(jù)的殘差離零點均較近,且殘差的置信區(qū)間均包含零點,這說明回歸模型 y=-16.073+0.7194x能較好的符合原始數(shù)據(jù),而第二

65、個數(shù)據(jù)可視為異常點.,4、預測及作圖:z=b(1)+b(2)*x plot(x,Y,'k+',x,z,'r'),返回,To MATLAB(liti12),,1.6.2多 項 式 回 歸,(1)一元多項式回歸,1)確定多項式系數(shù)的命令:[p,S]=polyfit(x,y,m),2)一元多項式回歸命令:polytool(x,y,m),A、回歸:,y=a1xm+a2xm-1+…+amx+am+1,

66、此命令產(chǎn)生一個交互式的畫面,畫面中有擬合曲線和y的置信區(qū)間。通過左下方的Export菜單,可以輸出回歸系數(shù)等。,,一元多項式回歸也可以化為多元線性回歸來解。,法一,直接作二次多項式回歸: t=1/30:1/30:14/30; s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48]

67、; [p,S]=polyfit(t,s,2),To MATLAB(liti21),得回歸模型為 :,法二,化為多元線性回歸:t=1/30:1/30:14/30;s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 85.44 99.08 113.77 129.54 146.48];T=[ones(14,1) t' (t.^

68、2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats,To MATLAB(liti22),得回歸模型為 :,Y=polyconf(p,t,S) plot(t,s,'k+',t,Y,'r'),預測及作圖,To MATLAB(liti23),1.6.3多元二項式回歸,命令:rstool(x,y,’model’, alpha),,,,命

69、令rstool產(chǎn)生一個交互式畫面,畫面中有m個圖形,這m個圖形分別給出了一個獨立變量xi(另m-1個變量取固定值)與y的擬合曲線,以及y的置信區(qū)間??梢酝ㄟ^鍵入不同的xi值來獲得相應的y值。,例3 設某商品的需求量與消費者的平均收入、商品價格的統(tǒng)計數(shù) 據(jù)如下,建立回歸模型,預測平均收入為800、價格為6時 的商品需求量.,解,直接用多元二項式回歸:x1=[1000 600 1200 500 30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論