版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第七章 空間統(tǒng)計分析,統(tǒng)計分析是空間分析的主要手段,貫穿于空間分析的各個主要環(huán)節(jié)??臻g統(tǒng)計分析方法不僅僅限于常規(guī)統(tǒng)計方法,還包括利用空間位置的空間自相關分析。本章主要介紹常用統(tǒng)計量、數據特征分析(即探索性數據分析)、分級統(tǒng)計分析、空間插值和空間回歸分析5方面內容。,第一節(jié) 概述,1.1 基本概念 空間統(tǒng)計分析包括空間數據的統(tǒng)計分析及數據的空間統(tǒng)計分析??臻g數據的統(tǒng)計分析著重于空間物體和現象的非空間特性的統(tǒng)計分析,
2、而空間數據所描述的事物的空間位置在這些分析中不起制約作用。從這個意義上講,空間數據的統(tǒng)計分析在很多方面與一般的數據分析并無本質差別,但是對于空間數據統(tǒng)計分析的結果的解釋則要依托與地理空間進行,在很多情況下,分析的結果是以地圖的方式描述和表達的。,數據的空間統(tǒng)計分析是直接從空間物體的空間位置、聯系等方面出發(fā),研究既具有隨機性又具有結構性,或具有空間相關性和依賴性的自然現象。 數據的空間統(tǒng)計分析,其核心就是認識與地理位置相關的數
3、據間的空間依賴、空間關聯或空間自相關,通過空間位置建立數據間的統(tǒng)計關系。 空間統(tǒng)計分析的任務就是運用有關的統(tǒng)計分析方法,建立空間統(tǒng)計模型,從凌亂的數據中挖掘空間自相關和空間變異規(guī)律。,數據的空間統(tǒng)計分析與經典統(tǒng)計分析方法的關系,共同點:都是在大量采樣的基礎上,通過對樣本的屬性值的頻率分布、均值、方差等關系及其相應規(guī)則分析,確定其空間分布格局與相關關系。不同點:數據的空間統(tǒng)計分析既考慮到樣本的大小,又重視樣本空
4、間位置及樣本間的距離。空間數據具有空間依賴性(空間自相關)和空間異質性,扭曲了經典統(tǒng)計分析的假設條件,使得經典統(tǒng)計分析對空間數據的分析會產生虛假的解釋。經典統(tǒng)計分析模型是在觀測結果相互獨立的假設基礎上建立的,但實際上地理現象之間大都不具有獨立性。數據的空間統(tǒng)計學研究的基礎是空間對象間的相關性和異質性,它們與距離有關,并隨距離的增加而變化。這些問題為經典統(tǒng)計學所忽視,卻成為數據空間統(tǒng)計分析的核心。,注意:在使用任何統(tǒng)計分析分析方法分析和空
5、間位置有關的數據之前,我們都必須先測度和檢驗空間自相關的顯著性。 這是因為如果所研究的空間數據具有空間自相關性,那么觀測樣本可能會包含相似的信息,從而導致有效樣本容量的減小。相似或者自相關的觀測單位會使變量間的關系重復或被夸大。,第二節(jié) 基本統(tǒng)計量,2.1 代表數據集中趨勢的統(tǒng)計量 代表數據集中趨勢的統(tǒng)計量包括平均數、中位數、眾數,它們都可以用來表示數據的分布位置和一般水平。,描述地理數據一般水平
6、指標的選擇當數據為對稱分布或接近對稱分布時,應選擇平均數作為集中趨勢的代表值,因為此時均值與眾數、中位數的差異很小,而且平均數綜合考慮了全部數據,具有很好的代表性。當數據呈偏態(tài)分布時,由于均值考慮了所有觀察值,因此容易受極端數值的影響,而眾數又缺乏良好的數學性質,依分組求得的眾數不夠精確,所以此時多選用中位數作為描述集中性趨勢的統(tǒng)計量。當變量為名義尺度數據時通常只能用眾數來描述集中趨勢。,2.2 代表數據離散程度的統(tǒng)計量
7、 代表數據離散程度的統(tǒng)計量包括最大值、最小值、分位數、極差、離差、平均離差、離差平方和、方差、標準差、變差系數等。 離散程度越大,數據波動性越大,以小樣本數據代表數據總體的可靠性越低。,2.3 代表數據分布形態(tài)的統(tǒng)計量 代表數據離散程度的統(tǒng)計量主要有 偏度系數和峰度系數。,圖1 偏度系數的三種情形,正偏態(tài),負偏態(tài),正態(tài),圖2 標準峰度系數的三種情形,第三節(jié) 探索性數據分析,探索性數據分析首先分析出
8、數據的模式和特點,再根據數據特點選擇合適的模型。探索性數據分析還可以用來揭示數據對于常見模型的意想不到的偏離。,3.1 基本分析工具,直方圖 : SPSS, ARCGISQQplot分布圖 : SPSS, ARCGISVoronoi圖 : ARCGIS方差變異分析工具: GS+3.0,1 用直方圖檢驗數據的分布 1)在ArcMap目錄表中單擊需要進行數據檢測分析的點要素層。 2)單擊G
9、eostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊Histogram,2 用QQPlot圖檢驗數據的分布 1)Normal QQplot檢驗數據是否符合正態(tài)分布:單擊Geostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊Normal QQplot 2) general QQplot 評估兩個數據集分布的相似性:單擊Geostatistical A
10、nalyst模塊的下拉箭頭選擇Explore Data并單擊general QQplot,3 Voronoi圖 單擊Geostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊Voronoi圖。Voronoi圖中多邊形值的幾種分配方式和計算方法(見課本273頁),使用ARCGIS進行探索性數據分析,半變異函數和協(xié)方差函數把統(tǒng)計相關系數的大小作為一個距離的函數,如果分別以h為橫坐標,變異
11、函數γ(0) 或協(xié)方差函數 C(h)為縱坐標,就得到了變異函數曲線圖和協(xié)方差函數圖:,4 方差變異分析,協(xié)方差函數和半變異函數隨著距離的加大基本呈反向變化特征,它們之間的近似關系表達式為:,變異函數曲線圖和協(xié)方差函數圖反應了采樣點與其相鄰采樣點的空間關系,同時還能給出這種空間相關的范圍,對異常采樣點有很好的探測作用。我們通常選擇半變異函數圖來描述地理數據的空間變異特征。,在半變異曲線圖中有兩個非常重要的點:間隔為0時的點和半變異函數趨近
12、平穩(wěn)時的拐點,由這兩個點產生四個相應的參數:塊金值(Nugget)、變程(Range)、基臺值(Sill)、偏基臺值(Partial Sill),變異函數的參數。,※ 理論上,當采樣點間的距離為0時,半變異函數值應為0,但由于存在測量誤差和空間變異,使得兩采樣點非常接近時,它們的半變異函數值不為0,即存在塊金值。測量誤差是儀器內在誤差引起的,空間變異是自然現象在一定空間范圍內的變化。它們任意一方或兩者共同作用產生了塊金值。,
13、塊金值(Nugget):當間隔距離h=0時,γ(0)= C0,該值稱為塊金值或塊金方差(nugget variance)。,※ 當半變異函數值超過基臺值時,即函數值不隨采樣點間隔距離而改變時,空間相關性不存在。,基臺值(Sill):當采樣點間的距離h增大時,半變異函數從初始的塊金值達到一個相對穩(wěn)定的常數時,該常數值稱為基臺值。 sill=C0+C偏基臺值(Partial Sill):基臺值與塊金值的差值: partia
14、l sill=C,※ 在變程范圍內,樣點間的距離越小,其相似性,即空間相關性越大。當h>R時,區(qū)域化變量Z(x)的空間相關性不存在,即當某點與已知點的距離大于變程時,該點數據不能用于內插或外推。,變程(Range):當半變異函數的取值由初始的塊金值達到基臺值時,采樣點的間隔距離稱為變程。變程表示了在某種觀測尺度下,空間相關性的作用范圍,其大小受觀測尺度 的限定。,3.2 檢驗數據分布,空間統(tǒng)計分析中檢驗數據分布的意義和主
15、要方法: 在空間統(tǒng)計分析中,許多統(tǒng)計分析模型,如地統(tǒng)計分析,都是建立在平穩(wěn)假設的基礎上的,這種假設一定程度上要求所有數據具有相同的變異性。另外,克里金插值都假設數據服從正態(tài)分布。如果數據不服從正態(tài)分布,需要進行一定的數據變換,從而使其服從正態(tài)分布。因此在進行地統(tǒng)計分析之前,檢驗數據分布特征,了解和認識數據具有非常重要的意義。 數據的檢驗可以通過直方圖和Normal QQplot圖來完成。,3.3 尋
16、找數據離群值,概念:全局離群值:局部離群值: 離群值的出現可能是真實異常值,也可能是由于不正確的測量或記錄引起的。如果是真實異常值,這個點可能就是研究和理解這個現象的最重要的點。反之,如果它是由于測量或數據輸入的明顯錯誤引起的,在生成表面之前,應對它們進行修正或剔除。,尋找離群值的主要方式:利用直方圖查找離群值用半變異/協(xié)方差函數云圖識別離群值用Voronoi圖查找局部離群值,3.4 全局趨勢分析,全局趨
17、勢(空間趨勢)反映了空間物體在空間區(qū)域上的變化的主題特征,它主要揭示了空間物體的總體規(guī)律,而忽略局部變異。趨勢面分析 單擊Geostatistical Analyst模塊的下拉箭頭選擇Explore Data并單擊trend anlysis。,,,3.5 空間自相關分析,(一)全局空間自相關 全局空間自相關系數反映的是研究區(qū)域內所有區(qū)域單元的整體空間關系。Moran指數和Geary系數是最常用的兩種
18、測度全局自相關的指標。,,,如果是位置(區(qū)域)的觀測值,則該變量的全局Moran指數I,用如下公式計算 式中: I 為Moran指數;Wij為權重系數,,,,,;,Moran’s I,Geary 系數C計算公式如下 式中:C為Geary系數;其他變量同上式。,,,,,,Geary’s C,Moran’s I和Geary’s C 計算公式中的大部分項都可以直接根據點的屬性值來計算,唯一無法根據屬性值計算的是表示i與j之間
19、空間接近度的權重系數Wij。 接下來我們就來看一下空間權重系數Wij的確定,通常定義一個二元對稱空間權重矩陣W,來表達n個位置的空間區(qū)域的鄰近關系,其形式如下式中:Wij表示區(qū)域i與j的臨近關系,它可以根據鄰接標準或距離標準來度量。,空間權重矩陣,①簡單的二進制鄰接矩陣②基于距離的二進制空間權重矩陣,常用的確定空間權重矩陣的規(guī)則,,,反距離權重系數:假定隨著兩點之間距離的增加,它們之間關系的重要性會出現線性遞減。,常
20、用的確定空間權重矩陣的規(guī)則(補充),,,常用的確定空間權重矩陣的規(guī)則(補充),而 只體現了線性遞減關系,當相關性隨距離呈現非線性遞減關系時則需引入參數α。上式改造為: α=2廣泛適用于許多地理現象。,,,Moran’s I和Geary’s C 的取值區(qū)間,標注: E(I)= -1/n-1,n表示區(qū)域單元總數(樣本總數),需要指出的是,Geary’s 比率的取值區(qū)間與相關系數的傳統(tǒng)取值范圍(-1,1)
21、不符,而Moran’s I的取值區(qū)間更加接近于傳統(tǒng)相關性指標的取值范圍。但需要注意的是:不存在空間自相關時, Moran’s I的值不是0,而是E(I)從某些實證研究的結果來看, Moran’s I的取值范圍并不局限于(-1,1),尤其是上限并不局限于1。,Moran’s I的期望值E(I)始終為負,其大小與區(qū)域單元個數n有關。當區(qū)域單元的數量n越多時, Moran’s I的期望值E(I)就越接近于0;當n較小時,Moran’s I
22、的期望值E(I)是個絕對值較大的負值。 因此當n較小時,負的Moran’s I未必意味著負的空間自相關或分散模式。,空間自相關指標的顯著性檢驗,空間自相關指標的顯著性檢驗是通過標準化Z值來實現的。 Moran’s I的顯著性檢驗為:,式中E(I)=1/n-1;,VARN(I)為自由抽樣方差;非自由抽樣的方差另有公式,在此不做介紹了。參考《ArcView GIS 與 ArcGIS地理信息系
23、統(tǒng)統(tǒng)計分析》,Geary’s C的顯著性檢驗Z值公式為:,式中E(C)=1;其他參數的公式不做詳述。參考《ArcView GIS 與 ArcGIS地理信息系統(tǒng)統(tǒng)計分析》,補充:假設檢驗,假設檢驗是根據樣本的信息來判斷總體分布是否具有指定的特征,在管理方面有時稱之為古典決策。在數理統(tǒng)計中,把需要用樣本判斷正確與否的命題稱為一個假設。根據研究目的提出的假設稱為原假設,記為H0;其對立面假設稱為備擇假設(或對立假設),記為H1。提出假設之后,
24、要用適當的統(tǒng)計方法決定是否接受假設,稱為假設檢驗或統(tǒng)計假設檢驗。,根據研究目的提出的假設稱為原假設,記為H0;其對立面假設稱為備擇假設(或對立假設),記為H1。設立零假設H0的目的通常是為了在有足夠證據時拒絕它;提出假設之后,要用適當的統(tǒng)計方法決定是否接受假設,稱為假設檢驗或統(tǒng)計假設檢驗。,假設檢驗的基本步驟,一般來說,假設檢驗需要經過以下操作步驟:(1)構造假設。(2)確定檢驗的統(tǒng)計量及其分布。(3)確定顯著性水平。(4)確
25、定決策規(guī)則。(5)判斷決策。,Z檢驗的拒絕與接受域,,(1)構造零假設H0。代表區(qū)域單元間不存在空間自相關關系。(2)確定檢驗的統(tǒng)計量及其分布。這里的標準化Z值就是假設檢驗的統(tǒng)計量。,空間自相關系數顯著性檢驗,上圖中橫軸為Z值,縱軸代表置信水平α或顯著性水平 1-α 。陰影部分代表拒絕域,空白部分代表接受域。,Z值檢驗,一般的,如果確定了置信水平α,則Z值的接受域和拒絕域的范圍也就被唯一的確定了。,常用的置信水平α下,Z值的接受域的
26、范圍,Z值為正且顯著時,表明存在正的空間自相關,也就是說相似的觀測值(高值或者低值)趨于空間集聚;當Z為負且顯著時,表明存在負的空間自相關,相似的觀測值趨于分散分布;當Z值為零時,觀測值呈現隨機分布。,Moran’s I和Geary’s C 具有一些相同的特征,兩者都是以研究區(qū)域內相鄰區(qū)域單元屬性值的比較為基礎的,但是它們的統(tǒng)計性質有所不同。大部分的分析人員喜歡使用Moran’s I,這主要是因為Moran’s I的數值分布特征比Gea
27、ry’s C更理想。,小結,如果進一步考慮到是否存在觀測值的高值或低值的局部空間集聚,哪個區(qū)域單元對于全局空間自相關的貢獻更大,以及在多大程度上空間自相關的全局評估掩蓋了反常的局部狀況或小范圍的局部不穩(wěn)定性時,因此需要局部空間自相關指標對研究區(qū)域進行分析。,,,(二)局部空間自相關(選學),局部空間自相關分析方法包括3種:空間聯系的局部指標(LISA) ; G統(tǒng)計量 ;Moran散點圖。,1 空間聯系的局部指標(LISA),空間聯
28、系的局部指標(local indicators of spatial association ,縮寫為LISA)滿足下列兩個條件:(1)每個區(qū)域單元的LISA,是描述該區(qū)域單元周圍顯著的相似值區(qū)域單元之間空間集聚程度的指標(2)所有區(qū)域單元LISA的總和與全局的空間聯系指標成比例。,,,,,,,,局部Moran指數,這里需要注意的是Wij 通常指的是行標準化矩陣(也稱為隨機權重矩陣),但也可以是其他類型的空間權重矩陣。行標準化矩陣可
29、以通過二元連接矩陣獲得。,,,,局部Moran指數檢驗的標準化統(tǒng)計量為,,,,,,E(I)= -Wi /n-1;VAR(I i)公式參見《ArcView GIS 與 ArcGIS地理信息系統(tǒng)統(tǒng)計分析》——戴維.W.S.黃(David W.S.Wong)&杰.李(jay lee),G統(tǒng)計量,全局G統(tǒng)計量的計算公式為對每一個區(qū)域單元的統(tǒng)計量為,對統(tǒng)計量的檢驗與局部Moran指數相似,其檢驗值為 與Moran指數只能發(fā)現
30、相似值(正關聯)或非相似性觀測值(負關聯)的空間集聚模式相比,具有能夠探測出區(qū)域單元屬于高值集聚還是低值集聚的空間分布模式。,,G統(tǒng)計量Z值的含義,,,,,,,Moran散點圖,以(Wz,z)為坐標點的Moran散點圖,常來研究局部的空間不穩(wěn)定性,它對空間滯后因子Wz和z數據對進行了可視化的二維圖示。 全局Moran指數,可以看作是Wz對于z的線性回歸系數,對界外值以及對Moran指數具有強烈影響的區(qū)域單元,可通
31、過標準回歸來診斷出。 由于數據對(Wz,z)經過了標準化,因此界外值可易由2-sigma規(guī)則可視化地識別出來。,Moran散點圖的4個象限,分別對應于區(qū)域單元與其鄰居之間4種類型的局部空間聯系形式: 第1象限代表了高觀測值的區(qū)域單元被同是高值的區(qū)域所包圍的空間聯系形式; 第2象限代表了低觀測值的區(qū)域單元被高值的區(qū)域所包圍的空間聯系形式; 第3象限代表了低觀測值的區(qū)域單元被同是低值的區(qū)域所包
32、圍的空間聯系形式; 第4象限代表了高觀測值的區(qū)域單元被低值的區(qū)域所包圍的空間聯系形式。,,,,,,,與局部Moran指數相比,其重要的優(yōu)勢在于能夠進一步具體區(qū)分區(qū)域單元和其鄰居之間屬于高值和高值、低值和低值、高值和低值、低值和高值之中的哪種空間聯系形式。 并且,對應于Moran散點圖的不同象限,可識別出空間分布中存在著哪幾種不同的實體。 將Moran散點圖與LISA顯著性水平相結合,也可以得到所謂的“
33、Moran顯著性水平圖”,圖中顯示出顯著的LISA區(qū)域,并分別標識出對應于Moran散點圖中不同象限的相應區(qū)域。,應用實例,中國大陸30個省級行政區(qū)人均GDP的空間關聯分析。根據各?。ㄖ陛犑小⒆灾螀^(qū))之間的鄰接關系,采用二進制鄰接權重矩陣,選取各?。ㄖ陛犑小⒆灾螀^(qū))1998—2002年人均GDP的自然對數,依照公式計算全局Moran指數I,計算其檢驗的標準化統(tǒng)計量Z(I),結果如下表所示。,,從表中可以看出,在1998—2002年期間,
34、中國大陸30個省級行政區(qū)人均GDP的全局Moran指數均為正值;在正態(tài)分布假設之上,對Moran指數檢驗的結果也高度顯著。這就是說,在1998—2002年期間,中國大陸30個省級行政區(qū)人均GDP存在著顯著的、正的空間自相關,也就是說各省級行政區(qū)人均GDP水平的空間分布并非表現出完全的隨機性,而是表現出相似值之間的空間集聚,其空間聯系的特征是:較高人均GDP水平的省級行政區(qū)相對地趨于和較高人均GDP水平的省級行政區(qū)相鄰,或者較低人均GDP
35、水平的省級行政區(qū)相對地趨于和較低人均GDP水平的省級行政區(qū)相鄰。,,,,選取2001年我國30個省級行政區(qū)人均GDP數據,計算局部Gi統(tǒng)計量和局部Gi統(tǒng)計量的檢驗值Z(Gi),并繪制統(tǒng)計地圖如下。,,檢驗結果表明,貴州、四川、云南西部3省的Z值在0.05的顯著性水平下顯著,重慶的Z值在0.1的顯著性水平下顯著,該4省市在空間上相連成片分布,而且從統(tǒng)計學意義上來說,與該區(qū)域相鄰的省區(qū),其人均GDP趨于為同樣是人均GDP低值的省區(qū)所包圍。由
36、此形成人均GDP低值與低值的空間集聚,據此可認識到西部落后省區(qū)趨于空間集聚的分布特征。,東部的江蘇、上海、浙江三省市的Z值在0.05的顯著性水平下顯著,天津的Z值在0.1的顯著性水平下顯著。而東部上海、江浙等發(fā)達省市趨于為一些相鄰經濟發(fā)展水平相對較高的省份所包圍,東部發(fā)達地區(qū)的空間集聚分布特征也顯現出來。,以(Wz,z)為坐標,進一步繪制Moran散點圖 可以發(fā)現,多數省(直轄市、自治區(qū))位于第1和第3象限內,為正的
37、空間聯系,屬于低低集聚和高高集聚類型,而且位于第3象限內的低低集聚類型的?。ㄖ陛犑?、自治區(qū))比位于第1象限內的高高集聚類型的?。ㄖ陛犑?、自治區(qū))更多一些。,,,,,,,,,,,,,,上圖進一步顯示了30個省級行政區(qū)人均GDP局部集聚的空間結構。可以看出,從人均GDP水平相對地來看: 高值被高值包圍的高高集聚?。ㄖ陛犑校┯校罕本?、天津、河南、安徽、湖北、江西、海南、廣東、福建、浙江、山東、上海、江蘇; 低值被低值包
38、圍的低低集聚?。ㄗ灾螀^(qū))有:黑龍江、內蒙古、新疆、吉林、甘肅、山西、陜西、青海、西藏、四川、云南、遼寧、貴州; 被低值包圍的高值?。ㄖ陛犑校┯校褐貞c、廣西、河北;被高值包圍的低值省份只有湖南。,第四節(jié) 分級統(tǒng)計分析,4.1 分級的概念和目的 數據分級是根據一定的方法和標準把數據分成不同的級別,也就是把一個數據集劃分為不同的子集,在此過程中,還可以設置分級精度和分級數目等。 數據分級之后,僅
39、使原來的數據重新歸類,數據的屬性沒有發(fā)生改變,研究人員可以利用分級后的數據進行下一步的應用分析。,數據分級的目的: 數據分級的根本目的在于區(qū)分數據集中個體的差別,分級統(tǒng)計的過程就是區(qū)別個體性質的過程。分級的應用目的有兩點: 一是為了分級后,圖面制圖效果好,有利于讀圖;二是用不同的分級方法來突出顯示制圖區(qū)域內不同地貌特征。,4.2 分級的原則,科學性原則完整性原則適用性原則美觀性原則,4.3 分級統(tǒng)計的方法,按使
40、用分級方法的多少分為單一分級法和復合分級法;按級差是否相等分為等值分級法和不等值分級法;按確定級差的方法可以分為自定義分級法和模式分級法。 模式分級法主要有:等間距分級,分位數分級、等面積分級、標準差分級、自然裂點法分級等。,等間距分級 等間距分級原理簡單易于操作,但當數據集中在某一小范圍內時,各分級之間數據個數的差別太大時會造成圖面配置不均衡,影響制圖效果。,分位數分級 該方法是把數列劃分為相等個
41、數的分段,根據實際需要選擇四分位、五分位等。處在分位數上的值作為分級值。分位數分級可以使每一級別的數據個數接近一致,往往能產生較好的制圖效果。,等面積分級 這種方法的特點是只反映各級占有相同的面積,制圖效果好,但沒有充分利用圖面表示級間差異。而對于柵格數據而言,一定區(qū)域內的面積可由該區(qū)域的柵格個數乘以柵格分辨率得到,所以按等面積分級只需考慮柵格個數即可。對于柵格數據等面積分級法與分位數分級法得到的結果基本上是一致的。,標準差
42、分級 標準差分級首先要保證數據的分布具有正態(tài)分布規(guī)律。以算術平均值作為中間級別的一個分界點,其他分界點是以平均值為中心向兩側分別遞增或遞減標準差的倍數。,自然裂點法分級 任何統(tǒng)計數列都存在一些自然轉折點、特征點,用這些點可以把研究的對象分成性質相似的群組,因此,裂點本身就是分級的良好界限。 自然裂點法基本上是基于讓各級別的變異綜合達到最小的原則來選擇分級斷點的。,其他模式
43、分級法:如有規(guī)律的不等間距分級法、按嵌套平均值分級、按面積正態(tài)分布分級等,由已知探索未知是一些科學研究的基礎和最終目的,地理研究也同樣如此,地理數據的一個重要特性就是數據量特別大,不可能獲取某個區(qū)域的所有研究數據,因此需要采用某種方法根據已獲取的數據來推算出未知的數據。 地理學中可能遇到的問題: (1)了解北京大氣質量宏觀分布 (2)了解我國某個地區(qū)的氣候狀況 (3)某觀測站因意外存在缺測、漏
44、測,第五節(jié) 空間插值,一、空間插值的概念,空間插值: 是進行數據外推的基本方法。或句話說空間插值是一種由已知來推知未知的一種空間分析方法。,已知數據,函數關系式,,,未知數據,空間插值的理論依據,Tobler地理學第一定律(Waldo Tobler,1979)——鄰近的區(qū)域比距離遠的區(qū)域更相似。 地理數據的空間位置引起了兩類空間效應,即空間依賴和空間異質(Anlisen L,1992),它們是地理空間的一般特性,反
45、映了地理要素的空間分布規(guī)律。 空間依賴是空間插值研究的基本假設前提 空間異質是空間插值研究的隱含前提,空間依賴:空間依賴也稱為空間相關或空間關聯,是空間相互作用的結果,它包括地理要素的空間自相關、空間異相關與空間秩相關三個方面。,空間自相關——指地理要素自身在空間分布上的相關,直接遵循Tobler地理學第一定律(Waldo Tobler,1979),根據這一定律,“任何事物都和其它事物相聯系,距離近的事物相關程度要比距離遠的事物高”
46、; 空間異相關——是不同的地理要素間在空間分布上的相關; 空間秩相關——可看成空間異相關的一種特例,指地理要素間在空間分布上表現為序列相關(周國法,1998),已有某研究區(qū)的某項數據,根據這些觀測數據來估算研究區(qū)內位置點的數值的過程叫做內插。而估算研究區(qū)外未知點的數據值得過程叫做外推。,空間插值的適用范圍,現有離散曲面的分辨率、像元大小或方向與所要求不符的情況,需要重新插值。現有連續(xù)曲面的數據模型與所需的數據模型不符,需要重新插
47、值。如從TIN模型到柵格數據模型、柵格到TIN模型現有數據不能完全覆蓋所要求的區(qū)域范圍,需要插值。,空間插值最常用的數據源來自野外測量采樣數據,其中應用最為廣泛的就是通過離散的采樣點數據插值,這些采樣點在空間和時間上都是不規(guī)則分布的,其數據獲取和量測基本上都以點數據的模式給出,空間插值用于將這些離散點的測量數據轉換為連續(xù)的數據曲面,以便與其他的空間現象分布模式進行比較。,,,,各種不同的采樣方式,,,,,應用舉例,高程DEM氣象數據
48、(氣溫、降水、蒸發(fā)量等)人口密度環(huán)境指標(噪聲污染) ……,DEMO,,空間插值方法可以分為整體插值和局部插值方法兩類。整體插值方法用研究區(qū)所有采樣點的數據進行全區(qū)特征擬合。局部插值方法是僅僅用鄰近的數據點來估計未知點的值。,,,,空間插值方法,精確插值和近似插值,精確插值:產生通過所有觀測點的曲面。 這意味著在精確插值中,插值點落在觀測點上,內插值等于估計值。近似插值:插值產生的曲面不通過所有觀測點。
49、 當數據存在不確定性時,應該使用近似插值,由于估計值替代了已知變量值,近似插值可以平滑采樣誤差。,整體插值方法,邊界內插方法 邊界內插方法假設任何重要的變化發(fā)生在邊界上,邊界內的變化是均勻的,同質的,即在各個方向上是相同的。這種概念模型經常用于土壤和景觀制圖,可以通過定義“均質的”土壤單元,景觀圖斑,來表達其他的土壤、景觀特征屬性。 邊界內插方法最簡單的統(tǒng)計模型是標準方差分析(ANOVAR)模型,邊界內插
50、方法的理論假設:屬性值z在圖斑或景觀單元內是隨機變化的,不是有規(guī)律的統(tǒng)一類別的所有圖斑存在同樣的類方差所有屬性值符合正態(tài)分布所有的空間變化發(fā)生在邊界上,是突變而不是漸變 在使用邊界內插時,應仔細考慮數據源是否符合這些理論假設。,趨勢面分析,空間趨勢反映了空間物體在空間區(qū)域上變化的主體特征,它主要揭示了空間物體的總體規(guī)律,而忽略局部的變異。趨勢面分析是根據空間抽樣數據,擬合一個數學曲面,用該數學曲面來反映空間
51、分布的變化情況。 理論假設:地理坐標是獨立變量;屬性值z也是獨立變量且符合正態(tài)分布;同樣回歸誤差也是與位置無關的獨立變量。,用來計算趨勢面的數學方程式有多項式函數和傅立葉級數,其中最為常用的是多項式函數形式。因為任何一個函數都可以在一個適當的范圍內用多項式來逼近,而且調整多項式的次數,可使所求的回歸方程適合實際問題的需要。 注意:并不是多項式的次數越高擬合的效果越好,多項式趨勢面的形式 ① 一
52、次趨勢面模型 ② 二次趨勢面模型 ③ 三次趨勢面模型,,,,(3.6.2),(3.6.3),(3.6.4),需要注意的是,在實際應用中,往往用次數低的趨勢面逼近變化比較小的地理要素數據,用次數高的趨勢面逼近起伏變化比較復雜的地理要素數據。次數低的趨勢面使用起來比較方便,但具體到某點擬合較差;次數較高的趨勢面只在觀測點附近效果較好,而在外推和內插時則效果較差。,趨勢面分析應用實例,某流域1月份降水量與各觀測
53、點的坐標位置數據如表3.6.2所示。下面,我們以降水量為因變量z,地理位置的橫坐標和縱坐標分別為自變量x、y,進行趨勢面分析,并對趨勢面方程進行適度F檢驗。,表3.6.2 流域降水量及觀測點的地理位置數據,建立趨勢面模型 (1) 首先采用二次多項式進行趨勢面擬合,用最小二乘法求得擬合方程為,,,,,,,圖3.6.1 某流域降水量的二次多項式趨勢面,(2)再采用三次趨勢面進行擬合,用最小二乘法求得擬合方程為,,,圖3.
54、6.2 某流域降水量的三次多項式趨勢面,ARCGIS趨勢分析,,變換函數插值,根據一個或多個空間參量的經驗方程進行整體插值,這種經驗方程稱為變換函數。,變換函數的實質是經驗回歸模型。地理位置及其屬性可以盡可能多的信息組合成需要的回歸模型,然后進行空間插值。所有的回歸轉換函數插值都屬于近似的空間插值,比如,沖積平原的土壤重金屬污染與幾個重要因子有關,其中距離污染源(河流)的距離和高程兩個因子最重要,一般情況,攜帶重金屬的粗粒泥沙沉積在
55、河灘上,攜帶重金屬的細粒泥沙沉淀在低洼的在洪水期容易被淹沒的地方,而那些洪水頻率低的地方,由于攜帶重金屬克里比較少,受污染輕。由于距離河流的距離和高程是容易得到的空間變量,利益用各種重金屬含量與它們的經驗方程進行空間插值,以實現對未知區(qū)域重金屬污染的預測。本例回歸方程如下: z(x)=b0+b1*p1+b2*p2+ξ 式中, z(x)為重金屬含量,b0,b1是回歸系數,
56、p1為據河流的距離,p2為高程,ξ為隨機變量。,整體插值方法通常使用方差分析和回歸方程等標準的統(tǒng)計方法,計算比較簡單。其他的許多方法也可以用于整體空間插值,如傅立葉級數和小波變換,特別是遙感影像分析方面,但需要的數據量大。,整體插值方法將短尺度的、局部的變化看作隨機和非結構的噪聲,從而丟失了這一部分信息。局部插值方法恰好能彌補整體插值方法的缺陷,可用于局部異常值,而且不受插值表面上其它點的內插值影響。整體插值方法通常不直接用于空間插值
57、,而是用來檢測不同于總趨勢的最大偏離部分,在去除了宏觀地物特征后,可用剩余殘差來進行局部插值。,整體插值注意的問題,局部插值方法,局部插值方法只適用臨近的數據點來估計未知點的值,包括以下幾個步驟:定義一個鄰域或搜索范圍搜索落在此鄰域范圍的數據點選擇表達這有限個點的空間變化的數學函數;為落在規(guī)則格網單元上的數據點賦值。,常用的局部插值方法,最鄰近點法 /泰森多邊形法反距離加權法IDW樣條插值spline克里金插值法krigi
58、ng,最鄰近點法,最近距離法也稱泰森多邊形法,是基于泰森多邊形原理來進行數據插值運算的。原理: 首先將已知的各個離散點連接成三角形,對這些三角形的每條邊作垂直平分線,多條垂直平分線將研究區(qū)域劃分為若干個多邊形,離散點位于每個多邊形中,某個多邊形區(qū)域內的數據值就由其包含的離散點的值來確定。,位于泰森多邊形上的點到其兩邊的離散點的距離相等泰森多邊形內的未知點到其內部離散點的距離比與其他離散點的距離短每個泰森多邊形內僅
59、有一個已知數據值的離散點,泰森多邊形(Voronoi圖)的特征:,,,圖10.8 Voronoi地圖示例,最鄰近法評價,用泰森多邊形插值方法得到的結果圖變化只發(fā)生在邊界上,在邊界內都是均質的和無變化的。適用于較小的區(qū)域內,變量空間變異性也不是很明顯。符合人思維習慣,距離近的點比距離遠的點更相似,對插值點的影響也更明顯。最近鄰法插值的優(yōu)點是不需其他前提條件,方法簡單,效率高。缺點是受樣本點的影響較大,只考慮距離因素,對其他空間因素
60、和變量所固有的某些規(guī)律沒有過多地考慮。實際應用中,效果常不十分理想。,距離反比法(Inverse Distance),距離反比插值方法最早由 Shepard 提出(Richard Franke,1982),并逐步得到發(fā)展。每個采樣點都有局部影響,這種影響隨距離增加而減弱,因此距目標點近的樣點賦予的權重較大。屬于距離權重系數方法系列,它們一個原則就是給予距離近的點的權重大于距離遠的點的權重(Caruso, 1998)。,距離反比插值公式
61、,權重系數wj的計算是關鍵問題,不同類型的距離反比的差別就是權重系數的計算公式不同,因而最后的插值結果也有細微的差別。,距離反比權重系數的確定,,權重 權重過高,較近點的影響較大,擬合表面更細致(不光滑);權重過低,較遠點的影響增加,擬合表面更光滑。缺省值常為 2 。搜索半徑類型-規(guī)定化 對固定型半徑,搜索距離一定,所有在該半徑內的樣點參與計算。可預先設定一個閾值,當給定半徑內搜索到的點小于該值時可擴大搜索半
62、徑,直到達到該閾值為止。,控制反距離加權的參數 ——權重、搜索半徑和障礙設置,搜索半徑類型-可變 設定參與計算的樣點數是固定的,則搜索的半徑是可變的。這樣對每個插值點的搜索半徑可能都不同,因為要達到規(guī)定的點數所需要搜索的區(qū)域是不一樣的。障礙 可利用一線狀和面狀數據集來限制樣點的搜索。線狀數據集可作為平坦地表的懸崖或脊狀障礙物-只有位于同側的樣點才符合要求。,距離反比插值評價,優(yōu)點——
63、簡便易行;可為變量值變化很大的數據集提供一個合理的插值結果;不會出現無意義的插值結果而無法解釋。 不足——對權重函數的選擇十分敏感;易受數據點集群的影響,結果常出現一種孤立點數據明顯高于周圍數據點的“鴨蛋”分布模式;距離反比很少有預測的特點,全局最大和最小變量值都散布于數據之中。 內插得到的插值點數據在樣點數據取值范圍內。,,,樣條插值是用一種數學函數來估計值,最小化所有表面曲率,逼近曲面的一種方法。它的目標就是尋
64、找一表面s(t),使它滿足最優(yōu)平滑原則,也就是說,利用樣本點擬合光滑曲線,使其表面曲率最小。相當于扭曲一個橡皮,使它通過所有樣點,同時曲率最小。,樣條插值(Spline Surface),樣條:樁點:樣條函數是靈活曲線規(guī)的數學等式,為分段函數,一次擬合只有少數數據點配準,同時保證曲線段的連接處為平滑連續(xù)曲線(任意點可導)。這就意味著樣條函數可以修改曲線的某一段而不必重新計算整條曲線,插值速度快;保留了微地物特征,視覺上的滿意效果
65、。,樣條插值(Spline Surface),圖示,樣條插值類型,規(guī)則樣條插值(Regularized) 擬合的曲面光滑、漸變,可能超出采樣點的范圍。 權重—在曲率最小化表達式中,定義曲面的3階導權重,控制表面的平滑度。權重越大,曲面越光滑;權重必須大于或等于0,常取值為0, 0.001, 0.01,0.1, 0.5等。張力樣條(Tension) 擬合的曲面不似前者那樣光滑。 權重-定
66、義張力的權重。該系數越大,擬合表面越粗糙。權重必須大于或等于0,常取值為0, 1, 5,10等。,樣條插值插值評價,樣條函數易操作,每次只用少量數據點,插值速度快;同時,當表面很平滑時,也不犧牲精度;保留了微地物特征,視覺效果好;不需要對空間方差和結構做預先估計;不需要做統(tǒng)計建設,而這些假設往往是難以估計和驗證的;一般要求有連續(xù)的一階和二階導數;它適合于根據很密的點內插等值線,特別是從不規(guī)則三角網內插等值線。不適用于在短距離內屬性有較
67、大變化的地區(qū),否則估計結果偏大。樣條內插的誤差不能直接估算,同時在實踐中要解決的問題是樣條塊的定義以及如何在三維空間中將這些塊拼成復雜曲面而又不至于引入原始曲面中所沒有的異?,F象等問題,,,Kriging插值,克里金插值是地統(tǒng)計分析的一種方法,由南非采礦工程師D.G.克里格(D. G. Krige)于1951年首次提出,故命名為“克里金”法,后經法國著名地理數學學家G. Matheron發(fā)展深化。,克里金插值:認為任何在空間連續(xù)性變化
68、的屬性是非常不規(guī)則的,不能用簡單平滑數學函數進行模擬,可以用隨機表面給予較恰當的描述。目的:提供確定權重系數最優(yōu)的方法和并能描述誤差信息,地統(tǒng)計分析,都是建立在平穩(wěn)假設的基礎上的,這種假設在一定程度上要求所有數據值具有相同的變異性。另外,大多數的克里金插值方法(如普通克里金法、簡單克里金法和泛克里金法等)都假設數據服從正態(tài)分布。如果數據不服從正態(tài)分布,需要進行數據變換,從而使其服從正態(tài)分布。 因此,在進行地統(tǒng)計分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- arcgis實習之空間統(tǒng)計分析
- 統(tǒng)計分析
- 統(tǒng)計分析
- 南陽師院第5章 空間統(tǒng)計分析初步——第1節(jié) 探索性空間統(tǒng)計分析
- 事故統(tǒng)計分析
- 應用統(tǒng)計分析
- sas統(tǒng)計分析
- 統(tǒng)計分析報告
- 統(tǒng)計分析專員
- 統(tǒng)計分析專員
- 統(tǒng)計分析報告
- 統(tǒng)計分析報告
- 中國上市公司空間統(tǒng)計分析.pdf
- 中國rd與經濟增長的空間統(tǒng)計分析
- 武侯統(tǒng)計分析
- 統(tǒng)計分析報告 - 1
- 病案統(tǒng)計分析報告
- 計數的統(tǒng)計分析
- pubmed統(tǒng)計分析系統(tǒng)
- stata統(tǒng)計分析命令
評論
0/150
提交評論