版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第二章特征選擇方法我們已經(jīng)知道在使用模式識(shí)別方法時(shí)必須引入各種特征即與分類有關(guān)的各種因素。特征的引入,通常要經(jīng)過(guò)一個(gè)從少到多,又從多到少的過(guò)程。所謂從少到多,就是在設(shè)計(jì)識(shí)別方案的初期階段應(yīng)該盡量多地列舉出各種可能與分類有關(guān)的特征。這樣可以充分利用各種有用的信息,吸收各方面專家的經(jīng)驗(yàn),改善分類效果。這一步驟稱為特征提取或特征抽取。但是,特征的無(wú)限增加對(duì)于分類也會(huì)帶來(lái)不利的影響:(1)特征的增加會(huì)給計(jì)算帶來(lái)困難,過(guò)多的數(shù)據(jù)要占用大量的存儲(chǔ)空
2、間和計(jì)算時(shí)間;(2)大量的特征中肯定會(huì)包含著許多彼此相關(guān)的因素,從而造成信息的重復(fù)和浪費(fèi);(3)特征數(shù)是與樣品點(diǎn)數(shù)有關(guān)的。當(dāng)樣品點(diǎn)數(shù)固定時(shí),特征數(shù)過(guò)多,會(huì)造成分類效果的惡化。例如,如果把100個(gè)樣品點(diǎn)放在三維特征空間中,雖然難免會(huì)出現(xiàn)混淆或重復(fù),它們總還可能分別形成一些類;而如果把它們放到1000維的空間中,就極可能出現(xiàn)樣品點(diǎn)十分分散,無(wú)法找出規(guī)律??{爾(KanalL.)提出:首先,如果想使誤差估計(jì)值比較準(zhǔn)確,樣品個(gè)數(shù)N必須不小于某個(gè)
3、客觀存在的界限。其次,如果希望得到對(duì)于誤分概率的良好估計(jì),樣品數(shù)N與特征數(shù)n之比應(yīng)該足夠大;再次,如果N已經(jīng)確定,那么當(dāng)n增加時(shí),分類性能先是得到改善,但是當(dāng)n達(dá)到某個(gè)最優(yōu)值后,再增加n,分類性能變壞。通常,樣品數(shù)N應(yīng)是特征數(shù)n的5倍到10倍左右。為了使特征數(shù)目從多變少,需要進(jìn)行所謂特征選擇。特征選擇通常包括兩方面內(nèi)容:一方面是對(duì)單個(gè)特征的選擇,即對(duì)每個(gè)特征分別進(jìn)行評(píng)價(jià),從中找出那些對(duì)識(shí)別作用最大的特征。另一方面是從大量原有特征出發(fā),構(gòu)
4、造少數(shù)有效的新特征。在模式識(shí)別中,最常用的特征選擇方法是降維映射。本節(jié)要講述的內(nèi)容包括:對(duì)于單個(gè)特征的評(píng)價(jià)方法主成分分析及對(duì)應(yīng)分析方法幾種常用線性映射及其性質(zhì)。2.1對(duì)于單個(gè)特征的評(píng)價(jià)在本節(jié)中介紹幾個(gè)對(duì)于單個(gè)特征進(jìn)行評(píng)價(jià)的方法。評(píng)價(jià)每個(gè)特征的標(biāo)準(zhǔn)通常是它的分類能力。通過(guò)對(duì)于各個(gè)特征的評(píng)價(jià),可以選出那些對(duì)于分類最有效的特征,淘汰那些無(wú)效的特征。2.1.1KW檢驗(yàn)KW(KruskalWallis)檢驗(yàn)是一種常用的特征選擇方法。假定要檢驗(yàn)?zāi)硞€(gè)
5、特征x對(duì)于分類的有效程度,已知一批樣品共有N個(gè),這批樣品分為m類,第i類包括Ni個(gè)樣品,N1N2…Nm=N,則檢驗(yàn)方法如下:(1)列出全部樣品所對(duì)應(yīng)的特征x的取值;(2)按照x取值從小到大的順序給每個(gè)樣品編號(hào)。例如,x取最小的樣品表21中,兩類樣品所對(duì)應(yīng)的特征x2的原有取值的平均值都是0.7,即兩類均值完全相同,從這一事實(shí)來(lái)看,x2應(yīng)該是一個(gè)很壞的特征。但是,用x2對(duì)樣品進(jìn)行分類時(shí),如果取0.4和0.5之間的某個(gè)數(shù)作為分界點(diǎn),被分錯(cuò)的只
6、有一個(gè)點(diǎn)X5。這又說(shuō)明這個(gè)特征并不太壞??梢姡@完全是由于X5點(diǎn)的x2值太大造成的。用編號(hào)代替特征值則可以排除這種干擾。2.1.2直方圖方法我們考慮例21。特征x1的變化范圍在0.1到0.9之間。我們把這一范圍分成幾個(gè)長(zhǎng)度為0.1的區(qū)間在每個(gè)區(qū)間內(nèi)畫出落在該區(qū)間內(nèi)的樣品點(diǎn)數(shù)與總點(diǎn)數(shù)之比(f)。這樣的圖形稱為特征值樣品頻數(shù)直方圖。x1和x3的直方圖見圖21。在圖21中,我們可以看到,在x1的直方圖中,兩類樣品可以比較清楚地分開,而在特征x
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 模式識(shí)別patternrecognition特征選擇與提取
- 模式識(shí)別中的特征選擇與評(píng)價(jià)方法研究.pdf
- 第二章jquery選擇器-
- 第二章
- 第二章
- 第二章成分簡(jiǎn)介,提取方法
- 模式識(shí)別分類中特征約簡(jiǎn)的方法研究.pdf
- 第二章
- 第二章 防砂方法原理
- 第二章-例題與分析(選擇題)
- 第二章++分?jǐn)?shù)乘法練習(xí)1+選擇
- 基于多元圖特征基元的模式識(shí)別方法研究
- 1圖像模式識(shí)別的方法
- 第二章 沖壓工藝方案的選擇.doc
- 第二章 沖壓工藝方案的選擇.doc
- 第二章_老年解剖生理學(xué)特征
- 第二章實(shí)數(shù)(二)
- 1圖像模式識(shí)別的方法
- 第二章[0001]
- 擼(第二章)
評(píng)論
0/150
提交評(píng)論