2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章特征選擇方法我們已經(jīng)知道在使用模式識別方法時必須引入各種特征即與分類有關(guān)的各種因素。特征的引入,通常要經(jīng)過一個從少到多,又從多到少的過程。所謂從少到多,就是在設(shè)計識別方案的初期階段應該盡量多地列舉出各種可能與分類有關(guān)的特征。這樣可以充分利用各種有用的信息,吸收各方面專家的經(jīng)驗,改善分類效果。這一步驟稱為特征提取或特征抽取。但是,特征的無限增加對于分類也會帶來不利的影響:(1)特征的增加會給計算帶來困難,過多的數(shù)據(jù)要占用大量的存儲空

2、間和計算時間;(2)大量的特征中肯定會包含著許多彼此相關(guān)的因素,從而造成信息的重復和浪費;(3)特征數(shù)是與樣品點數(shù)有關(guān)的。當樣品點數(shù)固定時,特征數(shù)過多,會造成分類效果的惡化。例如,如果把100個樣品點放在三維特征空間中,雖然難免會出現(xiàn)混淆或重復,它們總還可能分別形成一些類;而如果把它們放到1000維的空間中,就極可能出現(xiàn)樣品點十分分散,無法找出規(guī)律??{爾(KanalL.)提出:首先,如果想使誤差估計值比較準確,樣品個數(shù)N必須不小于某個

3、客觀存在的界限。其次,如果希望得到對于誤分概率的良好估計,樣品數(shù)N與特征數(shù)n之比應該足夠大;再次,如果N已經(jīng)確定,那么當n增加時,分類性能先是得到改善,但是當n達到某個最優(yōu)值后,再增加n,分類性能變壞。通常,樣品數(shù)N應是特征數(shù)n的5倍到10倍左右。為了使特征數(shù)目從多變少,需要進行所謂特征選擇。特征選擇通常包括兩方面內(nèi)容:一方面是對單個特征的選擇,即對每個特征分別進行評價,從中找出那些對識別作用最大的特征。另一方面是從大量原有特征出發(fā),構(gòu)

4、造少數(shù)有效的新特征。在模式識別中,最常用的特征選擇方法是降維映射。本節(jié)要講述的內(nèi)容包括:對于單個特征的評價方法主成分分析及對應分析方法幾種常用線性映射及其性質(zhì)。2.1對于單個特征的評價在本節(jié)中介紹幾個對于單個特征進行評價的方法。評價每個特征的標準通常是它的分類能力。通過對于各個特征的評價,可以選出那些對于分類最有效的特征,淘汰那些無效的特征。2.1.1KW檢驗KW(KruskalWallis)檢驗是一種常用的特征選擇方法。假定要檢驗某個

5、特征x對于分類的有效程度,已知一批樣品共有N個,這批樣品分為m類,第i類包括Ni個樣品,N1N2…Nm=N,則檢驗方法如下:(1)列出全部樣品所對應的特征x的取值;(2)按照x取值從小到大的順序給每個樣品編號。例如,x取最小的樣品表21中,兩類樣品所對應的特征x2的原有取值的平均值都是0.7,即兩類均值完全相同,從這一事實來看,x2應該是一個很壞的特征。但是,用x2對樣品進行分類時,如果取0.4和0.5之間的某個數(shù)作為分界點,被分錯的只

6、有一個點X5。這又說明這個特征并不太壞。可見,這完全是由于X5點的x2值太大造成的。用編號代替特征值則可以排除這種干擾。2.1.2直方圖方法我們考慮例21。特征x1的變化范圍在0.1到0.9之間。我們把這一范圍分成幾個長度為0.1的區(qū)間在每個區(qū)間內(nèi)畫出落在該區(qū)間內(nèi)的樣品點數(shù)與總點數(shù)之比(f)。這樣的圖形稱為特征值樣品頻數(shù)直方圖。x1和x3的直方圖見圖21。在圖21中,我們可以看到,在x1的直方圖中,兩類樣品可以比較清楚地分開,而在特征x

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論