版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、特征選擇通過選擇一個(gè)最優(yōu)的特征子集降低數(shù)據(jù)維數(shù),構(gòu)造一個(gè)簡潔的分類系統(tǒng),提高分類預(yù)測的準(zhǔn)確性,揭示隱藏的潛在模式和規(guī)律,得到一個(gè)快速、高效的分類器,并使分類結(jié)果可視化成為可能。
現(xiàn)有特征選擇研究主要著眼于選擇最優(yōu)特征子集所需要的兩個(gè)主要步驟:特征子集搜索策略和特征子集性能評(píng)價(jià)準(zhǔn)則?;赟VM的特征選擇方法研究存在如下問題:如何評(píng)價(jià)特征的重要性,即如何判斷特征對于分類的貢獻(xiàn)?如何考慮特征之間的相關(guān)性?如何確定最佳的被選擇特征數(shù)目
2、?如何選擇合適的SVM分類器模型、合適的SVM參數(shù)?對超高維、小樣本的基因數(shù)據(jù)集進(jìn)行分類分析時(shí),如何實(shí)現(xiàn)基因選擇?另外,現(xiàn)有基于SVM的特征選擇方法主要基于后向剔除思想,而后向剔除相對于前向選擇時(shí)間效率較差。
本研究針對基于SVM的特征選擇算法研究存在的以上問題,提出分別基于4種不同特征重要性評(píng)價(jià)準(zhǔn)則與SVM的特征選擇算法;并針對基因數(shù)據(jù)集的高維小樣本特點(diǎn),提出了基于SVM分類模型的隨機(jī)基因選擇算法。所取得的主要研究成果包括:
3、
1.提出基于G-score與SVM的適用于任意類分類問題的特征選擇算法,所提算法彌補(bǔ)了基于F-score與SVM的特征選擇算法只適用于兩類分類問題的不足。其中,G-score將F-score特征重要性評(píng)價(jià)準(zhǔn)則由評(píng)價(jià)兩類分類問題的特征區(qū)分度推廣到可以衡量任意類分類問題的特征區(qū)分度;算法的特征搜索策略采用推廣的前向順序搜索策略GSFS(GeneralizedSequentialForwardSearch,GSFS)、推廣的前向順
4、序浮動(dòng)搜索策略GSFFS(GeneralizedSequentialForwardFloatingSearch,GSFFS),以及推廣的后向順序浮動(dòng)搜索策略GSBFS(GeneralizedSequentialBackwardFloatingSearch,GSBFS)。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫數(shù)據(jù)集的實(shí)驗(yàn)顯示:基于G-score與SVM的三種混合特征選擇算法可以實(shí)現(xiàn)有效的特征選擇,其中就特征子集規(guī)模來看,基于G-score與SVM的前向順序
5、浮動(dòng)特征選擇算法效果最佳;但就分類正確率,即分類器的泛化性能來看,相應(yīng)的前向順序特征選擇算法最優(yōu)。
2.提出基于D-score與SVM的特征選擇算法,該算法避免了基于G-score與SVM的特征選擇算法在衡量特征的類間辨別能力大小時(shí),沒有考慮不同特征的測量量綱對特征區(qū)分度大小的影響問題。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的9個(gè)特征選擇常用數(shù)據(jù)集實(shí)驗(yàn)測試,以及與相應(yīng)的基于G-score與SVM特征選擇算法的實(shí)驗(yàn)比較表明:提出的基于D-scor
6、e與SVM的特征選擇算法所選擇的特征具有較好的分類效果,其分類性能優(yōu)于基于G-score與SVM的特征選擇方法,實(shí)現(xiàn)了保持?jǐn)?shù)據(jù)集辨識(shí)能力不變情況下進(jìn)行維數(shù)壓縮的目的。基于D-score與SVM的3種混合特征選擇算法相比,就特征子集規(guī)模來看,前向順序浮動(dòng)特征選擇算法最好;但就分類器的泛化性能相比,前向順序特征選擇算法具有最好的泛化性能。
3.提出基于DFS(DiscernibilityofFeatureSubsets,DFS)與
7、SVM的特征選擇算法,該算法解決了基于G-score與SVM、D-score與SVM的特征選擇算法在衡量特征的類間辨別能力大小時(shí)候,沒有考慮特征之間的相關(guān)性對于單個(gè)特征的類間辨別能力大小的影響問題。其中,DFS是一種新的特征子集區(qū)分度評(píng)價(jià)方法,通過計(jì)算多個(gè)特征構(gòu)成的特征子集的G-score值,判斷特征子集的類間區(qū)分度大小,考慮了特征子集中特征的聯(lián)合作用,即特征子集中所有特征對于分類的聯(lián)合貢獻(xiàn)。同時(shí)根據(jù)特征子集評(píng)價(jià)方法CFS(Correl
8、ationbasedFeatureSelector,CFS)中Pearson相關(guān)系數(shù)度量特征相關(guān)性的正、負(fù)相關(guān)之分,提出不區(qū)分特征之間的正、負(fù)相關(guān),只考慮其是否相關(guān)的CFSPabs(CorrelationbasedFeatureSelectorbasedontheabsoluteofPearson’scorrelationcoefficient,CFSPabs)方法。特征搜索策略分別采用經(jīng)典的順序前向搜索(SequentialForwa
9、rdSearch,SFS)、順序后向搜索(SequentialBackwardSearch,SBS)、順序前向浮動(dòng)搜索(SequentialForwardFloatingSearch,SFFS)、順序后向浮動(dòng)搜索(SequentialBackwardFloatingSearch,SBFS)4種搜索策略,區(qū)別在于在浮動(dòng)搜索策略中,判斷特征加入/剔除應(yīng)用特征子集的區(qū)分度DFS,而浮動(dòng)剔除/加入特征應(yīng)用分類器的訓(xùn)練準(zhǔn)確率。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫
10、中10個(gè)經(jīng)典數(shù)據(jù)集的5折交叉驗(yàn)證實(shí)驗(yàn)表明:提出的基于DFS特征子集評(píng)價(jià)準(zhǔn)則與SVM的特征選擇算法是一種有效的特征子集選擇方法,該方法所選特征子集的分類性能優(yōu)于分別基于CFS與SVM、CFSPabs與SVM的特征選擇方法;但是就特征子集規(guī)模來看,基于CFSPabs與SVM的方法最優(yōu)。
4.鑒于SVM對于非線性可分問題的最大泛化性能,提出基于SVM分類模型的適用于多類分類問題的特征選擇方法SVMRFE(SVMRecursiveFe
11、atureElimination)和SVMRFA(SVMRecursiveFeatureAddition),避免分別基于G-score、D-score和DFS與SVM的特征選擇算法在非線性可分問題中有可能誤剔除有效區(qū)分特征的缺陷;同時(shí)克服Guyou的SVM-RFE特征選擇算法只適用于兩類分類問題的缺陷。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫的9個(gè)經(jīng)典數(shù)據(jù)集的5折交叉驗(yàn)證實(shí)驗(yàn)表明:提出的SVMRFA和SVMRFE特征選擇算法能在保持或提高分類正確率的前提下
12、,實(shí)現(xiàn)有效的特征選擇;9個(gè)數(shù)據(jù)集的實(shí)驗(yàn)測試,SVMRFA算法在8個(gè)數(shù)據(jù)集上優(yōu)于SVMRFE算法。實(shí)驗(yàn)還證明,對于較低維數(shù)據(jù)集,該兩個(gè)特征選擇算法的效率差別不大,但是對于維數(shù)比較高的數(shù)據(jù)集進(jìn)行特征選擇時(shí),SVMRFA特征選擇算法的效率明顯優(yōu)于SVMRFE算法。
5.針對基因數(shù)據(jù)集的高維小樣本特點(diǎn),并結(jié)合上一研究結(jié)論,提出基于SVM分類模型的基因選擇算法——SVMRRFA(SVMRecursiveRandom Featu
13、reAddition,SVMRRFA),該算法引入隨機(jī)思想,針對具體的基因數(shù)據(jù)集,在每次迭代中同時(shí)加入若干個(gè)隨機(jī)數(shù)確定的基因。為了減少算法時(shí)間開銷,提出了簡化的SVMRRFA基因選擇算法。普林斯頓大學(xué)基因表達(dá)工程的3個(gè)基因數(shù)據(jù)集實(shí)驗(yàn)測試和比較表明:提出的SVMRRFA基因選擇算法實(shí)現(xiàn)了有效的基因選擇,發(fā)現(xiàn)了基因數(shù)據(jù)集的關(guān)鍵區(qū)分基因,實(shí)現(xiàn)了有效的癌癥分類診斷;簡化SVMRRFA算法提高了SVMRRFA基因選擇算法的分類正確率、特異性和Ma
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVM-RFE的特征選擇方法研究.pdf
- 基于多目標(biāo)遺傳算法和SVM的特征選擇方法.pdf
- 基于SVM的人臉特征定位方法研究.pdf
- 基于SVM的特征選擇與集成學(xué)習(xí)研究與應(yīng)用.pdf
- 基于SVM的多病類診斷基因選擇方法研究.pdf
- 基于特征融合和SVM的步態(tài)識(shí)別方法研究.pdf
- SVM文本分類中基于法向量的特征選擇算法研究.pdf
- 基于多類特征的SVM圖像分割方法的研究.pdf
- 基于SVM的文本分類系統(tǒng)中特征選擇與.pdf
- 基于SVm-RFE和粒子群算法的特征選擇算法研究.pdf
- 基于分類特征映射和SVM的說話人確認(rèn)方法研究.pdf
- 基于Lasso的特征選擇方法研究與實(shí)現(xiàn).pdf
- 基于特征選擇的量表?xiàng)l目篩選方法研究.pdf
- 基于原型方法的特征選擇算法的研究.pdf
- 基于SVM圖像分類方法的研究.pdf
- 基于特征選擇的產(chǎn)品關(guān)鍵質(zhì)量特征識(shí)別方法研究.pdf
- 基于KPLS特征提取下的FWLS-SVM回歸方法.pdf
- 基于層次聚類特征選擇和HF-SVM的活動(dòng)識(shí)別技術(shù).pdf
- 基于SVM和DSW的列質(zhì)量向量特征步態(tài)識(shí)別方法研究.pdf
- 基于樣本加權(quán)的特征基因選擇方法研究.pdf
評(píng)論
0/150
提交評(píng)論