不平衡數(shù)據(jù)集分類問題研究.pdf_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、分類是機器學(xué)習(xí)領(lǐng)域的重要研究方向之一,經(jīng)過多年發(fā)展形成了一些較為成熟的算法,并在實際中取得成功的應(yīng)用.這些傳統(tǒng)的分類算法以分類正確率作為最大的目標,且假定數(shù)據(jù)集中各類別樣本數(shù)量基本平衡.然而在實際問題中,存在這樣的一類數(shù)據(jù),在數(shù)據(jù)集中某一類的樣本數(shù)量遠遠少于其它類樣本數(shù)量,即數(shù)據(jù)集中不同類別樣本的數(shù)量是非平衡的,這樣的數(shù)據(jù)稱為不平衡數(shù)據(jù).通常,將數(shù)量上占多數(shù)的類稱為多數(shù)類,而占少數(shù)的類稱為少數(shù)類.對不平衡數(shù)據(jù)集分類時,傳統(tǒng)分類算法為追求

2、更高的分類正確率,在分類的過程中偏好數(shù)量上占多數(shù)的多數(shù)類,結(jié)果多數(shù)類的分類正確率較高,而少數(shù)類分類正確率較低.例如,在某些極端情況下,某個傳統(tǒng)的分類算法將所有的樣本都分類為多數(shù)類,依然能獲得較高的整體分類精度,卻不能識別一個少數(shù)類.而在實際問題中,少數(shù)類的分類精度往往更為重要.因此,如何對不平衡數(shù)據(jù)集進行正確分類、提高少數(shù)類的分類精度成為數(shù)據(jù)挖掘領(lǐng)域中的一個研究重點.
  針對不平衡數(shù)據(jù)集的研究集中在三個方面:數(shù)據(jù)層面的方法、算法

3、層面的方法及評價標準.數(shù)據(jù)層面方法即是對數(shù)據(jù)集進行預(yù)處理,采用采樣技術(shù)重構(gòu)數(shù)據(jù)集,以此改變原有的數(shù)據(jù)分布,減少不平衡程度,進而使的數(shù)據(jù)集類分布基本平衡,較常用的方法包括欠采樣、過采樣;算法層面的方法,即改進傳統(tǒng)分類算法,使其在分類過程中更加注重對少數(shù)類的分類,提高少數(shù)類的分類精度,從而適應(yīng)不平衡數(shù)據(jù)集的分類問題,如代價敏感學(xué)習(xí)、集成學(xué)習(xí)等;對不平衡數(shù)據(jù)集分類的性能評價標準也是研究的重點之一,常用的標準有F-Measure、G-Mean等

4、.
  本文針對不平衡數(shù)據(jù)集分類問題,嘗試將采樣技術(shù)與傳統(tǒng)分類算法相結(jié)合,提出了四種用于解決不平衡數(shù)據(jù)集分類問題的新方法.主要創(chuàng)新成果有:
  (1)使用遺傳算法中的交叉算子與變異算子生成新的少數(shù)類樣本,采用兩樣本間的歐幾里得距離檢驗新生成少數(shù)類樣本的有效性。在UCI數(shù)據(jù)集的實驗結(jié)果表明,該方法在提高少數(shù)類的分類精度方面取得了較好的效果.
  (2)使用聚類技術(shù)中的K-means算法首先將多數(shù)類樣本聚成多個簇,然后依次

5、從每個簇中抽取一定數(shù)量的多數(shù)類樣本,使所有抽取到的多數(shù)類樣本個數(shù)與少數(shù)類樣本個數(shù)基本相同,最后將多數(shù)類樣本與少數(shù)類樣本合并,作為Bagging成員分類器的訓(xùn)練數(shù)據(jù).K-means算法的不穩(wěn)定性,可以在一定程度上保證成員分類器之間的差異性。
  (3)使用AdaBoost算法對數(shù)據(jù)集預(yù)處理,得到各樣例權(quán)重.訓(xùn)練基分類器時,針對多數(shù)類數(shù)據(jù)不再采用bootstrap抽樣方法,而是分別隨機選擇部分權(quán)重較大的樣例與部分權(quán)重較小的樣例,使兩部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論