2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩76頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、分類(lèi)是近年來(lái)機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域研究的熱點(diǎn)問(wèn)題之一,在分類(lèi)問(wèn)題中存在一類(lèi)特例:各類(lèi)別樣例在數(shù)量上相差懸殊,這類(lèi)數(shù)據(jù)集被稱為不平衡數(shù)據(jù)集,其中數(shù)量占優(yōu)的類(lèi)別被稱為多數(shù)類(lèi),稀疏的類(lèi)別被稱為少數(shù)類(lèi).傳統(tǒng)分類(lèi)算法在類(lèi)別平衡的數(shù)據(jù)集上能有效發(fā)揮性能優(yōu)勢(shì),在不平衡數(shù)據(jù)集上傳統(tǒng)分類(lèi)算法為了追求較高的整體分類(lèi)精度,將傾向于把少數(shù)類(lèi)樣例誤分為多數(shù)類(lèi).而這些數(shù)量稀疏的少數(shù)類(lèi)一旦被誤分所付出的代價(jià)將比誤分多數(shù)類(lèi)的代價(jià)高很多.提高分類(lèi)器在類(lèi)別不平衡的數(shù)據(jù)集上

2、的分類(lèi)性能和泛化能力在許多應(yīng)用領(lǐng)域都具有重要價(jià)值和現(xiàn)實(shí)意義.如銀行信貸風(fēng)險(xiǎn)評(píng)估系統(tǒng)中正常借貸交易出現(xiàn)的概率要遠(yuǎn)高于不良信貸出現(xiàn)的概率,銀行工作人員最為關(guān)注的正是從眾多的正常借貸業(yè)務(wù)中找出這些極少數(shù)的不良交易.文本檢測(cè)、產(chǎn)品質(zhì)量檢驗(yàn)、垃圾郵件過(guò)濾等都是類(lèi)別不平衡數(shù)據(jù)集的典型應(yīng)用背景.為簡(jiǎn)單起見(jiàn)本文僅考慮二分類(lèi)問(wèn)題,多分類(lèi)問(wèn)題可轉(zhuǎn)換為若干個(gè)二分類(lèi)問(wèn)題來(lái)解決.
  為了提高類(lèi)別不平衡數(shù)據(jù)集上的分類(lèi)性能人們?cè)趥鹘y(tǒng)的分類(lèi)算法的基礎(chǔ)上提出了很

3、多改進(jìn)算法.如代價(jià)敏感、SMOTE重抽樣、改進(jìn)的SVM、單邊選擇以及被動(dòng)學(xué)習(xí).這些算法概括起來(lái)主要在兩個(gè)方面做了改進(jìn):一是在數(shù)據(jù)層面通過(guò)對(duì)多數(shù)類(lèi)的欠抽樣和對(duì)少數(shù)類(lèi)的過(guò)抽樣技術(shù)人為改變數(shù)據(jù)集的數(shù)據(jù)分布使之變得類(lèi)別間基本平衡,然后再采用傳統(tǒng)的分類(lèi)算法;另一種是保持原有數(shù)據(jù)集的分布特征,在算法層面入手通過(guò)調(diào)整各類(lèi)樣例的訓(xùn)練權(quán)重以使分類(lèi)器能更好地照顧少數(shù)類(lèi).這些方法雖然在不同的角度做了改進(jìn)但少數(shù)類(lèi)的分類(lèi)精度仍普遍較低,受Valiant的PAC學(xué)

4、習(xí)模型的啟發(fā)很多專家和學(xué)者期望通過(guò)集成的方式將類(lèi)別不平衡數(shù)據(jù)集上的弱學(xué)習(xí)器組合成可有效提高少數(shù)類(lèi)分類(lèi)性能的強(qiáng)學(xué)習(xí)器.然而傳統(tǒng)集成算法的gma下限與錯(cuò)誤率之間是開(kāi)口朝上的二次函數(shù)關(guān)系,單純地降低不平衡數(shù)據(jù)集上的錯(cuò)誤率并不能有效提高少數(shù)類(lèi)的分類(lèi)精度.本文首先回顧了集成學(xué)習(xí)中的基本知識(shí)和主流模型,討論了目前集成學(xué)習(xí)方法的優(yōu)勢(shì)和難點(diǎn).重點(diǎn)分析了針對(duì)類(lèi)別不平衡數(shù)據(jù)集的各種改進(jìn)算法.本文作者從關(guān)注錯(cuò)分的少數(shù)類(lèi)樣例入手分別在數(shù)據(jù)層面和算法層面提出了兩

5、種改進(jìn)方案并通過(guò)實(shí)驗(yàn)驗(yàn)證了前一種算法的有效性。
  本文的主要研究工作有:
  1、回顧并總結(jié)了基分類(lèi)器的各種組合形式,闡釋了各種選擇性集成方式.在已有理論成果的基礎(chǔ)上分析了刀切法和自助法兩種主流重抽樣方法的統(tǒng)計(jì)學(xué)意義,指出在獨(dú)立同分布且矩有限的條件下通過(guò)若干次的重抽樣可得到具有良好收斂性的數(shù)據(jù)模型.分析了類(lèi)別不平衡數(shù)據(jù)集的分布特點(diǎn),討論了針對(duì)類(lèi)別不平衡數(shù)據(jù)集的分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn),歸納了類(lèi)別不平衡數(shù)據(jù)集上的改進(jìn)分類(lèi)算法.
 

6、 2、基于不平衡數(shù)據(jù)集上的集成學(xué)習(xí)方案,作者提出了一種新的適用于不平衡數(shù)據(jù)集的算法ILAdaboost.該算法利用每一輪學(xué)習(xí)到的基分類(lèi)器對(duì)原始數(shù)據(jù)集進(jìn)行測(cè)試評(píng)估,并根據(jù)評(píng)估結(jié)果將原始數(shù)據(jù)集分成四個(gè)互不相交的子集,然后在四個(gè)子集中重新采樣形成平衡的數(shù)據(jù)集供下一輪基分類(lèi)器學(xué)習(xí).重抽樣是在四個(gè)互不相交的子集中進(jìn)行的,因此保證了基分類(lèi)器之間的錯(cuò)誤獨(dú)立性。而抽樣過(guò)程中更加傾向于少數(shù)類(lèi)和分錯(cuò)的多數(shù)類(lèi),故合成分類(lèi)器的分界面會(huì)偏離少數(shù)類(lèi).在10個(gè)UCI

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論