計(jì)算機(jī)輔助醫(yī)學(xué)影像診斷中的關(guān)鍵學(xué)習(xí)技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩110頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、利用計(jì)算機(jī)技術(shù)輔助放射科醫(yī)生進(jìn)行病例診斷,即計(jì)算機(jī)輔助診斷(Computer Aided Diagnosis,CAD)在早期乳腺癌檢查中起到越來越重要的作用,能有效幫助減少乳腺癌患者的死亡率。臨床上已標(biāo)記病例樣本難以搜集同時(shí)陰性病例樣本數(shù)遠(yuǎn)大于陽性病例樣本數(shù),因而在CAD應(yīng)用中存在小樣本、非平衡數(shù)據(jù)集的學(xué)習(xí)問題。非平衡及小樣本學(xué)習(xí)問題是關(guān)于類別嚴(yán)重不對(duì)稱及信息欠充分表達(dá)數(shù)據(jù)集的學(xué)習(xí)性能問題。非平衡及小樣本學(xué)習(xí)在許多現(xiàn)實(shí)應(yīng)用中具有重要意義

2、,盡管經(jīng)典機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)在許多實(shí)際應(yīng)用中取得很大成功,然而針對(duì)小樣本及非平衡數(shù)據(jù)的學(xué)習(xí)對(duì)于學(xué)者們來說仍然是一個(gè)很大的挑戰(zhàn)。本論文系統(tǒng)地闡述了機(jī)器學(xué)習(xí)在小樣本與非平衡學(xué)習(xí)環(huán)境下性能下降的主要原因,并就目前解決小樣本、非平衡學(xué)習(xí)問題的有效方法進(jìn)行了綜述。本論文在充分理解常用欠采樣方法在處理非平衡樣本時(shí)易于丟失類別信息的問題基礎(chǔ)上,重點(diǎn)研究如何合理、有效處理非平衡數(shù)據(jù)。論文提出兩種欠采樣新方法有效提取最富含類別信息的樣本以此解決欠采樣

3、引起的類別信息丟失問題。另外針對(duì)小樣本學(xué)習(xí)問題,論文提出新的類別標(biāo)記算法。該算法通過自動(dòng)標(biāo)記未標(biāo)記樣本擴(kuò)大訓(xùn)練樣本集,同時(shí)有效減少標(biāo)記過程中易發(fā)生的標(biāo)記錯(cuò)誤。
  本論文聚焦小樣本、非平衡數(shù)據(jù)的學(xué)習(xí)技術(shù)研究。圍繞非平衡數(shù)據(jù)集的重采樣及未標(biāo)記樣本的類別標(biāo)記等問題展開研究。論文的主要工作包括:
  (1)針對(duì)CAD應(yīng)用中標(biāo)記病例樣本難以收集所引起的小樣本學(xué)習(xí)問題,本論文利用大量存在的未標(biāo)記樣本來擴(kuò)充訓(xùn)練樣本集以此解決小樣本學(xué)習(xí)問

4、題。然而樣本標(biāo)記過程中往往存在錯(cuò)誤類別標(biāo)記,誤標(biāo)記樣本如同噪聲會(huì)顯著降低學(xué)習(xí)性能。針對(duì)半監(jiān)督學(xué)習(xí)中的誤標(biāo)記問題,本論文提出混合類別標(biāo)記(Hybrid ClassLabeling)算法,算法從幾何距離、概率分布及語義概念三個(gè)不同角度分別進(jìn)行類別標(biāo)記。三種標(biāo)記方法基于不同原理,具有顯著差異性。將三種標(biāo)記方法有一致標(biāo)記結(jié)果的未標(biāo)記樣本加入訓(xùn)練樣本集。為進(jìn)一步減少可能存在的誤標(biāo)記樣本對(duì)學(xué)習(xí)過程造成的不利影響,算法將偽標(biāo)記隸屬度引入SVM(Sup

5、port Vector Machine)學(xué)習(xí)中,由隸屬度控制樣本對(duì)學(xué)習(xí)過程的貢獻(xiàn)程度?;赨CI中Breast-cancer數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明該算法能有效地解決小樣本學(xué)習(xí)問題。相比于單一的類別標(biāo)記技術(shù),該算法造成更少的錯(cuò)誤標(biāo)記樣本,得到顯著優(yōu)于其它算法的學(xué)習(xí)性能。
  (2)針對(duì)常用欠采樣技術(shù)在采樣過程中往往會(huì)丟失有效類別信息的問題,本論文提出了基于凸殼(Convex Hull,CH)結(jié)構(gòu)的欠采樣新方法。數(shù)據(jù)集的凸殼是包含集合中

6、所有樣本的最小凸集,所有樣本點(diǎn)都位于凸殼頂點(diǎn)構(gòu)成的多邊形或多面體內(nèi)。受凸殼的幾何特性啟發(fā),算法采樣大類樣本集得到其凸殼結(jié)構(gòu),以簡(jiǎn)約的凸殼頂點(diǎn)替代大類訓(xùn)練樣本達(dá)到平衡樣本集的目的。鑒于實(shí)際應(yīng)用中兩類樣本往往重疊,對(duì)應(yīng)凸殼也將重疊。此時(shí)采用凸殼來表征大類的邊界結(jié)構(gòu)對(duì)學(xué)習(xí)過程是一個(gè)挑戰(zhàn),容易引起過學(xué)習(xí)及學(xué)習(xí)機(jī)的泛化能力下降??紤]到縮減凸殼(Reduced Convex Hull,RCH)、縮放凸殼(Scaled Convex Hull,SCH

7、)在凸殼縮減過程中帶來邊界信息丟失的問題,我們提出多層次縮減凸殼結(jié)構(gòu)(HierarchyReduced Convex Hull,HRCH)。受RCH與SCH結(jié)構(gòu)上存在顯著差異性及互補(bǔ)性的啟發(fā),我們將RCH與SCH進(jìn)行融合生成HRCH結(jié)構(gòu)。相比于其它縮減凸殼結(jié)構(gòu),HRCH包含更多樣、互補(bǔ)的類別信息,有效減少凸殼縮減過程中類別的信息丟失。算法通過選擇不同取值的縮減因子與縮放因子采樣大類,所得多個(gè)HRCH結(jié)構(gòu)分別與稀有類樣本組成訓(xùn)練樣本集。由

8、此訓(xùn)練得多個(gè)學(xué)習(xí)機(jī),并通過集成學(xué)習(xí)產(chǎn)生最終分類器。通過與其它四種參考算法的實(shí)驗(yàn)對(duì)比分析,該算法表現(xiàn)出更好分類性能及魯棒性。
  (3)針對(duì)欠采樣算法中類別信息的丟失問題,本論文進(jìn)一步提出基于反向k近鄰的欠采樣新方法,RKNN。相比于廣泛采用的k近鄰,反向k近鄰是基于全局的角度來檢查鄰域。任一點(diǎn)的反向k近鄰不僅與其周圍鄰近點(diǎn)有關(guān),也受數(shù)據(jù)集中的其余點(diǎn)影響。樣本集的數(shù)據(jù)分布改變會(huì)導(dǎo)致每個(gè)樣本點(diǎn)的反向最近鄰關(guān)系發(fā)生變化,它能整體反應(yīng)樣本

9、集的完整分布結(jié)構(gòu)。利用反向最近鄰將樣本相鄰關(guān)系進(jìn)行傳遞的特點(diǎn),克服最近鄰查詢僅關(guān)注查詢點(diǎn)局部分布的缺陷。該算法針對(duì)大類樣本集,采用反向k最近鄰技術(shù)去除噪聲、不穩(wěn)定的邊界樣本及冗余樣本,保留最富含類別信息且可靠的樣本作為訓(xùn)練樣本。算法在平衡訓(xùn)練樣本的同時(shí)有效改善了欠采樣引起的類別信息丟失問題。基于UCI中Breast-cancer數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法解決非平衡學(xué)習(xí)問題的有效性。相比于基于k最近鄰的欠采樣方法,RKNN算法得到了更好

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論