計算機輔助醫(yī)學影像診斷中的關(guān)鍵學習技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩110頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、利用計算機技術(shù)輔助放射科醫(yī)生進行病例診斷,即計算機輔助診斷(Computer Aided Diagnosis,CAD)在早期乳腺癌檢查中起到越來越重要的作用,能有效幫助減少乳腺癌患者的死亡率。臨床上已標記病例樣本難以搜集同時陰性病例樣本數(shù)遠大于陽性病例樣本數(shù),因而在CAD應用中存在小樣本、非平衡數(shù)據(jù)集的學習問題。非平衡及小樣本學習問題是關(guān)于類別嚴重不對稱及信息欠充分表達數(shù)據(jù)集的學習性能問題。非平衡及小樣本學習在許多現(xiàn)實應用中具有重要意義

2、,盡管經(jīng)典機器學習與數(shù)據(jù)挖掘技術(shù)在許多實際應用中取得很大成功,然而針對小樣本及非平衡數(shù)據(jù)的學習對于學者們來說仍然是一個很大的挑戰(zhàn)。本論文系統(tǒng)地闡述了機器學習在小樣本與非平衡學習環(huán)境下性能下降的主要原因,并就目前解決小樣本、非平衡學習問題的有效方法進行了綜述。本論文在充分理解常用欠采樣方法在處理非平衡樣本時易于丟失類別信息的問題基礎上,重點研究如何合理、有效處理非平衡數(shù)據(jù)。論文提出兩種欠采樣新方法有效提取最富含類別信息的樣本以此解決欠采樣

3、引起的類別信息丟失問題。另外針對小樣本學習問題,論文提出新的類別標記算法。該算法通過自動標記未標記樣本擴大訓練樣本集,同時有效減少標記過程中易發(fā)生的標記錯誤。
  本論文聚焦小樣本、非平衡數(shù)據(jù)的學習技術(shù)研究。圍繞非平衡數(shù)據(jù)集的重采樣及未標記樣本的類別標記等問題展開研究。論文的主要工作包括:
  (1)針對CAD應用中標記病例樣本難以收集所引起的小樣本學習問題,本論文利用大量存在的未標記樣本來擴充訓練樣本集以此解決小樣本學習問

4、題。然而樣本標記過程中往往存在錯誤類別標記,誤標記樣本如同噪聲會顯著降低學習性能。針對半監(jiān)督學習中的誤標記問題,本論文提出混合類別標記(Hybrid ClassLabeling)算法,算法從幾何距離、概率分布及語義概念三個不同角度分別進行類別標記。三種標記方法基于不同原理,具有顯著差異性。將三種標記方法有一致標記結(jié)果的未標記樣本加入訓練樣本集。為進一步減少可能存在的誤標記樣本對學習過程造成的不利影響,算法將偽標記隸屬度引入SVM(Sup

5、port Vector Machine)學習中,由隸屬度控制樣本對學習過程的貢獻程度?;赨CI中Breast-cancer數(shù)據(jù)集的實驗結(jié)果表明該算法能有效地解決小樣本學習問題。相比于單一的類別標記技術(shù),該算法造成更少的錯誤標記樣本,得到顯著優(yōu)于其它算法的學習性能。
  (2)針對常用欠采樣技術(shù)在采樣過程中往往會丟失有效類別信息的問題,本論文提出了基于凸殼(Convex Hull,CH)結(jié)構(gòu)的欠采樣新方法。數(shù)據(jù)集的凸殼是包含集合中

6、所有樣本的最小凸集,所有樣本點都位于凸殼頂點構(gòu)成的多邊形或多面體內(nèi)。受凸殼的幾何特性啟發(fā),算法采樣大類樣本集得到其凸殼結(jié)構(gòu),以簡約的凸殼頂點替代大類訓練樣本達到平衡樣本集的目的。鑒于實際應用中兩類樣本往往重疊,對應凸殼也將重疊。此時采用凸殼來表征大類的邊界結(jié)構(gòu)對學習過程是一個挑戰(zhàn),容易引起過學習及學習機的泛化能力下降??紤]到縮減凸殼(Reduced Convex Hull,RCH)、縮放凸殼(Scaled Convex Hull,SCH

7、)在凸殼縮減過程中帶來邊界信息丟失的問題,我們提出多層次縮減凸殼結(jié)構(gòu)(HierarchyReduced Convex Hull,HRCH)。受RCH與SCH結(jié)構(gòu)上存在顯著差異性及互補性的啟發(fā),我們將RCH與SCH進行融合生成HRCH結(jié)構(gòu)。相比于其它縮減凸殼結(jié)構(gòu),HRCH包含更多樣、互補的類別信息,有效減少凸殼縮減過程中類別的信息丟失。算法通過選擇不同取值的縮減因子與縮放因子采樣大類,所得多個HRCH結(jié)構(gòu)分別與稀有類樣本組成訓練樣本集。由

8、此訓練得多個學習機,并通過集成學習產(chǎn)生最終分類器。通過與其它四種參考算法的實驗對比分析,該算法表現(xiàn)出更好分類性能及魯棒性。
  (3)針對欠采樣算法中類別信息的丟失問題,本論文進一步提出基于反向k近鄰的欠采樣新方法,RKNN。相比于廣泛采用的k近鄰,反向k近鄰是基于全局的角度來檢查鄰域。任一點的反向k近鄰不僅與其周圍鄰近點有關(guān),也受數(shù)據(jù)集中的其余點影響。樣本集的數(shù)據(jù)分布改變會導致每個樣本點的反向最近鄰關(guān)系發(fā)生變化,它能整體反應樣本

9、集的完整分布結(jié)構(gòu)。利用反向最近鄰將樣本相鄰關(guān)系進行傳遞的特點,克服最近鄰查詢僅關(guān)注查詢點局部分布的缺陷。該算法針對大類樣本集,采用反向k最近鄰技術(shù)去除噪聲、不穩(wěn)定的邊界樣本及冗余樣本,保留最富含類別信息且可靠的樣本作為訓練樣本。算法在平衡訓練樣本的同時有效改善了欠采樣引起的類別信息丟失問題?;赨CI中Breast-cancer數(shù)據(jù)集的實驗結(jié)果驗證了該算法解決非平衡學習問題的有效性。相比于基于k最近鄰的欠采樣方法,RKNN算法得到了更好

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論