版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、在現(xiàn)實環(huán)境中,由于各種原因存在著數(shù)據(jù)缺失的現(xiàn)象。而臨床數(shù)據(jù)集中的數(shù)據(jù)缺失可能與某些屬性的狀態(tài)有關(guān),這些缺失的數(shù)據(jù)中蘊含的信息,如果處理方法不當(dāng)將導(dǎo)致錯誤推斷結(jié)果的發(fā)生。如何對不完整的臨床數(shù)據(jù)集進行操作從而提高分類和診斷的準(zhǔn)確率便成了一項重要的研究課題。將數(shù)據(jù)集中不含缺失值的變量(屬性)稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量,Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機制:第一種,完全隨機缺失(Missing Co
2、mpletely at Random,MCAR)。數(shù)據(jù)的缺失與不完全變量以及完全變量都是無關(guān)的。第二種,隨機缺失(Missing at Random,MAR)。數(shù)據(jù)的缺失僅僅依賴于完全變量。第三種,非隨機、不可忽略缺失(Not Missing at Random,NMAR)。不完全變量中數(shù)據(jù)的缺失依賴于不完全變量本身,這種缺失是不可忽略的。 當(dāng)前已有的為缺失數(shù)據(jù)集進行分類的方法,基本有兩大類。一類是先對缺失數(shù)據(jù)進行修補,而后在得
3、到的完整數(shù)據(jù)集上建立分類器。修補缺失數(shù)據(jù)的方法除了有簡單的空置和均值替代法之外,還有Gibbs抽樣、EM算法、BC(Bound&Collapse)法、梯度下降算法。它們雖然有各自的優(yōu)點,但前兩種忽視了丟失信息的價值,修補質(zhì)量低。而后面幾種只能處理隨機丟失的數(shù)據(jù)集,在臨床數(shù)據(jù)集中信息的丟失情況并不一定是隨機的。第二類是將有丟失情況的數(shù)據(jù)集直接用分類器進行分類,以達到我們想要的結(jié)果。主要有樸素貝葉斯分類器、貝葉斯網(wǎng)絡(luò)、C4.5決策樹、穩(wěn)健貝
4、葉斯估計(Robust Bayesian Estimation)等。其中貝葉斯網(wǎng)絡(luò)推理能夠處理不完備數(shù)據(jù)集,傳統(tǒng)推理是無法解決的,對于傳統(tǒng)的推理必須知道所有可能的數(shù)據(jù)輸入,如果缺少其中的某一輸入就會對建立的模型產(chǎn)生偏差。貝葉斯方法可以解決這個問題,因為貝葉斯網(wǎng)絡(luò)反映的是整個數(shù)據(jù)域中數(shù)據(jù)間的概率關(guān)系,即使缺少某一數(shù)據(jù)變量仍然可以建立精確的模型。而穩(wěn)健貝葉斯估計雖然可以處理不同類型的缺失數(shù)據(jù),但容易導(dǎo)致有偏的結(jié)果或填入不準(zhǔn)確的值。又考慮到在
5、醫(yī)學(xué)診斷規(guī)則的表示上貝葉斯網(wǎng)絡(luò)較決策樹易于表達。最后我們決定選取貝葉斯網(wǎng)絡(luò)來進行該項研究。 隨著醫(yī)院信息化建設(shè)的發(fā)展,醫(yī)院信息系統(tǒng)中積累了大量的病人資料和醫(yī)療數(shù)據(jù),這些數(shù)據(jù)中蘊涵著對醫(yī)生、醫(yī)院管理者和醫(yī)療管理部門都有重要意義的信息,如何提取出這些信息,成為日益突出的需求。貝葉斯網(wǎng)絡(luò)是數(shù)據(jù)挖掘的有效工具之一,它提供了一種自然地表示因果信息的方法,用來發(fā)現(xiàn)數(shù)據(jù)間的潛在關(guān)系,并以圖形的方法描述出來。貝葉斯網(wǎng)絡(luò)在國外醫(yī)院信息管理中的應(yīng)用
6、越來越廣泛,美國學(xué)者將貝葉斯網(wǎng)絡(luò)運用于手術(shù)結(jié)果預(yù)測、護士護理研究、醫(yī)院診療報告進行的有效性和可靠性評價等。歐洲學(xué)者將其運用于對肝硬化病人進行治療效果的預(yù)測、緊急醫(yī)療服務(wù)的評價等。臺灣學(xué)者將貝葉斯網(wǎng)絡(luò)運用在全民保健醫(yī)療費用審查自動化方面進行研究,以及對非典型肺炎的確診和對醫(yī)療服務(wù)診斷進行評價等。由于目前在內(nèi)地的大部分地區(qū),醫(yī)院信息系統(tǒng)都已投入應(yīng)用,系統(tǒng)積累的數(shù)據(jù)也越來越多,有學(xué)者將貝葉斯網(wǎng)絡(luò)運用于醫(yī)療診斷研究。貝葉斯網(wǎng)絡(luò)是以概率論為理論依
7、據(jù),以概率推理為推理基礎(chǔ),以圖論的形式表達和描述數(shù)據(jù)實例中的關(guān)聯(lián)和因果關(guān)系的。它由兩部分組成,一個是有向無環(huán)圖(DAG),另一個是條件概率表(CPT)。它不僅能在診斷過程中清晰直觀地表達知識,很好地解決系統(tǒng)的不確定性、數(shù)據(jù)的不完整性和復(fù)雜性,還能自動更新知識規(guī)則。貝葉斯網(wǎng)絡(luò)除了依靠專家知識以外,還可以利用訓(xùn)練數(shù)據(jù)擴充自身的知識和網(wǎng)絡(luò)推理能力。像貝葉斯網(wǎng)絡(luò)這樣的智能處理工具在醫(yī)學(xué)診斷中是極具利用價值的。 本文分別使用了兩種方法將缺
8、失臨床數(shù)據(jù)集進行分類。第一種方法是將缺失數(shù)據(jù)集用屬性選擇的貝葉斯網(wǎng)絡(luò)進行分類。第二種方法是利用原始數(shù)據(jù)先對缺失數(shù)據(jù)進行修補,而后在得到的完整數(shù)據(jù)集上用貝葉斯網(wǎng)絡(luò)檢測分類效果。方法的內(nèi)容過程簡要描述如下。 方法一:首先,為每個屬性添加一個二元變量指示各屬性丟失情況。接著,使用基于包裝法的遺傳因子搜索法對原始的有缺失的臨床數(shù)據(jù)集進行屬性選擇。屬性選擇主要有兩種方法,第一種稱為過濾法(filter method),主要建立在選擇屬性之
9、間分散程度的衡量標(biāo)準(zhǔn)。它是要在學(xué)習(xí)開始之前,先過濾屬性集產(chǎn)生一個最優(yōu)的屬性子集。第二種稱為包裝法(wrapper method),它是建立在使用分類器的效果來衡量屬性選擇的結(jié)果。之所以稱為包裝法,是因為學(xué)習(xí)方法被包裹在選擇過程中。本文的屬性優(yōu)化部分采用的就是第二種。最后,應(yīng)用貝葉斯網(wǎng)絡(luò)對以上優(yōu)化屬性集進行分類并檢驗分類效果。實驗是對三種急性病的不完整數(shù)據(jù)集進行分類,它們的屬性從多到少。用有不同診斷難度的急性病來進行我們的實驗比較有代表性
10、。整個實驗在WEKA3.5.6環(huán)境下運行實現(xiàn)。結(jié)果證明該方法不僅考慮到了丟失的臨床信息的價值,也除去了無關(guān)和冗余的屬性,分類準(zhǔn)確性高,優(yōu)于直接使用貝葉斯網(wǎng)絡(luò)模型。 方法二:首先,利用原始數(shù)據(jù)中隱含屬性之間的關(guān)聯(lián)性,同時結(jié)合專家知識,建立數(shù)據(jù)集屬性的修復(fù)結(jié)構(gòu)。我們可以借助專家知識選出數(shù)據(jù)集中關(guān)系密切的屬性,但是專家的主觀意見可能無法將數(shù)據(jù)集中隱含的關(guān)聯(lián)性選出。此時可以使用互信息來計算各個屬性值之間的關(guān)聯(lián)性,進而選取子數(shù)據(jù)集加以分析
11、。第二步,使用類神經(jīng)網(wǎng)絡(luò)的反向傳播(BP)算法及其函數(shù)模擬功能來修復(fù)第一步中各個待修復(fù)數(shù)據(jù)子集中的缺失值。最后,用貝葉斯網(wǎng)絡(luò)對完整的數(shù)據(jù)集進行分類,檢驗修復(fù)后的臨床數(shù)據(jù)集是否較均值修補更有效地提高了分類準(zhǔn)確率。我們從UCI數(shù)據(jù)集中挑選出心臟病和乳腺癌的完整數(shù)據(jù)集在Matlab7.0的環(huán)境下進行實驗,分別比較了它們在不同隨機缺失比例下經(jīng)修復(fù)后對分類效果的影響。實驗證明該數(shù)據(jù)修復(fù)方法確實較一般的均值修補法更有效地提高了診斷準(zhǔn)確率。
12、對于數(shù)據(jù)缺失國內(nèi)外學(xué)者已經(jīng)做了廣泛的研究。目前各種新興的方法層出不窮。但無論采用何種填補方法,都無法避免主觀因素對原系統(tǒng)的影響,并且在缺失值過多的情形下將整個數(shù)據(jù)集完整化是不可行的。所以針對各種實際問題,要注意分清問題的實質(zhì),合理并且適當(dāng)?shù)剡\用處理方法才是解決好實際問題的關(guān)鍵所在。對不同缺失機制的臨床數(shù)據(jù)集使用合適的方法定能在診斷準(zhǔn)確率和效率上取得滿意的結(jié)果。但是,現(xiàn)實中臨床數(shù)據(jù)集的缺失機制一般都是未知的,所以,如何找到一個可達到更加高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)缺失下基于貝葉斯網(wǎng)絡(luò)的分類方法研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)的多維數(shù)據(jù)分類研究.pdf
- 基于缺失數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí).pdf
- 基于貝葉斯方法的缺失數(shù)據(jù)補全研究.pdf
- 缺失數(shù)據(jù)的貝葉斯模型處理.pdf
- 基于貝葉斯網(wǎng)絡(luò)的事件處理技術(shù)研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究.pdf
- 基于樸素貝葉斯的網(wǎng)頁自動分類技術(shù)研究.pdf
- 數(shù)據(jù)挖掘中基于貝葉斯技術(shù)的分類問題的研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)的在線社交網(wǎng)絡(luò)推薦技術(shù)研究.pdf
- 基于貝葉斯的個性化郵件分類技術(shù)研究.pdf
- 基于貝葉斯模型的文檔分類及相關(guān)技術(shù)研究.pdf
- 數(shù)據(jù)缺失下學(xué)習(xí)貝葉斯網(wǎng)的研究.pdf
- 基于數(shù)據(jù)增廣技術(shù)的非參數(shù)貝葉斯分類模型研究.pdf
- 基于行為與貝葉斯分類的木馬檢測技術(shù)研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)數(shù)據(jù)挖掘算法的研究.pdf
- 基于智能優(yōu)化的貝葉斯網(wǎng)絡(luò)分類模型研究.pdf
- 基于粗糙集的樸素貝葉斯分類算法研究.pdf
- 基于貝葉斯的中文郵件分類關(guān)鍵技術(shù)研究.pdf
- 基于貝葉斯網(wǎng)絡(luò)的軟件需求風(fēng)險評估技術(shù)研究.pdf
評論
0/150
提交評論