基于粗糙集理論的混合數(shù)據(jù)挖掘方法研究.pdf_第1頁
已閱讀1頁,還剩119頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在許多實(shí)際應(yīng)用領(lǐng)域,需要處理的數(shù)據(jù)大部分是混合類型的。最常見的混合類型的數(shù)據(jù)是混合了數(shù)值型屬性和符號型屬性的數(shù)據(jù)。如何針對混合屬性數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘已經(jīng)成為一個極富挑戰(zhàn)性的問題。
  本文主要基于粗糙集理論對混合數(shù)據(jù)挖掘方法展開研究。研究內(nèi)容包括不完備信息系統(tǒng)中對象的相似性刻畫方法、混合數(shù)據(jù)的特征選擇與樣本選擇、混合數(shù)據(jù)的不平衡分類方法與異常值檢測方法。主要取得了以下四個方面的研究成果:
  第一部分,基于已有的不完備信息系統(tǒng)

2、粗糙集擴(kuò)展模型,進(jìn)一步研究了不完備信息系統(tǒng)中對象之間的相似關(guān)系刻畫方法,提出了鄰域-容差粗糙集模型、變精度容差粗糙集模型和變精度鄰域-容差粗糙集模型并討論了相關(guān)性質(zhì)。其中,鄰域-容差粗糙集模型和變精度鄰域-容差粗糙集模型可以處理混合數(shù)據(jù)。另外,給出了鄰域-容差關(guān)系下信息熵及條件熵的概念。并利用鄰域-容差條件熵構(gòu)建了一種特征選擇算法。
  第二部分,研究了樣本選擇方法及基于樣本的分類方法。首先提出了一種文本選擇方法。這個方法用變精度

3、容差關(guān)系來度量文本的相似度,并用變精度容差類作為文本聚類。通過只遍歷一次文本集得到所有的文本聚類,而且這些文本聚類用聚類中心來表示。這樣大大減少了文本的數(shù)量,可以進(jìn)一步地指導(dǎo)文本分類。其次,基于鄰域粗糙集,提出了混合數(shù)據(jù)的樣本選擇算法。在這個方法中,鄰域決策類中的樣本代表內(nèi)部樣本而被全部刪除。通過鄰域條件概率將決策邊界域中的樣本繼續(xù)劃分成噪聲、靠近分類邊界的樣本和遠(yuǎn)離分類邊界的樣本。最后僅將靠近分類的邊界樣本放入選擇樣本集中。最后,提出

4、了原型加權(quán)分類方法。這個方法先通過自產(chǎn)生原型算法把整個樣本集劃分成若干的樣本子集,并用這些子集的均值作為原型點(diǎn),再根據(jù)樣本子集的大小給這些原型點(diǎn)賦予權(quán)重。然后根據(jù)原型點(diǎn)距離公式計(jì)算測試樣本與每一類原型的距離,最后把測試樣本歸入距離最近的樣本類中。
  第三部分,研究了不平衡分類問題。為了緩解SVM的分類超平面在不平衡分類中的偏置,提出了基于鄰域粗糙集的合成少數(shù)類樣本的過采樣算法(NRS-SMOTE)。這個方法主要的特點(diǎn)有:1)使用

5、欠采樣技術(shù)清理噪聲;2)不是合成全部的少數(shù)類樣本而是只合成在分類邊界的少數(shù)類樣本,其中分類邊界樣本用鄰域粗糙集中的決策邊界域表示,決策邊界域的大小由鄰域閾值控制;3)用少數(shù)類邊界樣本的鄰域信息粒中的類分布來決定每個少數(shù)類樣本需要生成多少個合成樣本。4) NRS-SMOTE算法中用到鄰域信息粒,這樣可以處理數(shù)值型和符號型的混合數(shù)據(jù)。
  第四部分,研究了混合數(shù)據(jù)的異常值檢測問題。基于鄰域信息粒的概念,提出了混合數(shù)據(jù)的異常檢測方法。在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論