模糊關聯(lián)規(guī)則及模糊關聯(lián)分類研究.pdf_第1頁
已閱讀1頁,還剩106頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)量型關聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)量屬性之間的關聯(lián)關系,因其廣泛的應用背景而成為了一種重要的關聯(lián)規(guī)則類型。因為目前布爾型關聯(lián)規(guī)則的研究相對較成熟,所以經(jīng)典的方法是通過數(shù)量屬性的離散化把數(shù)量型關聯(lián)規(guī)則挖掘問題轉化為布爾型關聯(lián)規(guī)則,這類方法得到的用區(qū)間表示的關聯(lián)規(guī)則難以被理解,而且規(guī)則產(chǎn)生過程容易過分忽略或強調區(qū)間邊界附近的元素,即引起所謂“邊界尖銳”問題。而模糊集理論能夠通過隸屬函數(shù)形成區(qū)間的模糊邊界,實現(xiàn)數(shù)量屬性相鄰區(qū)間的平滑過渡,于是研究者把模

2、糊集理論與數(shù)量型關聯(lián)規(guī)則相結合提出模糊關聯(lián)規(guī)則。但模糊集的引入產(chǎn)了新的問題:如何確定數(shù)量屬性模糊區(qū)間對應的隸屬度函數(shù);如何挖掘具有模糊邏輯語義的模糊關聯(lián)規(guī)則;如何設計高效模糊頻繁項挖掘算法等。本文圍繞這些問題,對模糊關聯(lián)規(guī)則在分類中的應用即如何構建模糊關聯(lián)分類模型展開研究,主要工作有以下四個方面:
   (1)三角形隸屬度函數(shù)被廣泛用于模糊關聯(lián)規(guī)則挖掘的數(shù)據(jù)預處理過程。目前已有的研究大多采用簡單遺傳模型確定數(shù)量屬性模糊區(qū)間上的三

3、角形隸屬函數(shù),這類方法用于取值范圍較大的數(shù)量屬性時容易出現(xiàn)過早收斂現(xiàn)象。為此本文提出了一種基于CHC遺傳模型的數(shù)量屬性模糊劃分的方法,該方法采用實數(shù)編碼和PNX交叉算子,由閾值干預重新初始算子,以模糊1-頻繁項的支持度和三角形隸屬度函數(shù)對數(shù)量屬性取值范圍的覆蓋率與隸屬度函數(shù)間的重疊度為優(yōu)化目標,通過遺傳進化自動確定數(shù)量屬性的模糊劃分區(qū)間。實驗結果表明:與同類算法相比,該方法所得最優(yōu)個體有較高的適應度值,縮短了遺傳進化所需時間,適用于取值

4、范圍較大的數(shù)量屬性的模糊劃分。
   (2)目前已有的模糊頻繁項挖掘算法大多是對經(jīng)典Apriori算法的擴充,此類方法存在需多次掃描數(shù)據(jù)集的固有缺陷,且在挖掘過程中也沒有考慮模糊項間的邏輯語義。為此本文提出了一種基于TD-FP-Growth的模糊關聯(lián)規(guī)則挖掘算法,該算法使用三種t-模算子以及由其產(chǎn)生的蘊含算子計算模糊頻繁項的支持度和規(guī)則的蘊含度,產(chǎn)生的關聯(lián)規(guī)則能夠表示模糊項間的確定性和漸進性邏輯語義。該算法以事務的惟一標識為鍵值

5、散列存儲每個事務對Fp-tree中每個結點所表示模糊項的隸屬度使得TD-FP-Growth適用于模糊頻繁項的挖掘:文中還分析了兩種算法的時間和空間復雜度,實驗證明了從邏輯語義角度考慮模糊關聯(lián)規(guī)則的挖掘的必要性,本文算法的時間開銷少于基于Apriori的模糊頻繁項挖掘算法的時間開銷。
   (3)準確率和解釋性是模糊關聯(lián)分類模型的兩個相互制約的優(yōu)化目標。目前已有的研究方法中,有的只考慮了分類模型的準確率,有的把這兩個目標化簡為單目

6、標進行問題求解,有關模型的解釋性目標的優(yōu)化策略較為簡單。為此,本文提出了一種基于NSGA-Ⅱ(Nondominated Sorting Genetic AlgorithmⅡ)多目標進化算法的模糊關聯(lián)分類建模方法,該方法采用基于概率獨立性的模糊確認指標篩選生成高質量的模糊關聯(lián)分類規(guī)則集,以匹茨堡(Pittsburgh)式的二進制編碼方式對模糊關聯(lián)分類規(guī)則集進行編碼,從而構建準確率和解釋性折中的模糊關聯(lián)分類模型。利用該模型對UCI(UC I

7、rvine)標準數(shù)據(jù)集進行實驗,表明該方法所建模型分類的準確率比同類模型高,且該分類模型具有較好的泛化能力,而其所含分類規(guī)則的數(shù)目和規(guī)則前件總的模糊項的個數(shù)卻較少.即表現(xiàn)出模型的解釋性較好。
   (4)應用上述(3)的方法在多類不平衡數(shù)據(jù)集上進行模糊關聯(lián)分類建模時,針對稀有類樣本產(chǎn)生的模糊關聯(lián)分類規(guī)則較少,這使得模型對稀有類樣本的識別率較低。而目前的研究對已有的不平衡分類算法大多面向兩類不平衡分類問題,且有關多類不平衡數(shù)據(jù)分類

8、的研究報道也較少。為此,本文提出一種新的適用于多類不平衡數(shù)據(jù)分布情形下的模糊關聯(lián)分類方法,該方法基于遺傳算法構建子模糊關聯(lián)分類器,遺傳進化過程采用了二進制編碼方式,HUX(Half Uniform Crossover)交叉算子和有偏向的變異算子,使用AdaBoost. M1W集成學習方法對模糊關聯(lián)分類器進行提升。以最小化集成學習迭代過程中訓練樣本的加權分類錯誒率和子模糊關聯(lián)分類器中模糊關聯(lián)規(guī)則及規(guī)則中所含模糊項的數(shù)目為遺傳優(yōu)化目標,實現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論