項集分布挖掘及其在模式分析中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、近十幾年來,隨著科學(xué)技術(shù)的不斷發(fā)展,人們產(chǎn)生和收集數(shù)據(jù)的能力迅速提高,因而數(shù)據(jù)規(guī)模急劇增加,僅僅依靠現(xiàn)有的技術(shù)是很難分析這些海量數(shù)據(jù)的,于是出現(xiàn)了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。人們希望能夠有新的工具自動的分析和整理如此龐雜的數(shù)據(jù),從中發(fā)現(xiàn)有價值的東西,為決策提供必要的支持。面對這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生了。數(shù)據(jù)挖掘技術(shù)是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運(yùn)用的知識

2、的過程,它是涉及數(shù)據(jù)庫、人工智能、統(tǒng)計學(xué)等眾多學(xué)科的一個非常活躍的研究領(lǐng)域。數(shù)據(jù)挖掘不僅吸引了眾多學(xué)者為其投入極大的熱情,同時也引起了產(chǎn)業(yè)界人士的廣泛關(guān)注。關(guān)聯(lián)規(guī)則不僅僅是數(shù)據(jù)挖掘領(lǐng)域的一個重要研究課題,而且對數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用都起到了舉足輕重的作用,因而吸引了許多學(xué)者對關(guān)聯(lián)規(guī)則挖掘的技術(shù)和方法進(jìn)行深入的研究,例如對Apriori類算法的研究。這些研究基本集中于算法的可擴(kuò)展性和提高算法的效率。一般說來,在數(shù)據(jù)庫中當(dāng)且僅當(dāng)項集的支持

3、度不小于用戶給定的最小支持度閾值時稱該項集為頻繁項集。最小支持度的設(shè)置可能會導(dǎo)致兩個問題(1)最小支持度的設(shè)定對于用戶來說是一個艱巨的任務(wù),最小支持度的設(shè)定是否合理直接影響到最后的挖掘結(jié)果;(2)頻繁項集的挖掘可能會導(dǎo)致產(chǎn)生大量的模式(最后導(dǎo)致產(chǎn)生大量的規(guī)則)。鑒于支持度-置信度模型的局限性,許多數(shù)據(jù)挖掘工作者提出了各種方案試圖沖破該模型的限制,其中主要包括:挖掘前k個頻繁閉模式[18];將支持度的限制從挖掘時推遲到評價時[21];由置

4、信度驅(qū)動的挖掘模型[22];以及不需要最小支持度的挖掘策略[23],這幾種方法都試圖在某種程度上避免設(shè)置最小支持度,這些模型為挖掘關(guān)聯(lián)規(guī)則提供了新的視角。針對支持度-置信度模型需要用戶設(shè)定最小支持度的問題,本論文提出了一種基于模糊控制的不依賴于具體數(shù)據(jù)庫的挖掘策略FARDIMS,即用戶無須對具體的數(shù)據(jù)庫有非常深入的了解,只要根據(jù)意愿輸入挖掘水平參數(shù),系統(tǒng)就可以根據(jù)各數(shù)據(jù)庫中項集分布的具體情況將其自動轉(zhuǎn)化為適合于該數(shù)據(jù)庫的支持度閾值,從而

5、提高了挖掘系統(tǒng)的自動化與智能化。同時,在頻繁項集的應(yīng)用中還存在一個基本的問題,挖掘系統(tǒng)產(chǎn)生的頻繁項集對于“頻繁”的可信程度究竟是多少——在做出決策時必須要重視的問題。對于在數(shù)據(jù)庫中發(fā)現(xiàn)的所有頻繁項集,即使它們具有不同的支持度,似乎在做出決策時都同樣重要,這是否會導(dǎo)致決策的失誤呢?一般說來,在實際應(yīng)用中,一個支持度較高的項集應(yīng)該比支持度較低的項集具<;WP=6>;有更高的對于“頻繁”的可信度,但是,當(dāng)數(shù)據(jù)庫中數(shù)據(jù)分布情況未知時,我

6、們并沒有任何參數(shù)來度量一個頻繁項集在多大程度上比另一個頻繁項集具有更高的頻繁可信度,這是因為支持度并不能反映項集對于頻繁的可信程度,因而產(chǎn)生了分析項集對于頻繁可信度的要求。在本論文中,我們提出了項集頻繁可信度的概念,并且給出了兩種估計項集頻繁可信度的方法,使得項集分布挖掘模型具有更好的可擴(kuò)展性。綜上所述,本文所做的主要工作是:提出了一種基于模糊控制的不依賴于具體數(shù)據(jù)庫的挖掘策略FARDIMS。闡述了數(shù)據(jù)庫中項集分布情況對產(chǎn)生頻繁項集的影

7、響。給出了一種通過分析數(shù)據(jù)庫中項集的分布情況獲得項集頻繁可信度的方法。提出了兩種估計項集頻繁可信度的方法SBMEIS和EAKTINA,從而項集分布挖掘模型具有更好的可擴(kuò)展性。為了對提出的方法進(jìn)行評價,我們作了大量的實驗。實驗結(jié)果表明,FARDIMS與傳統(tǒng)的挖掘算法相比具有更好的自動性和智能性;SBMEIS和EAKTINA 能夠較好的估計項集的分布情況,從而可以較準(zhǔn)確的獲得項集對于頻繁的可信度,使用戶對數(shù)據(jù)庫有更加深入的了解,為做出決策提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論