數(shù)據(jù)挖掘研究及發(fā)展現(xiàn)狀_第1頁
已閱讀1頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘技術的研究現(xiàn)狀及發(fā)展方向摘 要:數(shù)據(jù)挖掘技術是當前數(shù)據(jù)庫和人工智能領域研究的熱點。從數(shù)據(jù)挖掘的定義出發(fā),介紹了數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡法、決策樹法、遺傳算法、粗糙集法、模糊集法和關聯(lián)規(guī)則法等概念及其各自的優(yōu)缺點;詳細總結了國內(nèi)外數(shù)據(jù)挖掘的研究現(xiàn)狀及研究熱點,指出了數(shù)據(jù)挖掘的發(fā)展方向。關鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡;決策樹;粗糙集;模糊集;研究現(xiàn)狀;發(fā)展方向The present situation and future direction

2、 ofthe data mining technology researchAbstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advan

3、tages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international resear

4、ch situation and focus of data mining in details, and pointed out the development trend of data mining.Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development directio

5、n 0 引言隨著信息技術的迅猛發(fā)展,許多行業(yè)如商業(yè)、企業(yè)、科研機構和政府部門等都積累了海量的、不同形式存儲的數(shù)據(jù)資料[1]。這些海量數(shù)據(jù)中往往隱含著各種各樣有用的信息,僅僅依靠數(shù)據(jù)庫的查詢檢索機制和統(tǒng)計學方法很難獲得這些信息,數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳墓轉(zhuǎn)換成知識金磚,從而達到為決策服務的目的。在這種情況下,一個新的技術——數(shù)據(jù)挖掘(Data Mining,DM)技術應運而生[2]。數(shù)據(jù)挖掘正是為了迎合這種

6、需要而產(chǎn)生并迅速發(fā)展起來的、用于開發(fā)信息資源的、一種新的數(shù)據(jù)處理技術。數(shù)據(jù)挖掘通常又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases) ,是一個多學科領域,它融合了數(shù)據(jù)庫技術、人工智能、機器學習、統(tǒng)計學、知識工程、信息檢索等最新技術的研究成果,其應用非常廣泛。只要是有分析價值的數(shù)據(jù)庫,都可以利用數(shù)據(jù)挖掘工具來挖掘有用的信息。數(shù)據(jù)挖掘典型的應用領域包括市場、工業(yè)生產(chǎn)、金融、醫(yī)學、科學研究、工程診斷等。

7、本文主要介紹數(shù)據(jù)挖掘的主要算法及其各自的優(yōu)缺點,并對國內(nèi)外的研究現(xiàn)狀及研究熱點進行了詳細的總結,最后指出其發(fā)展趨勢及問題所在。1 數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機的實際應用數(shù)據(jù)中提取有效的、新穎的、潛在有用的知識的非平凡過程[3]。所得到的信息應具有先前未知、有效和實用三個特征。數(shù)據(jù)挖掘過程如圖 1 所示。這些數(shù)據(jù)的類型可以是結構化的、半結構化的、甚至是異構型的。發(fā)現(xiàn)知識的方法可以是數(shù)學的、非數(shù)學的、也

8、可以是歸納的。最終被發(fā)現(xiàn)了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護等[4]。數(shù)據(jù)選擇:確定發(fā)現(xiàn)任務的操作對象,即目標對象;預處理:包括消除噪聲、推導計算缺值數(shù)據(jù)、消除重復記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等;轉(zhuǎn)換:消減數(shù)據(jù)維數(shù)或降維;數(shù)據(jù)開采:確定開采的任務,如數(shù)據(jù)總結、分類、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等,并確定使用什么樣的開采算法; 解釋和評價:數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過用戶和機器的評價,可能存在冗余或無關的模式,這時需

9、要剔除,使用戶更容易理解和應用。 十大經(jīng)典算法如圖 2:目前,數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡法、決策樹法、遺傳算法、粗糙集法、模糊集法、關聯(lián)規(guī)則法等。叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進化理論的機器學習方法。它的基本觀點是/適者生存 0 原理,具有隱含并行性、易于和其它模型結合等性質(zhì)。主要的優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù),對問題的種類有很強的魯棒性;缺點是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算

10、法常用于優(yōu)化神經(jīng)元網(wǎng)絡,解決其它技術難以解決的問題。1.4 粗糙集法粗糙集法也稱粗糙集理論,是一種新的處理含糊、不精確、不完備問題的數(shù)學工具,可以處理數(shù)據(jù)約簡、數(shù)據(jù)相關性發(fā)現(xiàn)、數(shù)據(jù)意義的評估等問題。其優(yōu)點是算法簡單,不需要關于數(shù)據(jù)的任何預備的或額外的信息;缺點是難以直接處理連續(xù)的屬性,須先進行屬性的離散化。因此,連續(xù)屬性的離散化問題是制約粗糙集理論實用化的難點[7]。粗糙集理論主要應用于近似推理、數(shù)字邏輯分析和化簡、建立預測模型等問題。

11、1.5 模糊集法模糊集法利用模糊集合理論對問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性[7]。系統(tǒng)的復雜性越高,模糊性就越強。1.6 關聯(lián)規(guī)則法關聯(lián)規(guī)則反應了事物之間的相互依賴性或關聯(lián)性。其最著名的算法是 R.AGRAWAL 等人提出的 Apriori 算法。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關聯(lián)規(guī)則給定的 2個閾值。在這個意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支

12、持度和最小可信度的關聯(lián)規(guī)則。2 數(shù)據(jù)挖掘研究現(xiàn)狀2.1 國外研究現(xiàn)狀知識發(fā)現(xiàn)[8]( Knowledge Discovery in Databases, KDD)與 DM 是數(shù)據(jù)庫領域中最重要的課題之一。KDD 一詞是在 1989 年 8 月于美國底特律市召開的第十一屆國際人工智能會議上正式形成的。1995 年在加拿大蒙特利爾召開的首屆 KDD & Data Mining 國際學術會議上,把數(shù)據(jù)挖掘技術分為科研領域的知識發(fā)

13、現(xiàn)與工程領域的數(shù)據(jù)挖掘[9]。之后每年召開一次這樣的會議,經(jīng)過十幾年的努力,數(shù)據(jù)挖掘技術的研究已經(jīng)取得了豐碩的成果。目前,對 KDD 的研究主要圍繞理論、技術和應用這三個方面展開。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術。目前,國外數(shù)據(jù)挖掘的最新發(fā)展主要有對發(fā)現(xiàn)知識的方法的進一步研究,如近年來注重對Bayes(貝葉斯)方法以及 Boosting 方法的研究和改進提高;KDD 與數(shù)據(jù)庫的緊密結合;傳統(tǒng)的統(tǒng)計學回歸方法在 KDD

14、 中的應用。在應用方面主要體現(xiàn)在 KDD 商業(yè)軟件工具從解決問題的孤立過程轉(zhuǎn)向建立解決問題的整體系統(tǒng),主要用戶有保險公司、大型銀行和銷售業(yè)等。許多計算機公司和研究機構都非常重視數(shù)據(jù)挖掘的開發(fā)應用,IBM 和微軟都相繼成立了相應的研究中心[10]。美國是全球數(shù)據(jù)挖掘研究最繁榮的地區(qū),并占據(jù)著研究的核心地位。由于數(shù)據(jù)挖掘軟件市場需求量的增大,包括國際知名公司在內(nèi)的很多軟件公司都紛紛加入到了數(shù)據(jù)挖掘工具研發(fā)的行列中來,到目前已開發(fā)了一系列技術

15、成熟、應用價值較高的數(shù)據(jù)挖掘軟件。以下為目前最主要的數(shù)據(jù)挖掘軟件:(1) Knowledge Studio:由 Angoss 軟件公司開發(fā)的能夠靈活地導入外部模型和產(chǎn)生規(guī)則的數(shù)據(jù)挖掘工具。最大的優(yōu)點:響應速度快,且模型、文檔易于理解,SDK 中容易加入新的算法。(2) IBM Intelligent Miner:該軟件能自動實現(xiàn)數(shù)據(jù)選擇、轉(zhuǎn)換、發(fā)掘和結果呈現(xiàn)一整套數(shù)據(jù)挖掘操作;支持分類、預測、關聯(lián)規(guī)則、聚類等算法,并且具有強大的 API

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論