數(shù)據(jù)挖掘原理_第1頁(yè)
已閱讀1頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘原理,,趙衛(wèi)東 博士復(fù)旦大學(xué)軟件學(xué)院wdzhao@fudan.edu.cn,What is Data Mining?,According to the Gartner Group, Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amount

2、s of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.Data mining refers to the work of discovering new and useful (business) knowledge from large re

3、al databases through a non-trivial process and using a sound methodology and multiple data processing and analytical techniques.Examples:Detect taxation fraud: not declaring all income for taxation;From the thousands

4、of mobile phone customers, predict which customers are going to switch to a competitor .,數(shù)據(jù)挖掘是一個(gè)交叉科學(xué)領(lǐng)域,受多個(gè)學(xué)科影響,包括數(shù)據(jù)庫(kù)系統(tǒng)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、可視化和信息科學(xué)。,,一個(gè)比較正式的數(shù)據(jù)挖掘的定義,高層次上的主動(dòng)式自動(dòng)發(fā)現(xiàn)方法,被稱為發(fā)現(xiàn)驅(qū)動(dòng)型知識(shí)發(fā)現(xiàn)。從數(shù)據(jù)中提取正確的、有用的、未知的和綜合的信息并用它進(jìn)行決策的過(guò)程。數(shù)據(jù)挖

5、掘的相關(guān)學(xué)科是統(tǒng)計(jì)理論、數(shù)據(jù)庫(kù)技術(shù)和人工智能。前Business Objects的Todd Rowe曾表示:“從技術(shù)上講,甚至只要有完備的Excel數(shù)據(jù)就能用上BI?!?,過(guò)程,數(shù)據(jù)挖掘并不是一個(gè)裝在軟件包裝盒中的工具可以簡(jiǎn)單的買到并運(yùn)行在商業(yè)智能環(huán)境中,也不會(huì)自動(dòng)開始產(chǎn)生值得注意的商業(yè)規(guī)律。,,正確的,提取的信息應(yīng)該是正確的,并且在統(tǒng)計(jì)上是重要的以支持有依據(jù)的決定。正確意味著確證性和完整性。不但需要從數(shù)據(jù)庫(kù)中得到正確的客戶,還希望得

6、到所有正確的客戶。這就需要原始數(shù)據(jù)和數(shù)據(jù)挖掘過(guò)程都具有正確性。,有用的,數(shù)據(jù)挖掘過(guò)程可能會(huì)傳遞正確的和重要的結(jié)果,但是這些知識(shí)必須是對(duì)商業(yè)有用的。如結(jié)果告訴你要在一個(gè)大量的渠道上多樣化市場(chǎng)運(yùn)作,這可能會(huì)無(wú)法辦到。同樣結(jié)果必須使你能搶在競(jìng)爭(zhēng)對(duì)手之前行動(dòng)。,未知的,數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過(guò)程只是傳遞一些無(wú)關(guān)緊要的結(jié)果,那么數(shù)據(jù)挖掘的商業(yè)動(dòng)力就會(huì)消失。這就是區(qū)分驗(yàn)證和探索的性質(zhì)。,最小要求,以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來(lái)評(píng)價(jià)數(shù)據(jù)

7、挖掘是否對(duì)業(yè)務(wù)環(huán)境增加了附加的價(jià)值其他要求,Why Data Mining?,Gain an insight into business dataIdentify useful patterns, correlations and models from data automatically to answer questions like, Which customer is likely to churn in two mon

8、ths?Which customer is my cross sell target?What are the characteristics of my high spending and low spending customers?Data mining is a core technology of business intelligenceData mining is a core application of dat

9、a warehousesData mining is the core technology of analytical CRMData mining is the core technology of online recommendation and personalization in e-commerceData mining has become a part of business function in many c

10、ompanies,Data mining is regularly used in,典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),,Verification-Driven Analysis,Verification-driven data mining tools extract data. The user is expected to generate information based on his interpretation of the ret

11、urned data.,New Process With Data Mining,Discovery-drivenComputer sifts through millions of hypotheses and only presents the most interesting/valid onesExample:From a sample group of clients that have defected to a co

12、mpetitive bank - identify client characteristics that are strongly correlated, and using these attributes, score the rest of the client and prospect population and the strength of their relationships to sample group.,數(shù)據(jù)挖

13、掘可以做什么?,分類和預(yù)測(cè) 聚類關(guān)聯(lián)分析描述和可視化,數(shù)據(jù)挖掘過(guò)程,,占70%的工作量,是最重要的階段,占25%的工作量,,,數(shù)據(jù)挖掘各階段的時(shí)間分配,數(shù)據(jù)挖掘流程國(guó)際標(biāo)準(zhǔn)CRISP-DM(1),數(shù)據(jù)挖掘流程國(guó)際標(biāo)準(zhǔn)CRISP-DM(2),1996年提出的行業(yè)無(wú)關(guān)、應(yīng)用無(wú)關(guān)的數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)—Cross Industry Standard Process for Data Mining(CRISP-DM)。這個(gè)標(biāo)準(zhǔn)把挖掘過(guò)程分為六

14、個(gè)階段:定義業(yè)務(wù)問(wèn)題(business understanding)、數(shù)據(jù)理解(data understanding)、數(shù)據(jù)預(yù)處理(data preparation)、數(shù)據(jù)建模(data modeling)、模型評(píng)估(evaluation)和部署(deployment)。,商業(yè)理解。這可能是數(shù)據(jù)挖掘最重要的階段。商業(yè)理解包括確定業(yè)務(wù)對(duì)象、評(píng)估情 況、確定數(shù)據(jù)挖掘目標(biāo)以及制訂工程計(jì)劃。數(shù)據(jù)理解。數(shù)據(jù)提供了數(shù)據(jù)挖掘的“原材料”。此

15、階段用于了解您的數(shù)據(jù)源以及這些數(shù)據(jù)的特征。此階段包括收集初始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)和驗(yàn)證數(shù)據(jù)質(zhì)量?!拜敵龉?jié)點(diǎn)”選項(xiàng)板上提供的數(shù)據(jù)審核節(jié)點(diǎn)是一個(gè)用于數(shù)據(jù)理解的、不可或缺的工具。、數(shù)據(jù)準(zhǔn)備。對(duì)數(shù)據(jù)源進(jìn)行分類之后,您需要準(zhǔn)備數(shù)據(jù),以便進(jìn)行挖掘。準(zhǔn)備包括選 擇、清理、構(gòu)建、集成數(shù)據(jù)以及格式化數(shù)據(jù)。建模。此階段毫無(wú)疑問(wèn)是數(shù)據(jù)挖掘的核心部分,在此階段將使用精巧復(fù)雜的分析 方法從數(shù)據(jù)中提取信息。此階段包括選擇建模技術(shù)、生成測(cè)試

16、設(shè)計(jì),以及構(gòu)建 和評(píng)估模型。評(píng)估。選定模型之后,就可以評(píng)估數(shù)據(jù)挖掘結(jié)果在多大程度上能夠幫助您實(shí)現(xiàn)業(yè)務(wù) 目標(biāo)了。此階段的要素包括評(píng)估結(jié)果、查看數(shù)據(jù)挖掘過(guò)程,以及確定后續(xù)步驟。部署。既然您已經(jīng)付出了上述所有努力,現(xiàn)在就應(yīng)該有所獲益了。此階段主要是將 您的新知識(shí)結(jié)合到日常的業(yè)務(wù)流程中,來(lái)解決最初的業(yè)務(wù)問(wèn)題。此階段包括計(jì)劃部 署、監(jiān)視和維護(hù)、生成最終報(bào)告,以及復(fù)查該工程。,數(shù)據(jù)挖掘流程國(guó)際標(biāo)準(zhǔn)CRISP-DM

17、(3),,IBM SPSS Modeler可視化界面,,AlphaMiner界面,數(shù)據(jù)挖掘過(guò)程是循環(huán)的過(guò)程,上圖會(huì)容易造成一個(gè)線性過(guò)程的印象。事實(shí)上,每一步的結(jié)果會(huì)導(dǎo)致這樣一個(gè)結(jié)論:需要從前幾步中得到更多的信息,并不斷重復(fù)這一過(guò)程。這些循環(huán)保證了最后的結(jié)果是完全為業(yè)務(wù)量身定制的。,業(yè)務(wù)分析,理想化地,公司中的所有活動(dòng)都在不同程度上通過(guò)策略和商業(yè)目標(biāo)與公司的任務(wù)描述相關(guān)。數(shù)據(jù)挖掘使你能夠比以前在更高的層次上控制你的目標(biāo)。業(yè)務(wù)分析涉及到

18、領(lǐng)域?qū)<液屯诰驅(qū)<?。前者專心于?guī)定商業(yè)需求,而后者從數(shù)據(jù)挖掘的觀點(diǎn)上保證這些要求的可行性,并且具體說(shuō)明滿足這些要求所需的挖掘操作。,數(shù)據(jù)分析,為了研究使用統(tǒng)計(jì)方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入缺損的值,或者從幾個(gè)系統(tǒng)中將數(shù)據(jù)整合起來(lái)。數(shù)據(jù)分析將會(huì)對(duì)以后步驟中必須的數(shù)據(jù)轉(zhuǎn)換提供一個(gè)初步的了解,比如數(shù)據(jù)清理和整合??赡芤矔?huì)指出獲取外部的信息是必要的,比如說(shuō)日常商業(yè)運(yùn)作中并不需要的顧客人口統(tǒng)計(jì)數(shù)據(jù)。在這一步中涉及到的角色是挖掘?qū)<遥?/p>

19、們執(zhí)行大部分的任務(wù),還有數(shù)據(jù)庫(kù)管理員,他們將通過(guò)提供數(shù)據(jù)的訪問(wèn)權(quán)限來(lái)支持這些活動(dòng)。,數(shù)據(jù)準(zhǔn)備,當(dāng)挖掘所需的數(shù)據(jù)可供使用時(shí),往往需要在真正進(jìn)行挖掘前做一些準(zhǔn)備工作。對(duì)于是否需要做這些準(zhǔn)備工作,大部分在數(shù)據(jù)分析步驟中進(jìn)行評(píng)估。,數(shù)據(jù)質(zhì)量,數(shù)據(jù)顯示出一些特定的值,叫做偏離點(diǎn),它們遠(yuǎn)離預(yù)期的正常范圍。這些值可用多種方法來(lái)處理:如果它們?nèi)栽诂F(xiàn)實(shí)中存在的話,對(duì)這些數(shù)據(jù)取對(duì)數(shù)可以將它們轉(zhuǎn)化到較小的范圍。否則可以將包含這些值的記錄除去,或者將所有

20、記錄中的相關(guān)屬性除去。,空缺值,一個(gè)更常見的問(wèn)題是空缺值。此外,有些記錄的值可能空缺,或者某一個(gè)屬性可能會(huì)有大量的空缺值。對(duì)第一種情況,可以不使用這些記錄;對(duì)第二種情況,可以丟棄這個(gè)屬性。,猜測(cè)空缺值,另一種處理空缺值的方法是歸咎(imputation)??梢杂脦追N技術(shù)來(lái)猜測(cè)空缺值,下面是一些相關(guān)技術(shù),復(fù)雜度逐漸增加:從別的記錄中隨機(jī)抽取一個(gè)值添入。取其他記錄中對(duì)應(yīng)屬性的最頻值,中間數(shù)或平均數(shù)。對(duì)其他記錄中這個(gè)屬性的值分布做

21、一個(gè)統(tǒng)計(jì)模型,然后根據(jù)分布情況,隨機(jī)選一個(gè)值。試圖用統(tǒng)計(jì)或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。,數(shù)據(jù)預(yù)處理,,數(shù)據(jù)中的不一致性,數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使源數(shù)據(jù)是干凈的、整合的和經(jīng)過(guò)驗(yàn)證的,它們?nèi)杂锌赡馨F(xiàn)實(shí)世界的不真實(shí)的數(shù)據(jù)。有效認(rèn)識(shí)和解決數(shù)據(jù)質(zhì)量相關(guān)問(wèn)題的唯一辦法,就是企業(yè)對(duì)內(nèi)部處理流程進(jìn)行監(jiān)視、分析和報(bào)告。美國(guó)硬盤生產(chǎn)商Maxtor公司的首期信息長(zhǎng)官斯考特.??栒f(shuō) “商務(wù)智能最大的困難在于需要確保用于總

22、結(jié)性分析和儀表板中的最底層的數(shù)據(jù)永遠(yuǎn)干凈、一致并相關(guān)。我們需要數(shù)據(jù)倉(cāng)庫(kù)具備自我治療能力,能夠自動(dòng)地感應(yīng)、偵查、通告和維修任何不正確、缺失或未經(jīng)核對(duì)的數(shù)據(jù)因素。但這至少需要一到兩年才會(huì)發(fā)生。”,噪聲,這種噪聲可能是由用戶的錯(cuò)誤輸入或是顧客填寫問(wèn)卷時(shí)的筆誤造成的。如果這些錯(cuò)誤不是發(fā)生的太頻繁,數(shù)據(jù)挖掘工具還是能夠忽略它們,并且找出數(shù)據(jù)中存在的整體模式。,臟數(shù)據(jù)形成的原因,濫用縮寫詞數(shù)據(jù)輸入錯(cuò)誤不同的慣用語(yǔ)(如:ASAP對(duì)“at firs

23、t chance”)重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過(guò)時(shí)的編碼,,數(shù)據(jù)清洗 (客戶數(shù)據(jù)),Maggie.kline@future_electronics.com Margaret Smith-Kline phdFUTURE Electronics 5/23/03101 6th avemanhattanny10012001124367,,Salutation: Ms.First name: Margaret

24、Last name: Smith-KlinePostname: Ph. D.Match standards: Maggie, Peg, PeggyGender: Strong FemaleCompany name: Future ElectronicsAddress 1: 101 Avenue of the AmericasCity: New YorkState: NYZIP+4: 10013-1933Email:

25、maggie.kline@future_electronics.comSSN: 001-12-4367Date May 23, 2003,輸入記錄,輸出記錄,,Ms Margaret Smith-Kline Ph.D.Future Electronics101 Avenue of the AmericasNew York NY 10013-1933maggie.kline@future_electronics.comMay

26、 23, 2003,,姓名: Ms. Margaret Smith-Kline Ph.D.公司名: Future Electronics Co. LLC社會(huì)保障號(hào): 001-12-4367購(gòu)買日期: 5/23/2003地址: 101 Avenue of the AmericasNew York, NY 10013-1933緯度: 40.722970經(jīng)度: -74.005035Fed code: 36061電話: (22

27、2) 922-9922Email: maggie.kline@future_electronics.com,輸入記錄,合并的記錄,,Maggie SmithFuture Electronics Co. LLC101 6th Ave.Manhattan, NY 10012maggie.kline@future_electronics.com001-12-4367,,Ms. Peg KlineFuture Elect. Co.

28、101 6th Ave.New York NY 10013001-12-4367(222) 922-99225/23/03,,,,,匹配和合并,數(shù)據(jù)清理處理內(nèi)容,格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯(cuò)誤糾正重復(fù)數(shù)據(jù)的清除,屬性間的相互依賴性,數(shù)據(jù)挖掘?qū)?huì)同時(shí)從不同角度來(lái)看待數(shù)據(jù)。這就防止了把某些自身看起來(lái)好像不相關(guān)的屬性丟棄的情況。數(shù)據(jù)挖掘?qū)?huì)發(fā)現(xiàn)屬性間的相互依賴性,這些相互依賴性往往需要提取數(shù)據(jù)中的所有相關(guān)信息,甚至是隱藏在多個(gè)屬

29、性的組合中。,結(jié)果解釋,對(duì)結(jié)果的解釋完全依賴于數(shù)據(jù)挖掘步驟的可視化輸出。對(duì)結(jié)果的解釋需要挖掘?qū)<液皖I(lǐng)域?qū)<业木o密合作。他們一起將技術(shù)的結(jié)果解釋為商業(yè)的意義,并且評(píng)價(jià)從這些結(jié)果中得出結(jié)論的正確性。當(dāng)結(jié)果從技術(shù)上來(lái)說(shuō)是正確的,但對(duì)商業(yè)上來(lái)說(shuō)并不意味著任何有價(jià)值的東西的時(shí)候,有必要進(jìn)行迭代。,商業(yè)應(yīng)用,一個(gè)例子就是預(yù)測(cè)所有客戶中的可創(chuàng)造高利潤(rùn)的群體,必須決定如何去接近這些客戶,同時(shí)還要決定如何判斷他們是否像模型預(yù)測(cè)的那樣能帶來(lái)利潤(rùn)。領(lǐng)域

30、專家依靠對(duì)挖掘結(jié)果解釋中的信息,來(lái)支持商業(yè)應(yīng)用的決定。在小公司中,領(lǐng)域?qū)<铱赡芫褪菦Q策者,但通常來(lái)說(shuō),決策者往往是一些顧問(wèn)。 如果領(lǐng)域?qū)<覍?duì)決策是否為挖掘結(jié)果所支持不是很確定,或者他和實(shí)際決策者中有任何的誤解,都需要回復(fù)到結(jié)果解釋階段。,商業(yè)反饋,商業(yè)環(huán)境中的結(jié)果被反饋到商業(yè)智能環(huán)境中,并和數(shù)據(jù)挖掘模型的輸出一起做分析。比如說(shuō),假設(shè)你郵寄活動(dòng)的預(yù)測(cè)回復(fù)與實(shí)際回復(fù)作一個(gè)比較。當(dāng)你試圖了解是什么因素使得你對(duì)某些客戶的預(yù)測(cè)出現(xiàn)錯(cuò)誤時(shí),可能會(huì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論