版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第1章 認識數(shù)據(jù)挖掘,數(shù)據(jù)挖掘定義機器學(xué)習(xí)數(shù)據(jù)查詢專家系統(tǒng)數(shù)據(jù)挖掘過程/作用/技術(shù)/應(yīng)用Weka數(shù)據(jù)挖掘軟件,本章目標,掌握數(shù)據(jù)挖掘的定義了解機器學(xué)習(xí)中的基本方法概念學(xué)習(xí)歸納學(xué)習(xí)有指導(dǎo)的學(xué)習(xí)無指導(dǎo)的聚類了解與數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù)查詢、專家系統(tǒng)了解數(shù)據(jù)挖掘的過程、作用、技術(shù)、應(yīng)用掌握Weka數(shù)據(jù)挖掘軟件的使用方法,2024年3月22日星期五,第2頁,共65頁,1.1 數(shù)據(jù)挖掘定義,數(shù)據(jù)挖掘(Data Mining)
2、,技術(shù)角度利用一種或多種計算機學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動分析并提取信息的處理過程。目的是尋找和發(fā)現(xiàn)數(shù)據(jù)中潛在的有價值的信息、知識、規(guī)律、聯(lián)系和模式。數(shù)據(jù)挖掘與計算機科學(xué)有關(guān),一般使用機器學(xué)習(xí)、統(tǒng)計學(xué)、聯(lián)機分析處理、專家系統(tǒng)和模式識別等多種方法來實現(xiàn)。學(xué)科角度數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計學(xué)、可視化技術(shù)、并行計算等多種技術(shù)。,2024年3月22日星期五,第4頁,共65頁,商業(yè)角度商業(yè)智能信息處理技術(shù);
3、圍繞商業(yè)目標開展的,對大量商業(yè)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。,2024年3月22日星期五,第5頁,共65頁,數(shù)據(jù)挖掘(Data Mining),1.2 機器學(xué)習(xí),1.2.1 概念學(xué)習(xí),通過對大量實例進行訓(xùn)練,從中發(fā)現(xiàn)經(jīng)驗化規(guī)律的過程。機器學(xué)習(xí)結(jié)果的通常表現(xiàn)形式為概念。機器最擅長的是學(xué)習(xí)概念。概念(Concept)具有某些共同
4、特征的對象、符號或事件的集合。概念可以從三個不同的角度來看待,2024年3月22日星期五,第7頁,共65頁,1.2.1 概念學(xué)習(xí),1、傳統(tǒng)角度(Classical View)所有概念都有明確的定義。2、概率角度(Probabilistic View)對個別樣本實例進行概括性描述,概括性說明構(gòu)成了概率角度中的概念。3、樣本角度(Exemplar View)樣本角度中的概念是將某個概念中的典型實例組成一個集合,使用該集合來描述概
5、念定義。,2024年3月22日星期五,第8頁,共65頁,1.2.2 歸納學(xué)習(xí)(Induction-Based Learning),基于歸納的學(xué)習(xí)機器學(xué)習(xí)方式人類學(xué)習(xí)最重要方式之一人類通過對事物的特定實例的觀察,對所掌握的已有經(jīng)驗材料研究。歸納學(xué)習(xí)從歸納中獲取和探索新知識,并以概念的形式表現(xiàn)出來的學(xué)習(xí)。,2024年3月22日星期五,第9頁,共65頁,1.2.3 有指導(dǎo)的學(xué)習(xí)(Supervised Learning),定義通過對
6、大量已知分類或輸出結(jié)果值的實例進行訓(xùn)練,調(diào)整分類模型的結(jié)構(gòu),達到建立能夠準確分類或預(yù)測未知模型的目的。這種基于歸納的概念學(xué)習(xí)過程被稱為有指導(dǎo)(監(jiān)督)的學(xué)習(xí)。數(shù)據(jù)實例(Instance)用于有指導(dǎo)學(xué)習(xí)的樣本數(shù)據(jù)訓(xùn)練實例(Training Instance)用于訓(xùn)練的實例檢驗實例(Test Instance)分類模型建立完成后,經(jīng)過檢驗實例進行檢驗,判斷模型是否能夠很好地應(yīng)用在未知實例的分類或預(yù)測中。,2024年3月22日星期五
7、,第10頁,共65頁,【例1.1】,給定如表1.1所示的數(shù)據(jù)集T,使用有指導(dǎo)的學(xué)習(xí)方法建立分類模型,對未知類別的實例進行分類。,表1.1 感冒診斷假想數(shù)據(jù)集,2024年3月22日星期五,第12頁,共65頁,表1.1 感冒診斷假想數(shù)據(jù)集,決策樹(Decision Tree),倒立樹,非葉子節(jié)點表示在一個屬性上的分類檢查,葉子節(jié)點表示決策判斷的結(jié)果,該結(jié)果選擇了正確分類較多實例的分類。決策樹有很多算法(第2章),2024年3月22日星期五
8、,第13頁,共65頁,,圖1.1 感冒類型診斷C4.5決策樹,分類未知實例,分類模型建立和檢驗完成后,就可以實際投入使用,即用該模型對未知分類的實例進行分類。,2024年3月22日星期五,第14頁,共65頁,表1.2 未知分類的數(shù)據(jù)實例,產(chǎn)生式規(guī)則,決策樹一般都可以被翻譯為一個產(chǎn)生式規(guī)則集合。產(chǎn)生式規(guī)則的格式為:IF 前提條件 THEN 結(jié)論圖1.1翻譯為4條產(chǎn)生式規(guī)則(1)IF Sore-throat = No THEN
9、Cold-type = Viral(2)IF Sore-throat = Yes & Cooling-effect = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial(4)IF Sore-throat = Yes & Cooling-eff
10、ect = Unknown THEN Cold-type = Bacterial,2024年3月22日星期五,第15頁,共65頁,1.2.4 無指導(dǎo)的聚類(Unsupervised Clustering),無指導(dǎo)(監(jiān)督)聚類一種無指導(dǎo)(無教師)的學(xué)習(xí);在學(xué)習(xí)訓(xùn)練之前,無預(yù)先定義好分類的實例,數(shù)據(jù)實例按照某種相似性度量方法,計算實例之間的相似程度,將最為相似的實例聚類在一個組——簇(Cluster)中,再解釋和理解每個簇的含義,從中
11、發(fā)現(xiàn)聚類的意義。,2024年3月22日星期五,第16頁,共65頁,【例1.2】,給定如表1.1所示的數(shù)據(jù)集T,使用無指導(dǎo)聚類方法,對所有實例進行分類,解釋每個簇的含義。,挖掘準備,刪除Cold-type(感冒類型)屬性選擇算法無指導(dǎo)聚類有很多種算法,K-means(K-均值)算法、凝聚聚類方法、概念分層Cobweb算法、EM算法等。K-means算法是一種最為常用和易用的算法。指定初始簇K-means(K-均值)算法在聚類前
12、指定一個初始的簇的個數(shù),本例指定為2。,2024年3月22日星期五,第18頁,共65頁,聚類結(jié)果,聚類為兩個簇,每個簇有5個實例,分別為Cluster0 = {1,3,4,8,9}Cluster1 = {2,5,6,7,10}每個簇的概念結(jié)構(gòu)可以表示為一個產(chǎn)生式規(guī)則(1)IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0(rule
13、accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)(2)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cluster = 1(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%),2024年3月22日星期五,第19頁,共65頁,1.3 數(shù)據(jù)查詢,數(shù)據(jù)查詢(Data
14、 Query),通過數(shù)據(jù)查詢語言在數(shù)據(jù)中找出所需要的數(shù)據(jù)或信息。什么時候使用數(shù)據(jù)挖掘,什么時候使用數(shù)據(jù)查詢呢?獲取淺知識或多維知識(Multidimensional Knowledge)獲取數(shù)據(jù)中潛在的、隱藏的信息或知識——隱含知識(Hidden Knowledge),2024年3月22日星期五,第21頁,共65頁,1.4 專家系統(tǒng),專家系統(tǒng)(Expert System),一種具有“智能”的計算機軟件系統(tǒng)。能夠模擬某個領(lǐng)域的人類
15、專家的決策過程,解決那些需要人類專家處理的復(fù)雜問題。一般包含以規(guī)則形式表示的領(lǐng)域?qū)<业闹R和經(jīng)驗,系統(tǒng)就是利用這些知識和方法進行推理和判斷,從而解決該領(lǐng)域中實際問題。專家(Expert)有能力解決領(lǐng)域中復(fù)雜問題的人通常被稱為該領(lǐng)域中的專家(Expert),2024年3月22日星期五,第23頁,共65頁,專家系統(tǒng)方法 與 數(shù)據(jù)挖掘方法,2024年3月22日星期五,第24頁,共65頁,,圖1.2 專家系統(tǒng)方法vs 數(shù)據(jù)挖掘方法,1.5
16、 數(shù)據(jù)挖掘的過程,KDD過程,數(shù)據(jù)挖掘是KDD過程中的一個階段(第3章)一次數(shù)據(jù)挖掘?qū)嶒灧譃?個步驟(1)準備數(shù)據(jù),包括準備訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)(2)選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘軟件(3)解釋和評估結(jié)果(4)模型應(yīng)用,2024年3月22日星期五,第26頁,共65頁,,圖1.3 數(shù)據(jù)挖掘?qū)嶒炦^程示意圖,1.5.1 準備數(shù)據(jù),是整個數(shù)據(jù)挖掘過程中較為重要和費時費力的階段。在明確數(shù)據(jù)挖掘目標后,可以通過從傳統(tǒng)數(shù)據(jù)
17、庫、數(shù)據(jù)倉庫和平面文件三種途徑收集和抽取數(shù)據(jù)。1、傳統(tǒng)數(shù)據(jù)庫操作型數(shù)據(jù)庫(Operational Database),它是面向日常事務(wù)處理的數(shù)據(jù)庫,通常結(jié)構(gòu)為關(guān)系模型。數(shù)據(jù)庫中包含若干個規(guī)范化了的二維關(guān)系表。2、數(shù)據(jù)倉庫數(shù)據(jù)倉庫(Data Warehouse)是面向決策支持而不是日常事務(wù)處理而設(shè)計的。3、平面文件一些數(shù)據(jù)量較小的數(shù)據(jù)集可以存儲在如Excel電子表格、.csv、.arff等平面文件中。,2024年3月22日星期
18、五,第27頁,共65頁,1.5.2 挖掘數(shù)據(jù),選擇一種數(shù)據(jù)挖掘技術(shù)或算法,將數(shù)據(jù)提交給數(shù)據(jù)挖掘工具,應(yīng)用該算法建立模型。選擇數(shù)據(jù)挖掘技術(shù)或算法需要考慮(1)判斷學(xué)習(xí)是有指導(dǎo)的還是無指導(dǎo)的。(2)數(shù)據(jù)集中的哪些實例和屬性提交給數(shù)據(jù)挖掘工具;哪些數(shù)據(jù)實例作為訓(xùn)練數(shù)據(jù);哪些數(shù)據(jù)實例作為檢驗數(shù)據(jù)。(3)如何設(shè)置數(shù)據(jù)挖掘算法的參數(shù)。,2024年3月22日星期五,第28頁,共65頁,1.5.3 解釋和評估結(jié)果,對數(shù)據(jù)挖掘的輸出進行檢查,評估
19、其是否達到挖掘目標,確定所發(fā)現(xiàn)的信息或知識是有價值的。數(shù)據(jù)挖掘的評估工具有多種(第5章)如果結(jié)果不理想,可以(1)(2)進行重復(fù)實驗,直到得到滿意結(jié)果為止。(1)使用或選擇新的數(shù)據(jù)實例或?qū)傩裕?)選擇新的數(shù)據(jù)挖掘算法或參數(shù)一個數(shù)據(jù)挖掘過程是個迭代的過程。,2024年3月22日星期五,第29頁,共65頁,1.5.4 模型應(yīng)用,數(shù)據(jù)挖掘的終極目標??梢詰?yīng)用分類模型解決如例1.1中的疾病診斷問題;可以應(yīng)用聚類模型解決對顧客的
20、分類,找出不同類中顧客的行為特征,從而為諸如促銷活動等提供決策支持;可以通過應(yīng)用關(guān)聯(lián)分析模型,找出顧客購買的商品之間的關(guān)聯(lián)關(guān)系,對于貨架擺放、商品促銷等提供決策支持。,2024年3月22日星期五,第30頁,共65頁,1.6 數(shù)據(jù)挖掘的作用,數(shù)據(jù)挖掘的作用,兩大類建立有指導(dǎo)的學(xué)習(xí)模型和無指導(dǎo)聚類模型。因變量(Dependent Variables)有指導(dǎo)的學(xué)習(xí)模型中的輸出屬性的值依賴于輸入屬性的取值,所以輸出屬性又被稱為因變量自
21、變量(Independent Variables)相對的,輸入屬性被稱為自變量,2024年3月22日星期五,第32頁,共65頁,數(shù)據(jù)挖掘的作用,2024年3月22日星期五,第33頁,共65頁,,圖1.4數(shù)據(jù)挖掘的作用,1.7 數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘技術(shù)(Data Mining Technique),對一組數(shù)據(jù)應(yīng)用一種數(shù)據(jù)挖掘方法。一般由一個數(shù)據(jù)挖掘算法和一個相關(guān)的知識結(jié)構(gòu),如樹結(jié)構(gòu)或規(guī)則來定義的。,2024年3月22日星期五,第35
22、頁,共65頁,1.7.1 神經(jīng)網(wǎng)絡(luò)(Neural Network),一種具有統(tǒng)計特性的數(shù)學(xué)模型。創(chuàng)建思想源于人類神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、功能和運行過程。試圖模擬人腦功能來完成學(xué)習(xí)。已經(jīng)成功地應(yīng)用于多個領(lǐng)域的問題中,是非常流行的數(shù)據(jù)挖掘技術(shù)??梢越⒂兄笇?dǎo)學(xué)習(xí)模型和無指導(dǎo)聚類模型。輸入屬性必須是數(shù)值的,輸出屬性可以是數(shù)值的也可以是分類的。,2024年3月22日星期五,第36頁,共65頁,前饋(Feed-Forward)神經(jīng)網(wǎng),常用的有指
23、導(dǎo)的學(xué)習(xí)模型。全連接每一層的每個節(jié)點都與其下一層的所有節(jié)點相連接,而同層節(jié)點之間不相連。每個網(wǎng)絡(luò)連接上都具有權(quán)重值,如w1j、w2j、w3j。,2024年3月22日星期五,第37頁,共65頁,圖1.5 三層全連接前饋神經(jīng)網(wǎng),建立神經(jīng)網(wǎng)絡(luò)模型的兩個階段,第一個階段——學(xué)習(xí)訓(xùn)練階段將每個實例的輸入屬性值提交給輸入層節(jié)點。神經(jīng)網(wǎng)絡(luò)使用輸入值和網(wǎng)絡(luò)連接權(quán)重值來計算每個實例的輸出。將每個實例的輸出和希望的網(wǎng)絡(luò)輸出進行比較,希望值和計算輸
24、出值之間的誤差通過修改連接權(quán)值傳回網(wǎng)絡(luò)。當達到一定的迭代次數(shù)后或當網(wǎng)絡(luò)收斂到一個預(yù)定的最低錯誤率時,訓(xùn)練終止。第二個階段——檢驗階段固定網(wǎng)絡(luò)權(quán)重,將模型用于計算新實例的輸出值。,2024年3月22日星期五,第38頁,共65頁,1.7.2 回歸分析(Regression Analysis),一種統(tǒng)計分析方法。可以用來確定兩個或兩個以上變量之間的定量的依賴關(guān)系,并建立一個數(shù)學(xué)方程作為數(shù)學(xué)模型,來概化一組數(shù)值數(shù)據(jù),進而進行數(shù)值數(shù)據(jù)的估值
25、和預(yù)測。應(yīng)用非常廣泛。,2024年3月22日星期五,第39頁,共65頁,辦公樓數(shù)據(jù)集,2024年3月22日星期五,第40頁,共65頁,表1.3 辦公樓數(shù)據(jù)集,回歸模型,2024年3月22日星期五,第41頁,共65頁,y = 27.64×2500 + 12 529.77×3 + 2553.21×2?234.24×25 + 52 317.83 = 158 257.56,使用回歸方程預(yù)估辦公樓的價值。
26、設(shè)有一座未知價值的辦公樓,面積為 2500、3個辦公室、2 個入口,已使用 25 年,則其估計價值計算所得,為158 257.56。,1.7.3 關(guān)聯(lián)分析,一種關(guān)聯(lián)規(guī)則(Association Rule)挖掘技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中屬性之間的有價值的聯(lián)系。關(guān)聯(lián)規(guī)則可以有多個輸出屬性,一個規(guī)則的輸出屬性可以在另一規(guī)則中作為輸入屬性。關(guān)聯(lián)分析用來發(fā)現(xiàn)潛在的令人感興趣的商品購買組合,是購物籃分析的常用技術(shù)。關(guān)聯(lián)分析有多種算法,其中最著名的
27、為Agrawal等人于1993年提出的Apriori關(guān)聯(lián)分析算法。Apriori算法不支持數(shù)值型數(shù)據(jù),在使用該算法之前,需要進行必要的數(shù)據(jù)變換。,2024年3月22日星期五,第42頁,共65頁,【例1.3】,應(yīng)用Apriori算法,對表1.1中的數(shù)據(jù)集進行關(guān)聯(lián)分析,找出感冒癥狀之間的關(guān)聯(lián)關(guān)系。,關(guān)聯(lián)規(guī)則,生成三條關(guān)聯(lián)規(guī)則(1)IF Leukocytosis = Yes THEN Fever = Yes(rule accuracy
28、= 5/5 = 100%,rule coverage = 5/8 = 62.5%)(2)IF Increased-lym = No THEN Sore-throat=Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/7 = 57.1%)(3) IF Cooling-effect = Good THEN Fever = Yes(rule accuracy = 4/4 = 100%,r
29、ule coverage = 4/8 = 50%),2024年3月22日星期五,第44頁,共65頁,1.7.4 聚類技術(shù),基于劃分的聚類方法(K-means算法)基于分層的聚類方法基于模型的聚類方法。。。,2024年3月22日星期五,第45頁,共65頁,1.8 數(shù)據(jù)挖掘的應(yīng)用,1.8.1應(yīng)用領(lǐng)域,2024年3月22日星期五,第47頁,共65頁,圖1.6 www.kdnuggets.com網(wǎng)站公布的2012年數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域,1
30、.8.2 成功案例,除了最著名的沃爾瑪?shù)哪虿己推【浦?,還有(1)Empire Blue Cross公司利用DWT,甄別出虛假開立醫(yī)療憑據(jù)的醫(yī)生,節(jié)省濫賠支出。(2)金融犯罪強制網(wǎng)絡(luò)AI系統(tǒng)(FAIS)使用DWT ,識別大型現(xiàn)金交易中可能存在的洗錢行為。(3)加拿大西門菲沙大學(xué)(Simon Fraser)的KDD研究組根據(jù)其擁有的十幾年的客戶數(shù)據(jù),進行數(shù)據(jù)挖掘分析,提出了新的電話收費和管理辦法,制定出公司和客戶都受益的優(yōu)惠政策。
31、(4)美國梅隆(Mellon)銀行使用Intelligent Agent數(shù)據(jù)挖掘工具提高銷售和定價金融產(chǎn)品的準確率。(5)美國西部通信(US West Communications)根據(jù)家庭大小、家庭成員平均年齡和所在地特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來確定客戶的傾向和需要,從而幫助簽約新客戶和增加與新客戶的交易額。(6)使用貝葉斯分類數(shù)據(jù)挖掘技術(shù),薩莎(Sacha)等人成功地通過心肌SPECT圖像對心肌灌注進行分類,診斷患者是否患有冠
32、心病。(7)20世紀Fox公司利用數(shù)據(jù)挖掘技術(shù)分析票房收入來確定在各個市場環(huán)境中更容易被接受的演員和故事情節(jié)。(8)科學(xué)界普遍認為存在兩種γ射線爆。慕克吉(Mukherjee)等人使用統(tǒng)計聚類分析法發(fā)現(xiàn)了第三類γ射線爆。(9)NBA球隊使用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。(10)全球十大視頻網(wǎng)站 之一Netflix公司應(yīng)用大數(shù)據(jù)的挖掘技術(shù),成功營銷熱播劇——《紙牌屋
33、》。,2024年3月22日星期五,第48頁,共65頁,1.9 Weka數(shù)據(jù)挖掘軟件,1.9.1 Weka簡介,Weka(Waikato Environment for Knowledge Analysis,懷卡托智能分析環(huán)境)誕生于 University of Waikato(新西蘭懷卡托大學(xué))?;贘ava 的免費開源軟件。集成了有關(guān)數(shù)據(jù)挖掘的機器學(xué)習(xí)算法和統(tǒng)計技術(shù),具有數(shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)分析、屬性選擇和交互式可視化等
34、功能。操作簡單、易學(xué)易用,作為入門軟件完成簡單挖掘工作。若未安裝 JRE,需下載包含 JRE 的 Weka 版本(Weka 3.6.10),2024年3月22日星期五,第50頁,共65頁,1. Weka的特點,Weka軟件特點,(1)跨平臺;(2)支持結(jié)構(gòu)化文本文件、數(shù)據(jù)挖掘格式文件和數(shù)據(jù)庫接口;(3)可處理連續(xù)型數(shù)值數(shù)據(jù)和離散型(字符型和日期型)數(shù)據(jù);(4)具有缺失數(shù)據(jù)處理、噪聲處理、標準化、數(shù)據(jù)離散化、屬性構(gòu)造、轉(zhuǎn)換變量、
35、拆分數(shù)據(jù)、數(shù)據(jù)平滑等數(shù)據(jù)預(yù)處理功能;(5)具有分類、聚類、關(guān)聯(lián)和可視化等數(shù)據(jù)挖掘功能;(6)提供算法組合、用戶自定義算法嵌入、算法參數(shù)設(shè)置功能;(7)能夠生成基本報告、測試報告、輸出格式,實現(xiàn)模型解釋、模型比較、數(shù)據(jù)評分功能;(8)具有數(shù)據(jù)、挖掘過程及挖掘結(jié)果可視化功能。,2024年3月22日星期五,第52頁,共65頁,2. Weka的文件格式,ARFF文件,Weka默認使用ARFF(Attribute-Relation Fil
36、e Format)。一種ASCII文本文件格式,由兩部分組成第一部分為頭信息(Head Information),包括對關(guān)系的聲明和對屬性的聲明;第二部分為數(shù)據(jù)信息(Data Information),即數(shù)據(jù)集中的數(shù)據(jù)實例(Instance)。,2024年3月22日星期五,第54頁,共65頁,圖1.7 表1.1感冒類型診斷數(shù)據(jù)集的arff文件格式,3. Weka的功能,4 種界面(GUI),(1)Explorer:數(shù)據(jù)挖掘用戶最
37、常用的界面。有6個選項卡(6種功能)Preprocess (預(yù)處理)Classify(分類)Cluster(聚類)Associate(關(guān)聯(lián)分析)Select attributes(屬性選擇)Visualize(可視化)(2)Experimenter(3)Knowledge Flow(4)Simple CLI,2024年3月22日星期五,第56頁,共65頁,實戰(zhàn),1.9.2 使用Weka建立決策樹模型1.9.3 使用
38、Weka進行聚類1.9.4 使用Weka進行關(guān)聯(lián)分析,2024年3月22日星期五,第57頁,共65頁,【例1.4】,使用Weka為表1.1感冒類型診斷數(shù)據(jù)集建立決策樹模型,并對表1.2中的未知類別的實例進行分類。,實驗步驟,1、準備數(shù)據(jù)2、加載和預(yù)處理數(shù)據(jù)3、建立分類模型4、分類未知實例,2024年3月22日星期五,第59頁,共65頁,圖1.13 感冒類型診斷決策樹,圖1.14 表1.2中兩個未知實例的分類結(jié)果,【例1.5】,
39、使用Weka對表1.1感冒類型診斷數(shù)據(jù)集進行聚類,解釋和評估聚類結(jié)果。,實驗步驟,1、準備數(shù)據(jù)2、加載和預(yù)處理數(shù)據(jù)3、聚類4、解釋和評估聚類結(jié)果,2024年3月22日星期五,第61頁,共65頁,圖1.17 感冒類型診斷聚類結(jié)果,【例1.6】,使用Weka分析表1.1感冒類型診斷數(shù)據(jù)集中數(shù)據(jù)的關(guān)聯(lián)關(guān)系。,實驗步驟,1、準備數(shù)據(jù)2、加載和預(yù)處理數(shù)據(jù)3、關(guān)聯(lián)分析4、解釋和評估結(jié)果,2024年3月22日星期五,第63頁,共65頁,圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第6章數(shù)據(jù)挖掘
- 03.《大數(shù)據(jù)》配套之四第3章-數(shù)據(jù)挖掘算法下
- 第5章數(shù)據(jù)挖掘的實施過程
- 數(shù)據(jù)挖掘課件第3章關(guān)聯(lián)規(guī)則挖掘理論和算法(new)
- 數(shù)據(jù)挖掘?qū)д?完整版) 習(xí)題答案
- 數(shù)據(jù)挖掘?qū)д摿?xí)題答案中文版
- 數(shù)據(jù)挖掘?qū)д?完整版) 習(xí)題答案
- 數(shù)據(jù)挖掘?qū)д?-第4章-分類基本概念、決策樹與模型評估
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 數(shù)據(jù)挖掘
- 外文翻譯-----數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 第9章 電子政務(wù)中的數(shù)據(jù)挖掘技術(shù)
- 第3章 數(shù)據(jù)挖掘的體系結(jié)構(gòu)與模型
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教學(xué)大綱
- 數(shù)據(jù)挖掘第二章作業(yè)
- 大數(shù)據(jù)與數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘案例
- 大數(shù)據(jù)挖掘外文翻譯—大數(shù)據(jù)挖掘研究
評論
0/150
提交評論