版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、3.資料關(guān)聯(lián) Association,關(guān)聯(lián)範(fàn)例三:鐵達(dá)尼號(hào)關(guān)聯(lián)分析,資料關(guān)聯(lián)範(fàn)例一,函數(shù)【apriori】檔案 beer.xls5 records 6 fields,關(guān)聯(lián)法則基本概念,在資料探勘的領(lǐng)域之中,關(guān)聯(lián)性法則(association rule)是最常被使用的方法。關(guān)聯(lián)性法則在於找出資料庫(kù)中的資料間彼此的相關(guān)聯(lián)性。在關(guān)聯(lián)性法則之使用中,Apriori是最為著名且廣泛運(yùn)用的演算法。最早是由Agrawal & Srikan
2、t 等兩位學(xué)者於1994年首先提出。if前項(xiàng)antecedent(s) then後項(xiàng)consequent(s),關(guān)聯(lián)規(guī)則分析,Transaction 項(xiàng)目列表, 每一列均為單一購(gòu)物籃中的項(xiàng)目名稱列表,以逗點(diǎn)或空格相隔,項(xiàng)目名稱必須是英文,關(guān)聯(lián)規(guī)則分析,規(guī)則X? Y X和Y為物件的集合X稱為前項(xiàng)antecedents (lhs:left hand sides) Y稱為後項(xiàng)consequents (rhs:right hand si
3、des)支援度support: X和Y同時(shí)出現(xiàn)的次數(shù)/所有交易數(shù)信賴度confidence: X和Y同時(shí)出現(xiàn)的次數(shù)/X出現(xiàn)的次數(shù)提昇lift: support/ ((support(X) * (support(Y))Given X, the probability of buying Y increases規(guī)則範(fàn)例:{Milk, Diaper} ? {Beer} (s=0.4, c=0.67){Milk, Beer}
4、? {Diaper} (s=0.4, c=1.0){Diaper, Beer} ? {Milk} (s=0.4, c=0.67){Beer} ? {Milk, Diaper} (s=0.4, c=0.67),資料是0或1二元檔,若您的購(gòu)物籃資料是 0,1 二元檔,則直接當(dāng)作輸入檔,需轉(zhuǎn)換成矩陣beer=as.matrix(beer),資料是0或1二元檔的程式碼,#Apriori beer.xlslibrary(xlsx)li
5、brary(arules)beer=read.xlsx("d:\\stella\\R\\beer.xls",header=T,sheetIndex=1)beer=as.matrix(beer)rule=apriori(beer,parameter=list(supp=0.2,conf=0.8,maxlen=5)) #default 是0.1, 0.8, 10inspect(rule)summary(ru
6、le)inspect(head(sort(rule,by="support"),10)),apriori的執(zhí)行結(jié)果,原始的關(guān)聯(lián)規(guī)則,排序後的關(guān)聯(lián)規(guī)則,資料是各項(xiàng)物品名稱,若購(gòu)物籃資料是各項(xiàng)物品名稱,則以read.transactions指令輸入後,再轉(zhuǎn)換成交易檔beer2=as(beer,"transactions"),資料是物品名稱的程式碼,library(arules)beer=read.
7、transactions("d:\\stella\\R\\beer.txt",sep=",")beer2=as(beer,"transactions")Inspect(beer2)rule=apriori(beer2,parameter=list(supp=0.2,conf=0.8,maxlen=5))inspect(head(sort(rule,by="su
8、pport"),10)),apriori的執(zhí)行結(jié)果,,可依support, confidence或lift排序,,資料關(guān)聯(lián)範(fàn)例二,函數(shù)【apriori】檔案 shopping.txt786 records 15 fields,購(gòu)物產(chǎn)品關(guān)聯(lián)分析,shopping.txt的欄位計(jì)有15項(xiàng),產(chǎn)品分為10個(gè)類別分別是Ready made、Frozen Food、Alcohol 、 Fresh Vegetables、 Milk、 Ba
9、kery goods 、 Fresh meat、 Toiletries、 Snacks、Tinned Goods,有買資料值為1,沒買則資料值為0沒用到的基本資料包括GENDER 、 AGE、 MARITAL、 CHILDREN、WORKING ( Currently employed?),關(guān)聯(lián)模型注意事項(xiàng),建模時(shí)可以設(shè)定支援度、信賴度等建模的細(xì)節(jié),當(dāng)門檻值過高而無法生成模型時(shí),使用者須適度調(diào)整門檻值 執(zhí)行後產(chǎn)生關(guān)聯(lián)規(guī)則的模型,可以
10、查看詳細(xì)的規(guī)則內(nèi)容。排序的規(guī)則有支援度(Support)、信賴度(Confidence) 、提昇(Lift) 等方式, 使用者可依需求選擇也可以產(chǎn)生自訂目標(biāo)的關(guān)聯(lián)規(guī)則,Modeler 4個(gè)關(guān)聯(lián)規(guī)則的準(zhǔn)則,,,R的support,,前項(xiàng)支援度,,名詞解釋 (第一個(gè)關(guān)聯(lián)規(guī)則為例),全部總共786筆資料買Milk和Frozen Food的人是85筆買Bakery goods的人是337筆買Milk和Frozen Food而且買Bake
11、ry goods的人是71筆買Milk和Frozen Food但不買Bakery goods的人是14筆後項(xiàng)(R的rhs) – Bakery goods 前項(xiàng)(R的lhs) – Milk和Frozen Food實(shí)例– 85,即符合前項(xiàng)的筆數(shù),名詞解釋,支援度–10.814 = 85/786,是指購(gòu)買前項(xiàng)產(chǎn)品的客戶佔(zhàn)全部客戶的比例(R的support是指以下的規(guī)則支援度)信賴度 - 83.529 = 71/85,是指購(gòu)買前項(xiàng)產(chǎn)品
12、的客戶中也買後項(xiàng)產(chǎn)品的比例 規(guī)則支援%(即支援度x信賴度)–9.033 = 10.814% x 83.529% 或= 71 / 786,指購(gòu)買前項(xiàng)產(chǎn)品也買後項(xiàng)產(chǎn)品的客戶佔(zhàn)全部客戶的比例 提昇–1.948 = (71/85)/ (337/786)或 = 83.529% / 42.875%,指購(gòu)買後項(xiàng)產(chǎn)品佔(zhàn)購(gòu)買前項(xiàng)產(chǎn)品的比例除以購(gòu)買後項(xiàng)產(chǎn)品佔(zhàn)全部客戶的比例,apriori的程式碼,library(arules)shopping=rea
13、d.csv("d:\\stella\\R\\shopping.txt", header=T)head(shopping)shopping=shopping[,1:10]shopping=na.exclude(shopping)shopping=as.matrix(shopping) rule=apriori(shopping,parameter=list(supp=0.09, conf=0.8,maxlen
14、=5))inspect(head(sort(rule,by="support"),10))inspect(head(sort(rule,by="confidence"),10)),apriori的程式碼,產(chǎn)生4個(gè)關(guān)聯(lián)規(guī)則,目標(biāo)為Alcohol的關(guān)聯(lián)規(guī)則,,資料關(guān)聯(lián)範(fàn)例三,函數(shù)【apriori】檔案Titanic2201 records 4 fields,關(guān)聯(lián)規(guī)則探勘步驟,直接用資料框架變數(shù)或
15、將購(gòu)物籃資料轉(zhuǎn)成交易檔格式,或?qū)?或1二元檔轉(zhuǎn)成矩陣以預(yù)設(shè)值進(jìn)行初步探勘(supp=0.1,conf=0.8,maxlen=10)調(diào)整參數(shù)設(shè)定為我們想要看的面向(Survived與否)修剪多餘的規(guī)則關(guān)聯(lián)規(guī)則視覺化,轉(zhuǎn)檔和初步探勘的程式碼,#apriori Titanicdf=as.data.frame(Titanic) #32x5Titan=NULLfor (i in 1:4)Titan=cbind(Titan,rep
16、(as.character(df[,i]),df$Freq))Titan=as.data.frame(Titan) #2201x4names(Titan)=names(df)[1:4]summary(Titan)library(arules)rule=apriori(Titan)inspect(rule),將內(nèi)建資料轉(zhuǎn)成交易檔格式,,以預(yù)設(shè)值進(jìn)行初步探勘,產(chǎn)生27個(gè)規(guī)則,調(diào)整參數(shù)與移除重複規(guī)則,#refine and pru
17、ning rulesrule=apriori(Titan,parameter=list(minlen=2,supp=0.005,conf=0.8),appearance=list(rhs=c("Survived=No","Survived=Yes"),default="lhs"))rulesort=sort(rule,by="lift")inspect
18、(rulesort)subset.matrix=is.subset(rulesort,rulesort)redundant=colSums(subset.matrix) > 1which(redundant)rulepruned=rulesort[!redundant]inspect(rulepruned),限定後項(xiàng)參數(shù)為Survived,,移除重複規(guī)則,,再調(diào)整前項(xiàng)後項(xiàng)參數(shù)的程式碼,rule2=apriori(Tita
19、n, control = list(verbose=F),parameter = list(minlen=3, supp=0.002, conf=0.2),appearance = list(default="none", rhs=c("Survived=Yes"), lhs=c("Class=1st", "Class=2nd", "Class=
20、3rd","Age=Child", "Age=Adult")))rule2.sorted= sort(rule2, by="confidence")inspect(rule2.sorted),再審視兒童的存活率和艙等,關(guān)聯(lián)規(guī)則視覺化,library(arulesViz)#Heat map (熱圖)plot(rulepruned)#Balloon plot (
21、氣球圖)plot(rulepruned,method="grouped") # Graph (網(wǎng)路圖)plot(rulepruned,method="graph",control =list(type="items"))# Parallel coordinates plot (平行座標(biāo)圖)plot(rulepruned, method = "paracoor
22、d", control = list(reorder = TRUE)),Heat map (熱圖),Balloon plot (氣球圖),Graph (網(wǎng)路圖),平行座標(biāo)圖,資料關(guān)聯(lián)範(fàn)例四,函數(shù)【cspade】檔案 TelRepair.txt750 cases 5915 records 3 fields,序列分析,序列(Sequence)分析的重點(diǎn)在於資料中必須存在先後順序的關(guān)係(例如時(shí)間)序列分析類似於關(guān)聯(lián)規(guī)則,但還得考
23、量時(shí)間的先後順序,也就是說著重時(shí)間的順序作資料關(guān)聯(lián)的分析,序列分析可以提供我們針對(duì)客戶客製化行銷的預(yù)測(cè),掌握良機(jī),當(dāng)某位客戶買了某項(xiàng)產(chǎn)品後,就已經(jīng)預(yù)告將來的某個(gè)時(shí)間點(diǎn)會(huì)再度買我們的附加產(chǎn)品或服務(wù),維修案例檔案說明,檔案TelRepair.txt包括750個(gè)維修案例,共有 5915紀(jì)錄,3個(gè)欄位第1個(gè)欄位是ID,對(duì)應(yīng)一份診斷修理報(bào)告,第2個(gè)欄位紀(jì)錄著每個(gè)ID修理診斷的順序,第3個(gè)欄位紀(jì)錄每次修理診斷的動(dòng)作每份診斷修理報(bào)告開始以代碼9
24、0表示(但只有727個(gè)案例是),成功完成修理以代碼210表示,若問題無法成功解決,則以代碼299表示練習(xí)失敗案例檔案FailTelRepair.txt,檔案格式(不需欄名),Modeler執(zhí)行結(jié)果(成功率92%=690/750),,重複修理( 22.133% = 166/750個(gè)id),,序列分析的程式碼,# cspade TelRepairlibrary("arulesSequences")repair=re
25、ad_baskets("d:\\stella\\R\\TelRepair.txt",sep="\t",info=c("sequenceID","eventID"))arulesSeq=cspade(repair,parameter = list(supp=0.2),control = list(verbose=T),tmpdir=tempdir())su
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中外經(jīng)濟(jì)關(guān)聯(lián)性探討
- 證據(jù)關(guān)聯(lián)性規(guī)則研究.pdf
- 納達(dá)爾發(fā)球階段關(guān)聯(lián)性研究
- 兩變量關(guān)聯(lián)性分析介紹
- 中美股市關(guān)聯(lián)性分析.pdf
- 建筑更新的關(guān)聯(lián)性研究.pdf
- 刑事證據(jù)關(guān)聯(lián)性規(guī)則研究.pdf
- 審計(jì)和財(cái)務(wù)的關(guān)聯(lián)性探析
- 納達(dá)爾發(fā)球階段關(guān)聯(lián)性研究.pdf
- 字幕翻譯中的最佳關(guān)聯(lián)性
- 關(guān)聯(lián)性與引文理解.pdf
- 環(huán)保責(zé)任與企業(yè)價(jià)值關(guān)聯(lián)性研究
- 美國(guó)證據(jù)關(guān)聯(lián)性規(guī)則的研究.pdf
- 企業(yè)金融關(guān)聯(lián)性風(fēng)險(xiǎn)圖研究.pdf
- 攝影與政治之間的關(guān)聯(lián)性.pdf
- 中子蒸發(fā)與裂變碎片關(guān)聯(lián)性研究
- 法律方法的類型及其關(guān)聯(lián)性.pdf
- 鑒定結(jié)論關(guān)聯(lián)性研究.pdf
- 刑事訴訟證據(jù)關(guān)聯(lián)性研究.pdf
- 消費(fèi)與幸福的關(guān)聯(lián)性研究.pdf
評(píng)論
0/150
提交評(píng)論