版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)挖掘の關(guān)聯(lián)分析,沃爾瑪,請把蛋撻與颶風(fēng)用品擺在一起,通過對歷史交易記錄這個龐大數(shù)據(jù)庫進(jìn)行觀察,沃爾瑪注意到,每當(dāng)季節(jié)性颶風(fēng)來臨之前,不僅手電筒銷量增加,而且美式早餐含糖零食蛋撻銷量也增加了。因此每當(dāng)季節(jié)性颶風(fēng)來臨時,沃爾瑪就會把蛋撻與颶風(fēng)用品擺放在一起,從而增加銷量。,2,案例回顧,尿不濕和啤酒,超級商業(yè)零售連鎖巨無霸沃爾瑪公司(Wal Mart)擁有世上最大的數(shù)據(jù)倉庫系統(tǒng)之一。為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對
2、其顧客的購物行為進(jìn)行了購物籃關(guān)聯(lián)規(guī)則分析,從而知道顧客經(jīng)常一起購買的商品有哪些。跟尿不濕一起購買最多的商品竟是啤酒”!這是數(shù)據(jù)挖掘技術(shù)對歷史數(shù)據(jù)進(jìn)行分析的結(jié)果,反映的是數(shù)據(jù)的內(nèi)在規(guī)律。那么這個結(jié)果符合現(xiàn)實情況嗎?是否是一個有用的知識?是否有利用價值?,3,尿不濕和啤酒,經(jīng)過大量實際調(diào)查和分析,他們揭示了一個隱藏在“尿不濕與啤酒”背后的美國消費者的一種行為模式:在美國,到超市去買嬰兒尿不濕是一些年輕的父親下班后的日常工作,而他們中有
3、30%~40%的人同時也會為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫不要忘了下班后為小孩買尿不濕,而丈夫們在買尿不濕后又隨手帶回了他們喜歡的啤酒。另一種情況是丈夫們在買啤酒時突然記起他們的責(zé)任,又去買了尿不濕。既然尿不濕與啤酒一起被購買的機會很多,那么沃爾瑪就在他們所有的門店里將尿不濕與啤酒并排擺放在一起,結(jié)果是得到了尿不濕與啤酒的銷售量雙雙增長。按常規(guī)思維,尿不濕與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對
4、大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)這一有價值的規(guī)律的。,4,美國一名男子闖入他家附近的一家美國零售連鎖超市Target店鋪(美國第三大零售商塔吉特)進(jìn)行抗議:“你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券。”店鋪經(jīng)理立刻向來者承認(rèn)錯誤,但是其實該經(jīng)理并不知道這一行為是總公司運行數(shù)據(jù)挖掘的結(jié)果。如圖所示。一個月后,這位父親來道歉,因為這時他才知道他的女兒的確懷孕了。Target比這位父親知道他女兒懷孕的時間足足早了一
5、個月。,,5,美國折扣零售商塔吉特與懷孕預(yù)測,美國折扣零售商塔吉特與懷孕預(yù)測,塔吉特公司能在不被清楚告知的情況下預(yù)測出一個女性的懷孕情況該公司找出了大概20多種與懷孕的關(guān)聯(lián)物,給顧客進(jìn)行“懷孕趨勢”評分這些數(shù)據(jù)甚至使得零售商能夠比較準(zhǔn)確地預(yù)測預(yù)產(chǎn)期,這樣就能夠在孕期的每個階段給客戶寄送相應(yīng)的優(yōu)惠券Target能夠通過分析女性客戶購買記錄,“猜出”哪些是孕婦。他們從Target的數(shù)據(jù)倉庫中挖掘出25項與懷孕高度相關(guān)的商品,制作“懷孕
6、預(yù)測”指數(shù)。比如他們發(fā)現(xiàn)女性會在懷孕四個月左右,大量購買無香味乳液。以此為依據(jù)推算出預(yù)產(chǎn)期后,就搶先一步將孕婦裝、嬰兒床等折扣券寄給客戶來吸引客戶購買。,6,大數(shù)據(jù)分析核心手段、技術(shù),數(shù)據(jù)處理數(shù)據(jù)挖掘模型預(yù)測,概念,數(shù)據(jù)挖掘(Data Mining) 是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個步驟。 數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析
7、等。關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的關(guān)聯(lián),那么其中一個事物就能通過其他事物進(jìn)行預(yù)測.它的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系 。,,典型的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)問題是對超市中的貨籃數(shù)據(jù)(Market Basket)進(jìn)行分析。通過發(fā)現(xiàn)顧客放入貨籃中的不同商品之間的關(guān)系來分析顧客的購買習(xí)慣。,數(shù)據(jù)關(guān)聯(lián),經(jīng)典案例:沃爾瑪?shù)钠【坪湍虿嫉墓适?關(guān)聯(lián)規(guī)則,購物籃分析“啤酒和尿布”的故事是營銷屆的神話,“啤酒”和“尿布”兩個看上去沒有關(guān)系的
8、商品擺放在一起進(jìn)行銷售、并獲得了很好的銷售收益,這種現(xiàn)象就是賣場中商品之間的關(guān)聯(lián)性。 研究“啤酒與尿布”關(guān)聯(lián)的方法就是購物籃分析,購物籃分析是沃爾瑪秘而不宣的獨門武器,購物籃分析可以幫助我們在門店的銷售過程中找到具有關(guān)聯(lián)關(guān)系的商品,并以此獲得銷售收益的增長!,,關(guān)聯(lián)規(guī)則挖掘(Association Rule),在數(shù)據(jù)挖掘的知識模式中,關(guān)聯(lián)規(guī)則模式是比較重要的一種。關(guān)聯(lián)規(guī)則的概念由Agrawal、Imielinski、Swami
9、 提出,是數(shù)據(jù)中一種簡單但很實用的規(guī)則。在數(shù)據(jù)庫的知識發(fā)現(xiàn)中,關(guān)聯(lián)規(guī)則就是描述這種在一個事務(wù)中物品之間同時出現(xiàn)的規(guī)律的知識模式。更確切的說,關(guān)聯(lián)規(guī)則通過量化的數(shù)字描述物品甲的出現(xiàn)對物品乙的出現(xiàn)有多大的影響,現(xiàn)實中,這樣的例子很多。,例如超級市場利用前端收款機收集存儲了大量的售貨數(shù)據(jù),這些數(shù)據(jù)是一條條的購買事務(wù)記錄,每條記錄存儲了事務(wù)處理時間,顧客購買的物品、物品的數(shù)量及金額等。 這些數(shù)據(jù)中常常隱含形式如下的關(guān)聯(lián)規(guī)則:
10、在購買鐵錘的顧客當(dāng)中,有70 %的人同時購買了鐵釘。 這些關(guān)聯(lián)規(guī)則很有價值,商場管理人員可以根據(jù)這些關(guān)聯(lián)規(guī)則更好地規(guī)劃商場,如把鐵錘和鐵釘這樣的商品擺放在一起,能夠促進(jìn)銷售。,關(guān)聯(lián)規(guī)則分析拓展,1)商業(yè)銷售上,如何通過交叉銷售得到更大的收入?2)保險方面,如何分析索賠要求發(fā)現(xiàn)潛在的欺詐行為?3)銀行方面,如何分析顧客消費行業(yè),以便有針對性地向其推薦感興趣的服務(wù)?4)哪些制造零件和設(shè)備設(shè)置與故障事件關(guān)聯(lián)?5)哪些病人和藥物
11、屬性與結(jié)果關(guān)聯(lián)?6)哪些商品是已經(jīng)購買商品A的人最有可能購買的?,如何從交易記錄數(shù)據(jù)庫或關(guān)系數(shù)據(jù)庫的大量數(shù)據(jù)中挖掘出關(guān)聯(lián)規(guī)則知識?什么樣的關(guān)聯(lián)規(guī)則才是最有意義的?如何才能幫助挖掘過程盡快發(fā)現(xiàn)有價值的關(guān)聯(lián)知識?,問題,1關(guān)聯(lián)規(guī)則基本概念,項目(item):其中的B C M T 都稱作item。項集(itemset):item的集合,例如{B C}、{C M T}等,每個顧客購買的都是一個項集。其中,項集中item的個數(shù)稱為項集的長
12、度,含有k個item的項集成為K-itemset.交易(transaction):定義I為所有商品的集合,在這個例子中I={B C M T}。每個非空的I子集都成為一個交易。所有交易構(gòu)成交易數(shù)據(jù)庫D。,關(guān)聯(lián)規(guī)則,設(shè) I={i1,i2,…,im}是項(Item)的集合。記D為事務(wù)(Transaction)的集合(事務(wù)數(shù)據(jù)庫),事務(wù)T是項的集合,并且T?I。設(shè)A是I中一個項集,如果A?T,那么稱事務(wù)T包含A。定義1:關(guān)聯(lián)規(guī)則是形如A
13、?B的蘊涵式,這里A?I,B?I,并且A?B=?。,度量規(guī)則的指標(biāo),,支持度(support)可信度(confidence)作用度/興趣度(Lift),支持度,定義2:規(guī)則的支持度。支持度描述了A 和B 這兩個物品集在所有的事務(wù)中同時出現(xiàn)的概率有多大。規(guī)則A?B在數(shù)據(jù)庫D中具有支持度S,即概率P(AB),即: 其中|D|表示事務(wù)數(shù)據(jù)庫D的個數(shù),表示A、B兩個項集同時發(fā)生的事務(wù)個數(shù)。,可信
14、度,定義3:規(guī)則的可信度可信度就是指在出現(xiàn)了物品集A 的事務(wù)T 中,物品集B 也同時出現(xiàn)的概率規(guī)則A?B具有可信度C,表示C是條件概率P(B|A),即: 其中 表示數(shù)據(jù)庫中包含項集A的事務(wù)個數(shù)。,小結(jié),可信度是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量,支持度是對關(guān)聯(lián)規(guī)則重要性的衡量。支持度說明了這條規(guī)則在所有事務(wù)中有多大的代表性。顯然支持度越大,關(guān)聯(lián)規(guī)則越重要。有些關(guān)聯(lián)規(guī)則可信度雖然很高,但支持度卻很
15、低,說明該關(guān)聯(lián)規(guī)則實用的機會很小,因此也不重要。,理解:關(guān)聯(lián)分析中的三個重要的概念 舉例:10000個人購買了產(chǎn)品,其中購買A產(chǎn)品的人是1000個,購買B產(chǎn)品的人是2000個,AB同時購買的人是800個。,支持度指的是關(guān)聯(lián)的產(chǎn)品(假定A產(chǎn)品和B產(chǎn)品關(guān)聯(lián))同時購買的人數(shù)占總?cè)藬?shù)的比例,即800/10000=8%,有8%的用戶同時購買了A和B兩個產(chǎn)品;,可信度指的是在購買了一個產(chǎn)品之后購買另外一個產(chǎn)品的可能性,如購買了A產(chǎn)品之
16、后購買B產(chǎn)品的可信度=800/1000=80%,支持度,可信度,作用度(興趣度),討論兩種事務(wù)的比較關(guān)系 A?B作用度是兩種可能性的比較,描述物品集A 的出現(xiàn)對物品集B 的出現(xiàn)有多大的影響。,,定義4:興趣度: 公式反映了項集A與項集B的相關(guān)程度。若
17、 即 表示項集A出現(xiàn)和項集B是相互獨立的。若 表示A出現(xiàn)和B出現(xiàn)是負(fù)相關(guān)的。若 表示A出現(xiàn)和B出現(xiàn)是正相關(guān)的。意味著A的出現(xiàn)蘊含B的出現(xiàn)。,,,,,,,一條規(guī)則的興趣度越大于1說明我們對這條規(guī)則越感興趣(即其實際利用價值越大);一條規(guī)則的興趣度越小于1說明我們對這條規(guī)則的反面規(guī)則越感興趣(即其反面規(guī)則的實際利用價值越大);興趣度I不小于0。,例,設(shè)交易集D,經(jīng)過對D的分析,得到表格:,所有
18、可能的關(guān)聯(lián)規(guī)則,,討論I1﹑I2﹑I3﹑I6共4條規(guī)則:由于I1,I21,規(guī)則才有價值。興趣度也稱為作用度(Lift),表示關(guān)聯(lián)規(guī)則A→B的“提升”。如果作用度(興趣度)不大于1,則此關(guān)聯(lián)規(guī)則就沒有意義了。,,小結(jié),作用度描述了物品集A 對物品集B 的影響力的大小。作用度越大,說明物品集B 受物品集A 的影響越大。一般情況,有用的關(guān)聯(lián)規(guī)則的作用度都應(yīng)該大于1,說明A 的出現(xiàn)對B 的出現(xiàn)有促進(jìn)作用,也說明了它們之間某種程度的相關(guān)
19、性,如果作用度不大于1,則此關(guān)聯(lián)規(guī)則也就沒有意義了。,2關(guān)聯(lián)規(guī)則挖掘,在關(guān)聯(lián)規(guī)則的三個屬性中,支持度和可信度能夠比較直接形容關(guān)聯(lián)規(guī)則的性質(zhì)事實上,人們一般只對滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。因此,為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,需要由用戶給定兩個閾值: 最小支持度(min_sup)和最小可信度(min_conf),頻繁項集,如果項集滿足最小支持度,則它稱之為頻繁項集(Frequent Itemset)。,強規(guī)則,定義5:
20、強關(guān)聯(lián)規(guī)則。同時滿足最小支持度(min_sup)和最小可信度(min_conf)的規(guī)則稱之為強關(guān)聯(lián)規(guī)則,即成立時,規(guī)則稱之為強關(guān)聯(lián)規(guī)則,否則稱為弱關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘主要就是對強規(guī)則的挖掘。,,3. 關(guān)聯(lián)規(guī)則挖掘過程,關(guān)聯(lián)規(guī)則的挖掘一般分為兩個過程:(1)找出所有的頻繁項集:找出支持度大于最小支持度的項集,即頻繁項集。(2)由頻繁項集產(chǎn)生(強)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小可信度。,35,Step on
21、e: 頻繁項集,項集 –-- 任意項的集合k-項集 –-- 包含k個項的項集頻繁項集 –-- 滿足最小支持度的項集若I包含m個項,那么可以產(chǎn)生多少個項集?,36,Step two:強關(guān)聯(lián)規(guī)則,給定一個項集,容易生成關(guān)聯(lián)規(guī)則.項集: {Chips, Salsa, Beer}Beer, Chips => SalsaBeer, Salsa => ChipsChips, Salsa => Beer強規(guī)則強規(guī)
22、則通常定義為那些滿足最小支持度和最小可信度的規(guī)則.保留滿足最小可信度的規(guī)則,4 Apriori算法基本思想,Apriori是挖掘關(guān)聯(lián)規(guī)則的一個重要方法。算法分為兩個子問題:1、找到所有支持度大于最小支持度的項集(Itemset),這些項集稱為頻繁集(Frequent Itemset)。2、使用第1步找到的頻繁集產(chǎn)生規(guī)則。,,Apriori 使用一種稱作逐層搜索的迭代方法,“K-項集”用于探索“K+1-項集”。首先,找出頻繁“
23、1-項集”的集合。該集合記作L1。L1用于找頻繁“2-項集”的集合L2,而L2用于找L3,如此下去,直到不能找到“K-項集”。找每個LK需要一次數(shù)據(jù)庫掃描。,Apriori 算法中候選項集 與頻繁項集的產(chǎn)生實例,,1) 在算法的第一次迭代,每個項都是候選1-項集的集合C1的成員。算法掃描所有的事務(wù),對每個項的出現(xiàn)次數(shù)計數(shù)。見圖中第1列。2) 假定最小事務(wù)支持計數(shù)為2(即min-sup=2/9=22%),可以確定頻繁1-項
24、集的集合L1。它由具有最小支持度的候選1-項集組成。見圖中第2列。3) 為發(fā)現(xiàn)頻繁2-項集的集合L2,算法使用L1*L1來產(chǎn)生候選集C2。見圖中第3列。4) 掃描D中事務(wù),計算C2中每個候選項集的支持度計數(shù),如圖中的第4列。5) 確定頻繁2-項集的集合L2,它由具有最小支持度的C2中的候選2-項集組成。見圖第5列。,,6) 候選3-項集的集合C3的產(chǎn)生,得到候選集:C3={{A,B,C},{A,B,E},{A,C,E},{B,C
25、,D},{B,C,E},{B,D,E}}按Apriori 性質(zhì),頻繁項集的所有子集必須是頻繁的。由于{A,D},{C,D},{C,E},{D,E}不是頻繁項集,故C3中后4個候選不可能是頻繁的,在C3中刪除它們。見圖第6列。掃描D中事務(wù),對C3中的候選項集計算支持度計數(shù),見圖第7列。7) 確定L3,它由具有最小支持度的C3中候選3-項集組成,見圖第8列。8)按公式產(chǎn)生候選4-項集的集合C4,產(chǎn)生結(jié)果{A,B,C,E},這個項集被
26、剪去,因為它的子集{B,C,E}不是頻繁的。這樣L4=Ф。此算法終止。L3是最大的頻繁項集,即:{A,B,C}和{A,B,E}。,具體產(chǎn)生過程用圖表示,候選集與頻繁項集的產(chǎn)生,,在事務(wù)數(shù)據(jù)庫中,頻繁項集L={A,B,E},可以由L產(chǎn)生哪些關(guān)聯(lián)規(guī)則?L的非空子集S有:{A, B}, {A, E}, {B, E}, {A}, {B},{E}??傻玫疥P(guān)聯(lián)規(guī)則如下:A ∧ B → E conf=2/4=50%A ∧ E → B
27、conf=2/2=100%B ∧ E → A conf=2/2==100%A → B ∧ E conf=2/6=33%B → A ∧ E conf=2/7=29%E → A ∧ B conf=2/2=100%假設(shè)最小可信度為60%,則最終輸出的關(guān)聯(lián)規(guī)則為:A ∧ E → B 100%B ∧ E → A 100%E → A ∧ B 100%對于頻繁項集{A,B,C},同樣可得其它
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教學(xué)信息關(guān)聯(lián)規(guī)則挖掘.pdf
- 關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 隱私保護(hù)關(guān)聯(lián)規(guī)則挖掘.pdf
- 時序關(guān)聯(lián)規(guī)則挖掘研究.pdf
- 基于關(guān)聯(lián)規(guī)則挖掘的網(wǎng)絡(luò)告警關(guān)聯(lián).pdf
- 多尺度關(guān)聯(lián)規(guī)則挖掘方法.pdf
- 模糊關(guān)聯(lián)規(guī)則挖掘及其應(yīng)用.pdf
- 負(fù)關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 高效用關(guān)聯(lián)規(guī)則的挖掘.pdf
- 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的研究.pdf
- 關(guān)聯(lián)規(guī)則挖掘技術(shù)研究.pdf
- 教育信息的關(guān)聯(lián)規(guī)則挖掘.pdf
- 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 關(guān)聯(lián)規(guī)則及其元規(guī)則挖掘技術(shù)研究.pdf
- 并行關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 商品關(guān)聯(lián)規(guī)則挖掘的研究.pdf
- 可信關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 關(guān)聯(lián)規(guī)則挖掘相關(guān)算法研究.pdf
- 挖掘多值關(guān)聯(lián)規(guī)則的研究.pdf
- 加權(quán)模糊關(guān)聯(lián)規(guī)則挖掘研究.pdf
評論
0/150
提交評論