信息管理與信息系統(tǒng)畢業(yè)論文基于關(guān)聯(lián)規(guī)劃挖掘的零售商場購物籃分析與應(yīng)用_第1頁
已閱讀1頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p>  本科畢業(yè)設(shè)計(論文)</p><p>  基于關(guān)聯(lián)規(guī)劃挖掘的零售商場購物籃分析與應(yīng)用</p><p>  學(xué) 院 管理學(xué)院 </p><p>  專 業(yè) 信息管理與信息系統(tǒng) </p><p>  年級班別 </p>&l

2、t;p>  學(xué) 號 </p><p>  學(xué)生姓名 </p><p>  指導(dǎo)教師 </p><p><b>  摘 要</b></p><p>  隨著經(jīng)濟(jì)的快速發(fā)展,零售

3、業(yè)為了提高營業(yè)額,已經(jīng)開始從簡單的增加規(guī)模轉(zhuǎn)換到提高資源利用率、優(yōu)化資源配置來提高銷售額了。在轉(zhuǎn)型中,有一種方法就是利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則算法來找出商品之間在顧客的交易記錄中隱含的某種關(guān)聯(lián)關(guān)系,通過找出這種關(guān)聯(lián)關(guān)系,可以針對這種關(guān)聯(lián)關(guān)系制定特定的商品布局來提高超市的資源配置,提高銷售效率,提高銷售額。</p><p>  這種方法在國外已經(jīng)應(yīng)用得相當(dāng)成熟,但是在國內(nèi)還是處在發(fā)展階段,還沒發(fā)展到成熟階段,而且

4、在利用數(shù)據(jù)挖掘技術(shù)與超市商品布局設(shè)計的結(jié)合方面研究不多。本文通過收集某超市的交易數(shù)據(jù),主要利用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的Apriori算法對該超市的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,這里涉及到算法中的支持度和置信度的設(shè)置,支持度和置信度關(guān)系到關(guān)聯(lián)的強(qiáng)度,也關(guān)系到計算量的大小。通過Apriori的算法,在收集到的數(shù)據(jù)中通過數(shù)據(jù)挖掘相關(guān)算法得到某幾種商品之間的強(qiáng)關(guān)聯(lián)關(guān)系,得出強(qiáng)關(guān)聯(lián)規(guī)則之后用興趣度來分析結(jié)果的利用價值,最終根據(jù)有意義的、有價值的強(qiáng)關(guān)聯(lián)關(guān)系來對

5、該超市的商品布局進(jìn)行優(yōu)化,不僅要分析該超市現(xiàn)有的布局模式,還要依據(jù)通過收集到的數(shù)據(jù)分析出來的結(jié)果對該模式進(jìn)行適當(dāng)?shù)膬?yōu)化。</p><p>  關(guān)鍵字:零售業(yè),數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則,Apriori算法,興趣度,商品布局</p><p><b>  Abstract</b></p><p>  With the rapid economic deve

6、lopment, in order to improve the retail turnover there has started to improve resource utilization, optimize the allocation of resources to increase sales from simply increase the size of the space of retail turnover. In

7、 the transition, there is a way is to use data mining technology association rules algorithm to find merchandise transactions between the customer's implied some kind of relationship, by identifying this association,

8、 for this association can trade rela</p><p>  Keywords:Retail, Data mining, Association rules, Apriori algorithm, Interest degree,Distributionofgoods</p><p><b>  目 錄</b></p>

9、<p><b>  摘 要</b></p><p><b>  Abstract</b></p><p><b>  1緒論1</b></p><p>  1.1研究背景及意義1</p><p>  1.3 國內(nèi)外研究現(xiàn)狀及分析2</p>

10、<p><b>  1.4研究目標(biāo)4</b></p><p>  1.5主要研究內(nèi)容4</p><p>  2基本理論與基本概念6</p><p><b>  2.1數(shù)據(jù)挖掘6</b></p><p>  2.1.1 數(shù)據(jù)挖掘的基本概念6</p><p>

11、  2.1.2 數(shù)據(jù)挖掘的過程7</p><p>  2.1.3 數(shù)據(jù)挖掘的分類、技術(shù)和方法8</p><p>  2.1.4 數(shù)據(jù)挖掘的任務(wù)9</p><p>  2.2關(guān)聯(lián)規(guī)則10</p><p>  2.2.1 關(guān)聯(lián)規(guī)則的定義10</p><p>  2.2.2 關(guān)聯(lián)規(guī)則的分類11</p>

12、<p>  2.2.3 關(guān)聯(lián)規(guī)則的挖掘12</p><p>  2.3關(guān)聯(lián)規(guī)則的Apriori算法13</p><p>  2.3.1 Apriori算法概念13</p><p>  2.3.2 Apriori算法的兩個步驟14</p><p>  2.4 興趣度17</p><p>  2.5

13、 購物籃18</p><p>  3利用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則技術(shù)對某超市的銷售數(shù)據(jù)進(jìn)行購物籃分析19</p><p>  3.1問題的提出與解決方法19</p><p>  3.2問題解決過程19</p><p>  3.3數(shù)據(jù)收集20</p><p>  3.4數(shù)據(jù)預(yù)處理20</p><p

14、>  3.5使用Apriori算法對商品進(jìn)行關(guān)聯(lián)規(guī)則挖掘分析23</p><p>  3.6強(qiáng)關(guān)聯(lián)規(guī)則的興趣度分析32</p><p>  3.7結(jié)果解釋33</p><p>  4根據(jù)強(qiáng)規(guī)則結(jié)果為商場的商品布局的改進(jìn)34</p><p>  4.1超市商品布局一般原則與類型34</p><p>  4

15、.1.1商品布局一般原則34</p><p>  4.1.2商品陳列類型35</p><p>  4.2 某超市商品布局現(xiàn)狀及問題36</p><p>  4.2某超市的商品布局優(yōu)化37</p><p>  4.2.1磁石點(diǎn)理論37</p><p>  4.2.2利用磁石點(diǎn)理論對商品區(qū)域與區(qū)域之間布局進(jìn)行優(yōu)化

16、38</p><p>  4.2.3商品類型與類型之間的布局優(yōu)化40</p><p><b>  結(jié) 論41</b></p><p><b>  參考文獻(xiàn)42</b></p><p><b>  致謝43</b></p><p><b&g

17、t;  1緒論</b></p><p>  1.1研究背景及意義</p><p>  經(jīng)濟(jì)全球化和知識經(jīng)濟(jì)的迅猛發(fā)展,使得各類產(chǎn)業(yè)的利潤空間越來越小,產(chǎn)品的生命周期大大縮短。面對經(jīng)濟(jì)、科技加速發(fā)展的態(tài)勢,企業(yè)只有運(yùn)用創(chuàng)新技術(shù)提升企業(yè)的核心能力,加快知識創(chuàng)新步伐,才能夠保持當(dāng)前的利潤水平或者獲得較高的收益回報??梢姡谑袌霭l(fā)育健全、市場競爭機(jī)制能夠正常發(fā)揮作用的經(jīng)濟(jì)環(huán)境下,知識創(chuàng)

18、新是企業(yè)追求利益最大化的內(nèi)在要求。</p><p>  現(xiàn)在是一個以技術(shù)知識科技驅(qū)動的經(jīng)濟(jì)社會,逃離了知識技術(shù)科技,只能夠被淘汰,對于零售業(yè)也一洋,現(xiàn)在零售業(yè)在數(shù)量上已經(jīng)接近飽滿,如果還想簡單地通過增加商店數(shù)量來增加盈利,無異于自尋死路,所以在現(xiàn)在這個經(jīng)濟(jì)環(huán)境下,必須通過改善銷售質(zhì)量,提高銷售效率,才能夠保持穩(wěn)定的盈利。如今,計算機(jī)技術(shù)已經(jīng)相當(dāng)成熟,并且已經(jīng)能夠?qū)⒂嬎銠C(jī)技術(shù)運(yùn)用到許多方面去,例如自動化、個性化服務(wù)

19、等等。在上世紀(jì)90年代,數(shù)據(jù)挖掘技術(shù)開始興起,并通過逐年的發(fā)展,許多數(shù)據(jù)挖掘算法被發(fā)現(xiàn),這里說被發(fā)現(xiàn)是因?yàn)楹芏嗨惴ㄔ诒话l(fā)現(xiàn)之前是已經(jīng)存在于數(shù)據(jù)里面了。許多數(shù)據(jù)挖掘算法被發(fā)現(xiàn),例如經(jīng)典的分類算法ID3算法,聚類K-means算法,關(guān)聯(lián)規(guī)則的Apriori算法,神經(jīng)網(wǎng)絡(luò),遺傳算法等,而且這些都已。經(jīng)被高效得運(yùn)用到社會實(shí)踐中。</p><p>  這本文主要考慮到了現(xiàn)在零售業(yè)的銷售效率問題,因?yàn)樵谥暗牧闶蹣I(yè)銷售模式中

20、僅僅是通過簡單的通過自己的經(jīng)驗(yàn)來對商品的擺放布局,要提高銷售質(zhì)量銷售效率,必須通過科學(xué)研究,科學(xué)布置商品的布局,提高銷售效率,在這里就是利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則算法來進(jìn)行對購物籃的分析,通過發(fā)現(xiàn)隱含的購買模式,改變優(yōu)化商品布局,提高銷售效率,提高銷售額。</p><p>  比如通過得到的真實(shí)購物數(shù)據(jù)之后,經(jīng)過篩選,利用關(guān)聯(lián)規(guī)則算法得到兩類商品之間存在強(qiáng)關(guān)聯(lián)關(guān)系,那么我們就可以認(rèn)為顧客在買了第一件商品之后又很大的可

21、能性會去購買第二類商品,這樣如果將這兩種商品的布局?jǐn)[放得近一點(diǎn),或者直接相鄰擺放,或者通過結(jié)合顧客購物心理利用高支持度和強(qiáng)關(guān)聯(lián)規(guī)則等來促進(jìn)其他商品的銷售,或者利用有強(qiáng)關(guān)聯(lián)規(guī)則的商品之間的聯(lián)系間接提高其他商品的銷售量等等,這樣就會提醒更多人同時購買這兩類商品或者其他商品,提高購買效率。</p><p>  目前,關(guān)聯(lián)規(guī)則挖掘與購物籃分析在超市的應(yīng)用是被普遍關(guān)注的一個問題,在相關(guān)領(lǐng)域已經(jīng)有了一定的應(yīng)用和發(fā)展。國內(nèi)外研

22、究者在銷售什么樣的商品?采用什么樣的促銷策略?商品在貨架上如何擺放?了解顧客的購買習(xí)慣和偏愛等方面作了相當(dāng)?shù)睦碚撎接懞湍P陀嬎恪牧闶蹣I(yè)強(qiáng)關(guān)聯(lián)規(guī)則,利潤最大化的商品銷售、商品推薦都作出較好的理論分析和實(shí)現(xiàn)。也在零售業(yè)商品的銷售預(yù)測和商品之間關(guān)聯(lián)方面作了一定探討。 </p><p>  在我國,零售業(yè)在經(jīng)濟(jì)發(fā)展中占據(jù)著舉足輕重的地位,根據(jù)零售業(yè)發(fā)展水平方面,1993 年至 2012 年這 20 年間,批發(fā)和零售

23、業(yè)的增加值逐年遞增,批零產(chǎn)值占流通產(chǎn)業(yè)的比重一直在 50%左右,占第三產(chǎn)業(yè)的比重平均維持在 20%左右,對 GDP 的貢獻(xiàn)是穩(wěn)中有升,接近 10%,在保障和改善民生方面做出了重要貢獻(xiàn)。但是2012年之后,由于零售業(yè)在數(shù)量上在很多地區(qū)已經(jīng)接近飽和狀態(tài),零售業(yè)的增長速率有所下降,進(jìn)入低速增長期,根據(jù)在組織機(jī)構(gòu)代碼中的分析中,超級市場零售業(yè)在2012年1月到11月的增量是67間,而在2013年1月到11月的增量是46間,數(shù)量的增量在逐年減少,

24、甚至出現(xiàn)了利潤下降,其中主要原因應(yīng)該歸于電子商務(wù)的快速發(fā)展,由于如今電子商務(wù)的瘋狂擴(kuò)張,對傳統(tǒng)的零售業(yè)造成了巨大的威脅,根據(jù)新華社的報道,根據(jù)華潤發(fā)布的2014年盈利公告,公告顯示,以華潤萬家為代表的華創(chuàng)零售業(yè)務(wù)預(yù)期凈利潤將有約20億港元的跌幅。過去通過開店擴(kuò)張來進(jìn)行增加利潤,但是現(xiàn)在的零售業(yè)必須通過轉(zhuǎn)變發(fā)展方式,在過去重視店面的量的方面轉(zhuǎn)變到提高每間零售店的銷售量來進(jìn)行提高營業(yè)額,對于電子商務(wù)中個性化商品推薦﹑企業(yè)的市場定位以及<

25、;/p><p>  1.3 國內(nèi)外研究現(xiàn)狀及分析</p><p>  在國外,目前世界上知名大學(xué)的研究機(jī)構(gòu)和各大公司的研究部門都投入了大量精力對關(guān)聯(lián)規(guī)則挖掘進(jìn)行研究,并取得了諸多研究成果。美國斯坦福大學(xué)智能數(shù)據(jù)庫系統(tǒng)實(shí)驗(yàn)室開發(fā)出了大量的商用數(shù)據(jù)挖掘系統(tǒng),如DBMiner挖掘系統(tǒng),它包含了許多先進(jìn)的挖掘算法,用戶無需具有高級的統(tǒng)計知識和培訓(xùn)即可利用它挖掘出包括關(guān)聯(lián)規(guī)則、序列模式、分類等在內(nèi)的多種

26、類型的知識;該系統(tǒng)可以在多種平臺上運(yùn)行,并與許多主流的數(shù)據(jù)庫管理系統(tǒng)(如SQL-Sever,Oracle等)結(jié)合緊密;同時還引入了在線分析挖掘技術(shù),使得系統(tǒng)更能充分發(fā)揮數(shù)據(jù)倉庫的分析優(yōu)勢。</p><p>  1993年AGRAWAL等人提出關(guān)聯(lián)規(guī)則的數(shù)學(xué)模式,從而為關(guān)聯(lián)規(guī)則提出了理論基礎(chǔ)。1994年AGRAWAL,SRIKANT提出Apriori關(guān)聯(lián)規(guī)則挖掘算法,該算法是一個具有里程碑性質(zhì)的算法,也是布爾型規(guī)則

27、挖掘最經(jīng)典的算法。</p><p>  雖然數(shù)據(jù)挖掘技術(shù)發(fā)展到如今已經(jīng)相當(dāng)成熟,在這個利用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則技術(shù)研究購物籃模式的領(lǐng)域中,國外已是熱門的研究方向,并已經(jīng)達(dá)到一定的水平并投入應(yīng)用領(lǐng)域,其中傳統(tǒng)零售業(yè)運(yùn)用最為廣泛,營銷挖掘和購物籃分析是零售業(yè)挖掘的主要內(nèi)容,但是,國內(nèi)對數(shù)據(jù)挖掘的研究稍晚,在國內(nèi)這個領(lǐng)域的研究尚處于開始階段,沒有形成整體力量,直到 1993 年國家自然科學(xué)基金才首次支持該領(lǐng)域的研究項(xiàng)目,并

28、且目前進(jìn)行的大多數(shù)研究項(xiàng)目是由政府資助進(jìn)行的,如863(高技術(shù)研究發(fā)展計劃)等,從事數(shù)據(jù)挖掘研究的人員主要在大學(xué),也有部分在研究所或公司。</p><p>  在國內(nèi),當(dāng)然也有很多零售商對商品的關(guān)聯(lián)規(guī)則非常重視,并且將它放在重要的戰(zhàn)略地位,比如阿里巴巴集團(tuán)旗下的淘寶網(wǎng),京東商城,當(dāng)當(dāng)網(wǎng)等等網(wǎng)絡(luò)零售商或者零售平臺。比如,當(dāng)我們每次將自己有意愿購買的商品放入購物籃之后,網(wǎng)站就會在一個區(qū)域顯示給我們的推薦商品,提出一些

29、搭配供我們選擇,這就是通過以前顧客的購買記錄來進(jìn)行關(guān)聯(lián)規(guī)則分析獲得你所購買的商品的有強(qiáng)關(guān)聯(lián)規(guī)則的商品,進(jìn)而讓你考慮是否該多買一些東西來搭配你想購買的東西,這就提高了銷售效率和銷售質(zhì)量。</p><p>  不僅如此,不僅僅在應(yīng)用上,在國內(nèi)也有許多人會對關(guān)聯(lián)規(guī)則的算法進(jìn)行改進(jìn),比如重慶大學(xué)學(xué)報出版的由王德興、胡學(xué)鋼等人的“改進(jìn)購物籃分析的關(guān)聯(lián)規(guī)則挖掘算法”一文;還有由楊豐梅等人提出的帶有記憶性的零售商品關(guān)聯(lián)度分析;

30、還有基于量化概念格的關(guān)聯(lián)規(guī)則挖掘模型的研究等等。如今對關(guān)聯(lián)規(guī)則的算法還提出了一個改進(jìn)的方案,在這里引出了興趣度這個閥值,這個閥值在關(guān)聯(lián)規(guī)則挖掘中主要是對強(qiáng)規(guī)則的有一次篩選,摒棄那些看似是強(qiáng)聯(lián)系規(guī)則,其實(shí)不是強(qiáng)聯(lián)系規(guī)則的方法。</p><p>  在這些研究者對購物籃的算法進(jìn)行研究之后,也提出了許多針對商品布局的決策,比如捆綁銷售、相鄰銷售、打折銷售等等策略,</p><p>  現(xiàn)如今,國

31、內(nèi)外都有對購物籃進(jìn)行數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則分析,也產(chǎn)生了許多對算法的改進(jìn)。然而,雖然研究很多,但是很多研究卻沒有跟購物籃中的顧客購物現(xiàn)實(shí)情況結(jié)合起來進(jìn)行對商品的布局進(jìn)行設(shè)計,很多的研究僅僅是局限在得出商品的關(guān)聯(lián)規(guī)則之后簡單地關(guān)聯(lián)商品進(jìn)行布局,比如簡單地將得到的有強(qiáng)關(guān)聯(lián)的商品捆綁銷售、將有強(qiáng)關(guān)聯(lián)規(guī)則的商品簡單地陳列在一起,但是這些決策并沒有通過結(jié)合顧客的購物習(xí)慣、購物心理、充分利用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的商品規(guī)律來促進(jìn)銷售額的增長。</p>

32、<p>  對購物籃的分析,最主要的、最終的目標(biāo)就是提高銷售額,如果僅僅是簡單的發(fā)現(xiàn)規(guī)律,這并沒有完成最終目標(biāo),因?yàn)檠芯康哪康氖翘岣咪N售額,并不僅僅是研究出它們的關(guān)聯(lián)性即可。在發(fā)現(xiàn)規(guī)則的過程中花費(fèi)了很大的力氣,但是最后卻簡單了事,并沒有實(shí)際上地實(shí)現(xiàn)提高銷售額,增加銷售量,最終導(dǎo)致前功盡棄。因此還需要根據(jù)各種商品布局優(yōu)化、整體提高銷售額的手段來改進(jìn)優(yōu)化商品布局。</p><p><b>  

33、1.4研究目標(biāo)</b></p><p>  本文主要通過對某零售超市的商品關(guān)聯(lián)規(guī)則進(jìn)行探討,包括收集該零售超市的顧客的購買數(shù)據(jù),經(jīng)過篩選無效數(shù)據(jù)得到有效數(shù)據(jù),利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則的Apriori算法進(jìn)行對得到的有效數(shù)據(jù)進(jìn)行挖掘分析,得到隱藏在某零售超市顧客購買商品中的模式,得到高購買率商品之間的關(guān)聯(lián)規(guī)則,將關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的商品管理與顧客的購買心理以及顧客的購買行為習(xí)慣相結(jié)合、充分利用高支持度的商品來

34、提高其他商品的銷售量等調(diào)整商品架上的商品擺放布局,極大的促進(jìn)多種商品的被購買量,最終促進(jìn)銷售效率,提高營業(yè)額。</p><p><b>  1.5主要研究內(nèi)容</b></p><p>  此文的主要研究內(nèi)容就是在購物籃中運(yùn)用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則相關(guān)方法來對其進(jìn)行分析,得出所收集到的顧客購買商品的模式或者規(guī)律,然后通過研究這種規(guī)律或者模式來改變商品的布局,進(jìn)而提高銷售額。

35、主要內(nèi)容包括:</p><p> ?。?)收集數(shù)據(jù)并進(jìn)行整理,初始數(shù)據(jù)就是顧客購買商品的目錄。</p><p>  (2)利用關(guān)聯(lián)規(guī)則的Apriori算法對收集到的而且已經(jīng)整理過的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析。將得到的強(qiáng)關(guān)聯(lián)規(guī)則中進(jìn)行篩選,在這里利用興趣度來進(jìn)一步篩選。</p><p> ?。?)對應(yīng)所得到的強(qiáng)關(guān)聯(lián)規(guī)則,結(jié)合顧客心理、顧客購物行為習(xí)慣、充分利用某種商品的高支

36、持度等等因素提出商品的擺設(shè)布局的建議和決策。</p><p>  下圖是本文的一個大概結(jié)構(gòu):</p><p><b>  圖1-6-1</b></p><p>  2基本理論與基本概念</p><p><b>  2.1數(shù)據(jù)挖掘</b></p><p>  2.1.1 數(shù)據(jù)挖

37、掘的基本概念 </p><p>  1989 年 8 月,在第 11 屆國際人工智能聯(lián)合會議的專題研討會上,首次提出了基于數(shù)據(jù)庫的知識發(fā)現(xiàn)技術(shù)(Knowledge Discovery in Database,KDD)。KDD 的研究問題有:(1)定性知識和定量知識的發(fā)現(xiàn);(2)知識發(fā)現(xiàn)方法;(3)知識發(fā)現(xiàn)的應(yīng)用等[]。1995 年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘(Data Mining,DM)國際學(xué)術(shù)會議。

38、由于數(shù)據(jù)庫中的數(shù)據(jù)被形象地比喻為“礦床”,因此數(shù)據(jù)挖掘一詞很快流傳開來。在 1995 年的美國計算機(jī)年會(ACM)上,正式提出了數(shù)據(jù)挖掘的概念[]。</p><p>  數(shù)據(jù)挖掘是知識發(fā)現(xiàn)中的核心工作,主要研究發(fā)現(xiàn)知識的各種方法和技術(shù)。機(jī)器學(xué)習(xí)的很多方法都已轉(zhuǎn)變?yōu)閿?shù)據(jù)挖掘的方法。 簡單地說,數(shù)據(jù)挖掘是提取或“挖掘”知識。目前,數(shù)據(jù)挖掘可以從統(tǒng)計學(xué)、數(shù)據(jù)庫和機(jī)器學(xué)習(xí)等三個角度進(jìn)行定義。“挖掘”一詞最早出現(xiàn)于統(tǒng)計學(xué)中

39、。從統(tǒng)計學(xué)的角度看,數(shù)據(jù)挖掘是指分析所觀察的數(shù)據(jù)集以發(fā)現(xiàn)可信的數(shù)據(jù)間的未知關(guān)系并提供給數(shù)據(jù)擁有者可理解的、新穎的和有用的歸納數(shù)據(jù)。從數(shù)據(jù)庫的觀點(diǎn)看,數(shù)據(jù)挖掘是指從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息倉庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識的過程[]。從機(jī)器學(xué)習(xí)的角度看,數(shù)據(jù)挖掘定義為從數(shù)據(jù)中抽取隱含的、明顯未知的和潛在有用的信息。 數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)</p><p>  的

40、數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。這個定義包含幾層含義,數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的知識,僅需支持特定的發(fā)現(xiàn)問題。 </p><p>  從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更愿意把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形式知識的源泉,就

41、像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技

42、術(shù)人員。 通過數(shù)據(jù)挖掘,有價值的知識、規(guī)則或高層次的信息可以從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同角度顯示,從而使大型數(shù)據(jù)庫成為一個豐富可靠的資源,為決策服務(wù)。 數(shù)據(jù)挖掘具有一些重要特點(diǎn),歸納如下: </p><p>  (1)處理的數(shù)據(jù)規(guī)模十分巨大。 </p><p>  (2)查詢一般是決策制定者(用戶)提出的即時隨機(jī)查詢,往往不能形成精確的查詢要求要靠數(shù)據(jù)挖掘技術(shù)尋找可能感興趣的

43、東西,也就是說挖掘出來的知識不能預(yù)知。 </p><p>  (3)數(shù)據(jù)挖掘既要擔(dān)負(fù)發(fā)現(xiàn)潛在規(guī)則的任務(wù),還要管理和維護(hù)規(guī)則。 </p><p> ?。?)數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于大樣本的統(tǒng)計規(guī)律,當(dāng)置信度達(dá)到某一閾值時,就可以認(rèn)為規(guī)則成立。 </p><p>  以下一些主要的技術(shù)原因激發(fā)和促進(jìn)了數(shù)據(jù)挖掘技術(shù)的開發(fā)、應(yīng)用和研究:</p><p&

44、gt; ?。?)超大規(guī)模數(shù)據(jù)庫的出現(xiàn),如大規(guī)模商業(yè)數(shù)據(jù)倉庫的出現(xiàn)。 </p><p> ?。?)先進(jìn)的計算機(jī)技術(shù),如更快更強(qiáng)的計算能力和并行體系結(jié)構(gòu)。 </p><p> ?。?)對海量數(shù)據(jù)的快速訪問能力。 </p><p>  (4)對海量數(shù)據(jù)深入應(yīng)用統(tǒng)計方法進(jìn)行計算分析的能力。</p><p>  2.1.2 數(shù)據(jù)挖掘的過程 </p

45、><p>  數(shù)據(jù)挖掘的過程一般需要經(jīng)歷數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)開采、結(jié)果表述和解釋三個主要步驟[],具體步驟如圖 2-1 所示。</p><p><b>  圖2-1-1</b></p><p><b>  數(shù)據(jù)準(zhǔn)備</b></p><p>  數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘中的一個重要步驟,數(shù)據(jù)準(zhǔn)備是否做得好將直接影響到

46、數(shù)據(jù)挖掘的效率、準(zhǔn)確度以及最終模式的有效性。這個階段又可以進(jìn)一步分為三個子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。 ①數(shù)據(jù)集成。數(shù)據(jù)集成是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗異常數(shù)據(jù)等。 ②數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。 ③數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理的目的是將數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的形式,并進(jìn)行一些必要的數(shù)據(jù)約簡。</p>

47、<p><b> ?。?)數(shù)據(jù)開采 </b></p><p>  數(shù)據(jù)開采階段選定某個特定的數(shù)據(jù)挖掘算法(如關(guān)聯(lián)規(guī)則、分類、回歸、聚類等算法),用于搜索數(shù)據(jù)中的模式。這是數(shù)據(jù)挖掘過程中最關(guān)鍵的一步,也是技術(shù)難點(diǎn)。 </p><p> ?。?)結(jié)果表述和解釋 </p><p>  根據(jù)最終用戶的決策目的,對提取的信息進(jìn)行分析,把最有價

48、值的信息區(qū)分出來,并且通過決策支持工具提交給決策者。因此,這一步驟的任務(wù)不僅是把結(jié)果表達(dá)出來,還要對信息進(jìn)行過濾處理。如果不能令決策者滿意,需要重復(fù)以上的數(shù)據(jù)挖掘過程。 在理解數(shù)據(jù)挖掘的具體實(shí)施過程時,還應(yīng)該注意以下幾點(diǎn):數(shù)據(jù)挖掘僅僅是整個挖掘過程中的一個重要步驟;數(shù)據(jù)挖掘質(zhì)量的好壞不但取決于所選用的數(shù)據(jù)挖掘技術(shù),而且還取決于所挖掘數(shù)據(jù)的質(zhì)量和數(shù)量;整個挖掘過程是一個不斷反饋的過程;可視化技術(shù)在數(shù)據(jù)挖掘的各個階段都應(yīng)起著重要的作用。 &

49、lt;/p><p>  2.1.3 數(shù)據(jù)挖掘的分類、技術(shù)和方法 </p><p>  數(shù)據(jù)挖掘是一個交叉性的學(xué)科領(lǐng)域,涉及數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)理論、機(jī)器學(xué)習(xí)技術(shù)、模式識別技術(shù)、可視化理論和技術(shù)等。從不同的角度出發(fā),可以對數(shù)據(jù)挖掘進(jìn)行不同的分類。按挖掘的數(shù)據(jù)庫類型,可分為面向?qū)ο髷?shù)據(jù)挖掘、事務(wù)數(shù)據(jù)庫的數(shù)據(jù)挖掘、多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘、空間數(shù)據(jù)庫的數(shù)據(jù)挖掘、因特網(wǎng)上的數(shù)據(jù)挖掘、演繹數(shù)據(jù)庫的數(shù)據(jù)挖掘、

50、時間/時間序列數(shù)據(jù)庫的數(shù)據(jù)挖掘、數(shù)據(jù)倉庫的數(shù)據(jù)挖掘等[16]。 按數(shù)據(jù)挖掘的任務(wù),可分為關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、聚類數(shù)據(jù)挖掘、分類數(shù)據(jù)挖掘、偏差分析挖掘、預(yù)測數(shù)據(jù)挖掘等。 </p><p>  按采用的技術(shù)類型,可分為查詢驅(qū)動挖掘、發(fā)現(xiàn)驅(qū)動的交互式數(shù)據(jù)挖掘、數(shù)據(jù)驅(qū)動挖掘、基于歸納的挖掘、基于模式的挖掘、集成挖掘等。 除了以上的分類方法外,還可按挖掘的深度和應(yīng)用領(lǐng)域進(jìn)行分類。 數(shù)據(jù)挖掘的技術(shù)和方法很多,這些技術(shù)

51、和方法分別從不同角度進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)。目前主要的技術(shù)和方法有決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、覆蓋正例排斥反例方法、粗糙集方法、概念樹方法、遺傳算法、公式發(fā)現(xiàn)、模糊論方法、統(tǒng)計學(xué)方法、可視化技術(shù)、貝葉斯網(wǎng)絡(luò)等。 數(shù)據(jù)挖掘技術(shù)是一個年輕且充滿希望的研究領(lǐng)域,商業(yè)利益的強(qiáng)大驅(qū)動力將會不斷地促進(jìn)它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數(shù)據(jù)挖掘技術(shù)仍然面臨許多問題和挑戰(zhàn):數(shù)據(jù)挖掘方法的效率亟待提高,

52、尤其是超大規(guī)模數(shù)據(jù)集中數(shù)據(jù)挖掘的效率;開發(fā)適應(yīng)多數(shù)據(jù)類型、容噪</p><p>  聲的挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問題;動態(tài)數(shù)據(jù)和知識的數(shù)據(jù)挖掘;網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘等。此外,近年來隨著多媒體數(shù)據(jù)庫的迅速發(fā)展,面向多媒體數(shù)據(jù)庫的挖掘技術(shù)和軟件亦將成為今后研究開發(fā)的熱點(diǎn)和難點(diǎn)。</p><p>  2.1.4 數(shù)據(jù)挖掘的任務(wù) </p><p>  數(shù)

53、據(jù)挖掘主要有 6 項(xiàng)任務(wù):關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類、分類、偏差檢測、預(yù)測。 </p><p> ?。?)關(guān)聯(lián)規(guī)則分析。關(guān)聯(lián)規(guī)則分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。若兩個或多個數(shù)據(jù)項(xiàng)的取值之間重復(fù)出現(xiàn)且概率很高時,就存在某種關(guān)聯(lián),可以建立起這些數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則。 </p><p>  (2)序列模式分析。序列模式分析與關(guān)聯(lián)規(guī)則分析相仿,也是為了挖掘出數(shù)據(jù)之間的聯(lián)系。但序列模式

54、分析把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。為了發(fā)現(xiàn)序列模式,不僅需要知道事件是否發(fā)生,而且需要確定事件發(fā)生的時間。 </p><p>  (3)聚類。聚類是把一組數(shù)據(jù)按照相似性和差異性歸成若干類別。其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,而不同類別的數(shù)據(jù)間的相似性盡可能小。 </p><p> ?。?)分類。分類的概念是在已有數(shù)據(jù)集(訓(xùn)練集)的基礎(chǔ)上構(gòu)造出一個分類函數(shù)或分類模型,即我

55、們通常所說的分類器。該函數(shù)或模型能夠把訓(xùn)練集中的數(shù)據(jù)記錄映射到給定類別中的某一個,從而可以應(yīng)用于數(shù)據(jù)預(yù)測。 </p><p> ?。?)偏差檢測。數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測出這些偏差是很有意義的。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差等。 </p><p> ?。?)預(yù)測。預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此

56、模型來預(yù)測未來數(shù)據(jù)的種類、特征等。 </p><p><b>  2.2關(guān)聯(lián)規(guī)則</b></p><p>  關(guān)聯(lián)規(guī)則挖掘是由 Agrawal 等人于 1993 年在文獻(xiàn)中首先提出的數(shù)據(jù)挖掘問題中的一個重要研究內(nèi)容。關(guān)聯(lián)規(guī)則挖掘用于尋找給定數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間的有意義關(guān)聯(lián)或相關(guān)聯(lián)系[17]。關(guān)聯(lián)規(guī)則揭示了數(shù)據(jù)項(xiàng)間的未知的依賴關(guān)系,根據(jù)所挖掘的關(guān)聯(lián)規(guī)則,可以由一個數(shù)據(jù)對象

57、的信息推斷出另一個數(shù)據(jù)對象的信息。關(guān)聯(lián)規(guī)則的一個典型例子是 WALMART 的購物籃分析:總部位于美國阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪(Wal Mart)為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些?!案虿家黄鹳徺I最多的商品竟是啤酒!”這是數(shù)據(jù)挖掘技術(shù)對歷史數(shù)據(jù)進(jìn)行分析的結(jié)果,反映數(shù)據(jù)內(nèi)在的規(guī)律,揭示了一個隱藏在“尿布與啤酒”背后的美國人的一種行為模式:在美

58、國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有 30%~40%的人同時也為自己買一些啤酒。既然尿布與啤酒一起被購買的機(jī)會很多,于是沃爾瑪就在其一個個門店將尿布與啤酒并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長。 隨著大量數(shù)據(jù)不停地被收集和存儲,許多業(yè)界人士對于從他們的數(shù)據(jù)庫中挖掘關(guān)</p><p>  許多商務(wù)決策,如分類設(shè)計、交叉購物、賤賣分析等。 </p><p> 

59、 2.2.1 關(guān)聯(lián)規(guī)則的定義</p><p>  為了準(zhǔn)確描述關(guān)聯(lián)規(guī)則挖掘問題,需要給出關(guān)聯(lián)規(guī)則挖掘問題的正式定義,下面用事務(wù)數(shù)據(jù)庫來定義關(guān)聯(lián)規(guī)則。 </p><p>  定義 2-1 記 D 為交易 T 的集合,D={t1,t2,…,tn},這里交易 T 是項(xiàng)的集合,可以表述為:T={i1,i2,…,ij},并且 T∈D。T 中的元素 i、j﹙j=1,2,…,p﹚稱為項(xiàng)。對應(yīng)每一個交易

60、有唯一的標(biāo)識,如交易號,記作 TID。 </p><p>  定義 2-2 設(shè) I={i1,i2,…,im}是數(shù)據(jù)集中所有項(xiàng)的集合。I 中的任何子集稱為項(xiàng)目集,若|X|=k,則稱集合 X 為 k-項(xiàng)集。設(shè) tk和 X 分別為 D 中的事務(wù)和項(xiàng)目集,如果 X∈tk,稱事務(wù) tk包含項(xiàng)目集 X。 </p><p>  定義 2-3 數(shù)據(jù)集 D 中包含項(xiàng)目集 X 的事務(wù)數(shù)稱為項(xiàng)目集 X 的支

61、持?jǐn)?shù),記作σ(x)。項(xiàng)目集 X 的支持度,記作 support﹙X﹚。其中</p><p>  其中,|D|是數(shù)據(jù)集 D 中的事務(wù)數(shù)。若 support﹙X﹚不小于用戶指定的最小支持度(minsupport),則稱 X 為頻繁項(xiàng)目集,否則稱 X 為非頻繁項(xiàng)目集。 定理 2-1 設(shè) X、Y 是數(shù)據(jù)集 D 中的項(xiàng)目集, </p><p>  (1) 若 X?Y,則 support﹙X﹚≥s

62、upport﹙Y﹚; </p><p>  (2) 若 X?Y,如果 X 是非頻繁項(xiàng)目集,則 Y 也是非頻繁項(xiàng)目集; </p><p>  (3) 若 X?Y,如果 Y 是頻繁項(xiàng)目集,則 X 也是頻繁項(xiàng)目集;</p><p>  定義 2-4 若 X、Y 為項(xiàng)目集,且 X∩Y=φ,蘊(yùn)涵式 X?Y 稱為關(guān)聯(lián)規(guī)則,X、Y分別稱為關(guān)聯(lián)規(guī)則 X?Y 的前件和后件。 關(guān)

63、聯(lián)規(guī)則 X?Y 的支持度是交易集中同時包含 X 和 Y 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記作 support﹙X?Y﹚或者support(X,Y)</p><p>  其中X,Y為數(shù)據(jù)集D中互不相交的項(xiàng)集。</p><p>  關(guān)聯(lián)規(guī)則X?Y 的置信度是指同時包含 X 和 Y 的事務(wù)數(shù)與包含 X 的事務(wù)數(shù)之比,記作 confidence﹙X?Y﹚。 支持度和置信度是描述關(guān)聯(lián)規(guī)則的兩個重要概念。一

64、般來說,人們只對滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。因此,為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,需要給定兩個閾值:最小支持度(min_sup)和最小置信度(min_conf)。</p><p>  2.2.2 關(guān)聯(lián)規(guī)則的分類 </p><p>  關(guān)聯(lián)規(guī)則有許多種類型,根據(jù)不同的標(biāo)準(zhǔn),關(guān)聯(lián)規(guī)則的分類如下: </p><p>  根據(jù)規(guī)則所處理的值的類型將關(guān)聯(lián)規(guī)則分為布爾關(guān)

65、聯(lián)規(guī)則(Boolean AssociationRule)和量化關(guān)聯(lián)規(guī)則(Quantitative Association Rule)。若所考慮的關(guān)聯(lián)規(guī)則是項(xiàng)的存在與不在,則它是布爾關(guān)聯(lián)規(guī)則。布爾關(guān)聯(lián)規(guī)則表明了離散(分類)對象之間的聯(lián)系。如果規(guī)則所描述的是量化的項(xiàng)或?qū)傩灾g的關(guān)聯(lián),則它是量化關(guān)聯(lián)規(guī)則。在量化關(guān)聯(lián)規(guī)則中,項(xiàng)和屬性的量化值劃分為區(qū)間,涉及動態(tài)離散化的數(shù)值屬性,也可能涉及分類屬性。 </p><p>  

66、例如:buys (X,computer) ?buys (X,printer)(解釋為:購買電腦的人會 購 買 打 印 機(jī) ) 是 布 爾 關(guān) 聯(lián) 規(guī) 則 ; age(X,30~34) ∧ income(X,42K ~48K) ? buys( X,computer)(解釋為:年齡在 30-34 歲之間,收入在 42K-48K之間的人會購買電腦)是量化關(guān)聯(lián)規(guī)則,涉及的定量屬性 age 和 income 均已被離散化了。 </p>

67、<p>  根據(jù)規(guī)則中涉及的數(shù)據(jù)維數(shù),將關(guān)聯(lián)規(guī)則分為單維關(guān)聯(lián)規(guī)則(Single-dimension Association Rule)和多維關(guān)聯(lián)規(guī)則(Multi-dimension Association Rule)。其中單維關(guān)聯(lián)規(guī)則指關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩灾簧婕皢蝹€維或謂詞(即一個屬性或列),如只涉及購買項(xiàng)。單維關(guān)聯(lián)規(guī)則表示了屬性的內(nèi)在聯(lián)系,即同一個屬性或維內(nèi)的關(guān)聯(lián)。若關(guān)聯(lián)規(guī)則涉及兩個或多個(不同的)謂詞或維,則它是

68、多維關(guān)聯(lián)規(guī)則。如顧客數(shù)據(jù)庫中的顧客年齡、收入和購買項(xiàng)為三維。多維關(guān)聯(lián)規(guī)則表示了屬性間的聯(lián)系,即屬性/維之間的關(guān)聯(lián)。 </p><p>  此外,根據(jù)關(guān)聯(lián)規(guī)則挖掘的不同擴(kuò)充,關(guān)聯(lián)規(guī)則挖掘可以分為分類學(xué)習(xí)、相關(guān)分析、最大大模式和大閉項(xiàng)集挖掘等。 給出了關(guān)聯(lián)規(guī)則的分類后,在今后的分析過程中,我們就可以考慮某個具體的方法適用于哪一類規(guī)則的挖掘,某類規(guī)則又可以用哪些不同的方法進(jìn)行處理。</p><p&g

69、t;  2.2.3 關(guān)聯(lián)規(guī)則的挖掘 </p><p>  關(guān)聯(lián)規(guī)則的挖掘主要包含以下兩個步驟: </p><p>  第一步:從事務(wù)數(shù)據(jù)庫 D 中找出所有支持度不小于用戶指定的最小支持度閾值的頻繁項(xiàng)目集。在數(shù)據(jù)挖掘中,支持度不小于用戶指定的最小支持度閾值的項(xiàng)目集簡稱頻繁項(xiàng)目集。 </p><p>  第二步:使用頻繁項(xiàng)目集產(chǎn)生所期望的關(guān)聯(lián)規(guī)則,產(chǎn)生關(guān)聯(lián)規(guī)則的基本原則

70、是其置信度不小于用戶指定的最小置信度閾值。 </p><p>  第一步的任務(wù)是迅速高效地找出 D 中全部的頻繁項(xiàng)集,這是關(guān)聯(lián)規(guī)則挖掘的核心問題,是衡量關(guān)聯(lián)規(guī)則挖掘算法的標(biāo)準(zhǔn)。第二步的求解比較容易和直接,目前所有的關(guān)聯(lián)規(guī)則挖掘算法都是針對第一步而提出的。</p><p>  2.3關(guān)聯(lián)規(guī)則的Apriori算法</p><p>  2.3.1 Apriori算法概念&

71、lt;/p><p>  在關(guān)聯(lián)規(guī)則算法中, Agrawal和Srikant的Apriori算法是第一個關(guān)聯(lián)規(guī)則挖掘算法,也是最經(jīng)典的算法之一。它利用逐層搜索的迭代方法找出數(shù)據(jù)庫或者其他類型的數(shù)據(jù)集中項(xiàng)集的關(guān)系,以形成規(guī)則,其過程由連接(類矩陣運(yùn)算)與剪枝(去掉那些沒必要的中間結(jié)果)組成。該算法中項(xiàng)集的概念即為項(xiàng)的集合。包含K個項(xiàng)的集合為k項(xiàng)集。項(xiàng)集出現(xiàn)的頻率是包含項(xiàng)集的事務(wù)數(shù),稱為項(xiàng)集的頻率。如果某項(xiàng)集滿足最小支持度

72、,則稱它為頻繁項(xiàng)集。</p><p>  在這里首先要介紹支持度和置信度兩個閥值的概念,其中規(guī)則的支持度和置信度是兩個規(guī)則度量。在關(guān)聯(lián)規(guī)則中,除前件(if部分)和后件(then部分)外,每個關(guān)聯(lián)規(guī)則還有兩個數(shù),表達(dá)規(guī)則的不確定程度。在關(guān)聯(lián)分析中,前件和后件是不相交的項(xiàng)的集合(項(xiàng)集)。支持度是包含規(guī)則前件和后件所有項(xiàng)的集合在全部項(xiàng)中的比率;置信度就是包含前件和后件的項(xiàng)集數(shù)跟包含前件的項(xiàng)集數(shù)的比率,這兩個數(shù)一般用百分

73、比來表示。</p><p><b>  舉一個例子:</b></p><p>  在一個購買商品的清單中:</p><p><b>  圖2-3-1-1</b></p><p>  假設(shè)σ表示項(xiàng)集出現(xiàn)的支持度計數(shù)或者頻度,比如σ({牛奶,面包,尿布})=2;</p><p>

74、  也就是說包含了牛奶、面包和尿布的事務(wù)有兩個,又假設(shè)S表示包含一個項(xiàng)集的事務(wù)所占的比例,則</p><p>  Support({牛奶,面包,尿布})=2/5</p><p> ?。ㄆ渲蠨是事務(wù)總數(shù),在這里也就是D=5)。</p><p><b>  這個S就是支持度。</b></p><p>  另外,置信度就是包含

75、前件和后件的項(xiàng)集數(shù)跟包含前件的項(xiàng)集數(shù)的比率,同樣在這里舉一個例子:</p><p><b>  而 </b></p><p>  在這里,假設(shè)用C表示置信度,則:</p><p>  一般情況下進(jìn)行Apriori算法時候都會定義一個最小支持度(min-sup)和最小置信度(min-conf)兩個閥值來進(jìn)行判斷關(guān)聯(lián)強(qiáng)度。</p>

76、<p>  2.3.2 Apriori算法的兩個步驟</p><p>  Apriori算法包括兩個步驟,一個是連接步驟,一個是剪枝步驟。</p><p> ?。?)連接步驟:在進(jìn)行Apriori算法過程中,必須通過連接步驟才能得到下一組候選項(xiàng)集,假設(shè)Ck是指候選k-項(xiàng)集,Lk是頻繁k-項(xiàng)集,要得到得到候選Ck+1項(xiàng)集,必須利用Lk中的頻繁項(xiàng)集兩兩連接。設(shè)li與lj是Lk中的

77、項(xiàng)集,其中l(wèi)i[j]表示li的第j項(xiàng),為方便計算,假定事務(wù)或者項(xiàng)集中的項(xiàng)按字典次序排序。設(shè)l1,l2是Lk中的項(xiàng)集,如果它們的前k-1個項(xiàng)相同,則他們是可以相連接的,則它們相連之后的結(jié)果就是:l1 [1]l1[2] l1[3]..l1[k-1] </p><p>  l1[k] l2[k],就這樣將Lk中的各個項(xiàng)集連接起來,就可以得到Ck+1。這就是連接步驟。</p><p> ?。?)剪

78、枝步驟:Ck是Lk的超集,也就是說Ck的項(xiàng)集可以使頻繁的也可以不是頻繁的,但是所有的頻繁k-項(xiàng)集都包含在Ck中,然而通過Lk的項(xiàng)集連接得到的Ck的項(xiàng)集中,通過支持度的篩選之后得到的Lk+1中,如果有某個項(xiàng)集的子集不在Lk中,那么這個項(xiàng)集也可以認(rèn)為是不符合支持度,應(yīng)該刪掉,以減少候選項(xiàng)集的數(shù)量。</p><p><b>  舉一個例子:</b></p><p>  假如

79、頻繁2-項(xiàng)集L2如下圖:</p><p><b>  圖2-3-2-1</b></p><p>  通過連接得到的候選3-項(xiàng)集C3如下圖:</p><p><b>  圖2-3-2-2</b></p><p>  但是我們可以發(fā)現(xiàn),{薯片,啤酒}項(xiàng)集不在頻繁2-項(xiàng)集L2里面,所以可以通過剪枝將包含了

80、{薯片,啤酒}的候選項(xiàng)集刪除,得到如下圖的候選3-項(xiàng)集C3:</p><p><b>  圖2-3-2-3</b></p><p>  這樣就減少了大量的工作量,降低了錯誤率。</p><p><b>  2.4 興趣度</b></p><p>  關(guān)聯(lián)規(guī)則中使人感興趣程度的度量涉及到客觀和主管兩個

81、方面。一個規(guī)則是否比較準(zhǔn)確的展示數(shù)據(jù)中蘊(yùn)含的規(guī)律或者模式,這個關(guān)聯(lián)規(guī)則興趣度的客觀性所在。數(shù)據(jù)挖掘中規(guī)則的支持度和可信度是非常常見的度量閥值。對于很多應(yīng)用來說,利用支持度和可信度的框架來挖掘是非常有用的,但是,利用這種規(guī)則來度量得出的規(guī)則可能不是真實(shí)的,可能是帶有欺騙性的,因此,當(dāng)人們對數(shù)據(jù)進(jìn)行挖掘時候,需要做出相關(guān)分析來確保最后得到的規(guī)則對研究者來說是有趣的,是有利用價值的。因此,人們通過引入興趣度來剔除原本意義不大的規(guī)則。</

82、p><p>  舉一個例子:以下圖為例</p><p><b>  圖2-4-1</b></p><p>  由表可以了解到,按照上面定義的關(guān)聯(lián)規(guī)則“買咖啡?買牛奶(S=0.2,C=0.8)”,即 80%的人買了咖啡就會買牛奶。當(dāng)把置信度和支持度閾值定為低于0.8 和 0.2 時,很顯然該規(guī)則將會作為目標(biāo)規(guī)則之一被采掘出來。由此可以得出結(jié)論,刺激顧

83、客對咖啡的購買欲望將增加牛奶的銷售量,或換句話說,將咖啡和牛奶放在一起將提高牛奶的銷售量。 然而,事實(shí)并非這樣。原始交易庫說明有 90%的顧客會購買牛奶,而上面挖掘出來的關(guān)聯(lián)規(guī)則顯示買咖啡的顧客有 80%的可能性購買牛奶。也就是說,一個已知購買了咖啡的顧客購買牛奶的可能性事實(shí)上比一個不知道任何信息的顧客購買牛奶的可能性小 10%。這里并不能肯定地說“買咖啡?買牛奶”這條規(guī)則一定不正確,但至少它的價值已經(jīng)不如開始期望的那么高了。更嚴(yán)重的話

84、,這條規(guī)則確實(shí)會是誤導(dǎo)性的。因?yàn)槭聦?shí)上由原始庫可以看出,(不買咖啡?買牛奶)的可能性更大(70/75=93.3%)。 于是可以得出結(jié)論,在考慮了反面示例的影響之后,問題出現(xiàn)了。并非挖掘出的規(guī)則置信度或支持度不高,但一條即使置信度和支持度都很高的規(guī)則其實(shí)際利用價值已經(jīng)難以肯定了。為了解決這個問題,于是引入興趣度這個閥值。</p><p>  通過將觀測到的事件發(fā)生頻率(P(X ∩ Y))同基于X和Y條件獨(dú)立假設(shè)時事

85、件同時發(fā)生的頻率(P(X)×P(Y))之比,來測量規(guī)則的統(tǒng)計相依性,其中</p><p>  興趣度規(guī)則是用來修剪無趣的規(guī)則,即避免生成“錯覺”的關(guān)聯(lián)規(guī)則。一般一條規(guī)則的興趣度是在基于統(tǒng)計獨(dú)立性假設(shè)下真正的強(qiáng)度與期望的強(qiáng)度之比,然而在許多應(yīng)用中已發(fā)現(xiàn),只要人們?nèi)园阎С侄茸鳛樽畛醯捻?xiàng)集產(chǎn)生的主要決定因素,那么要么把支持度設(shè)的足夠低以使得不丟失任何有意義的規(guī)則,要么冒丟失一些重要規(guī)則的風(fēng)險。對于前一種情形,

86、計算效率是個問題,而后一種情形則有可能丟失從用戶觀點(diǎn)來看是有意義的規(guī)則的問題。在這種情況下,興趣度就發(fā)揮了作用。當(dāng)興趣度大于 1 的時候,這條規(guī)則就是比較好的;當(dāng)興趣度小于 1 的時候,這條規(guī)則就是沒有太大意義的。興趣度越大,規(guī)則的實(shí)際意義就越好。</p><p><b>  2.5 購物籃</b></p><p>  一般情況下,購物籃就是某個零售超市或者其他提供零

87、售的組織機(jī)構(gòu)提供給顧客臨時存放有意愿且即將要購買的商品的籃子,在這里說的購物籃的意思跟前者相差不大,但是這里的購物籃是確定顧客在最后一定購買了的購物清單,也就是最后顧客買單之后得到的顧客購買清單。</p><p>  3利用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則技術(shù)對某超市的銷售數(shù)據(jù)進(jìn)行購物籃分析</p><p>  3.1問題的提出與解決方法</p><p>  由于在商業(yè)零售行業(yè)中,

88、其最大的目的就是獲得最大的銷售利潤。因此,商場零售商非常需要解決的問題就是:</p><p>  采用什么樣的銷售策略和促銷策略</p><p>  商品在貨架上應(yīng)該如何擺放</p><p>  要解決這些問題,就要得到顧客的購買習(xí)性,因此,這里需要解決的問題就是從某個超市收集到的銷售數(shù)據(jù)中發(fā)現(xiàn)顧客的購買習(xí)性,得出個別商品之間的關(guān)聯(lián)關(guān)系或者規(guī)律,得出這種規(guī)律之后再對

89、商場上的商品布局進(jìn)行設(shè)計,提高銷售效率,盡量得到一個可以獲得最大利潤的商品布局、銷售和促銷策略。</p><p><b>  3.2問題解決過程</b></p><p><b>  如下圖:</b></p><p><b>  圖3-2-1</b></p><p><b&

90、gt;  3.3數(shù)據(jù)收集</b></p><p>  了解顧客的購買習(xí)慣和偏愛,會使零售超市對以上問題作出正確的決策具有指導(dǎo)意義。真實(shí)的數(shù)據(jù)在這里顯得格外重要,如果一條數(shù)據(jù)出錯,可能會直接影響整個結(jié)果,或者得出一個錯誤的結(jié)果,導(dǎo)致最后做了一個錯誤的決策,又或者漏掉某一個的為了要對某超市的銷售數(shù)據(jù)進(jìn)行購物籃分析,本文使用了從該超市收集到的126條購物小票,也稱作交易記錄,根據(jù)采集到的購物小票進(jìn)行統(tǒng)計在收

91、集數(shù)據(jù)時間內(nèi)的顧客購物數(shù)據(jù),收集數(shù)據(jù)時間為2015年4月24號與25號的白天和晚上。為了數(shù)據(jù)的正確性,在這里收集購物小票時候無論大小、購買物品多少,都要收集起來。在這里收集購物小票的方式有多種:</p><p>  跟已經(jīng)完成購物的顧客進(jìn)行索取購物小票</p><p>  在商場門口撿顧客扔掉的購物小票</p><p>  翻垃圾袋得到顧客扔掉的購物小票</p

92、><p><b>  3.4數(shù)據(jù)預(yù)處理</b></p><p>  在這些交易記錄當(dāng)中,由于商品數(shù)量過多,所以在這里不對詳細(xì)的商品進(jìn)行關(guān)聯(lián)規(guī)則分析,而是根據(jù)商品的類型進(jìn)行關(guān)聯(lián)規(guī)則分析,所以在這里首先必須對商品進(jìn)行類型分類,通過對類型的關(guān)聯(lián)規(guī)則分析來進(jìn)行找出商品類型之間的關(guān)聯(lián)關(guān)系。</p><p>  在收集到的數(shù)據(jù)集中,經(jīng)過簡單分類一共包含了32中

93、商品類型,這32中商品類型分別是:飲料、沖飲食品、乳制沖飲、滋補(bǔ)保健品、罐頭食品、即食主食、中式掛面\通心粉、調(diào)味品、干貨、餅干、糕點(diǎn)、膨化食品、休閑小食品、糖類、水果、酒類、米、粉面、油、雜糧、冷藏素食制品、冷藏乳制品、常溫乳制品、常溫熟食類、冷藏熟食、冰品、肉食、蔬菜、菜肴半成品、干調(diào)副食、散裝休閑食品。</p><p>  由于方便進(jìn)行數(shù)值上的統(tǒng)計,所以需要將各種分類用數(shù)值進(jìn)行表示。在這里,用excel表上

94、進(jìn)行對交易記錄進(jìn)行記錄,每一條記錄占用一行,用“0”與“1”來表示對哪一類商品是否購買,例如下圖:</p><p><b>  圖3-4-1</b></p><p>  通過對收集到的所以購物小票進(jìn)行統(tǒng)計,得到如下表:</p><p><b>  圖3-4-2</b></p><p><b&g

95、t;  圖3-4-3</b></p><p><b>  圖3-4-4</b></p><p><b>  圖3-4-5</b></p><p><b>  圖3-4-6</b></p><p>  通過sum函數(shù)對每一個類型的總量進(jìn)行統(tǒng)計,等到每一個類型商品的購買

96、量,如下圖:</p><p><b>  圖3-4-7</b></p><p>  為了減少后面的計算量,而且在第一輪的支持度分析中,必然會將低支持度的商品淘汰掉,因此在這里可以將總購買量不大于10的商品刪除掉。得到如下圖:</p><p><b>  圖3-4-8</b></p><p>  另外

97、,為了便于表達(dá),將商品類型換成代號表示,如下表:</p><p><b>  圖3-4-9</b></p><p>  3.5使用Apriori算法對商品進(jìn)行關(guān)聯(lián)規(guī)則挖掘分析</p><p>  首先對各個商品進(jìn)行第一輪的支持度計數(shù),根據(jù)以上的統(tǒng)計圖可以得到如下圖:</p><p><b>  圖3-5-1&l

98、t;/b></p><p>  要運(yùn)用Apriori算法對商品進(jìn)行關(guān)聯(lián)規(guī)則挖掘分析,首先要在已經(jīng)整理好的數(shù)據(jù)的基礎(chǔ)下對其進(jìn)行支持度分析,在這里先對單一的商品進(jìn)行支持度分析,運(yùn)用公式:</p><p>  對每種商品類型進(jìn)行支持度分析。其中σ(X)表示事務(wù)X的支持度計數(shù),D為所有事務(wù)總數(shù),在這里D=126,計算結(jié)果小數(shù)點(diǎn)后面保留兩位小數(shù)。計算如下:</p><p&g

99、t;  Support(01)=(82/126)*100%=65% Support(02)=(32/126)*100%=25%</p><p>  Support(03)=(16/126)*100%=12% Support(04)=(24/126)*100%=19%</p><p>  Support(05)=(45/126)*100%=35% Support(06)=(47/

100、126)*100%=37%</p><p>  Support(07)=(24/126)*100%=19% Support(08)=(41/126)*100%=32%</p><p>  Support(09)=(15/126)*100%=11% Support(10)=(31/126)*100%=24%</p><p>  Support(11)=(30/

101、126)*100%=23% Support(12)=(48/126)*100%=38%</p><p>  Support(13)=(51/126)*100%=40% Support(14)=(40/126)*100%=31%</p><p>  Support(15)=(23/126)*100%=18% Support(16)=(18/126)*100%=14%</p&

102、gt;<p>  Support(17)=(59/126)*100%=46% Support(18)=(61/126)*100%=48%</p><p>  Support(19)=(22/126)*100%=17% Support(20)=(11/126)*100%=8%</p><p>  Support(21)=(51/126)*100%=40%</p&g

103、t;<p>  設(shè)置min_sup=35%,則在第一輪的支持度分析中可以發(fā)現(xiàn),只有代碼為01,05,06,12,13,17,18,21的商品滿足最小支持度的項(xiàng),如下圖:</p><p><b>  圖3-5-2</b></p><p>  接下來也是做著同樣的事情,根據(jù)頻繁1-項(xiàng)集L1來產(chǎn)生候選2-項(xiàng)集C2,也就是將頻繁1-項(xiàng)集L1中的項(xiàng)集兩兩合并,得到

104、沒有重復(fù)的候選2-項(xiàng)集C2中的項(xiàng)集,如下圖:</p><p><b>  圖3-5-3</b></p><p>  然后通過對候選2-項(xiàng)集C2中的項(xiàng)集進(jìn)行支持度分析,計算各個2-項(xiàng)集的支持度計數(shù),如下圖:</p><p><b>  圖3-5-4</b></p><p>  從C2中選擇那些滿足mi

105、n_sup的項(xiàng)集,通過利用公式:</p><p>  得到2-項(xiàng)集的支持度(其中D=126):</p><p>  Support({01,05})=(38/126)*100%=30% </p><p>  Support({01,06})=(35/126)*100%=28%</p><p>  Support({01,12})=(37/12

106、6)*100%=29% </p><p>  Support({01,13})=(40/126)*100%=32%</p><p>  Support({01,17})=(38/126)*100%=30% </p><p>  Support({01,18})=(46/126)*100%=37%</p><p>  Support({01,2

107、1})=(44/126)*100%=35% </p><p>  Support({05,06})=(29/126)*100%=23%</p><p>  Support({05,12})=(24/126)*100%=19% </p><p>  Support({05,13})=(28/126)*100%=22%</p><p>  Sup

108、port({05,17})=(24/126)*100%=19%</p><p>  Support({05,18})=(34/126)*100%=27%</p><p>  Support({05,21})=(25/126)*100%=20% </p><p>  Support({06,12})=(31/126)*100%=25%</p><p

109、>  Support({06,13})=(31/126)*100%=25% </p><p>  Support({06,17})=(26/126)*100%=21%</p><p>  Support({06,18})=(34/126)*100%=27% </p><p>  Support({06,21})=(31/126)*100%=25%</p&

110、gt;<p>  Support({12,13})=(34/126)*100%=27% </p><p>  Support({12,17})=(27/126)*100%=21%</p><p>  Support({12,18})=(32/126)*100%=25% </p><p>  Support({12,21})=(32/126)*100%=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論