2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘,什么是關(guān)聯(lián)規(guī)則挖掘?,關(guān)聯(lián)規(guī)則挖掘:從事務(wù)數(shù)據(jù)庫(kù),關(guān)系數(shù)據(jù)庫(kù)和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性。應(yīng)用:購(gòu)物籃分析、分類設(shè)計(jì)、捆綁銷(xiāo)售等,“尿布與啤酒”——典型關(guān)聯(lián)分析案例,采用關(guān)聯(lián)模型比較典型的案例是“尿布與啤酒”的故事。在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買(mǎi)嬰兒尿布,超市也因此發(fā)現(xiàn)了一個(gè)規(guī)律,在購(gòu)買(mǎi)嬰兒尿布的年輕父親們中,有30%~40%的人同時(shí)要買(mǎi)一些

2、啤酒。超市隨后調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷(xiāo)售額。同樣的,我們還可以根據(jù)關(guān)聯(lián)規(guī)則在商品銷(xiāo)售方面做各種促銷(xiāo)活動(dòng)。,購(gòu)物籃分析,如果問(wèn)題的全域是商店中所有商品的集合,則對(duì)每種商品都可以用一個(gè)布爾量來(lái)表示該商品是否被顧客購(gòu)買(mǎi),則每個(gè)購(gòu)物籃都可以用一個(gè)布爾向量表示;而通過(guò)分析布爾向量則可以得到商品被頻繁關(guān)聯(lián)或被同時(shí)購(gòu)買(mǎi)的模式,這些模式就可以用關(guān)聯(lián)規(guī)則表示(0001001100,這種方法丟失了什么信息?)關(guān)聯(lián)規(guī)則的兩個(gè)興趣

3、度度量支持度置信度,關(guān)聯(lián)規(guī)則:基本概念,給定:項(xiàng)的集合:I={i1,i2,...,in}任務(wù)相關(guān)數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,每個(gè)事務(wù)T則是項(xiàng)的集合,使得每個(gè)事務(wù)由事務(wù)標(biāo)識(shí)符TID標(biāo)識(shí);A,B為兩個(gè)項(xiàng)集,事務(wù)T包含A當(dāng)且僅當(dāng)則關(guān)聯(lián)規(guī)則是如下蘊(yùn)涵式:其中 并且 ,規(guī)則 在事務(wù)集D中成立,并且具有支持度s和置信度c,,,,,,,基本概念——

4、示例,項(xiàng)的集合 I={A,B,C,D,E,F}每個(gè)事務(wù)T由事務(wù)標(biāo)識(shí)符TID標(biāo)識(shí),它是項(xiàng)的集合 比如:TID(2000)={A,B,C}任務(wù)相關(guān)數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,D,規(guī)則度量:支持度和置信度,,,,,,Customerbuys diaper,Customerbuys both,Customerbuys beer,,對(duì)所有滿足最小支持度和置信度的關(guān)聯(lián)規(guī)則支持度s是指事務(wù)集D中包含 的百分比置信度

5、c是指D中包含A的事務(wù)同時(shí)也包含B的百分比假設(shè)最小支持度為50%,最小置信度為50%,則有如下關(guān)聯(lián)規(guī)則A ? C (50%, 66.6%)C ? A (50%, 100%),,,,,,大型數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘 (1),基本概念k-項(xiàng)集:包含k個(gè)項(xiàng)的集合{牛奶,面包,黃油}是個(gè)3-項(xiàng)集項(xiàng)集的頻率是指包含項(xiàng)集的事務(wù)數(shù)如果項(xiàng)集的頻率大于(最小支持度×D中的事務(wù)總數(shù)),則稱該項(xiàng)集為頻繁項(xiàng)集,大型數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖

6、掘 (2),大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘包含兩個(gè)過(guò)程:找出所有頻繁項(xiàng)集大部分的計(jì)算都集中在這一步由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則即滿足最小支持度和最小置信度的規(guī)則,關(guān)聯(lián)規(guī)則挖掘分類 (1),關(guān)聯(lián)規(guī)則有多種分類:根據(jù)規(guī)則中所處理的值類型布爾關(guān)聯(lián)規(guī)則量化關(guān)聯(lián)規(guī)則(規(guī)則描述的是量化的項(xiàng)或?qū)傩蚤g的關(guān)聯(lián)性)根據(jù)規(guī)則中涉及的數(shù)據(jù)維單維關(guān)聯(lián)規(guī)則(僅涉及buys這個(gè)維)多維關(guān)聯(lián)規(guī)則,,,關(guān)聯(lián)規(guī)則挖掘分類 (2),根據(jù)規(guī)則集所涉及的抽象

7、層單層關(guān)聯(lián)規(guī)則多層關(guān)聯(lián)規(guī)則 (在不同的抽象層發(fā)現(xiàn)關(guān)聯(lián)規(guī)則)根據(jù)關(guān)聯(lián)挖掘的各種擴(kuò)充挖掘最大的頻繁模式(該模式的任何真超模式都是非頻繁的)挖掘頻繁閉項(xiàng)集(一個(gè)項(xiàng)集c是頻繁閉項(xiàng)集,如果不存在其真超集c’,使得每個(gè)包含c的事務(wù)也包含c’)(最大的頻繁模式和頻繁閉項(xiàng)集可以用來(lái)減少挖掘中產(chǎn)生的頻繁項(xiàng)集),由事務(wù)數(shù)據(jù)庫(kù)挖掘單維布爾關(guān)聯(lián)規(guī)則,最簡(jiǎn)單的關(guān)聯(lián)規(guī)則挖掘,即單維、單層、布爾關(guān)聯(lián)規(guī)則的挖掘。,最小支持度 50%最小置信度 50

8、%,對(duì)規(guī)則A ? C,其支持度 =50%置信度,,,Apriori算法 (1),Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法Apriori算法利用的是Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集也必須是頻繁的。 模式不可能比A更頻繁的出現(xiàn)Apriori算法是反單調(diào)的,即一個(gè)集合如果不能通過(guò)測(cè)試,則該集合的所有超集也不能通過(guò)相同的測(cè)試

9、。Apriori性質(zhì)通過(guò)減少搜索空間,來(lái)提高頻繁項(xiàng)集逐層產(chǎn)生的效率,,Apriori算法 (2),Apriori算法利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)(prior knowledge),通過(guò)逐層搜索的迭代方法,即將k-項(xiàng)集用于探察(k+1)-項(xiàng)集,來(lái)窮盡數(shù)據(jù)集中的所有頻繁項(xiàng)集。先找到頻繁1-項(xiàng)集集合L1,然后用L1找到頻繁2-項(xiàng)集集合L2,接著用L2找L3,直到找不到頻繁k-項(xiàng)集,找每個(gè)Lk需要一次數(shù)據(jù)庫(kù)掃描。,Apriori算法步驟,Ap

10、riori算法由連接和剪枝兩個(gè)步驟組成。連接:為了找Lk,通過(guò)Lk-1與自己連接產(chǎn)生候選k-項(xiàng)集的集合,該候選k項(xiàng)集記為Ck。Lk-1中的兩個(gè)元素L1和L2可以執(zhí)行連接操作 的條件是Ck是Lk的超集,即它的成員可能不是頻繁的,但是所有頻繁的k-項(xiàng)集都在Ck中(為什么?)。因此可以通過(guò)掃描數(shù)據(jù)庫(kù),通過(guò)計(jì)算每個(gè)k-項(xiàng)集的支持度來(lái)得到Lk 。為了減少計(jì)算量,可以使用Apriori性質(zhì),即如果一個(gè)k-項(xiàng)集的(k

11、-1)-子集不在Lk-1中,則該候選不可能是頻繁的,可以直接從Ck刪除。,,,Apriori算法——示例,Database TDB,1st scan,,C1,L1,L2,C2,C2,,2nd scan,,,C3,L3,3rd scan,,,,最小支持計(jì)數(shù):2,使用Apiori性質(zhì)由L2產(chǎn)生C3,1 .連接:C3=L2 L2= {{A,C},{B,C},{B,E}{C,E}} {{A,C},{B,C},{B,E}{

12、C,E}} = {{A,B,C},{A,C,E},{B,C,E}}2.使用Apriori性質(zhì)剪枝:頻繁項(xiàng)集的所有子集必須是頻繁的,對(duì)候選項(xiàng)C3,我們可以刪除其子集為非頻繁的選項(xiàng):{A,B,C}的2項(xiàng)子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以刪除這個(gè)選項(xiàng);{A,C,E}的2項(xiàng)子集是{A,C},{A,E},{C,E},其中{A,E} 不是L2的元素,所以刪除這個(gè)選項(xiàng);{B,C,E}的2項(xiàng)子集是{B,

13、C},{B,E},{C,E},它的所有2-項(xiàng)子集都是L2的元素,因此保留這個(gè)選項(xiàng)。3.這樣,剪枝后得到C3={{B,C,E}},,由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則,同時(shí)滿足最小支持度和最小置信度的才是強(qiáng)關(guān)聯(lián)規(guī)則,從頻繁項(xiàng)集產(chǎn)生的規(guī)則都滿足支持度要求,而其置信度則可由一下公式計(jì)算:每個(gè)關(guān)聯(lián)規(guī)則可由如下過(guò)程產(chǎn)生:對(duì)于每個(gè)頻繁項(xiàng)集l,產(chǎn)生l的所有非空子集;對(duì)于每個(gè)非空子集s,如果 則輸出規(guī)則“

14、 ”,,,,,多層關(guān)聯(lián)規(guī)則 (1),數(shù)據(jù)項(xiàng)中經(jīng)常會(huì)形成概念分層底層的數(shù)據(jù)項(xiàng),其支持度往往也較低這意味著挖掘底層數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則必須定義不同的支持度,All,Computeraccessory,software,laptop,financial,,,,,,mouse,color,,,printer,computer,,,desktop,,IBM,edu.,,,Microsoft,b/w,,,HP,,Son

15、y,wristpad,,,Logitech,,TID,Items,,,,,,,,,,,,T1,{IBM D/C, Sony b/w},,,,,,,,,T2,{Ms. edu. Sw., Ms. fin. Sw.},,,,,,,,,T3,{Logi. mouse, Ergoway wrist pad},,,,,,,,,T4,{IBM D/C, Ms. Fin. Sw.},,,,,,,,,T5,{IBM D/C},,,,,,,,,,,,,

16、,,,,Ergoway,多層關(guān)聯(lián)規(guī)則 (2),在適當(dāng)?shù)牡燃?jí)挖掘出來(lái)的數(shù)據(jù)項(xiàng)間的關(guān)聯(lián)規(guī)則可能是非常有用的通常,事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)也是根據(jù)維和概念分層來(lái)進(jìn)行儲(chǔ)存的這為從事務(wù)數(shù)據(jù)庫(kù)中挖掘不同層次的關(guān)聯(lián)規(guī)則提供了可能。在多個(gè)抽象層挖掘關(guān)聯(lián)規(guī)則,并在不同的抽象層進(jìn)行轉(zhuǎn)化,是數(shù)據(jù)挖掘系統(tǒng)應(yīng)該提供的能力,挖掘多層關(guān)聯(lián)規(guī)則的方法,通常,多層關(guān)聯(lián)規(guī)則的挖掘還是使用置信度-支持度框架,可以采用自頂向下策略請(qǐng)注意:概念分層中,一個(gè)節(jié)點(diǎn)的支持度肯定不小

17、于該節(jié)點(diǎn)的任何子節(jié)點(diǎn)的支持度由概念層1開(kāi)始向下,到較低的更特定的概念層,對(duì)每個(gè)概念層的頻繁項(xiàng)計(jì)算累加計(jì)數(shù)每一層的關(guān)聯(lián)規(guī)則挖掘可以使用Apriori等多種方法例如:先找高層的關(guān)聯(lián)規(guī)則:computer -> printer [20%, 60%]再找較低層的關(guān)聯(lián)規(guī)則:laptop -> color printer [10%, 50%],多層關(guān)聯(lián)——一致支持度,一致支持度:對(duì)所有層都使用一致的最小支持度優(yōu)點(diǎn):搜索時(shí)容易

18、采用優(yōu)化策略,即一個(gè)項(xiàng)如果不滿足最小支持度,它的所有子項(xiàng)都可以不用搜索缺點(diǎn):最小支持度值設(shè)置困難太高:將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則太低:會(huì)在較高層產(chǎn)生太多的無(wú)興趣的規(guī)則,多層關(guān)聯(lián)——遞減支持度,使用遞減支持度,可以解決使用一致支持度時(shí)在最小支持度值上設(shè)定的困難遞減支持度:在較低層使用遞減的最小支持度每一層都有自己的一個(gè)獨(dú)立的最小支持度抽象層越低,對(duì)應(yīng)的最小支持度越小,min_sup = 5%,min_sup =

19、5%,min_sup = 3%,多層關(guān)聯(lián)——搜索策略 (1),具有遞減支持度的多層關(guān)聯(lián)規(guī)則的搜索策略逐層獨(dú)立:完全的寬度搜索,沒(méi)有頻繁項(xiàng)集的背景知識(shí)用于剪枝層交叉單項(xiàng)過(guò)濾:一個(gè)第i層的項(xiàng)被考察,當(dāng)且僅當(dāng)它在第(i-1)層的父節(jié)點(diǎn)是頻繁的(P165, 圖6-14)(computer)?( laptop computer, desktop computer)層交叉k項(xiàng)集過(guò)濾:一個(gè)第i層的k項(xiàng)集被考察,當(dāng)且僅當(dāng)它在第(i-1)層的對(duì)應(yīng)

20、父節(jié)點(diǎn)k-項(xiàng)集是頻繁的(P165, 圖6-15)(computer, printer)?(( laptop computer, color printer), (desktop computer, b/w printer) …),多層關(guān)聯(lián)——搜索策略 (2),搜索策略比較逐層獨(dú)立策略條件松,可能導(dǎo)致底層考察大量非頻繁項(xiàng)層交叉k項(xiàng)集過(guò)濾策略限制太強(qiáng),僅允許考察頻繁k-項(xiàng)集的子女層交叉單項(xiàng)過(guò)濾策略是上述兩者的折中,但仍可能丟失低層頻

21、繁項(xiàng)(圖6-14),受控的層交叉單項(xiàng)過(guò)濾策略,層交叉單項(xiàng)過(guò)濾策略的改進(jìn)版本設(shè)置一個(gè)層傳遞臨界值,用于向較低層傳遞相對(duì)頻繁的項(xiàng)。即如果滿足層傳遞臨界值,則允許考察不滿足最小支持度臨界值的項(xiàng)的子女用戶對(duì)進(jìn)一步控制多概念層上的挖掘過(guò)程有了更多的靈活性,同時(shí)減少無(wú)意義關(guān)聯(lián)的考察和產(chǎn)生,min_sup = 12%level_passage_support = 8%,min_sup = 3%,檢查冗余的多層關(guān)聯(lián)規(guī)則,挖掘多層關(guān)聯(lián)規(guī)則時(shí),由于

22、項(xiàng)間的“祖先”關(guān)系,有些發(fā)現(xiàn)的規(guī)則將是冗余的例如:desktop computer => b/w printer [sup=8%, con=70%] (1)IBM desktop computer => b/w printer [sup=2%, con=72%] (2)上例中,我們說(shuō)第一個(gè)規(guī)則是第二個(gè)規(guī)則的“祖先”如果規(guī)則(2)中的項(xiàng)用它在概念分層中的“祖先”代替,能得到(1),而且(1)的支持度和置信度都接近“

23、期望”值,則(1)是冗余的。,多維關(guān)聯(lián)規(guī)則——概念,單維關(guān)聯(lián)規(guī)則:buys(X, “milk”) = buys(X, “bread”)多維關(guān)聯(lián)規(guī)則:涉及兩個(gè)或多個(gè)維或謂詞的關(guān)聯(lián)規(guī)則維間關(guān)聯(lián)規(guī)則:不包含重復(fù)的謂詞age(X,”19-25”) ∧occupation(X,“student”) => buys(X,“coke”)混合維關(guān)聯(lián)規(guī)則:包含某些謂詞的多次出現(xiàn)age(X,”19-25”) ∧buys(X, “popco

24、rn”) => buys(X, “coke”)在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項(xiàng)集,而是頻繁謂詞集。k-謂詞集是包含k個(gè)合取謂詞的集合。例如:{age, occupation, buys}是一個(gè)3-謂詞集,挖掘多維關(guān)聯(lián)規(guī)則的技術(shù),數(shù)據(jù)屬性可以分為分類屬性和量化屬性分類屬性具有有限個(gè)不同值,值之間無(wú)序量化屬性數(shù)值類型的值,并且值之間有一個(gè)隱含的序挖掘多維關(guān)聯(lián)規(guī)則的技術(shù)可以根據(jù)量化屬性的處理分為三種基本方法:1

25、. 量化屬性的靜態(tài)離散化使用預(yù)定義的概念分層對(duì)量化屬性進(jìn)行靜態(tài)地離散化2. 量化關(guān)聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布,將量化屬性離散化到“箱”3. 基于距離的關(guān)聯(lián)規(guī)則考慮數(shù)據(jù)點(diǎn)之間的距離,動(dòng)態(tài)地離散化量化屬性,多維關(guān)聯(lián)規(guī)則挖掘——使用量化屬性的靜態(tài)離散化,量化屬性使用預(yù)定義的概念分層,在挖掘前進(jìn)行離散化數(shù)值屬性的值用區(qū)間代替如果任務(wù)相關(guān)數(shù)據(jù)存在關(guān)系數(shù)據(jù)庫(kù)中,則找出所有頻繁的k-謂詞集將需要k或k+1次表掃描數(shù)據(jù)立方體技術(shù)非常適合挖掘多

26、維關(guān)聯(lián)規(guī)則n-維方體的單元用于存放對(duì)應(yīng)n-謂詞集的計(jì)數(shù)或支持度,0-D方體用于存放任務(wù)相關(guān)數(shù)據(jù)的事務(wù)總數(shù)如果包含感興趣的維的數(shù)據(jù)立方體已經(jīng)存在并物化,挖掘?qū)?huì)很快,同時(shí)可以利用Apriori性質(zhì):頻繁謂詞集的每個(gè)子集也必須是頻繁的,挖掘量化關(guān)聯(lián)規(guī)則 (1),量化關(guān)聯(lián)規(guī)則中,數(shù)值屬性將根據(jù)某種挖掘標(biāo)準(zhǔn),進(jìn)行動(dòng)態(tài)的離散化例如:最大化挖掘規(guī)則的置信度和緊湊性為了簡(jiǎn)化量化關(guān)聯(lián)規(guī)則挖掘的討論,我們將聚焦于類似以下形式的2-維量化關(guān)聯(lián)規(guī)則:

27、Aquan1 ? Aquan2 ? Acat(兩個(gè)量化屬性和一個(gè)分類屬性間的關(guān)聯(lián))例如: age(X,”30-39”) ? income(X,”42K - 48K”) ? buys(X,”high resolution TV”),挖掘量化關(guān)聯(lián)規(guī)則 (2),找出這類2-維量化關(guān)聯(lián)規(guī)則的方法:關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS)一種源于圖像處理的技術(shù),該技術(shù)將量化屬性對(duì)映射到滿足給定分類屬性條件的2-D柵格上,然后通過(guò)搜索柵格點(diǎn)的聚類而產(chǎn)生關(guān)

28、聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS) (1),ARCS過(guò)程中的步驟包括1. 分箱(根據(jù)不同分箱方法創(chuàng)建一個(gè)2-D數(shù)組),本步驟的目的在于減少量化屬性相對(duì)應(yīng)的巨大的值個(gè)數(shù),使得2-D柵格的大小可控等寬分箱等深分箱基于同質(zhì)的分箱(每個(gè)箱中元組一致分布)2. 找出頻繁謂詞集掃描分箱后形成的2-D數(shù)組,找出滿足最小支持度和置信度的頻繁謂詞集,關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS) (2),3. 關(guān)聯(lián)規(guī)則聚類將上一步得到的強(qiáng)關(guān)聯(lián)規(guī)則映射到2-

29、D柵格上,使用聚類算法,掃描柵格,搜索規(guī)則的矩形聚類,,,,,,,,,ARCS的局限性,所挖掘的關(guān)聯(lián)規(guī)則左手邊只能是量化屬性規(guī)則的左手邊只能有兩個(gè)量化屬性(2-D柵格的限制)一種不基于柵格的,可以發(fā)現(xiàn)更一般關(guān)聯(lián)規(guī)則的技術(shù),其中任意個(gè)數(shù)的量化屬性和分類屬性可以出現(xiàn)在規(guī)則的兩端等深分箱動(dòng)態(tài)劃分根據(jù)部分完全性的度量進(jìn)行聚類,挖掘基于距離的關(guān)聯(lián)規(guī)則,等寬劃分將很近的值分開(kāi),并創(chuàng)建沒(méi)有數(shù)據(jù)的區(qū)間等深劃分將很遠(yuǎn)的值放在一組基于距離的關(guān)聯(lián)

30、規(guī)則挖掘考慮屬性值的接近性,緊扣區(qū)間數(shù)據(jù)的語(yǔ)義,并允許值的類似基于距離的關(guān)聯(lián)規(guī)則挖掘的兩遍算法:1. 使用聚類找出區(qū)間或簇2. 搜索頻繁的一起出現(xiàn)的簇組,得到基于距離的關(guān)聯(lián)規(guī)則,因?yàn)槲纯紤]數(shù)據(jù)點(diǎn)之間或區(qū)間的相對(duì)距離,分箱方法不是總能緊扣區(qū)間數(shù)據(jù)的語(yǔ)義,關(guān)聯(lián)規(guī)則的興趣度度量,客觀度量?jī)蓚€(gè)流行的度量指標(biāo)支持度置信度主觀度量最終,只有用戶才能確定一個(gè)規(guī)則是否有趣的,而且這種判斷是主觀的,因不同的用戶而異;通常認(rèn)為一個(gè)規(guī)則(模式

31、)是有趣的,如果:它是出人意料的可行動(dòng)的(用戶可以使用該規(guī)則做某些事情)挖掘了關(guān)聯(lián)規(guī)則后,哪些規(guī)則是用戶感興趣的?強(qiáng)關(guān)聯(lián)規(guī)則是否就是有趣的?,對(duì)強(qiáng)關(guān)聯(lián)規(guī)則的批評(píng)(1),例1:(Aggarwal & Yu, PODS98)在5000個(gè)學(xué)生中3000個(gè)打籃球3750個(gè)喝麥片粥2000個(gè)學(xué)生既打籃球又喝麥片粥然而,打籃球 => 喝麥片粥 [40%, 66.7%]是錯(cuò)誤的,因?yàn)槿繉W(xué)生中喝麥片粥的比率是75%,比打

32、籃球?qū)W生的66.7%要高打籃球 => 不喝麥片粥 [20%, 33.3%]這個(gè)規(guī)則遠(yuǎn)比上面那個(gè)要精確,盡管支持度和置信度都要低的多,對(duì)強(qiáng)關(guān)聯(lián)規(guī)則的批評(píng)(2),例1:(書(shū)P172,表6-4)上述數(shù)據(jù)可以得出buys(X, “computer games”) => buys(X, “videos”) [40%, 60%]但其實(shí)全部人中購(gòu)買(mǎi)錄像帶的人數(shù)是75%,比60%多;事實(shí)上錄像帶和游戲是負(fù)相關(guān)的。由此可見(jiàn)A =&g

33、t; B的置信度有欺騙性,它只是給出A,B條件概率的估計(jì),而不度量A,B間蘊(yùn)涵的實(shí)際強(qiáng)度。,由關(guān)聯(lián)分析到相關(guān)分析,我們需要一種度量事件間的相關(guān)性或者是依賴性的指標(biāo)當(dāng)項(xiàng)集A的出現(xiàn)獨(dú)立于項(xiàng)集B的出現(xiàn)時(shí),P(A∪B)=P(A)P(B),即corrA,B=1,表明A與B無(wú)關(guān), corrA,B >1表明A與B正相關(guān), corrA,B <1表明A與B負(fù)相關(guān)將相關(guān)性指標(biāo)用于前面的例子,可以得出錄像帶和游戲?qū)⒌南嚓P(guān)性為:P({g

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論