版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù),Electronic Commerce夏火松E-MAIL:BXXHS@SINA.COM,,,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)教案,第三部分 主要內(nèi)容講解第一章數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述,1.1數(shù)據(jù)倉(cāng)庫(kù)引論11.1.1為什么要建立數(shù)據(jù)倉(cāng)庫(kù)11.1.2什么是數(shù)據(jù)倉(cāng)庫(kù)21.1.3數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)71.1.4數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的基本過(guò)程與建立數(shù)據(jù)倉(cāng)庫(kù)的步驟111.1.5分析數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容12
2、1.2數(shù)據(jù)挖掘引論131.2.1為什么要進(jìn)行數(shù)據(jù)挖掘131.2.2什么是數(shù)據(jù)挖掘181.2.3數(shù)據(jù)挖掘的特點(diǎn)211.2.4數(shù)據(jù)挖掘的基本過(guò)程與步驟221.2.5分析數(shù)據(jù)挖掘的內(nèi)容261.3數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系281.4數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的應(yīng)用311.4.1數(shù)據(jù)挖掘在零售業(yè)的應(yīng)用311.4.2數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用361.4.3數(shù)據(jù)挖掘在電信部門(mén)的應(yīng)用401.4
3、.4數(shù)據(jù)挖掘在貝斯出口公司的應(yīng)用421.4.5數(shù)據(jù)挖掘如何預(yù)測(cè)信用卡欺詐421.4.6數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用43思考練習(xí)題一44,1.1.1為什么要建立數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的作用 建立數(shù)據(jù)倉(cāng)庫(kù)的好處,1.1.2 什么是數(shù)據(jù)倉(cāng)庫(kù),1.?dāng)?shù)據(jù)倉(cāng)庫(kù)的概念 W.H.Inmon在《Building the Data Warehouse》中定義數(shù)據(jù)倉(cāng)庫(kù)為:“數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、隨時(shí)間變化的、歷史的、穩(wěn)定的、支持決
4、策制定過(guò)程的數(shù)據(jù)集合?!?即數(shù)據(jù)倉(cāng)庫(kù)是在管理人員決策中的面向主題的、集成的、非易失的并且隨時(shí)間而變化的數(shù)據(jù)集合。“DW是作為DSS基礎(chǔ)的分析型DB,用來(lái)存放大容量的只讀數(shù)據(jù),為制定決策提供所需的信息?!?“DW是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的。即與企業(yè)定義的時(shí)間區(qū)段相關(guān),面向主題且不可更新的數(shù)據(jù)集合。” 數(shù)據(jù)倉(cāng)庫(kù)是一種來(lái)源于各種渠道的單一的、完整的、穩(wěn)定的數(shù)據(jù)存儲(chǔ)。這種數(shù)據(jù)存儲(chǔ)提供給可以允許最終用戶(hù)的
5、可以是一種他們能夠在其業(yè)務(wù)范疇中理解并使用的方式。數(shù)據(jù)倉(cāng)庫(kù)是大量有關(guān)公司數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)。倉(cāng)庫(kù)提供公司數(shù)據(jù)以及組織數(shù)據(jù)的訪問(wèn)功能,其中的數(shù)據(jù)是一致的(consistent),并且可以按每種可能的商業(yè)度量方式分解和組合;數(shù)據(jù)倉(cāng)庫(kù)也是一套查詢(xún)、分析和呈現(xiàn)信息的工具;數(shù)據(jù)倉(cāng)庫(kù)是我們發(fā)布所用數(shù)據(jù)的場(chǎng)所,其中數(shù)據(jù)的質(zhì)量是業(yè)務(wù)再工程的驅(qū)動(dòng)器(driver of business reengineering)。定義的共同特征:首先,數(shù)據(jù)倉(cāng)庫(kù)包含大
6、量數(shù)據(jù),其中一些數(shù)據(jù)來(lái)源于組織中的操作數(shù)據(jù),也有一些數(shù)據(jù)可能來(lái)自于組織外部;其次,組織數(shù)據(jù)倉(cāng)庫(kù)是為了更加便利地使用數(shù)據(jù)進(jìn)行決策;最后,數(shù)據(jù)倉(cāng)庫(kù)為最終用戶(hù)提供了可用來(lái)存取數(shù)據(jù)的工具。,數(shù)據(jù)倉(cāng)庫(kù)的定義,綜合對(duì)數(shù)據(jù)倉(cāng)庫(kù)的各種理解以及其特征,我們可以定義數(shù)據(jù)倉(cāng)庫(kù)是一種為信息分析提供了良好的基礎(chǔ)并支持管理決策活動(dòng)的分析環(huán)境,是面向主題的、集成的、穩(wěn)定的、不可更新的、隨時(shí)間變化的、分層次的多維的集成數(shù)據(jù)集合。,,2.與數(shù)據(jù)倉(cāng)庫(kù)相關(guān)的幾個(gè)概念數(shù)據(jù)
7、(data)是一組表示數(shù)量、行動(dòng)和目標(biāo)的非隨機(jī)的可以鑒別的符號(hào),是對(duì)客觀事物記錄下來(lái)的,可以鑒別的符號(hào)。這些符號(hào)包括數(shù)字、字符、文字、圖形、圖像、聲音。操作數(shù)據(jù)原子數(shù)據(jù)匯總數(shù)據(jù)特定查詢(xún)響應(yīng),數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,,數(shù)據(jù)類(lèi)型的分類(lèi) 元數(shù)據(jù)是指用來(lái)描述數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)內(nèi)容的數(shù)據(jù)。以后將詳細(xì)討論元數(shù)據(jù)。數(shù)據(jù)庫(kù)是一組內(nèi)部相關(guān)聯(lián)的數(shù)據(jù)集合。其中關(guān)系數(shù)據(jù)庫(kù)是表的集合,每個(gè)表都有惟一的名字,且每個(gè)表都由一組字段(屬性)所存放的記錄組成。數(shù)據(jù)庫(kù)管理
8、系統(tǒng)(DBMS)是用來(lái)管理和存取數(shù)據(jù)庫(kù)的一組軟件。該軟件具有如下機(jī)制:數(shù)據(jù)庫(kù)結(jié)構(gòu)定義,數(shù)據(jù)的存儲(chǔ)、并發(fā)、共享或分布的數(shù)據(jù)訪問(wèn),數(shù)據(jù)的一致性和安全性。數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)由硬件、軟件、數(shù)據(jù)庫(kù)和管理人員組成的復(fù)雜系統(tǒng)。隨著信息技術(shù)不斷的發(fā)展,對(duì)數(shù)據(jù)處理的技術(shù)和人們對(duì)數(shù)據(jù)的需求也在不斷的進(jìn)化,如圖1.2所示的數(shù)據(jù)庫(kù)系統(tǒng)及相關(guān)技術(shù)的演化。數(shù)據(jù)集市(data marts)通常是指較為小型化、針對(duì)特定目標(biāo)且建設(shè)成本較低的一種數(shù)據(jù)倉(cāng)庫(kù)。為了特定的應(yīng)用
9、目的或應(yīng)用范圍,而從數(shù)據(jù)倉(cāng)庫(kù)中獨(dú)立出來(lái)的一部分?jǐn)?shù)據(jù),也可稱(chēng)為部門(mén)數(shù)據(jù)或主題數(shù)據(jù)(subject data)。,數(shù)據(jù)庫(kù)系統(tǒng)及相關(guān)技術(shù)的演化,1.1.3 數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn),1.主題與面向主題2.?dāng)?shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的集成性3.?dāng)?shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的不可更新性4.DW數(shù)據(jù)的時(shí)態(tài)性,1.1.4 數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的基本過(guò)程與建立數(shù)據(jù)倉(cāng)庫(kù)的步驟,1.?dāng)?shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的基本過(guò)程操作數(shù)據(jù)向數(shù)據(jù)倉(cāng)庫(kù)的移動(dòng)包括以下五個(gè)過(guò)程:提取、變換、凈化、加載和匯總。2.建
10、立數(shù)據(jù)倉(cāng)庫(kù)的步驟1)收集和分析業(yè)務(wù)需求;2)建立數(shù)據(jù)模型和數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì);3)定義數(shù)據(jù)源;4)選擇數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和平臺(tái);5)從操作型數(shù)據(jù)庫(kù)中提取、轉(zhuǎn)換和凈化數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù);6)選擇訪問(wèn)和報(bào)表工具;7)選擇數(shù)據(jù)庫(kù)連接軟件;8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;9)更新數(shù)據(jù)倉(cāng)庫(kù);,1.1.5 分析數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容,操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別,1.2.1 為什么要進(jìn)行數(shù)據(jù)挖掘,1.?dāng)?shù)據(jù)挖掘的作用數(shù)據(jù)挖掘解
11、決諸如欺詐甄別(fraud detection)、保留客戶(hù)(customer retention)、 消除摩擦(attrition)、數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)(database marketing)、市場(chǎng)細(xì)分(market segmentation)、風(fēng)險(xiǎn)分析(risk analysis)、親和力分析(affinity analysis)、客戶(hù)滿(mǎn)意度(customer satisfaction)、破產(chǎn)預(yù)測(cè)(bankruptcy prediction
12、)、職務(wù)分析(portfolio analysis)等業(yè)務(wù)問(wèn)題提供了有效的方法。,,2.?dāng)?shù)據(jù)挖掘的背景(1)數(shù)據(jù)挖掘的商業(yè)背景(2)數(shù)據(jù)挖掘的技術(shù)背景(3)數(shù)據(jù)挖掘的社會(huì)背景,,3.?dāng)?shù)據(jù)挖掘?qū)ζ髽I(yè)的影響,1.2.2 什么是數(shù)據(jù)挖掘,1.?dāng)?shù)據(jù)挖掘概念定義1 G.Piatetsky Shapior,W.J.Frawley等定義數(shù)據(jù)挖掘?yàn)閺臄?shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用的信息的非平凡過(guò)程。定義2 有
13、人簡(jiǎn)單認(rèn)為,數(shù)據(jù)挖掘就是數(shù)據(jù)庫(kù)中知識(shí)的發(fā)現(xiàn)。定義3 有人認(rèn)為,數(shù)據(jù)挖掘?yàn)榘l(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和關(guān)系的過(guò)程。定義4 有人認(rèn)為,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘知識(shí)。定義5 Fayyad等在“知識(shí)發(fā)現(xiàn)96國(guó)際會(huì)議上”認(rèn)為,知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的全部過(guò)程,而數(shù)據(jù)挖掘則是此全部過(guò)程中一個(gè)特定的關(guān)鍵一步。這種觀點(diǎn)將數(shù)據(jù)挖掘的對(duì)象局限于數(shù)據(jù)庫(kù)。定義6 數(shù)據(jù)挖掘廣義的定義為在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持的過(guò)程
14、。 綜上所述,我們定義數(shù)據(jù)挖掘?yàn)樵诓煌臄?shù)據(jù)源中包括結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),即既可以是數(shù)據(jù)庫(kù),也可以是文件系統(tǒng),或其他任何組織在一起的數(shù)據(jù)集合,通過(guò)一定的工具與方法尋找出有價(jià)值的知識(shí)的一類(lèi)深層次的數(shù)據(jù)分析方法。,,2.?dāng)?shù)據(jù)挖掘的分類(lèi),,3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念1)直接數(shù)據(jù)挖掘利用可用的數(shù)據(jù)建立一個(gè)模型,模型對(duì)剩余的數(shù)據(jù),對(duì)一個(gè)特定的變量(可以理解成數(shù)據(jù)庫(kù)中表的屬性,即列)進(jìn)行描述,分類(lèi)、估值、預(yù)言屬于
15、直接數(shù)據(jù)挖掘。2)間接數(shù)據(jù)挖掘不是選出某一具體的變量用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化屬于間接數(shù)據(jù)挖掘。3)描述式數(shù)據(jù)挖掘以簡(jiǎn)潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有意義的一般知識(shí)。4)預(yù)測(cè)式數(shù)據(jù)挖掘分析數(shù)據(jù),建立一個(gè)或一組模型,并試圖預(yù)測(cè)新數(shù)據(jù)集的行為。,,3.與數(shù)據(jù)挖掘相關(guān)的幾個(gè)概念(續(xù))5)數(shù)據(jù)庫(kù)查詢(xún)工具和數(shù)據(jù)挖掘工具之間的差異查詢(xún)工具能幫助用戶(hù)從數(shù)據(jù)庫(kù)數(shù)據(jù)中找到
16、新的、有意義的事實(shí)。這類(lèi)問(wèn)題是查詢(xún)所要訪問(wèn)的是對(duì)象是否在某一特定的位置。這與目前數(shù)據(jù)庫(kù)系統(tǒng)中大部分的查詢(xún)操作是相似的。通過(guò)這類(lèi)問(wèn)題使你可以確定對(duì)象將到達(dá)的位置。6)信息7)知識(shí)(knowledge)8)數(shù)據(jù)、信息與知識(shí)的轉(zhuǎn)化關(guān)系,1.2.3 數(shù)據(jù)挖掘的特點(diǎn),1)處理的數(shù)據(jù)規(guī)模十分龐大;2)由于用戶(hù)不能形成精確的查詢(xún)要求,因此需要靠DM技術(shù)來(lái)尋找其可能感興趣的東西;3)DM對(duì)數(shù)據(jù)的迅速變化做出快速響應(yīng),以提供決策支持信息;4)
17、DM既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護(hù)規(guī)則,隨著新數(shù)據(jù)的不斷加入,規(guī)則需要隨著新數(shù)據(jù)更新;5)DM中規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律,發(fā)現(xiàn)的規(guī)則不必適合于所有數(shù)據(jù),而且當(dāng)達(dá)到某一閾值時(shí),便認(rèn)為有此規(guī)則。,1.2.4 數(shù)據(jù)挖掘的基本過(guò)程與步驟,1.?dāng)?shù)據(jù)挖掘的基本過(guò)程 (1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備(data preparation):本階段又可進(jìn)一步細(xì)分成數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。 (2) 挖掘挖掘(mining):DM處理器(data min
18、ing processor)綜合利用前面提到的多種DM方法分析數(shù)據(jù)。(3) 表述表述(presentation):與檢驗(yàn)證型工具一樣,DM將獲取的信息以便于用戶(hù)理解和觀察的方式反映給用戶(hù),這時(shí)可以利用可視化工具。 (4) 評(píng)價(jià)評(píng)價(jià)(assess):如果分析人員對(duì)分析結(jié)果不滿(mǎn)意,可以遞歸地執(zhí)行上述三個(gè)過(guò)程,直到滿(mǎn)意為止。,,2.進(jìn)行數(shù)據(jù)挖掘的步驟 (1) 問(wèn)題定義問(wèn)題定義主要是指利用數(shù)據(jù)挖掘可以分析哪些問(wèn)題。 (2)發(fā)現(xiàn)
19、信息通過(guò)數(shù)據(jù)挖掘分析從其客戶(hù)那里發(fā)現(xiàn)更多的信息。 (3)制定計(jì)劃 (4)采取行動(dòng) (5) 監(jiān)測(cè)效果,1.2.5 分析數(shù)據(jù)挖掘的內(nèi)容,1)直銷(xiāo)2)爭(zhēng)取客戶(hù)3)保留客戶(hù)4)交叉銷(xiāo)售5)趨勢(shì)分析6)欺詐檢測(cè),1.3 數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系,,用戶(hù)包括偶然用戶(hù)(casual user)、高級(jí)用戶(hù)(power user)和專(zhuān)家(expert)。 查詢(xún)協(xié)同管理包括一些訪問(wèn)工具和系統(tǒng)管理工具,為用戶(hù)訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)和其他系統(tǒng)提供
20、手段。 數(shù)據(jù)倉(cāng)庫(kù)管理包括安全和特權(quán)管理,跟蹤數(shù)據(jù)的更新,數(shù)據(jù)質(zhì)量檢查,管理和更新元數(shù)據(jù),審計(jì)和報(bào)告數(shù)據(jù)倉(cāng)庫(kù)的使用和狀態(tài),刪除數(shù)據(jù),復(fù)制、分割和分發(fā)數(shù)據(jù),備份和恢復(fù),存儲(chǔ)管理。 信息發(fā)布系統(tǒng)即把數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶(hù)。,1.4.1 數(shù)據(jù)挖掘在零售業(yè)的應(yīng)用,超市可以采用兩種不同的方式從事信息中介,一種方式是針對(duì)匿名客戶(hù),另一種是針對(duì)注冊(cè)或有忠誠(chéng)卡的客戶(hù)。 (1)重心從商品轉(zhuǎn)換到客戶(hù)分析特定客戶(hù)群的
21、購(gòu)買(mǎi)模式,廠商可以了解特定的客戶(hù)的購(gòu)買(mǎi)模型。 (2)數(shù)據(jù)分析賣(mài)主(供應(yīng)商)可以通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)增加商品的利潤(rùn)率,通過(guò)競(jìng)爭(zhēng)成為“種類(lèi)首領(lǐng)”。,1.4.2 數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用,在銀行業(yè),數(shù)據(jù)挖掘主要用于信用欺詐的建模和預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估、趨勢(shì)分析、收益分析以及輔助直銷(xiāo)活動(dòng)。 在金融市場(chǎng),已將神經(jīng)網(wǎng)絡(luò)用于股票價(jià)格預(yù)測(cè)、購(gòu)買(mǎi)權(quán)交易、債券等級(jí)評(píng)定、資產(chǎn)組合管理、商品價(jià)格預(yù)測(cè)、合并和買(mǎi)進(jìn)以及金融危機(jī)預(yù)測(cè)等方面。,,1996年,《
22、銀行系統(tǒng)和技術(shù)》評(píng)論認(rèn)為“數(shù)據(jù)挖掘技術(shù)將是本年度金融服務(wù)領(lǐng)域最重要的應(yīng)用?!?在進(jìn)行數(shù)據(jù)挖掘的銀行包括美國(guó)第一銀行、Headland抵押公司、FCC國(guó)家銀行、聯(lián)邦住房貸款抵押公司、Wells Fargo銀行、NationsBanc服務(wù)公司、N.A.Mellon銀行、Advata抵押公司、化學(xué)銀行、Chevy Chase銀行、美國(guó)銀行公司和USAA聯(lián)邦儲(chǔ)蓄銀行,1.4.3 數(shù)據(jù)挖掘在電信部門(mén)的應(yīng)用,1998年,西部電信用SAS的企業(yè)挖
23、掘數(shù)據(jù)產(chǎn)品作為數(shù)據(jù)挖掘平臺(tái),開(kāi)發(fā)了一項(xiàng)企業(yè)營(yíng)銷(xiāo)戰(zhàn)略系統(tǒng)。 1995年9月,DEC公司的Evan Davies和Hossein Pakraven提交的一份報(bào)告對(duì)客戶(hù)跳槽造成的損失進(jìn)行了量化,同時(shí)他們估計(jì)獲得一個(gè)新客戶(hù)的費(fèi)用高達(dá)400美元。,1.4.4 數(shù)據(jù)挖掘在貝斯出口公司的應(yīng)用,貝斯出口公司是英國(guó)最大的啤酒出口商。該公司選擇了IBM的智能挖掘器作為其數(shù)據(jù)挖掘的商務(wù)解決方案。,1.4.5 數(shù)據(jù)挖掘如何預(yù)測(cè)信用卡欺詐,對(duì)于這一問(wèn)題可以有
24、下列3種解決的途徑: 1)使用查詢(xún)工具從關(guān)系數(shù)據(jù)庫(kù)中以適當(dāng)?shù)母袷匠槿∷枰男畔?。采用Brio,Businee Objects及Congnos等公司開(kāi)發(fā)的工具將很容易構(gòu)造出模型。由于用這種方法需要將數(shù)據(jù)下載到客戶(hù)端計(jì)算機(jī)中,所以能夠從數(shù)據(jù)倉(cāng)庫(kù)中創(chuàng)建視圖來(lái)表示將要挖掘的虛擬數(shù)據(jù)。2)通過(guò)從關(guān)系數(shù)據(jù)倉(cāng)庫(kù)中抽取記錄數(shù)據(jù),這將會(huì)受到一定的限制。3)通過(guò)構(gòu)造SQL語(yǔ)句以適當(dāng)格式得到所需的數(shù)據(jù)。,1.4.6 數(shù)據(jù)挖掘在證券行業(yè)的應(yīng)用,關(guān)于股
25、票預(yù)測(cè),市場(chǎng)上有許多采用數(shù)據(jù)挖掘技術(shù)對(duì)股票進(jìn)行預(yù)測(cè)的軟件。如NETPROPHET是神經(jīng)網(wǎng)絡(luò)應(yīng)用公司開(kāi)發(fā)的一個(gè)股票預(yù)測(cè)應(yīng)用軟件,它采用了神經(jīng)網(wǎng)絡(luò)技術(shù),將輸出的結(jié)果用兩條曲線分別表示實(shí)際股票值和預(yù)測(cè)股票值。,第二章 數(shù)據(jù)倉(cāng)庫(kù)的分析,2.1影響數(shù)據(jù)倉(cāng)庫(kù)成功的因素462.2數(shù)據(jù)倉(cāng)庫(kù)的生命周期472.2.1數(shù)據(jù)倉(cāng)庫(kù)計(jì)劃與準(zhǔn)備階段482.2.2數(shù)據(jù)倉(cāng)庫(kù)的其他階段542.3數(shù)據(jù)倉(cāng)庫(kù)的基本體系結(jié)構(gòu)562.4數(shù)據(jù)倉(cāng)庫(kù)的邏輯
26、結(jié)構(gòu)602.4.1數(shù)據(jù)倉(cāng)庫(kù)中的粒度602.4.2數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分割612.4.3數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織612.4.4數(shù)據(jù)倉(cāng)庫(kù)中的快照622.4.5數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)62思考練習(xí)題二63,2.1 影響數(shù)據(jù)倉(cāng)庫(kù)成功的因素,決策支持系統(tǒng)與事務(wù)之間在數(shù)據(jù)庫(kù)要求上的差異,影響數(shù)據(jù)倉(cāng)庫(kù)成功的因素,2.2.1 數(shù)據(jù)倉(cāng)庫(kù)計(jì)劃與準(zhǔn)備階段,1.用戶(hù)需求分析2.可行性研究3.用戶(hù)的認(rèn)可4.建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的協(xié)調(diào)與阻力分析
27、5.開(kāi)發(fā)項(xiàng)目計(jì)劃制定6.創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)所使用的關(guān)鍵資源,數(shù)據(jù)倉(cāng)庫(kù)的生命周期,2.2.2 數(shù)據(jù)倉(cāng)庫(kù)的其他階段,1)系統(tǒng)分析2)系統(tǒng)設(shè)計(jì)(整體設(shè)計(jì)與詳細(xì)設(shè)計(jì))3)系統(tǒng)測(cè)試,2.3 數(shù)據(jù)倉(cāng)庫(kù)的基本體系結(jié)構(gòu),,客戶(hù)應(yīng)用,是供用戶(hù)訪問(wèn)查詢(xún),并以直觀方式展示分析結(jié)果;數(shù)據(jù)倉(cāng)庫(kù),是存儲(chǔ)不同程度的數(shù)據(jù)和元數(shù)據(jù);集成器,是將從運(yùn)作數(shù)據(jù)庫(kù)中提取的數(shù)據(jù)經(jīng)過(guò)轉(zhuǎn)換、計(jì)算、綜合等操作,集成到數(shù)據(jù)倉(cāng)庫(kù)中;監(jiān)視器,是負(fù)責(zé)感知數(shù)據(jù)源發(fā)生的變化,并按需求提取數(shù)
28、據(jù);數(shù)據(jù)源,是為DW提供最底層的運(yùn)作數(shù)據(jù)庫(kù)系統(tǒng)及外部數(shù)據(jù)。,,,2.4.1 數(shù)據(jù)倉(cāng)庫(kù)中的粒度,2.4.2 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分割,數(shù)據(jù)分割的常用標(biāo)準(zhǔn):按時(shí)間、商業(yè)行業(yè)、地理位置、組織單位等。這些標(biāo)準(zhǔn)都是由開(kāi)發(fā)人員來(lái)選擇,且還要選擇是在應(yīng)用層上進(jìn)行分割,還是在系統(tǒng)層上進(jìn)行分割。在系統(tǒng)層進(jìn)行分割在一定程度上是DBMS和系統(tǒng)的一種功能。而在應(yīng)用層分割需要應(yīng)用程序代碼來(lái)完成,每年的數(shù)據(jù)定義既可以相同,也可以不相同,同時(shí)從一個(gè)處理集轉(zhuǎn)移到另一個(gè)處
29、理集沒(méi)有損失。,2.4.3 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織,數(shù)據(jù)倉(cāng)庫(kù)中有這些數(shù)據(jù)組織:簡(jiǎn)單堆積結(jié)構(gòu)、輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ)、簡(jiǎn)單直接文件和連續(xù)組織。,2.4.4 數(shù)據(jù)倉(cāng)庫(kù)中的快照,快照是為一些事件的發(fā)生而產(chǎn)生的。 本組成形式由4個(gè)部分組成:鍵碼(key)、時(shí)間單元、只和關(guān)鍵碼相關(guān)聯(lián)的初始數(shù)據(jù)、與初始數(shù)據(jù)或關(guān)鍵碼無(wú)直接關(guān)系的二次數(shù)據(jù)。,2.4.5 數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù),元數(shù)據(jù)(metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù),對(duì)數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、鍵碼、索引等的描述。
30、元數(shù)據(jù)在操作型的環(huán)境中和分析型的環(huán)境中具有不同的作用。 元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。可按其用途的不同分為兩類(lèi):技術(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和管理人員用于開(kāi)發(fā)和日常管理數(shù)據(jù)倉(cāng)庫(kù)是用的數(shù)據(jù)。,第三章 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與實(shí)施,3.1從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)643.2面向主題的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)643.2.1數(shù)據(jù)建模643.2.2星型連接653.3開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)的物理設(shè)計(jì)733.3.
31、1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工具的選擇733.3.2物理數(shù)據(jù)模型設(shè)計(jì)743.3.3數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)表的數(shù)量與規(guī)范化743.4數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施753.4.1數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施應(yīng)注意的問(wèn)題753.4.2在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中應(yīng)避免的錯(cuò)誤763.4.3數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施成功的要訣79思考練習(xí)題三83,3.1 從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù),3.2.1 數(shù)據(jù)建模,1)數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)發(fā)過(guò)程2)基于開(kāi)發(fā)過(guò)程的數(shù)據(jù)建模型的主要內(nèi)容,3.2.
32、2 星型連接,,3.3.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)工具的選擇,1.?dāng)?shù)據(jù)獲取工具的選擇2.?dāng)?shù)據(jù)工具的選擇,3.3.2 物理數(shù)據(jù)模型設(shè)計(jì),硬件平臺(tái)的選擇:數(shù)據(jù)倉(cāng)庫(kù)的硬盤(pán)容量通常是操作數(shù)據(jù)庫(kù)硬盤(pán)容量的2~3倍。選擇硬件平臺(tái)時(shí)要考慮的問(wèn)題:是否提供并行的I/O?對(duì)多CPU的支持能力如何?不同存儲(chǔ)介質(zhì)的特點(diǎn)比較表,3.3.3 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)表的數(shù)量與規(guī)范化,在數(shù)據(jù)模型處理過(guò)程中,如果程序在很多表中跳轉(zhuǎn),每次程序從一個(gè)表跳到另一個(gè),就要進(jìn)行I/O變換,既
33、要存取數(shù)據(jù),又要存取索引找到數(shù)據(jù)。如果許多程序需要大量的I/O時(shí),性能就會(huì)受到影響,這就要進(jìn)行小計(jì)。當(dāng)數(shù)據(jù)序列產(chǎn)生的數(shù)量是穩(wěn)定的、按序列存取的,且數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計(jì)上是以很規(guī)律的方式進(jìn)行的時(shí)候,可以采用數(shù)據(jù)數(shù)組。,3.4.1 數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施應(yīng)注意的問(wèn)題,在數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施過(guò)程中要考慮以下問(wèn)題:投資回報(bào)率;在具體實(shí)施時(shí)應(yīng)自頂向下還是自下到上;在人力資源的問(wèn)題上要考慮培訓(xùn)還是雇用;在設(shè)計(jì)上要有前瞻性,把問(wèn)題覆蓋的范圍思考大一些,但實(shí)施
34、從小處開(kāi)始。,3.4.2 在實(shí)施數(shù)據(jù)倉(cāng)庫(kù)過(guò)程中應(yīng)避免的錯(cuò)誤,1.錯(cuò)誤項(xiàng)目的發(fā)起2.制訂了不可能完成的目標(biāo)3.犯政治幼稚病4.把所有能找到的數(shù)據(jù)全都放到數(shù)據(jù)倉(cāng)庫(kù)中5.認(rèn)為設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)就是設(shè)計(jì)事務(wù)數(shù)據(jù)庫(kù)6.選擇一個(gè)面向技術(shù)的而不是面向用戶(hù)的人做數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目經(jīng)理,,7.只專(zhuān)注內(nèi)部關(guān)系型數(shù)據(jù),而忽略外部數(shù)據(jù)、文本、圖像甚至聲音、視頻數(shù)據(jù)8.用交疊的或沖突的數(shù)據(jù)定義交付數(shù)據(jù)9. 相信軟硬件供應(yīng)商對(duì)性能、能力和可擴(kuò)展性的承諾10.相
35、信一旦數(shù)據(jù)倉(cāng)庫(kù)建立起來(lái)并開(kāi)始運(yùn)行,你的任務(wù)就完成了11.專(zhuān)注于動(dòng)態(tài)生成查詢(xún)、數(shù)據(jù)挖掘和定期生成報(bào)表,3.4.3 數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施成功的要訣,許多數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的指導(dǎo)方針都是成功的。Anahory和Murray提供了足有145組指導(dǎo)方針,所有這些都是為了那些負(fù)責(zé)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的人而設(shè)計(jì)的,目的是幫助他們得到成功的結(jié)論。 數(shù)據(jù)倉(cāng)庫(kù)專(zhuān)家Larry Greenfield已經(jīng)出版了他關(guān)于一個(gè)成功數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的建議,下面是給倉(cāng)庫(kù)建造者的一些建議(
36、http://pwp.starnetinc.com/larryg/index.html),第四章 信息分析的基本技術(shù),4.1自動(dòng)信息分析的基本技術(shù)844.1.1智能代理844.1.2群體智能874.1.3小波分析904.1.4分形技術(shù)分析924.2聯(lián)機(jī)分析934.2.1聯(lián)機(jī)分析OLAP的基本術(shù)語(yǔ)954.2.2OLAP體系結(jié)構(gòu)和處理的特性964.2.3OLAP多維數(shù)據(jù)結(jié)構(gòu)與OLAP的分類(lèi)
37、974.2.4OLAP的多維數(shù)據(jù)分析方法984.2.5OLAP評(píng)價(jià)準(zhǔn)則1004.2.6OLAP的發(fā)展與流行的OLAP工具選擇1034.3Rough的信息分析技術(shù)1044.3.1粗糙集理論的基本概念和理論基礎(chǔ)1054.3.2粗糙集在信息分析中的特征表示106思考練習(xí)題四109,信息分析技術(shù)的不同方面與層次分類(lèi),4.1.1智能代理,智能代理(Agent)是一種在計(jì)算機(jī)網(wǎng)絡(luò)上無(wú)疲勞工作執(zhí)行重復(fù)性、可預(yù)料
38、任務(wù)的,為人們建立知識(shí)的軟件包。 智能代理具有長(zhǎng)期性、半自動(dòng)化、參與活動(dòng),且具有適應(yīng)性。,,1.智能代理定義Agent的設(shè)計(jì)是用來(lái)完成某類(lèi)任務(wù)的,能在一定環(huán)境中自主發(fā)揮作用、有生命周期的計(jì)算實(shí)體。Agent 是一種抽象實(shí)體,它能作用于自身和環(huán)境,并能對(duì)環(huán)境做出反映,具有知識(shí)、目標(biāo)和能力。2.多Agent與移動(dòng)Agent多Agent是由多個(gè)可執(zhí)行網(wǎng)絡(luò)計(jì)算的Agent組成的集合,能對(duì)問(wèn)題求解,能隨環(huán)境改變而自動(dòng)修改自己的行為,并能
39、通過(guò)網(wǎng)絡(luò)與其他Agent進(jìn)行通信、交換、合作,協(xié)同完成求解同一問(wèn)題的分布式智能系統(tǒng)。 移動(dòng)Agent是Agent 與Internet技術(shù)相結(jié)合的產(chǎn)物,它可以自主地在網(wǎng)絡(luò)上從一臺(tái)主機(jī)移動(dòng)到另一臺(tái)主機(jī),根據(jù)用戶(hù)指定的任務(wù)進(jìn)行自動(dòng)檢索、收據(jù)和過(guò)濾信息,代表用戶(hù)進(jìn)行商務(wù)活動(dòng)。3.建造Agent的方法,4.1.2 群體智能,1.蟻群算法2.多Agent分布式的市場(chǎng)營(yíng)銷(xiāo)知識(shí)獲取結(jié)構(gòu),多Agent分布式市場(chǎng)營(yíng)銷(xiāo)知識(shí)獲取結(jié)構(gòu),4.1.3 小波分
40、析,小波變換是一種信號(hào)處理技術(shù),它將一個(gè)信號(hào)分解為不同頻率的子波段。在實(shí)際工程中,有用信號(hào)通常表現(xiàn)為低頻信號(hào)或是一些比較平穩(wěn)的信號(hào),而噪聲(離群)則通常表現(xiàn)為高頻信號(hào)。,4.1.4 分形技術(shù)分析,分形理論(fractal theory)的創(chuàng)始人Mandelbrot在20世紀(jì)60年代就應(yīng)用自相似性和標(biāo)度不變性,對(duì)棉花價(jià)格進(jìn)行了研究。 稱(chēng)集F是分形的,是具備如下典型的性質(zhì):1)F具有精細(xì)的結(jié)構(gòu),即有任意小比例的不規(guī)則的細(xì)節(jié);2)F是
41、如此的不規(guī)則以至于無(wú)論它的整體和局部都不能用微積分或傳統(tǒng)的幾何語(yǔ)言來(lái)描述;3)F通常有某種自相似或自仿射的性質(zhì),可能是近似的,也可能是統(tǒng)計(jì)近似意義上的;4)一般地F有“分形維數(shù)”(以某種定義),通常嚴(yán)格大于它的拓?fù)渚S數(shù);5)在大多令人感興趣情形下,F(xiàn)以非常簡(jiǎn)單的方法,可能由迭代給出定義;6)F通常有“自然”的外貌。,4.2.1聯(lián)機(jī)分析OLAP的基本術(shù)語(yǔ),定義1 OLAP(聯(lián)機(jī)分析處理)是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析。通過(guò)對(duì)
42、信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。定義2 OLAP(聯(lián)機(jī)分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶(hù)所理解的,并對(duì)真實(shí)反映企業(yè)數(shù)據(jù)特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)更深入了解的一類(lèi)軟件技術(shù) (OLAP委員會(huì)的定義)。OLAP的目標(biāo)是滿(mǎn)足決策支持或多維環(huán)境特定的查詢(xún)和報(bào)表需求,它的技術(shù)核心是
43、“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。,4.2.2 OLAP體系結(jié)構(gòu)和處理的特性,4.2.3 OLAP多維數(shù)據(jù)結(jié)構(gòu)與OLAP的分類(lèi),1.OLAP多維數(shù)據(jù)結(jié)構(gòu)2.OLAP的分類(lèi),4.2.4 OLAP的多維數(shù)據(jù)分析方法,1.切片(slice)2.切塊(Dice)3.旋轉(zhuǎn)(turning)/轉(zhuǎn)軸(pivot)4.鉆取(drill),4.2.5 OLAP評(píng)價(jià)準(zhǔn)則,準(zhǔn)則1 OLAP模型必須提供多維概念視圖。準(zhǔn)則
44、2 透明性準(zhǔn)則。準(zhǔn)則3 存取能力準(zhǔn)則。準(zhǔn)則4 穩(wěn)定的報(bào)表性能。準(zhǔn)則5 客戶(hù)/服務(wù)器體系結(jié)構(gòu)。準(zhǔn)則6 維的等同性準(zhǔn)則。準(zhǔn)則7 動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則。準(zhǔn)則8 多用戶(hù)支持能力準(zhǔn)則。準(zhǔn)則9 非受限的跨維操作。準(zhǔn)則10 直觀的數(shù)據(jù)操縱。準(zhǔn)則11 靈活的報(bào)表生成。準(zhǔn)則12 非受限維與聚集層次。,4.2.6 OLAP的發(fā)展與流行的OLAP工具選擇,1.OLAP的發(fā)展2.流行的OLAP工具選擇1)Hyperion Essba
45、se: 2)Oracle Express 3)IBM DB2 OLAP Server 4)Sybase Power dimension 5)Informix Metacube,4.3.1 粗糙集理論的基本概念和理論基礎(chǔ),知識(shí)、劃分與等價(jià)關(guān)系信息表、不可分辨關(guān)系和基本集粗糙集的下、上近似及邊界區(qū),4.3.2 粗糙集在信息分析中的特征表示,定義4 設(shè)U≠Ø是論域,Ω={ω1, ω2,…,ωm}是對(duì)象集,
46、 ,Ω中任何對(duì)象所具有的特征所組成的集合,稱(chēng)為特征集(property set):T={t1,t2…,tn}。這些特征可由如下的“屬性-值”表示:t=(a,v), , 。由特征集構(gòu)成的表,稱(chēng)之為特征表,,,,第五章 數(shù)據(jù)挖掘過(guò)程,5.1數(shù)據(jù)挖掘的方法與基本流程1105.1.1SEMMA方法1105.1.2數(shù)據(jù)挖掘的基本流程1115.2確定主題和定義數(shù)據(jù)挖掘任
47、務(wù)1125.2.1確定主題1135.2.2定義數(shù)據(jù)挖掘任務(wù)1155.3數(shù)據(jù)預(yù)處理1155.3.1數(shù)據(jù)的收集和準(zhǔn)備1165.3.2數(shù)據(jù)清理(data cleaning),1165.3.3數(shù)據(jù)集成(data integration)1185.3.4數(shù)據(jù)變換(data transformation)1195.3.5數(shù)據(jù)歸約(data reduction)1195.3.6微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(D
48、TS)1205.4數(shù)據(jù)挖掘的模型建立與理解1205.4.1關(guān)于模型的準(zhǔn)確性1235.4.2關(guān)于模型的可理解性1235.4.3關(guān)于模型的性能1245.4.4描述和可視化1245.4.5驗(yàn)證與評(píng)估1255.5數(shù)據(jù)挖掘中常見(jiàn)的一些問(wèn)題1275.5.1商業(yè)用戶(hù)提出的問(wèn)題1275.5.2技術(shù)問(wèn)題1275.5.3數(shù)據(jù)挖掘應(yīng)用問(wèn)題1275.5.4實(shí)施數(shù)據(jù)挖掘項(xiàng)目考慮的問(wèn)題1285.
49、5.5數(shù)據(jù)挖掘?qū)ι鐣?huì)的影響―—有關(guān)隱私問(wèn)題1285.6事先無(wú)法預(yù)測(cè)的有價(jià)值知識(shí)129思考練習(xí)題五130,5.1.1 SEMMA方法,SAS的Enterprise Miner中包含了一個(gè)可以影射為SEMMA方法的分析流圖SAS的SEMMA方法即抽樣(sample)、探索(explore)、修改(modify)、模型(model)和評(píng)價(jià)(assess)等英文頭的縮寫(xiě),它是由一個(gè)過(guò)程流圖驅(qū)動(dòng)的,5.1.2 數(shù)據(jù)挖掘的基本流程,
50、5.2 確定主題和定義數(shù)據(jù)挖掘任務(wù),首先確定與任務(wù)相關(guān)的數(shù)據(jù),即我想挖掘什么數(shù)據(jù)集 確定數(shù)據(jù)挖掘研究的范圍,即想挖掘什么類(lèi)型的知識(shí),什么背景知識(shí)在這里可能有用,哪些度量可以用來(lái)評(píng)估模式的興趣度,5.2.1 確定主題,保持力控制、風(fēng)險(xiǎn)預(yù)測(cè)、收益率分析、數(shù)據(jù)趨勢(shì)分析、雇員分析、區(qū)域分析、分類(lèi)、聚類(lèi)和可視化研究都可作為主題的類(lèi)型。,5.2.2 定義數(shù)據(jù)挖掘任務(wù),1)首先定義與任務(wù)相關(guān)的數(shù)據(jù),即要確定數(shù)據(jù)選擇的條件、數(shù)據(jù)分組條件、相關(guān)屬性或
51、維等。要使得挖掘效率高,可建立視圖進(jìn)行挖掘,數(shù)據(jù)倉(cāng)庫(kù)可滿(mǎn)足這些條件。2)確定與數(shù)據(jù)挖掘任務(wù)相關(guān)的知識(shí)類(lèi)型,即從特征化和判別式、關(guān)聯(lián)、分類(lèi)、預(yù)測(cè)、聚類(lèi)和演變分析等中找出一種或幾種類(lèi)型。模式模板,包括元模式(元規(guī)則或元查詢(xún))可以指導(dǎo)知識(shí)的發(fā)現(xiàn)過(guò)程。3)獲取一定的背景知識(shí),背景知識(shí)是正確的作出概念分層和用戶(hù)對(duì)數(shù)據(jù)保持聯(lián)系。概念分層包括模式分層、集合分組分層、操作導(dǎo)出的分層和基于規(guī)則的分層。4)度量與數(shù)據(jù)挖掘任務(wù)相關(guān)的模式興趣度:興趣度度
52、量包括評(píng)估模式的簡(jiǎn)潔性(如規(guī)則長(zhǎng)度)、確定性(置信度)、實(shí)用性(支持度)和新穎性。,5.3.1數(shù)據(jù)的收集和準(zhǔn)備,數(shù)據(jù)的收集和準(zhǔn)備是開(kāi)展數(shù)據(jù)挖掘的最大障礙。數(shù)據(jù)準(zhǔn)備一般包含兩方面:從多種數(shù)據(jù)源中去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)質(zhì)量的綜合性、易用性和時(shí)效性,這有可能要用到數(shù)據(jù)倉(cāng)庫(kù)的思想和技術(shù);如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。,5.3.2 數(shù)據(jù)清理(data cleaning),
53、數(shù)據(jù)清理要解決如下的一些問(wèn)題:(1)數(shù)據(jù)質(zhì)量(2)冗余數(shù)據(jù)(3)過(guò)時(shí)數(shù)據(jù)(4)術(shù)語(yǔ)定義的變化數(shù)據(jù)清洗將會(huì)使數(shù)據(jù)集產(chǎn)生哪些問(wèn)題 1)一致性問(wèn)題 2)失效數(shù)據(jù)的清洗問(wèn)題 3)印刷錯(cuò)誤的清洗問(wèn)題 4)數(shù)值缺失 5)數(shù)據(jù)導(dǎo)出,5.3.3 數(shù)據(jù)集成(data integration),數(shù)據(jù)集成的關(guān)鍵是獲取數(shù)據(jù),如訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)。通過(guò)如下幾種方法訪問(wèn)數(shù)據(jù):1)通過(guò)基于事務(wù)的關(guān)系數(shù)據(jù)庫(kù)或基于PC的數(shù)據(jù)庫(kù)訪問(wèn)數(shù)據(jù) 2)通過(guò)數(shù)據(jù)
54、轉(zhuǎn)換工具訪問(wèn)數(shù)據(jù) 3)用查詢(xún)工具訪問(wèn)數(shù)據(jù) 4)從平面文件中訪問(wèn)數(shù)據(jù),5.3.4 數(shù)據(jù)變換(data transformation),數(shù)據(jù)變換就是將數(shù)據(jù)進(jìn)行規(guī)范化和聚集。規(guī)范化可以改進(jìn)涉及距離度量的挖掘算法的精度和有效性。常用的方法有平滑(包括分箱、聚類(lèi)和回歸)來(lái)去掉噪聲數(shù)據(jù);聚集來(lái)對(duì)數(shù)據(jù)進(jìn)行匯總;數(shù)據(jù)概化使用高層次概念替換低層次“原始”數(shù)據(jù)來(lái)進(jìn)行概念分層;規(guī)范化將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間;屬性構(gòu)造(特征構(gòu)
55、造)來(lái)幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解。,5.3.5 數(shù)據(jù)歸約(data reduction),數(shù)據(jù)歸約通過(guò)聚集、刪除冗余特性或聚類(lèi)等方法來(lái)壓縮數(shù)據(jù)。 常用的方法:數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化概念分層產(chǎn)生,5.3.6 微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS),微軟數(shù)據(jù)轉(zhuǎn)換服務(wù)(microsoft data transformaton serverics,DTS)是一個(gè)從不同的數(shù)據(jù)源收集數(shù)據(jù)的重要工具。 DTS是一個(gè)面
56、向批處理的程序。包( package)是基本的DTS單元,DTS對(duì)象包含在包中。包的4種對(duì)象類(lèi)型包括:數(shù)據(jù)連接、DTS任務(wù)、數(shù)據(jù)轉(zhuǎn)換和工作流。 DTS的內(nèi)容包括:COM對(duì)象集合,其中每一個(gè)對(duì)象完成一項(xiàng)特定的任務(wù);OLE DB數(shù)據(jù)連接的中心;工作流程開(kāi)發(fā)平臺(tái)和應(yīng)用開(kāi)發(fā)環(huán)境。,5.4 數(shù)據(jù)挖掘的模型建立與理解,數(shù)據(jù)挖掘中的各種方法 :1)概要統(tǒng)計(jì)(summary statistics) 2)關(guān)聯(lián)度分析(find dependenc
57、ies) 3)聚類(lèi)分析(cluster ) 4)線性回歸是最常用的統(tǒng)計(jì)分析方法 5)市場(chǎng)貨籃分析(market basket analysis) 6)分類(lèi)分析(classify) 7)近鄰預(yù)測(cè)(nearest neighbor) 8)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),神經(jīng)網(wǎng)絡(luò)(neural networks) 9)決策樹(shù)分析(dcision tree,DT) 10)規(guī)則分析(find laws)算法,5.4.1 關(guān)于模型的準(zhǔn)確性,由數(shù)據(jù)挖掘
58、工具產(chǎn)生的模型一般可通過(guò)時(shí)間來(lái)檢驗(yàn)其有多大程度的準(zhǔn)確性,但是如果模型的準(zhǔn)確性受到政府法令的限制并且必須是經(jīng)過(guò)驗(yàn)證的,則就有必要綜合地使用幾種不同的數(shù)據(jù)挖掘方法。例如,HNC公司數(shù)據(jù)挖掘產(chǎn)品Falcon在偵測(cè)信用卡欺詐方面是一個(gè)很好的工具。但它并沒(méi)有在信用卡貸款審批中得到廣泛使用,其原因是受到了政府規(guī)章的限制。,5.4.2 關(guān)于模型的可理解性,可供考慮的因素: 首先,模型是否可以使我們了解輸入對(duì)結(jié)果會(huì)產(chǎn)生什么作用?其次,模型是否可以
59、使我們了解預(yù)測(cè)為什么會(huì)成功或失???第三,模型是否可以使我們對(duì)復(fù)雜的數(shù)據(jù)集產(chǎn)生預(yù)測(cè)的結(jié)果?第四,模型是否能對(duì)其產(chǎn)生的結(jié)果進(jìn)行檢測(cè)?,5.4.3關(guān)于模型的性能,對(duì)模性的性能考慮可以分為兩個(gè)方面:一是你需要以什么速度構(gòu)造出模型;二是你需要以什么速度從模型中獲得預(yù)測(cè)結(jié)果。,5.4.4 描述和可視化,描述和可視化(description and visualization),是通過(guò)規(guī)則、表、報(bào)告、圖表、圖像、判定樹(shù)和數(shù)據(jù)立方體下鉆或上卷
60、等形式對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行表示的方式。圖形可以幫助人們更好的理解原始數(shù)據(jù)。通過(guò)在地圖上面疊加產(chǎn)品的銷(xiāo)量來(lái)顯示產(chǎn)品的銷(xiāo)量情況。同時(shí),也可用顏色表示各個(gè)地方的銷(xiāo)量,以標(biāo)識(shí)銷(xiāo)量最大的區(qū)域。樹(shù)形可視化工具以層次化互連節(jié)點(diǎn)的方式表示數(shù)據(jù),從而展示出這些數(shù)據(jù)的數(shù)量和關(guān)系特征。,5.4.5驗(yàn)證與評(píng)估,1.驗(yàn)證評(píng)價(jià)模型應(yīng)考慮以下幾方面的問(wèn)題:第一,用與建立模型相同的數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)價(jià)比用不同的數(shù)據(jù)集對(duì)其進(jìn)行評(píng)價(jià)會(huì)獲得更好的結(jié)果;第二,模型的
61、某些預(yù)測(cè)結(jié)果會(huì)比其他預(yù)測(cè)結(jié)果更加準(zhǔn)確;第三,由于模型以樣例數(shù)據(jù)為基礎(chǔ)建立的,應(yīng)具有好的結(jié)果。2.評(píng)估雖然不同的數(shù)據(jù)挖掘方法分類(lèi)、聚類(lèi)、可視化和關(guān)聯(lián)分析等方法都匯集在數(shù)據(jù)挖掘算法下,但它們的確存在著很大的區(qū)別。數(shù)據(jù)挖掘從人工智能領(lǐng)域借鑒了很多東西,既然人工智能技術(shù)的種類(lèi)繁多,我們也就不難理解存在眾多不同數(shù)據(jù)挖掘方法的原因了。,5.5 數(shù)據(jù)挖掘中常見(jiàn)的一些問(wèn)題,商業(yè)用戶(hù)提出的問(wèn)題技術(shù)問(wèn)題數(shù)據(jù)挖掘應(yīng)用問(wèn)題實(shí)施數(shù)據(jù)挖掘項(xiàng)目考慮的問(wèn)題
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- erp信息系統(tǒng)內(nèi)部審計(jì)初探
- erp管理信息系統(tǒng)案例分析
- 基于ERP的服裝生產(chǎn)信息管理系統(tǒng).pdf
- 129427469551406250《信息管理與信息系統(tǒng)專(zhuān)業(yè)英語(yǔ)》erp
- erp環(huán)境下會(huì)計(jì)信息系統(tǒng)內(nèi)部控制
- 基于Agent、XML的信息系統(tǒng)ERP集成.pdf
- ERP模擬信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 面向ERP的質(zhì)量信息系統(tǒng)模型研究.pdf
- 服裝銷(xiāo)售信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 服裝分銷(xiāo)網(wǎng)絡(luò)信息系統(tǒng)設(shè)計(jì)及優(yōu)化.pdf
- ERP進(jìn)銷(xiāo)存信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 木門(mén)行業(yè)ERP信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于erp系統(tǒng)的企業(yè)物流運(yùn)輸信息系統(tǒng)的開(kāi)發(fā)研究
- 現(xiàn)代服裝ERP系統(tǒng)研究.pdf
- 會(huì)計(jì)信息系統(tǒng)與erp實(shí)踐報(bào)告畢業(yè)論文
- 面向ERP的保險(xiǎn)會(huì)計(jì)信息系統(tǒng)研究.pdf
- erp環(huán)境下的會(huì)計(jì)信息系統(tǒng)內(nèi)部控制研究
- ERP環(huán)境下會(huì)計(jì)信息系統(tǒng)實(shí)時(shí)監(jiān)控研究.pdf
- 閩光焦化ERP信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- ERP技術(shù)在移動(dòng)信息系統(tǒng)中的實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論