第9章 電子政務中的數(shù)據(jù)挖掘技術_第1頁
已閱讀1頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第九章 電子政務中的數(shù)據(jù)挖掘技術,一、數(shù)據(jù)倉庫二、數(shù)據(jù)挖掘技術三、電子政務中的數(shù)據(jù)挖掘本章問題,一、數(shù)據(jù)倉庫的概念和特點,數(shù)據(jù)倉庫概念始于本世紀80年代中期,首次出現(xiàn)是在號稱“數(shù)據(jù)倉庫之父”William H.Inmon的《建立數(shù)據(jù)倉庫》一書中。 (一)數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別 1、數(shù)據(jù)倉庫的關鍵技術 數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)

2、據(jù)庫”。 數(shù)據(jù)倉庫并沒有嚴格的數(shù)學理論基礎,也沒有成熟的基本模式,且更偏向于工程,具有強烈的工程性。因此,在技術上人們習慣于從工作過程等方面來分析,其關鍵技術表現(xiàn)等三個基本方面。 (1)數(shù)據(jù)的抽取 數(shù)據(jù)的抽取是數(shù)據(jù)進入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導入到數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術上主要涉及互連、復制、增量、轉換、調(diào)度和監(jiān)控等

3、方面。數(shù)據(jù)倉庫中的數(shù)據(jù)并不要求與聯(lián)機事務處理系統(tǒng)保持實時同步,因此數(shù)據(jù)抽取可以定時進行,但多個抽取操作執(zhí)行的時間、相互的順序、成敗對數(shù)據(jù)倉庫中信息的有效性則至關重要。,返 回 下一頁,(2)存儲和管理儲,數(shù)據(jù)倉庫的真正關鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有 別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術特點著手分析。 (3)數(shù)據(jù)的表現(xiàn)

4、 數(shù)據(jù)表現(xiàn)實際上相當于數(shù)據(jù)倉庫的門面,其性能主要集中在多維分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘方面。而多維分析又是數(shù)據(jù)倉庫的重要表現(xiàn)形式,近幾年來由于互聯(lián)網(wǎng)的發(fā)展,使得多維分析領域的工具和產(chǎn)品更加注重提供基于Web前端聯(lián)機分析界面,而不僅僅是在網(wǎng)上發(fā)布數(shù)據(jù)。 2、傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別主要表現(xiàn)為 (1)面向主題 傳統(tǒng)數(shù)據(jù)庫主要是為應用程序進行數(shù)據(jù)處理,未必按照同一主題存儲數(shù)據(jù);數(shù)據(jù)倉庫側重于數(shù)據(jù)分析工作,是按照主

5、題存儲的。這一點,類似于傳統(tǒng)農(nóng)貿(mào)市場與超市的區(qū)別—市場里面,白菜、蘿卜、香菜會在一個攤位上,如果它們是一個小販賣的;而超市里,白菜、蘿卜、香菜則各自一塊。也就是說,市場里的菜(數(shù)據(jù))是按照小販(應用程序)歸堆(存儲)的,超市里面則是按照菜的類型(同主題)歸堆的。,上一頁 下一頁,(2)與時間相關,數(shù)據(jù)庫保存信息的時候,并不強調(diào)一定有時間信息。數(shù)據(jù)倉庫則不同,出于決策的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)都要標明時間屬性。決策中,時間屬性很重要。同

6、樣都是累計購買過九車產(chǎn)品的顧客,一位是最近三個月購買九車,一位是最近一年從未買過,這對于決策者意義是不同的。 (3)不可修改 數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉庫反映的是歷史信息,并不是很多數(shù)據(jù)庫處理的那種日常事務數(shù)據(jù)(有的數(shù)據(jù)庫例如電信計費數(shù)據(jù)庫甚至處理實時信息)。因此,數(shù)據(jù)倉庫中的數(shù)據(jù)是極少或根本不修改的;當然,向數(shù)據(jù)倉庫添加數(shù)據(jù)是允許的。 數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。目前,大部

7、分數(shù)據(jù)倉庫還是用關系數(shù)據(jù)庫管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。(二)數(shù)據(jù)倉庫的定義和特點 1、定義 數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。,上一頁 下一頁,2、特點,根據(jù)數(shù)據(jù)倉庫概念的含義,數(shù)據(jù)倉庫

8、擁有以下四個特點: (1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務處理任務,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是指用戶使用數(shù)據(jù)倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關。 (2)集成的。面向事務處理的操作型數(shù)據(jù)庫之間相互獨立,并且往往是異構的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信

9、息是關于整個企業(yè)的一致的全局信息。 (3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。 (4)反映歷史變化。操作型數(shù)據(jù)庫主要關心當前某一個時間段內(nèi)的數(shù)據(jù)。而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了從過去某一時點(如開始應用數(shù)據(jù)

10、倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對發(fā)展歷程和未來趨勢做出定量分析和預測。,上一頁 下一頁,(三)數(shù)據(jù)倉庫的結構,1、數(shù)據(jù)倉庫的基本體系結構 數(shù)據(jù)倉庫的體系結構分為數(shù)據(jù)獲取層、數(shù)據(jù)存儲層、數(shù)據(jù)挖掘層等多個部分。 (1)數(shù)據(jù)獲取層 數(shù)據(jù)獲取層把決策主題所需要的數(shù)據(jù)(當前的、歷史的),從各種相關的業(yè)務數(shù)據(jù)庫或數(shù)據(jù)文件等外部數(shù)據(jù)源中抽取出來,進行各種必要的清洗、整合和轉換處理,再將這些數(shù)據(jù)集成存儲到

11、倉庫中。數(shù)據(jù)獲取層在數(shù)據(jù)倉庫的整體系統(tǒng)應用中占有非常重要的地位。 (2)數(shù)據(jù)存儲層 數(shù)據(jù)存儲層以一定的組織結構存儲各種主題數(shù)據(jù)。數(shù)據(jù)倉庫包括多個主題,一個主題的數(shù)據(jù)通常存儲在一個數(shù)據(jù)庫中,包括該主題的一些綜合性表,如主題中選擇的事實表、維表,還有為數(shù)據(jù)挖掘生成的中間表等。 (3)數(shù)據(jù)挖掘層 數(shù)據(jù)挖掘層集成各種數(shù)據(jù)挖掘的算法,包含具有很強功能的數(shù)據(jù)挖掘工具,可以提供靈活有效的任務模型、組織形式,以支持各項決策

12、的數(shù)據(jù)挖掘任務。數(shù)據(jù)挖掘是數(shù)據(jù)倉庫應用的關鍵。,上一頁 下一頁,2、數(shù)據(jù)倉庫的基本體系結構中的幾個基本組成部分,(1)數(shù)據(jù)源:指為數(shù)據(jù)倉庫提供最底層數(shù)據(jù)的運作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù)。 (2)監(jiān)視器:負責感知數(shù)據(jù)源發(fā)生的變化,并按數(shù)據(jù)倉庫的需求提取數(shù)據(jù)。 (3)集成器:將從運作數(shù)據(jù)庫中提取的數(shù)據(jù)經(jīng)過轉換、計算、綜合等操作,集成到數(shù)據(jù)倉庫中。 (4)數(shù)據(jù)倉庫:存貯已經(jīng)按企業(yè)級視圖轉換的數(shù)據(jù),供分析處理用。 根據(jù)不同的

13、分析要求,數(shù)據(jù)按不同的綜合程度存儲。數(shù)據(jù)倉庫中還應存儲元數(shù)據(jù),其中記錄了數(shù)據(jù)的結構和數(shù)據(jù)倉庫的任何變化,以支持數(shù)據(jù)倉庫的開發(fā)和使用。 (5)客戶應用:供用戶對數(shù)據(jù)倉庫中的數(shù)據(jù)進行訪問查詢,并以直觀的方表示分析結果的工具。 在實施智能化決策時,一般分兩個步驟:第一步實現(xiàn)數(shù)據(jù)倉庫和多維分析,構造智能決策的基礎,實現(xiàn)分析應用;第二步實現(xiàn)數(shù)據(jù)挖掘,再發(fā)揮智能化決策的特色。數(shù)據(jù)挖掘是數(shù)據(jù)利用價值的再發(fā)現(xiàn),它突破了傳統(tǒng)意義上的數(shù)據(jù)查詢

14、,是在更大的尺度上、更深的層次中對數(shù)據(jù)提高利用的價值,是數(shù)據(jù)倉庫應用的關鍵。,上一頁 下一頁,數(shù)據(jù)倉庫的基本體系結構,,上一頁 下一頁,(四)數(shù)據(jù)倉庫的功能,1、數(shù)據(jù)獲取 2、數(shù)據(jù)儲存和管理 3、信息訪問 (五)數(shù)據(jù)倉庫建設的重點 數(shù)據(jù)倉庫性能指標評估包括以下幾個方面: (1)管理大數(shù)據(jù)量數(shù)據(jù)的能力; (2)進行靈活數(shù)據(jù)存取的能力; (3)根據(jù)數(shù)據(jù)模型重組數(shù)據(jù)的能力; (

15、4)數(shù)據(jù)發(fā)送和接收能力; (5)周期性成批裝載數(shù)據(jù)的能力; (6)可設定完成時間的作業(yè)管理能力。等等。 這些內(nèi)容,很多都與數(shù)據(jù)清理、預加工等處理流程有密切關系,因為這些流程是數(shù)據(jù)倉庫“原料”問題的保障。只有進入倉庫的原料質(zhì)量有所保障,倉庫才能更好地發(fā)揮作用。因此,成功建設數(shù)據(jù)倉庫,一定要特別重視數(shù)據(jù)抽取、數(shù)據(jù)沖突以及數(shù)據(jù)集成等方面的工作。,上一頁 下一頁,1、重視集成、轉換程序開發(fā),數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境

16、,它需要通過抽取過程將數(shù)據(jù)導入。的過程,包括:數(shù)據(jù)清理、預加工工作,包括刪除對決策應用沒有意義的數(shù)據(jù)段、轉換到統(tǒng)一的數(shù)據(jù)名稱、計算統(tǒng)計和衍生數(shù)據(jù)、給缺值數(shù)據(jù)賦缺省值以及把不同的數(shù)據(jù)定義方式統(tǒng)一等內(nèi)容。 數(shù)據(jù)清理、預加工所需的集成、轉換程序用于從操作性信息系統(tǒng)、數(shù)據(jù)庫中移植數(shù)據(jù)給數(shù)據(jù)倉庫,還包括數(shù)據(jù)倉庫運行起來之后的定時數(shù)據(jù)補充。 2、解決數(shù)據(jù)沖突 要確定可能存在的各種語法和語義上的沖突,在導入數(shù)據(jù)的時候,要對突

17、數(shù)據(jù)進行轉換。這些沖突可能包括: 格式?jīng)_突:同一種數(shù)據(jù)類型可能有不同的表示方法和語義差異,這時需要定義兩種模型之間的變換函數(shù)。 命名沖突:即數(shù)據(jù)源中數(shù)據(jù)的某些標識符可能是目的模型中的保留字,這時就需要重新命名。 結構沖突:如果兩種數(shù)據(jù)庫系統(tǒng)之間的數(shù)據(jù)定義模型不同,那么需要重新定義實體屬性和聯(lián)系,以防止屬性或聯(lián)系信息的丟失。,上一頁 下一頁,3、引入新的訪問控制機制,在進行數(shù)據(jù)轉換后,一方面數(shù)據(jù)源中所有需要載

18、入的信息都轉換到數(shù)據(jù)倉庫中,另一方面這種轉換又不能包含冗余的關聯(lián)信息。需要進一步研究的問題是:如果數(shù)據(jù)轉換的同時進行數(shù)據(jù)定義模式轉換,就可能引起同一數(shù)據(jù)集合在異構數(shù)據(jù)庫系統(tǒng)中存在多個副本。因此需要引入新的訪問控制機制,對于數(shù)據(jù)倉庫提供全局的訪問控制、并發(fā)機制和安全控制。 4、確定數(shù)據(jù)抽取周期以及數(shù)據(jù)總量 數(shù)據(jù)倉庫中的數(shù)據(jù),一般不要求與聯(lián)機事務處理系統(tǒng)保持實時同步,因此數(shù)據(jù)抽取可以定時進行。但多個抽取操作執(zhí)行的時間、相互的

19、順序、成敗對數(shù)據(jù)倉庫中信息的有效性至關重要。在規(guī)劃數(shù)據(jù)倉庫項目明確企業(yè)需求的時候,就要特別注意與業(yè)務人員協(xié)商好間隔多久抽取一次新數(shù)據(jù)以及保留多久的歷史數(shù)據(jù)。不同類型的數(shù)據(jù),抽取周期也不同。 例如證券登記公司按照法律規(guī)定,要保存20年的過戶歷史數(shù)據(jù);西方大型零售業(yè)企業(yè)的數(shù)據(jù)倉庫里一般保存最新2~3年來自集團各個商店的原始銷售數(shù)據(jù)和庫存數(shù)據(jù);世界上從事航空運輸業(yè)歷史最悠久的公司之一澳大利亞QANTAS航空公司建成數(shù)據(jù)倉庫時原始數(shù)據(jù)量

20、不到100GB,不到五年的時間即擴展到1500GB。因此,企業(yè)應該在自身系統(tǒng)性能、可擴張性許可的范疇內(nèi)抽取數(shù)據(jù),切忌“貪大。,上一頁 下一頁,(六)數(shù)據(jù)倉庫的應用,1、證券 證券公司利用客戶行為分析系統(tǒng)將所有客戶的操作記錄進行歸類和整理,并結合行情走勢、上市公司資料、宏觀微觀經(jīng)濟數(shù)據(jù)等。在掌握大量數(shù)據(jù)的情況下,對客戶的行為和市場各因素的關聯(lián)、客戶的操作習慣、盈虧情況、公司的利潤分布等進行統(tǒng)計和分析,從而在獲得以往一直想獲得但

21、卻無法獲取的關于客戶在本公司的行為、盈虧、習慣等關鍵信息后,就有能力為客戶提供針對其個人習慣、投資組合的投資建議,從而真正作到對客戶的貼心服務。 2、銀行 如何防范銀行的經(jīng)營風險、實現(xiàn)科學管理以及進行決策,成為當今金融研究的一個重要課題。利用數(shù)據(jù)倉庫的強大功能,銀行可以建立企業(yè)客戶群、個人客戶群的數(shù)據(jù)庫,并對企業(yè)的結構、經(jīng)營、財務、市場競爭等多個數(shù)據(jù)源進行統(tǒng)一的組織,形成一個一體化的存儲結構,為決策分析奠定基礎。通過先

22、進的信息加工、分析、處理軟件,加上銀行的經(jīng)營決策、信貸營銷人員的個人經(jīng)驗,對每一個投資方向、每一筆貸款作出科學的判斷,可以有效控制投資、信貸風險。,上一頁 下一頁,3、稅務,通過應用數(shù)據(jù)倉庫技術,對稅收部門的內(nèi)部和外部數(shù)據(jù)進行綜合分析處理,可以解決三個方面的問題:一是查出應稅未報者和瞞稅漏稅者,并對其進行跟蹤;二是對不同行業(yè)、產(chǎn)品和市場中納稅人的行為特性進行描述,找出普遍規(guī)律,謀求因勢利導的稅務策略;三是對不同行業(yè)、產(chǎn)品和市場應收稅款

23、進行預測,制定最有效的征收計劃。 數(shù)據(jù)倉庫技術之所以能夠查出漏稅者,其基本思想是通過對大量數(shù)據(jù)資料的分析來掌握各行各業(yè)、各種產(chǎn)品和各類市場的從業(yè)人員以及企業(yè)的納稅能力,并與其實際納稅金額進行對比,從而查出可能的偷漏稅者。澳大利亞政府稅務部門將數(shù)據(jù)倉庫技術用于支持稅收業(yè)務,系統(tǒng)經(jīng)過3年的運行,投入回報率達到1∶15。 4、保險 隨著商業(yè)保險公司業(yè)務系統(tǒng)日趨完善,數(shù)據(jù)交換和處理中心的建立,如何滿足保險行業(yè)日益增長的

24、各種查詢、統(tǒng)計、報表以及分析的需求,如何提高防范和化解經(jīng)營風險的能力,如何有效利用這些數(shù)據(jù)來實現(xiàn)經(jīng)營目標,預測保險業(yè)的發(fā)展趨勢,甚至如何利用這些數(shù)據(jù)來設計保險企業(yè)的發(fā)展宏圖以在激烈的競爭中贏得先機,是保險決策支持系統(tǒng)需要解決的問題,也是目前保險企業(yè)在信息應用案例上的首要難題。,上一頁 返 回,二、數(shù)據(jù)挖掘技術,(一)數(shù)據(jù)挖掘技術的定義及其含義 1、數(shù)據(jù)挖掘(Data Mining) 就是從大量的、不完全的、有噪聲的

25、、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等。 2、數(shù)據(jù)挖掘的內(nèi)容 數(shù)據(jù)挖掘定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。 從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們

26、更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。數(shù)據(jù)看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以是結構化的,如關系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結構化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。 發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的。因此,數(shù)據(jù)挖掘是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。,返 回 下一頁,3、

27、數(shù)據(jù)挖掘從本質(zhì)上看是一種新的信息處理技術,數(shù)據(jù)挖掘的主要特點是對數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,從中提取輔助決策的關鍵性數(shù)據(jù),其實是一類深層次的數(shù)據(jù)分析處理方法。 因此,數(shù)據(jù)挖掘可以描述為:按既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。(二)數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別 數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應

28、用分析)的本質(zhì)區(qū)別是: 數(shù)據(jù)挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應具有先未知,有效和可實用三個特征。 先前未知的信息是指該信息是預先未曾預料到的,既數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。 例如:一家連鎖店通過數(shù)據(jù)挖掘發(fā)現(xiàn)了小孩尿布和啤酒之間有著驚人的聯(lián)系。,上一頁 下一頁,(三)數(shù)據(jù)挖掘和數(shù)據(jù)倉庫,

29、大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中 。數(shù)據(jù)挖掘庫可能是數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數(shù)據(jù)庫。 因此,為了數(shù)據(jù)挖掘不必非得建立一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導到一個數(shù)據(jù)倉庫內(nèi),是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。 所以,如果數(shù)據(jù)倉庫的

30、計算資源已經(jīng)很緊張,那最好還是建立一個單獨的數(shù)據(jù)挖掘庫。如果只是為了數(shù)據(jù)挖掘,可以把一個或幾個事務數(shù)據(jù)庫導入到一個只讀的數(shù)據(jù)庫中,就把它當作數(shù)據(jù)集市,然后在其上面進行數(shù)據(jù)挖掘。,上一頁 下一頁,數(shù)據(jù)挖掘庫從數(shù)據(jù)倉庫中得出,,數(shù)據(jù)挖掘庫從事務數(shù)據(jù)庫中得出,上一頁 下一頁,(四)數(shù)據(jù)挖掘流程,,關于網(wǎng)絡數(shù)據(jù)挖掘技術,目前眾說紛紜,但基本上可以將網(wǎng)絡數(shù)據(jù)挖掘分為四個步驟: 1、確定業(yè)務對象:雖然網(wǎng)絡數(shù)據(jù)挖掘的最后結果是不可

31、預測的,但對要探索的問題應有所預見,不能盲目地為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘。清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是網(wǎng)絡數(shù)據(jù)挖掘的重要一步。 2、數(shù)據(jù)準備:網(wǎng)絡數(shù)據(jù)挖掘的數(shù)據(jù)來自兩個方面:一方面是客戶的背景信息,主要來源于客戶登記表;而另外一部分數(shù)據(jù)主要來自瀏覽者的點擊流(Click-stream),主要用這部分數(shù)據(jù)考察客戶的行為表現(xiàn)。由于客戶的背景信息涉及個人隱私,因此客戶不愿意把個人信息如實填寫在登記表上,這給數(shù)據(jù)分析和挖

32、掘帶來困難。在這種情況下,不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中推測客戶的背景信息,進而再加以利用。數(shù)據(jù)準備首先檢索所需的網(wǎng)絡文檔,發(fā)現(xiàn)資源;然后進行數(shù)據(jù)預處理,從發(fā)現(xiàn)的網(wǎng)絡資源中自動挑選和預處理得到專門的信息。 3、網(wǎng)絡數(shù)據(jù)挖掘:從單個的Web站點以及多個站點之間的網(wǎng)絡資源中發(fā)現(xiàn)普遍的模式。 4、結果分析 :對挖掘出的結果,即普遍模式進行確認或者解釋。,上一頁 下一頁,數(shù)據(jù)挖掘過程,,上一頁 下一頁,(五)數(shù)據(jù)挖掘技

33、術的功能,數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。 1、自動預測趨勢和行為 數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定

34、事件最可能作出反應的群體。 2、 關聯(lián)分析 數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。,上一頁 下一頁,3、 聚類,數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類

35、增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術的某些片面性。 4、概念描述 概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特

36、征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。 5、偏差檢測 數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。,上一頁 下一頁,(

37、六)數(shù)據(jù)挖掘技術的價值,數(shù)據(jù)挖掘技術存在廣泛的使用價值。 1、客戶分析 隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為政府和企業(yè)經(jīng)營的重要課題。通過對積累的交易數(shù)據(jù)進行分析,可以按各種客戶指針(如自然屬性、收入貢獻、交易額、價值度等)對客戶分類,然后確定不同類型客戶的行為模式,以便采取相應的行銷措施,促政府獲得人民的支持、企業(yè)盈利。 2、優(yōu)化

38、配置資源 節(jié)約成本是政府和企業(yè)共同關心的問題。通過分析歷史數(shù)據(jù),可以發(fā)現(xiàn)資源消耗的關鍵點和主要活動的投入產(chǎn)出比例,從而為資源優(yōu)化配置提供決策依據(jù)。。 3、異常事件的確定 在許多領域中,異常事件具有顯著的價值,如客戶流失、銀行的信用卡欺詐、電信中移動話費拖欠以及醫(yī)學中特殊病情的征兆等。通過數(shù)據(jù)挖掘分析,可以迅速準確地甄別這些異常事件。 4、企業(yè)分析模型的管理 在使用

39、數(shù)據(jù)挖掘系統(tǒng)時,可以對模型進行調(diào)優(yōu)和定制。,上一頁 下一頁,(七)數(shù)據(jù)挖掘技術,常用的數(shù)據(jù)挖掘技術主要有以下幾種: 1、OLAP (聯(lián)機分析處理) OLAP是最普遍的數(shù)據(jù)挖掘工具與技術。與數(shù)據(jù)倉庫查詢相比,OLAP以多維方式匯總數(shù)據(jù),使我們可以迅速獲得用于進一步分析的重要信息。OLAP能夠將數(shù)據(jù)倉庫轉化為更有用的信息。OLAP的一大主要特征是對數(shù)據(jù)看法的多維性,這源自對數(shù)據(jù)進行多維度分析的商業(yè)需求。例如

40、,根據(jù)產(chǎn)品,區(qū)域,渠道和時間軸來分析銷售數(shù)據(jù),OLAP工具能夠利用一個數(shù)據(jù)倉庫的子集進行向下挖掘,分段,切割和提煉數(shù)據(jù)。 OLAP 應用軟件會跨越組織內(nèi)多個功能單位。銷售部門利用OLAP工具進行銷售分析與預測,財政部門利用OLAP實現(xiàn)諸如預算,財政績效分析與金融建模等功能。營銷部門利用OLAP進行客戶分析,市場調(diào)查分析,銷售預測和市場/客戶分段。許多制造業(yè)OLAP應用軟件還具有包括產(chǎn)品規(guī)劃和缺陷分析等功能。

41、 2、描述性分析 這取決于觀察事件為什么會發(fā)生,然后找出一個模式或者相似性并以此得出一種趨勢。描述性分析可以多種方式進行。,上一頁 下一頁,3、聚類,這中方法涉及到對記錄中某些重要的特征進行識別,然后將它們歸入一個個簇。每個簇都是一個子段,子段與子段之間有著不同的關鍵特性。信用卡公司常常使用這種技術為他們的產(chǎn)品進行潛在客戶定位,依據(jù)是如潛在客戶消費值等主要特性。 類似的,還有很多其他的技術,比如順序

42、聯(lián)想分析法(它以時間的發(fā)生次序為本事件提供模式)或者是交易籃子分析法(這種方法認為同一時間被購買的產(chǎn)品具有相關性)。 4、預測模型 透視客戶的行為、需求和渴望,從而建立一個模式是任何部門之需。運用預測模型,就可以對各種營銷活動產(chǎn)生的反響進行預測。 例如,基于對歷史客戶數(shù)據(jù)的復雜計算,度量其客戶的信用價值。 預測模型能夠確定識別到的因素中哪些具有高度相關性,然后度量各要

43、素之間的相關度。預測模型得出的成果是一個分數(shù),能夠用來預測客戶某些行為發(fā)生的可能性大小。 對于預測模型來說,有許多工具可供選擇,如神經(jīng)網(wǎng)絡圖和決策樹。,上一頁 下一頁,5、遺傳算法,基于進化理論,并采用遺傳結合、遺傳變異、以及自然選擇等設計方法的優(yōu)化技術。 6、近鄰算法 將數(shù)據(jù)集合中每一個記錄進行分類的方法。 7、規(guī)則推導 從統(tǒng)計意義上對數(shù)據(jù)中的“

44、如果,那么”規(guī)則進行尋找和推導。  上述的所有工具與技術都能通過更好地了解客戶的需求,并獲得有用的客戶行為透視,使管理和服務極大地增值。這些技術并不完善,但是當它們成為一個大型決策支持流程的一部分時,就能通過提供有用的透視增加決策的價值。 目前,這些技術已經(jīng)被直接集成到許多大型的標準的數(shù)據(jù)倉庫和聯(lián)機分析系統(tǒng)中去了。世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)有: SAS公司的Enterprise

45、Miner;IBM公司的Intelligent Miner;SGI公司的SetMiner;SPSS公司的Clementine;Sybase公司的Warehouse Studio;RuleQuest Research公司的See5;以及CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。,上一頁 返 回,三、電子政務中的數(shù)據(jù)挖掘,(一)電子政務需要數(shù)據(jù)挖掘

46、 而電子政務中的數(shù)據(jù)挖掘技術是基于網(wǎng)絡的,即所謂的網(wǎng)絡數(shù)據(jù)挖掘,它除了處理傳統(tǒng)數(shù)據(jù)庫中的數(shù)值型的結構化數(shù)據(jù)外,處理更多的是文本、圖形、圖像、WWW信息資源等半結構、非結構的數(shù)據(jù)。 1、實時有效信息的需求 政府部門要充分發(fā)揮政府的職能,進行有效地監(jiān)控和管理,同時為了增強民眾和政府之間溝通的時效性,及時掌握有效的信息。 2、降低成本、減少財政支出的需求

47、 電子政務系統(tǒng)的建設帶來的直接的經(jīng)濟效益,就是打破了各級政府之間文件傳遞的繁瑣性,用最快捷的電子方式在政府上下級之間傳遞信息,這不僅降低了政府辦公用品及相關開銷,而且無形中也減少了大量的額外開支。 3、分析和決策的需求 現(xiàn)有的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢和部分統(tǒng)計等功能,但是無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。因此,政務系統(tǒng)迫切需要擁有一個智能化的

48、輔助決策支持系統(tǒng)。,返 回 下一頁,(二)網(wǎng)絡數(shù)據(jù)挖掘離不開專業(yè)人員,由于網(wǎng)絡數(shù)據(jù)挖掘的若干工作需要人工完成,并且數(shù)據(jù)挖掘過程是分步實現(xiàn)的,因此不同步驟的工作需要具有不同專長的人員,大體可以將他們分為三類: 1、業(yè)務分析人員 精通業(yè)務,能夠解釋業(yè)務對象,并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求。 2、數(shù)據(jù)分析人員 精通數(shù)據(jù)分析技術,并較熟練地

49、掌握統(tǒng)計學方法,能夠把業(yè)務需求轉化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術。 3、數(shù)據(jù)管理人員 精通數(shù)據(jù)管理技術,能從數(shù)據(jù)庫、數(shù)據(jù)倉庫和各種網(wǎng)絡資源中檢索、收集適于挖掘的數(shù)據(jù)。 由此可見,數(shù)據(jù)挖掘是一個多種專家合作的過程,也是一個在資金上和技術上高投入,同時獲得高回報的過程。,上一頁 下一頁,(三)網(wǎng)絡數(shù)據(jù)挖掘形式,根據(jù)不同的網(wǎng)絡數(shù)據(jù)挖掘對象,人們將網(wǎng)絡數(shù)據(jù)挖掘分為網(wǎng)絡內(nèi)容

50、挖掘(Web content mining)、網(wǎng)絡結構挖掘(Web structure mining)以及網(wǎng)絡用法挖掘(Web usage mining)。 1、網(wǎng)絡內(nèi)容挖掘 網(wǎng)絡內(nèi)容挖掘就是一個從網(wǎng)絡信息內(nèi)容中發(fā)現(xiàn)有用信息的過程。由于網(wǎng)絡信息內(nèi)容有很多是多媒體數(shù)據(jù),因此網(wǎng)絡內(nèi)容挖掘也將是一種多媒體數(shù)據(jù)挖掘形式。 2、網(wǎng)絡結構挖掘 網(wǎng)絡結構挖掘就是挖掘Web潛在的鏈

51、接結構模式。這種模式可以用于網(wǎng)頁歸類,并且由此可以獲得有關不同網(wǎng)頁間相似度及關聯(lián)度的信息。網(wǎng)絡結構挖掘有助于用戶找到相關主題的權威站點。 3、網(wǎng)絡用法挖掘 網(wǎng)絡內(nèi)容挖掘和網(wǎng)絡結構挖掘的挖掘對象是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡用法挖掘面對的則是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù),包括網(wǎng)絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。通過網(wǎng)絡用法

52、挖掘,可以了解用戶的網(wǎng)絡行為數(shù)據(jù)所具有的意義。,上一頁 下一頁,(四)在電子政務中應用網(wǎng)絡數(shù)據(jù)挖掘,電子政務位于世界各國積極倡導的“信息高速公路”五個領域(電子政務、電子商務、遠程教育、遠程醫(yī)療、電子娛樂)之首,說明政府信息化是社會信息化的基礎。電子政務包括政府的信息服務、電子貿(mào)易、電子化政府、政府部門重構、群眾參與政府五個方面的內(nèi)容。將網(wǎng)絡數(shù)據(jù)挖掘技術引入電子政務中,可以大大提高政府信息化水平,促進整個社會的信息化。具體體現(xiàn)在以下幾

53、個方面: 1、 政府的電子貿(mào)易 在服務器以及瀏覽器端日志記錄的數(shù)據(jù)中隱藏著模式信息,運用網(wǎng)絡用法挖掘技術可以自動發(fā)現(xiàn)系統(tǒng)的訪問模式和用戶的行為模式,從而進行預測分析。例如,通過評價用戶對某一信息資源瀏覽所花費的時間,可以判斷出用戶對何種資源感興趣;應用聚類分析來識別用戶的訪問動機和趨勢等。這項技術已經(jīng)有效地運用在政府電子貿(mào)易中。 2、網(wǎng)站設計 通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘,可以有效地

54、組織網(wǎng)站信息,如采用自動歸類技術實現(xiàn)網(wǎng)站信息的層次性組織;同時可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而有助于開展網(wǎng)站信息推送服務以及個人信息的定制服務,吸引更多的用戶。,上一頁 下一頁,3、搜索引擎,網(wǎng)絡數(shù)據(jù)挖掘是目前網(wǎng)絡信息檢索發(fā)展的一個關鍵。如通過對網(wǎng)頁內(nèi)容挖掘,可以實現(xiàn)對網(wǎng)頁的聚類、分類,實現(xiàn)網(wǎng)絡信息的分類瀏覽與檢索;通過對用戶所使用的提問式的歷史記錄的分析,可以有效地進行提問擴展,提高用戶的檢索效果;另外,運

55、用網(wǎng)絡內(nèi)容挖掘技術改進關鍵詞加權算法,提高網(wǎng)絡信息的標引準確度,從而改善檢索效果。 4、決策支持 為政府重大政策出臺提供決策支持。如,通過對網(wǎng)絡各種經(jīng)濟資源的挖掘,確定未來經(jīng)濟的走勢,從而制定出相應的宏觀經(jīng)濟調(diào)控政策。 從世界范圍來看,電子政務并未真正得以實現(xiàn)。英國雖然在這一方面全球領先,但也僅有60%的政府機構的互連網(wǎng)服務網(wǎng)站已開通或正在建設。隨著電子政務和網(wǎng)絡用戶對高品質(zhì)、個性化的信息需求的不斷擴大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論