數(shù)據(jù)挖掘原理與算法01

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-06-19 格式：ppt 頁(yè)數(shù)：56 大?。?22.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩55頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘信息管理與工程學(xué)院,教材信息：《數(shù)據(jù)挖掘原理與算法》毛國(guó)君，段立娟，王實(shí)，石云清華大學(xué)出版社，2007,,,本課程的一些約定：,1、課程目的：拓寬與加深專業(yè)知識(shí)2、注重平時(shí)學(xué)習(xí)作業(yè)按時(shí)完成未按時(shí)為晚交一周內(nèi)未交視為放棄作業(yè)按規(guī)定要求完成教科書：不可或缺不允許抄襲但鼓勵(lì)討論3、無遲到、缺席、手機(jī)等,,什么激發(fā)了數(shù)據(jù)挖掘，為什么它是重要的？􀂄什么是數(shù)據(jù)挖掘？􀂄

2、在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘？􀂄數(shù)據(jù)挖掘功能——可以挖掘什么類型的模式􀂄所有模式都是有趣的嗎？􀂄數(shù)據(jù)挖掘系統(tǒng)的分類􀂄數(shù)據(jù)挖掘的主要問題,第一章緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)

3、形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘技術(shù)的商業(yè)需求分析,隨著信息技術(shù)的高速發(fā)展，數(shù)據(jù)庫(kù)應(yīng)用的規(guī)模、范圍和深度不斷擴(kuò)大，網(wǎng)絡(luò)環(huán)境成為主流等等。產(chǎn)生“數(shù)據(jù)豐富而信息貧乏（Data Rich & Information Poor）”現(xiàn)象。在強(qiáng)大的商業(yè)需求的驅(qū)動(dòng)下，商家們開始注意到有效地解決大容量數(shù)據(jù)的利用問題具有巨大的商機(jī)；學(xué)者們開始思考如何從大容量數(shù)據(jù)集中獲取有用信息和知識(shí)的方法

4、。隨著信息技術(shù)的高速發(fā)展，人們希望能夠提供更高層次的數(shù)據(jù)處理功能。新的需求推動(dòng)新的技術(shù)的誕生。數(shù)據(jù)（Data）、信息（Information）和知識(shí)（Knowledge）是廣義數(shù)據(jù)表現(xiàn)的不同形式。,數(shù)據(jù)、信息和知識(shí),,data,information,knowledge,,,數(shù)據(jù)挖掘產(chǎn)生的技術(shù)背景,數(shù)據(jù)挖掘是相關(guān)學(xué)科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的。主要的相關(guān)技術(shù)：數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和Internet等信息技術(shù)的發(fā)展計(jì)算機(jī)性能的提

5、高和先進(jìn)的體系結(jié)構(gòu)的發(fā)展統(tǒng)計(jì)學(xué)和人工智能等方法在數(shù)據(jù)分析中的研究和應(yīng)用,數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉技術(shù),,Data Mining,Database Technology,Statistics,OtherDisciplines,InformationScience,AI /MachineLearning,Visualization,,,,,,,數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展,60年代：簡(jiǎn)單文件處理系統(tǒng)向數(shù)據(jù)庫(kù)系統(tǒng)變革。70年代：層次、網(wǎng)絡(luò)和

6、關(guān)系型數(shù)據(jù)庫(kù)普及。 80年代：RDBS及其相關(guān)工具、數(shù)據(jù)索引及數(shù)據(jù)組織技術(shù)被廣泛采用；中期開始，分布式數(shù)據(jù)庫(kù)廣發(fā)討論，關(guān)系數(shù)據(jù)庫(kù)技術(shù)和新型技術(shù)的結(jié)合。 90年代：數(shù)據(jù)庫(kù)領(lǐng)域中的新內(nèi)容、新應(yīng)用、新技術(shù)層出不窮，形成了龐大的數(shù)據(jù)庫(kù)家族；人們期望分析預(yù)測(cè)、決策支持等高級(jí)應(yīng)用， Data mining and data warehousing等出現(xiàn)。本世紀(jì)開始： Data mining 得到理論/技術(shù)深化。,統(tǒng)計(jì)學(xué)的深入應(yīng)用,強(qiáng)大有效的數(shù)

7、理統(tǒng)計(jì)方法和工具，已成為信息咨詢業(yè)的基礎(chǔ) 。統(tǒng)計(jì)分析技術(shù)是基于嚴(yán)格的數(shù)學(xué)理論和高超的應(yīng)用技巧的。數(shù)據(jù)挖掘技術(shù)是數(shù)理統(tǒng)計(jì)分析應(yīng)用的延伸和發(fā)展。和數(shù)據(jù)庫(kù)技術(shù)的結(jié)合性研究,人工智能技術(shù)的研究和應(yīng)用,人工智能是計(jì)算機(jī)科學(xué)研究中爭(zhēng)議最多而又仍始終保持強(qiáng)大生命的研究領(lǐng)域。專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲，但是諸多難題限制了專家系統(tǒng)的應(yīng)用：知識(shí)獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問題。知識(shí)表示成為一大難題：知識(shí)工程師在整理表達(dá)從

8、領(lǐng)域?qū)＜夷抢铽@得的知識(shí)時(shí)勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩。對(duì)常識(shí)和百科知識(shí)出奇地貧乏：人工智能學(xué)家Feigenbaum估計(jì)，一般人擁有的常識(shí)存入計(jì)算機(jī)大約有100萬條事實(shí)和抽象經(jīng)驗(yàn)法則，離開常識(shí)的專家系統(tǒng)有時(shí)會(huì)比傻子還傻。數(shù)據(jù)挖掘繼承了專家系統(tǒng)的高度實(shí)用性特點(diǎn)，并且以數(shù)據(jù)為基本出發(fā)點(diǎn)，客觀地挖掘知識(shí)。機(jī)器學(xué)習(xí)得到了充分的研究和發(fā)展：理論和算法。數(shù)據(jù)挖掘研究在繼承已有的人工智能相關(guān)領(lǐng)域，特別是機(jī)器學(xué)習(xí)的研究成果的基礎(chǔ)上，成為新的

9、研究分支。,,,第一章緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì)數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘處于研究和應(yīng)用探索階段,經(jīng)過十幾年的研究和實(shí)踐，數(shù)據(jù)挖掘技術(shù)已經(jīng)吸收了許多學(xué)科的最新研究成果而形成獨(dú)具特色的研究

10、分支。大部分學(xué)者認(rèn)為數(shù)據(jù)挖掘的研究仍然處于廣泛研究和探索階段：一方面，數(shù)據(jù)挖掘的概念已經(jīng)被廣泛接受。另一方面，數(shù)據(jù)挖掘的大面積應(yīng)用還有待時(shí)日。隨著KDD在學(xué)術(shù)界和工業(yè)界的影響越來越大，數(shù)據(jù)挖掘的研究向著更深入和實(shí)用技術(shù)方向發(fā)展：大學(xué)等研究機(jī)構(gòu)的大多數(shù)基礎(chǔ)性研究集中在數(shù)據(jù)挖掘理論、挖掘算法等的探討上。公司的研究更注重和實(shí)際商業(yè)問題結(jié)合。數(shù)據(jù)挖掘的經(jīng)濟(jì)價(jià)值已經(jīng)顯現(xiàn)出來：Gartner報(bào)告中列舉重要影響的五項(xiàng)關(guān)鍵技術(shù)，其中KDD

11、和人工智能排名第一。,數(shù)據(jù)挖掘研究聚焦點(diǎn),數(shù)據(jù)挖掘在如下幾個(gè)方面需要重點(diǎn)開展工作：數(shù)據(jù)挖掘技術(shù)與特定商業(yè)邏輯的平滑集成問題：數(shù)據(jù)挖掘需要代表性的應(yīng)用實(shí)例來證明（像“啤酒與尿布” ）。數(shù)據(jù)挖掘技術(shù)與特定數(shù)據(jù)存儲(chǔ)類型的適應(yīng)問題：不同的數(shù)據(jù)存儲(chǔ)方式會(huì)影響數(shù)據(jù)挖掘的具體實(shí)現(xiàn)機(jī)制、目標(biāo)定位、技術(shù)有效性等。大型數(shù)據(jù)的選擇與規(guī)格化問題：數(shù)據(jù)的噪音、信息丟失等問題的處理；針對(duì)特定挖掘方法進(jìn)行數(shù)據(jù)規(guī)格化等問題。數(shù)據(jù)挖掘系統(tǒng)的構(gòu)架與交互式挖掘技

12、術(shù)：在具體的實(shí)現(xiàn)機(jī)制、技術(shù)路線以及各階段的功能定位等方面仍需細(xì)化和深入研究。良好的交互式挖掘（Interaction Mining）也是數(shù)據(jù)挖掘系統(tǒng)成功的前提。數(shù)據(jù)挖掘語言與系統(tǒng)的可視化問題：可視化挖掘除了要和良好的交互式技術(shù)結(jié)合外，還必須在挖掘結(jié)果或過程的可視化進(jìn)行探索和實(shí)踐。數(shù)據(jù)挖掘理論與算法研究一方面，在已有的理論框架下有許多面向?qū)嶋H應(yīng)用目標(biāo)的挖掘理論等待探索和創(chuàng)新。另一方面，隨著數(shù)據(jù)挖掘技術(shù)本身和相關(guān)技術(shù)的發(fā)展，新的

13、挖掘理論和算法的誕生是必然的。,第一章緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì)數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,從商業(yè)角度看數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘從本質(zhì)上說是一種新的商業(yè)信息處理技術(shù)：數(shù)據(jù)挖掘技術(shù)把人們對(duì)數(shù)據(jù)的應(yīng)用

14、，從低層次的聯(lián)機(jī)查詢操作，提高到?jīng)Q策支持、分析預(yù)測(cè)等更高級(jí)應(yīng)用上。通過對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析、綜合和推理，發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性、未來趨勢(shì)以及一般性的概括知識(shí)等，這些知識(shí)性的信息可以用來指導(dǎo)高級(jí)商務(wù)活動(dòng)。從決策、分析和預(yù)測(cè)等高級(jí)商業(yè)目的看，原始數(shù)據(jù)只是未被開采的礦山，需要挖掘和提煉才能獲得對(duì)商業(yè)目的有用的規(guī)律性知識(shí)。從商業(yè)角度看，數(shù)據(jù)挖掘就是按企業(yè)的既定業(yè)務(wù)目標(biāo)，對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行深層次分析以揭示隱藏的、未知的規(guī)律性并將其模型化，從而支

15、持商業(yè)決策活動(dòng)。,數(shù)據(jù)挖掘的技術(shù)含義,數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)（KDD： Knowledge Discovery in Databases）是比數(shù)據(jù)挖掘出現(xiàn)更早的一個(gè)名詞。 KDD與Data Mining的關(guān)系，有不同的看法：KDD看成數(shù)據(jù)挖掘的一個(gè)特例：這是早期比較流行的觀點(diǎn)，這種描述強(qiáng)調(diào)了數(shù)據(jù)挖掘在源數(shù)據(jù)形式上的多樣性。數(shù)據(jù)挖掘是KDD的一個(gè)關(guān)鍵步驟：這種觀點(diǎn)得到大多數(shù)學(xué)者認(rèn)同，有它的合理性。KDD與Data Mining含義相同

16、：事實(shí)上，在現(xiàn)今的許多場(chǎng)合，如技術(shù)綜述等，這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。也有其他的說法：KDD在人工智能界更流行，而Data Mining在數(shù)據(jù)庫(kù)界使用更多。在研究領(lǐng)域被稱作KDD，在工程領(lǐng)域則稱之為數(shù)據(jù)挖掘。,數(shù)據(jù)挖掘定義,數(shù)據(jù)挖掘定義有廣義和狹義之分。從廣義的觀點(diǎn)，數(shù)據(jù)挖掘是從大型數(shù)據(jù)集（可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的）中，挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過程。從這種狹義的觀點(diǎn)上

17、，我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過程。下列技術(shù)不是數(shù)據(jù)挖掘：OLTP Expert systems Small MLStatistical programs,數(shù)據(jù)挖掘研究的理論基礎(chǔ),數(shù)據(jù)挖掘方法可以是基于數(shù)學(xué)理論的，也可以是非數(shù)學(xué)的；可以是演繹的，也可以是歸納的。從研究者可能是來自于數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)以及其他方面的學(xué)者和工程技術(shù)人員，他們會(huì)從不同的視點(diǎn)進(jìn)行探討性研究。有下面一些

18、重要的理論視點(diǎn)值得關(guān)注：模式發(fā)現(xiàn)（Pattern Discovery）架構(gòu)規(guī)則發(fā)現(xiàn)（Rule Discovery）架構(gòu) 基于概率和統(tǒng)計(jì)理論微觀經(jīng)濟(jì)學(xué)觀點(diǎn)（Microeconomic View）基于數(shù)據(jù)壓縮（Data Compression）理論基于歸納數(shù)據(jù)庫(kù)（Inductive Database）理論可視化數(shù)據(jù)挖掘（Visual Data Mining）等等,第一章緒論

19、內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,根據(jù)挖掘任務(wù),分類或預(yù)測(cè)模型發(fā)現(xiàn)數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)序列模式發(fā)現(xiàn)相似模式發(fā)現(xiàn)混沌模式發(fā)現(xiàn)依賴關(guān)系或依賴模型發(fā)現(xiàn)異常和趨勢(shì)發(fā)現(xiàn)等,根據(jù)挖掘?qū)ο?關(guān)系數(shù)據(jù)庫(kù)挖掘面向?qū)ο髷?shù)據(jù)

20、庫(kù)挖掘空間數(shù)據(jù)庫(kù)挖掘時(shí)態(tài)數(shù)據(jù)庫(kù)挖掘文本數(shù)據(jù)源挖掘多媒體數(shù)據(jù)庫(kù)挖掘異質(zhì)數(shù)據(jù)庫(kù)挖掘遺產(chǎn)數(shù)據(jù)庫(kù)挖掘web數(shù)據(jù)挖掘等,根據(jù)挖掘方法,機(jī)器學(xué)習(xí)方法統(tǒng)計(jì)方法聚類分析方法神經(jīng)網(wǎng)絡(luò)（Neural Network）方法遺傳算法（Genetic Algorithm）方法數(shù)據(jù)庫(kù)方法近似推理和不確定性推理方法基于證據(jù)理論和元模式的方法現(xiàn)代數(shù)學(xué)分析方法粗糙集（Rough Set）或模糊集方法集成方法等,根據(jù)知識(shí)類型,挖掘廣義型知

21、識(shí)挖掘差異型知識(shí)挖掘關(guān)聯(lián)型知識(shí)挖掘預(yù)測(cè)型知識(shí)挖掘偏離型（異常）知識(shí)挖掘不確定性知識(shí)等,第一章緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,知識(shí)表示模式分類,數(shù)據(jù)挖掘的目的是發(fā)

22、現(xiàn)知識(shí)，知識(shí)要通過一定的模式給出。通過對(duì)數(shù)據(jù)挖掘中知識(shí)表示模式及其所采用方法的分析，可以更清楚地了解數(shù)據(jù)挖掘系統(tǒng)的特點(diǎn)。主要知識(shí)模式類型有：廣義知識(shí)（Generalization）關(guān)聯(lián)知識(shí)（Association）類知識(shí)（Class/Cluster）預(yù)測(cè)型知識(shí)（Prediction）特異型知識(shí)（Exception）,廣義知識(shí)挖掘,廣義知識(shí)是指描述類別特征的概括性知識(shí)。這類數(shù)據(jù)挖掘系統(tǒng)是對(duì)細(xì)節(jié)數(shù)據(jù)的所蘊(yùn)涵的概念特征信息的概括和

23、抽象的過程。主要方法有：概念描述（Concept Description）方法：概念描述本質(zhì)上就是對(duì)某類對(duì)象的內(nèi)涵特征進(jìn)行概括：特征性（Characterization）描述：描述某類對(duì)象的共同特征。區(qū)別性（Discrimination）描述：描述不同類對(duì)象之間的區(qū)別。多維數(shù)據(jù)分析可以看作是一種廣義知識(shí)挖掘的特例多層次概念描述問題：由數(shù)據(jù)歸納出的概念是有層次的，不同層次的概念是對(duì)原始數(shù)據(jù)的不同粒度上的概念抽象。例如，“北京

24、工業(yè)大學(xué)”能歸納出“北京市”、“中國(guó)”、“亞洲”等層次。銷售表SALES（ENO，ENAME，EAGE，VALUE，DEPT），它的每個(gè)屬性的定義域都可能存在蘊(yùn)涵于領(lǐng)域知識(shí)內(nèi)的概念延伸。例如，DEPT能歸納出公司COMPANY、城市CITY或國(guó)家COUNTRY等層次概念分層（Concept Hierarchy）技術(shù)：將低層概念集映射到高層概念集的方法，是一個(gè)常用的處理多層次概念描述的方法。,主要的概念分層方法,模式分層（Schema

25、 Hierarchy）：利用屬性在特定背景知識(shí)下的語義層次形成不同層次的模式關(guān)聯(lián)。這種關(guān)聯(lián)是一種的全序或偏序關(guān)系。例如，DEPT的模式分層結(jié)構(gòu)可能是：DEPT→COMPANY→CITY→COUNTRY。集合分組分層（Set-Grouping Hierarchy）：將屬性在特定背景知識(shí)下的取值范圍合理分割，形成替代的離散值或區(qū)間集合。例如，年齡EAGE可以抽象成{[20，29]，[30，39]，[40，49]，[50，59]}或者

26、{青年，中年，老年} 。操作導(dǎo)出分層（Operation-Drived Hierarchy）：有些屬性可能包含多類信息。例如，一個(gè)跨國(guó)公司的雇員號(hào)可能包含這個(gè)雇員的所在的部門、城市、國(guó)家和雇傭的時(shí)間等。對(duì)這類對(duì)象可以作為背景知識(shí)定義它的結(jié)構(gòu)，通過編碼解析等操作完成概念的抽象?；谝?guī)則分層（Rule-Based Hierarchy）：通過定義背景知識(shí)的抽象規(guī)則，形成不同層次上的概念的抽象。,關(guān)聯(lián)知識(shí)挖掘,關(guān)聯(lián)知識(shí)挖掘的目的就是找出數(shù)

27、據(jù)庫(kù)中隱藏的關(guān)聯(lián)信息。關(guān)聯(lián)知識(shí)反映一個(gè)事件和其他事件之間的依賴或關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序（Time Series）關(guān)聯(lián)、因果關(guān)聯(lián)、數(shù)量關(guān)聯(lián)等。從廣義上講，關(guān)聯(lián)分析是數(shù)據(jù)挖掘的本質(zhì)。關(guān)聯(lián)規(guī)則挖掘（Association Rule Mining）是關(guān)聯(lián)知識(shí)發(fā)現(xiàn)的最常用方法：關(guān)聯(lián)規(guī)則的研究最早的分支之一，最著名的Apriori算法。是數(shù)據(jù)挖掘研究中比較深入的分支，許多關(guān)聯(lián)規(guī)則挖掘的理論和算法已經(jīng)被提出。,類知識(shí)挖掘,類知識(shí)（

28、Class）刻畫了一類事物，這類事物具有某種意義上的共同特征，并明顯和不同類事物相區(qū)別。有兩個(gè)基本的方法來挖掘類知識(shí)：分類：分類是數(shù)據(jù)挖掘中的一個(gè)重要的目標(biāo)和任務(wù)，是目前的研究和應(yīng)用最多的分支之一。分類的目的是學(xué)會(huì)一個(gè)分類模型（稱作分類器），該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中。分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí)（Supervised Learning），即每個(gè)訓(xùn)練樣本的數(shù)據(jù)對(duì)象已經(jīng)有類標(biāo)識(shí)，通過學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對(duì)象與類標(biāo)識(shí)

29、間對(duì)應(yīng)的知識(shí)。聚類：數(shù)據(jù)挖掘的目標(biāo)之一是進(jìn)行聚類分析。聚類是把一組個(gè)體按照相似性歸成若干類別，它的目的是使得屬于同一類別的個(gè)體之間的差別盡可能的小，而不同類別上的個(gè)體間的差別盡可能的大。聚類屬于無指導(dǎo)學(xué)習(xí)（Unsupervised Learning）），當(dāng)一組數(shù)據(jù)對(duì)象可以由一個(gè)概念（區(qū)別于其他的概念）來描述時(shí)，就形成一個(gè)簇（Cluster）?？坍嬃藬?shù)據(jù)所蘊(yùn)涵的類知識(shí)。,分類中的基礎(chǔ)方法,決策樹方法：基本的分類技術(shù)之一，如ID3及

30、其改進(jìn)算法ID4、ID5、C4.5、C5.0等；針對(duì)大訓(xùn)練樣本集的SLIQ、SPRINT、雨林（Rainforest）BOAT等算法。貝葉斯分類：具有堅(jiān)實(shí)的理論基礎(chǔ)，理論上具有較小的出錯(cuò)率。但是，它的適應(yīng)性差。神經(jīng)網(wǎng)絡(luò)：作為一個(gè)相對(duì)獨(dú)立的研究分支已經(jīng)很早被提出，具有高度的抗干擾能力和可以對(duì)未訓(xùn)練數(shù)據(jù)進(jìn)行分類等優(yōu)點(diǎn)，因此產(chǎn)生了神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)挖掘技術(shù)的結(jié)合性研究。遺傳算法：是基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。類比學(xué)習(xí) ：最典型的方法是k

31、-最臨近分類（k-Nearest Neighbor Classification）方法，它屬于懶散學(xué)習(xí)法。其他方法：如粗糙集（Rough Set）、模糊集（Fuzzy Set）方法等。,主要聚類的技術(shù),基于劃分的聚類方法：k-平均算法是統(tǒng)計(jì)學(xué)中的一個(gè)經(jīng)典聚類方法，它以預(yù)先定義好的簇平均值，構(gòu)造劃分，評(píng)價(jià)和選擇他們?；趯哟蔚木垲惙椒ǎ和ㄟ^對(duì)源數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行層次分解，達(dá)到目標(biāo)簇的逐步生成。凝聚（Agglomeration）：由

32、小到大逐步合并、評(píng)價(jià)。分裂（Division）由大到小逐步分裂、評(píng)價(jià)。基于密度的聚類方法：基于密度的聚類方法是通過度量區(qū)域所包含的對(duì)象數(shù)目來形成最終目標(biāo)的。如果一個(gè)區(qū)域的密度超過指定的值，那么它就需要進(jìn)一步分解?；诰W(wǎng)格的聚類方法：對(duì)象空間離散化成有限的網(wǎng)格單元，聚類工作在這種網(wǎng)格結(jié)構(gòu)上進(jìn)行?；谀Ｐ偷木垲惙椒ǎ好總€(gè)簇假定一個(gè)模型，尋找數(shù)據(jù)對(duì)給定模型的最佳擬和。,預(yù)測(cè)型知識(shí)挖掘,預(yù)測(cè)型知識(shí)（Prediction）是指由歷史的數(shù)

33、據(jù)產(chǎn)生的并能推測(cè)未來數(shù)據(jù)趨勢(shì)的知識(shí)。預(yù)測(cè)性挖掘主要是對(duì)未來數(shù)據(jù)的概念分類和趨勢(shì)輸出。分類技術(shù)可以用于產(chǎn)生預(yù)測(cè)型的類知識(shí)。統(tǒng)計(jì)學(xué)中的回歸方法等可以通過歷史數(shù)據(jù)直接產(chǎn)生對(duì)未來數(shù)據(jù)預(yù)測(cè)的連續(xù)值，因而這些預(yù)測(cè)型知識(shí)已經(jīng)蘊(yùn)藏在諸如趨勢(shì)曲線等輸出形式中。預(yù)測(cè)型知識(shí)的挖掘可以結(jié)合經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等技術(shù)來研究。,預(yù)測(cè)型知識(shí)挖掘中的典型方法,趨勢(shì)預(yù)測(cè)模式：主要是針對(duì)那些具有時(shí)序（Time Series）屬性的數(shù)據(jù)，如股票價(jià)格等，

34、或者是序列項(xiàng)目（Sequence Items）的數(shù)據(jù)，如年齡和薪水對(duì)照等，發(fā)現(xiàn)長(zhǎng)期的趨勢(shì)變化等。周期分析模式：主要是針對(duì)那些數(shù)據(jù)分布和時(shí)間的依賴性很強(qiáng)的數(shù)據(jù)進(jìn)行周期模式的挖掘。例如，服裝在某季節(jié)或所有季節(jié)的銷售周期。序列模式：主要是針對(duì)歷史事件發(fā)生次序的分析形成預(yù)測(cè)模式來對(duì)未來行為進(jìn)行預(yù)測(cè)。例如，預(yù)測(cè)“三年前購(gòu)買計(jì)算機(jī)的客戶有很大概率會(huì)買數(shù)字相機(jī)”。神經(jīng)網(wǎng)絡(luò)：在預(yù)測(cè)型知識(shí)挖掘中，神經(jīng)網(wǎng)絡(luò)也是很有用的模式結(jié)構(gòu)。,特異型知識(shí)挖掘,特異

35、型知識(shí)（Exception）是源數(shù)據(jù)中所蘊(yùn)涵的極端特例或明顯區(qū)別于其他數(shù)據(jù)的知識(shí)描述，它揭示了事物偏離常規(guī)的異常規(guī)律。特異知識(shí)挖掘的價(jià)值：例如，在Web站點(diǎn)發(fā)現(xiàn)那些區(qū)別于正常登錄行為的用戶特點(diǎn)可以防止非法入侵。金融、電信欺詐等分類中的反常實(shí)例、不滿足普通規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、數(shù)據(jù)聚類外的離群值等,特異型知識(shí)挖掘的任務(wù)和方法,許多技術(shù)可以擴(kuò)展到特異型知識(shí)挖掘中,如：孤立點(diǎn)（Outlier）分析：孤立點(diǎn)是指不符合

36、數(shù)據(jù)的一般模型的數(shù)據(jù)。在類知識(shí)挖掘中，孤立點(diǎn)分析是不能歸入正常類知識(shí)中的零散數(shù)據(jù)的再分析。異常序列分析：在一系列行為或事件對(duì)應(yīng)的序列中發(fā)現(xiàn)明顯不符合一般規(guī)律的特異型知識(shí)。特異規(guī)則發(fā)現(xiàn)：產(chǎn)生并評(píng)價(jià)雖然具有低支持度但可能很有價(jià)值的規(guī)則。,第一章緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表

37、示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘方法與數(shù)據(jù)存儲(chǔ)類型,數(shù)據(jù)挖掘技術(shù)應(yīng)該應(yīng)用到任何數(shù)據(jù)存儲(chǔ)方式的知識(shí)挖掘中，但是因?yàn)樵磾?shù)據(jù)的存儲(chǔ)類型的不同，挖掘的挑戰(zhàn)性和技術(shù)會(huì)不同。近年來的研究表明數(shù)據(jù)挖掘所涉及的數(shù)據(jù)存儲(chǔ)類型越來越豐富，除了一些有通用價(jià)值的模型、構(gòu)架等研究外，也開展了一些針對(duì)復(fù)雜或新型數(shù)據(jù)存儲(chǔ)方式下的挖掘技術(shù)或算法的研究。主要的數(shù)據(jù)類型：事務(wù)數(shù)據(jù)庫(kù)（T

38、ransactional Database ）關(guān)系型數(shù)據(jù)庫(kù) （Related Database ）數(shù)據(jù)倉(cāng)庫(kù)（Data Warehouse ）在關(guān)系模型基礎(chǔ)上發(fā)展的新型數(shù)據(jù)庫(kù) 面向應(yīng)用的新型數(shù)據(jù)源 Web數(shù)據(jù),事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘,一個(gè)事務(wù)數(shù)據(jù)庫(kù)是對(duì)事務(wù)型數(shù)據(jù)的收集。1993年，當(dāng)Agrawal等開始討論數(shù)據(jù)挖掘問題時(shí)，是以購(gòu)物籃分析（Market Basket Analysis）作為商業(yè)應(yīng)用背景的。從事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)是

39、數(shù)據(jù)挖掘中研究較早但至今仍然很活躍的問題。通過特定的技術(shù)對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行挖掘，可以獲得動(dòng)態(tài)行為所蘊(yùn)藏的關(guān)聯(lián)規(guī)則、分類、聚類以及預(yù)測(cè)等知識(shí)模式。第三章將詳細(xì)講解,關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘,關(guān)系型數(shù)據(jù)庫(kù)是由一系列數(shù)據(jù)表組成的，相當(dāng)成熟：成熟的語義模型（像實(shí)體-關(guān)系模型）；成熟的DBMS（像Oracle）成熟的查詢語言（像SQL語言；可視化的輔助工具和優(yōu)化軟件。一些更深入和亟待解決的問題：多維知識(shí)挖掘：傳統(tǒng)的事務(wù)數(shù)據(jù)庫(kù)挖掘所研究的

40、知識(shí)一般是單維（Single-Demension）的，但是，在關(guān)系型數(shù)據(jù)庫(kù)中，多維的知識(shí)更普遍和有應(yīng)用價(jià)值。單維： “購(gòu)買計(jì)算機(jī)的人也購(gòu)買打印機(jī)”。多維： “什么樣購(gòu)買計(jì)算機(jī)的人也購(gòu)買打印機(jī)的可能性更大？” 。多表挖掘：關(guān)系型數(shù)據(jù)庫(kù)是一系列表的集合。因此，多表挖掘是必然的。數(shù)量數(shù)據(jù)挖掘：關(guān)系型數(shù)據(jù)庫(kù)經(jīng)常包含非離散數(shù)量屬性（如工資）。多層知識(shí)挖掘：數(shù)據(jù)及其關(guān)聯(lián)總是可在多個(gè)不同的概念層上來理解它。知識(shí)評(píng)價(jià)問題：對(duì)傳統(tǒng)的數(shù)據(jù)挖掘

41、框架的知識(shí)評(píng)價(jià)問題，也是關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)挖掘走向?qū)嶋H應(yīng)用必須要解決的問題。約束數(shù)據(jù)挖掘問題：數(shù)據(jù)挖掘系統(tǒng)在用戶的約束指導(dǎo)下進(jìn)行，可以提高挖掘效率和準(zhǔn)確度。,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)挖掘,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按著主題來組織的。存儲(chǔ)的數(shù)據(jù)可以從歷史的觀點(diǎn)提供信息。雖然目前的一些數(shù)據(jù)倉(cāng)庫(kù)輔助工具可以幫助完成數(shù)據(jù)分析，但是發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)內(nèi)部的知識(shí)模式及其按知識(shí)工程方法來完成高層次的工作仍需要數(shù)據(jù)挖掘技術(shù)支持。數(shù)據(jù)挖掘不僅伴隨數(shù)據(jù)倉(cāng)庫(kù)而產(chǎn)生，而且隨著

42、應(yīng)用深入產(chǎn)生了許多新的課題。如果我們把數(shù)據(jù)挖掘作為高級(jí)數(shù)據(jù)分析手段來看，那么它是伴隨數(shù)據(jù)倉(cāng)庫(kù)技術(shù)提出并發(fā)展起來的。OLAP盡管在許多方面和數(shù)據(jù)挖掘是有區(qū)別的，但是它們?cè)趹?yīng)用目標(biāo)上有很大的重合度。數(shù)據(jù)挖掘更看中數(shù)據(jù)分析后所形成的知識(shí)表示模式，而OLAP更注重利用多維等高級(jí)數(shù)據(jù)模型實(shí)現(xiàn)數(shù)據(jù)的聚合。從某種意義上講，我們可以把數(shù)據(jù)挖掘看作是OLAP的高級(jí)形式，與此更接近的名詞可能算是OLAM（聯(lián)機(jī)分析挖掘）。,新型數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘,對(duì)象

43、—關(guān)系型數(shù)據(jù)庫(kù)（Object-Ralational Database）挖掘；面向?qū)ο髷?shù)據(jù)庫(kù)的挖掘；空間數(shù)據(jù)庫(kù)的挖掘；時(shí)態(tài)數(shù)據(jù)庫(kù)的挖掘；工程數(shù)據(jù)庫(kù)（Engineering Database）的挖掘；多媒體數(shù)據(jù)庫(kù)（Multimedia Database）的挖掘；等等,Web數(shù)據(jù)源中的數(shù)據(jù)挖掘,隨著Internet的廣泛使用， Web這一巨大的海洋中蘊(yùn)藏著極其豐富的有用信息。面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要

44、復(fù)雜得多：異構(gòu)數(shù)據(jù)源環(huán)境：Web網(wǎng)站上的信息是異構(gòu): 每個(gè)站點(diǎn)的信息和組織都不一樣；存在大量的無結(jié)構(gòu)的文本信息、復(fù)雜的多媒體信息；站點(diǎn)使用和安全性、私密性要求各異等等。數(shù)據(jù)的是復(fù)雜性：有些是無結(jié)構(gòu)的（如Web頁(yè)），通常都是用長(zhǎng)的句子或短語來表達(dá)文檔類信息；有些可能是半結(jié)構(gòu)的（如Email，HTML頁(yè)）。當(dāng)然有些具有很好的結(jié)構(gòu)（如電子表格）。揭開這些復(fù)合對(duì)象蘊(yùn)涵的一般性描述特征成為數(shù)據(jù)挖掘的不可推卸的責(zé)任。動(dòng)態(tài)變化的應(yīng)用環(huán)境：We

45、b的信息是頻繁變化的，像新聞、股票等信息是實(shí)時(shí)更新的。這種高變化也體現(xiàn)在頁(yè)面的動(dòng)態(tài)鏈接和隨機(jī)存取上。Web上的用戶是難以預(yù)測(cè)的。Web上的數(shù)據(jù)環(huán)境是高噪音的。,Web挖掘的研究主要流派,Web結(jié)構(gòu)挖掘：挖掘Web上的鏈接結(jié)構(gòu)。通過Web頁(yè)面間的鏈接信息可以識(shí)別出權(quán)威頁(yè)面（Authoritative Page）、安全隱患（非法鏈接）等。Web使用挖掘?qū)eb上的Log日志記錄的挖掘Web上的Log日志記錄了包括URL請(qǐng)求、IP

46、地址以及時(shí)間等的訪問信息。分析和發(fā)現(xiàn)Log日志中蘊(yùn)藏的規(guī)律可以幫助我們識(shí)別潛在的客戶、跟蹤Web服務(wù)的質(zhì)量以及偵探非法訪問的隱患等。Web內(nèi)容挖掘： Web的內(nèi)容是豐富的，而且構(gòu)成成分是復(fù)雜的（無結(jié)構(gòu)的、半結(jié)構(gòu)的等），對(duì)內(nèi)容的分析是重要而艱巨的工作。Web的內(nèi)容主要是包含文本、聲音、圖片等的文檔信息。文本挖掘（Text Mining）和Web搜索引擎（Search Engine）等相關(guān)領(lǐng)域的研究。目多媒體信息挖掘技術(shù)。,第一章

47、緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,粗糙集理論簡(jiǎn)介,粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具，由波蘭科學(xué)家Z. Pawlak在1982年首先提出的。粗糙集一經(jīng)提出

48、就立刻引起數(shù)據(jù)挖掘研究人員的注意，并被廣泛討論。粗糙集的知識(shí)形成思想可以概括為：一種類別對(duì)應(yīng)于一個(gè)概念，知識(shí)由概念組成。粗糙集理論是一種刻畫不完整性和不確定性的數(shù)學(xué)工具，能有效地分析和處理不精確、不一致、不完整等各種不完備信息，并從中發(fā)現(xiàn)隱含的知識(shí)，揭示潛在的規(guī)律。,粗糙集理論簡(jiǎn)介,在數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)中，粗糙集理論與方法對(duì)于處理復(fù)雜系統(tǒng)已成為一個(gè)有效的方法，它與概率論、模糊集方法和證據(jù)理論等其他處理不確定性問題理論的最顯著區(qū)別是：

49、它無需提供問題所處理的數(shù)據(jù)集合的任何先驗(yàn)信息。粗糙集理論強(qiáng)調(diào)的是信息系統(tǒng)中知識(shí)的不完全性、不可分辨性，其處理方法是確定的，要求屬性值都是定性值，而實(shí)際應(yīng)用中大量存在的是定量數(shù)據(jù)，必須設(shè)法轉(zhuǎn)換成定性數(shù)據(jù)才能運(yùn)用粗糙集方法。因此與其他處理不確定性問題的理論，如模糊數(shù)學(xué)和云理論等，具有很強(qiáng)的互補(bǔ)性，可以相互促進(jìn)，增強(qiáng)其知識(shí)發(fā)現(xiàn)的能力。,粗糙集理論簡(jiǎn)介,粗糙集和數(shù)據(jù)挖掘關(guān)系密切，目前已經(jīng)在關(guān)聯(lián)規(guī)則、決策樹等方面得到了廣泛應(yīng)用?；诖植诩年P(guān)聯(lián)規(guī)

50、則提取主要步驟包括去除不一致實(shí)例、求屬性核、求相對(duì)約簡(jiǎn)、相同實(shí)例合并和值約簡(jiǎn)。基于粗糙集的單變量決策樹構(gòu)造方法的基本思想是具有最小邊界的屬性在構(gòu)造決策樹時(shí)將首先被選擇。并且目前的研究趨向是：粗糙集和遺傳算法相結(jié)合、和模糊集相結(jié)合，以及和神經(jīng)網(wǎng)絡(luò)相結(jié)合用于數(shù)據(jù)挖掘。,粗糙集理論簡(jiǎn)介,粗糙集為數(shù)據(jù)挖掘提供了一種新的方法和工具，并擁有廣闊的前景。首先，數(shù)據(jù)挖掘研究的實(shí)施對(duì)象多為關(guān)系型數(shù)據(jù)庫(kù)。關(guān)系表可被看作為粗糙集理論中的信息表或決策表，這給

51、粗糙集方法的應(yīng)用帶來極大的方便；第二，粗糙集的約簡(jiǎn)理論可用于高維數(shù)據(jù)的預(yù)處理上以去除冗余屬性從而達(dá)到降低維數(shù)的目的；第三，現(xiàn)實(shí)世界中的規(guī)則有確定性的，也有不確定性的。從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不確定性的知識(shí)，為粗糙集方法提供了用武之地；第四，運(yùn)用粗糙集方法得到的知識(shí)發(fā)現(xiàn)算法有利于并行執(zhí)行，這可極大地提高對(duì)大規(guī)模數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)的效率。,第一章緒論內(nèi)容提要,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與

52、發(fā)展數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì) 數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘技術(shù)的分類問題數(shù)據(jù)挖掘常用的知識(shí)表示模式與方法不同數(shù)據(jù)存儲(chǔ)形式下的數(shù)據(jù)挖掘問題粗糙集方法及其在數(shù)據(jù)挖掘中的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用分析,數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。由于現(xiàn)在各行業(yè)的業(yè)務(wù)操作都向著流程自動(dòng)化的方向發(fā)展，企業(yè)內(nèi)產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)應(yīng)用很廣，應(yīng)用較好的領(lǐng)域有：金融保險(xiǎn)業(yè)：Credit Scoring； Insuran

53、ce Evaluation電信： Detecting telephone fraud零售（如超級(jí)市場(chǎng)）等商業(yè)領(lǐng)域：Marketing Analysis醫(yī)學(xué)： Detecting inappropriate medical treatment體育： IBM Advanced Scout analyzed NBA game statistics 在天文學(xué)、分子生物學(xué)等科學(xué)研究方面等等,數(shù)據(jù)挖掘與CRM,CRM（客戶關(guān)系管理）是指

54、對(duì)企業(yè)和客戶之間的交互活動(dòng)或行為進(jìn)行管理的過程。數(shù)據(jù)挖掘能夠幫助企業(yè)確定客戶的特點(diǎn)，使企業(yè)能夠?yàn)榭蛻籼峁┯嗅槍?duì)性的服務(wù)。因此，把數(shù)據(jù)挖掘和CRM結(jié)合起來進(jìn)行研究和實(shí)踐，是一個(gè)有很大應(yīng)用前景的工作。所能解決的典型商業(yè)問題包括：數(shù)據(jù)庫(kù)營(yíng)銷（Database Marketing）客戶群體劃分（Customer Segmentation & Classification）客戶背景分析（Profile Analysis）交叉銷

55、售（Cross-selling）客戶流失性分析（Churn Analysis）客戶信用記分（Credit Scoring）欺詐發(fā)現(xiàn)（Fraud Detection）等等。,數(shù)據(jù)挖掘與信息安全,隨著網(wǎng)絡(luò)上需要進(jìn)行存儲(chǔ)和處理的敏感信息的日益增多，安全問題逐漸成為網(wǎng)絡(luò)和系統(tǒng)中的首要問題?，F(xiàn)代信息安全的內(nèi)涵已經(jīng)不局限于信息的保護(hù)，而是對(duì)整個(gè)信息系統(tǒng)的保護(hù)和防御，包括對(duì)信息的保護(hù)、檢測(cè)、反映和恢復(fù)能力（PDRR）等。傳統(tǒng)的信息安全系統(tǒng)概

56、括性差，只能發(fā)現(xiàn)模式規(guī)定的、已知的入侵行為，難以發(fā)現(xiàn)新的入侵行為。人們希望能夠?qū)徲?jì)數(shù)據(jù)進(jìn)行自動(dòng)的、更高抽象層次的分析，從中提取出具有代表性、概括性的系統(tǒng)特征模式，以便減輕人們的工作量，且能自動(dòng)發(fā)現(xiàn)新的入侵行為。數(shù)據(jù)挖掘正是具有這樣功能的一種技術(shù)。數(shù)據(jù)挖掘可以對(duì)海量的數(shù)據(jù)進(jìn)行智能化的處理，提取出我們感興趣的信息。利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等智能方法作為入侵檢測(cè)的數(shù)據(jù)分析技術(shù)，可從海量的安全事件數(shù)據(jù)中提取出盡可能多的隱藏安全信息，抽象出有利

57、于進(jìn)行判斷和比較的與安全相關(guān)的普遍特征，從而發(fā)現(xiàn)未知的入侵行為。,http://www.cs.sfu.ca/~han,Thank you !!!,CMPT-843 Course Arrangement,1st week: full instructor teaching2nd to 11th week: 1/2 graduate student + 1/2 instructor teaching12-13th week: full

58、student graduate project presentationCourse evaluation:presentation (quality of presentation slides 7% + presentation 8%) 15%midterm exam 35%project (presentation 5% + report 25%) total 30%homework (2): 20%Deadli

59、ne for the selection of your work in the semester:selection of course presentation: at the end of the 1st weekselection of the course project: at the end of the 3rd weekproject proposal due date: at the end of the 4th

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘原理與算法01

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)挖掘原理與算法01

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載