版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)分析與挖掘習(xí)題數(shù)據(jù)分析與挖掘習(xí)題第一章作業(yè)1.1什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問題:什么是數(shù)據(jù)挖掘?在你的回答中,強(qiáng)調(diào)以下問題:(a)它是又一個(gè)騙局嗎?它是又一個(gè)騙局嗎?數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabaseKDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。例如,使
2、用數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁(yè)面,則是信息檢索(infmationretrieval)領(lǐng)域的任務(wù)。雖然這些任務(wù)是重要的,可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強(qiáng)信息檢索系統(tǒng)的能力。(b)它是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)換嗎?它是一種從數(shù)據(jù)庫(kù),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)
3、習(xí)發(fā)展的技術(shù)的簡(jiǎn)單轉(zhuǎn)換嗎?硬要去區(qū)分DataMining和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為DataMining技術(shù)的CART、CHAID或模糊計(jì)算等等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個(gè)角度看,DataMining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么DataMining的出現(xiàn)會(huì)引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,DataMining有下列幾
4、項(xiàng)特性:1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢(shì),且無須太專業(yè)的統(tǒng)計(jì)背景去使用DataMining的工具2.數(shù)據(jù)分析趨勢(shì)為從大型數(shù)據(jù)庫(kù)抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,DataMining的工具更符合企業(yè)需求;3.純就理論的基礎(chǔ)點(diǎn)來看,DataMining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟DataMining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測(cè)用的。(c)解釋數(shù)據(jù)庫(kù)技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘解釋數(shù)據(jù)庫(kù)技術(shù)發(fā)展如何導(dǎo)致數(shù)據(jù)挖掘近年來,數(shù)據(jù)挖掘引起
5、了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),(2)人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可
6、視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。(d)當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過程時(shí),描述數(shù)據(jù)挖掘所涉及的步驟。當(dāng)把數(shù)據(jù)挖掘看作知識(shí)發(fā)現(xiàn)過程時(shí),描述數(shù)據(jù)挖掘所涉及的步驟。知識(shí)發(fā)現(xiàn)過程以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果
7、表達(dá)和解釋。1.2給出一個(gè)例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)給出一個(gè)例子,其中數(shù)據(jù)挖掘?qū)τ谝环N商務(wù)的成功至關(guān)重要的。這種商務(wù)需要什么數(shù)據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡(jiǎn)單的統(tǒng)計(jì)分析來實(shí)現(xiàn)嗎?據(jù)挖掘功能?他們能夠由數(shù)據(jù)查詢處理或簡(jiǎn)單的統(tǒng)計(jì)分析來實(shí)現(xiàn)嗎?由于統(tǒng)計(jì)學(xué)基礎(chǔ)的建立在計(jì)算機(jī)的發(fā)明和發(fā)展之前,所以常用的統(tǒng)計(jì)學(xué)工具包含很多可數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)側(cè)重于數(shù)據(jù)分析工作,是按照主題存儲(chǔ)的“與時(shí)間相關(guān)”:數(shù)據(jù)庫(kù)保存信息
8、的時(shí)候,并不強(qiáng)調(diào)一定有時(shí)間信息。數(shù)據(jù)倉(cāng)庫(kù)則不同,出于決策的需要,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明時(shí)間屬性。決策中,時(shí)間屬性很重要。同樣都是累計(jì)購(gòu)買過九車產(chǎn)品的顧客,一位是最近三個(gè)月購(gòu)買九車,一位是最近一年從未買過,這對(duì)于決策者意義是不同的?!安豢尚薷摹?數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不是最新的,而是來源于其它數(shù)據(jù)源。數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史信息,并不是很多數(shù)據(jù)庫(kù)處理的那種日常事務(wù)數(shù)據(jù)(有的數(shù)據(jù)庫(kù)例如電信計(jì)費(fèi)數(shù)據(jù)庫(kù)甚至處理實(shí)時(shí)信息)。因此,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是極少
9、或根本不修改的當(dāng)然,向數(shù)據(jù)倉(cāng)庫(kù)添加數(shù)據(jù)是允許的。數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn),并不是要取代數(shù)據(jù)庫(kù)。目前,大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)還是用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)相輔相成、各有千秋。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉(cāng)庫(kù)必須有如下幾點(diǎn)優(yōu)點(diǎn),否則是失敗的數(shù)據(jù)倉(cāng)庫(kù)方案。1.效率足夠高。客戶要求的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時(shí)甚至12小時(shí)內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)
10、據(jù)量很大,設(shè)計(jì)不好的數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常會(huì)出問題,延遲13日才能給出數(shù)據(jù),顯然不行的。2.數(shù)據(jù)質(zhì)量??蛻粢锤鞣N信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉(cāng)庫(kù)流程至少分為3步,2次ETL,復(fù)雜的架構(gòu)會(huì)更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯(cuò)誤的信息就可能導(dǎo)致分析出錯(cuò)誤的決策,造成損失,而不是效益。3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜,是因?yàn)榭紤]到了未來35年的擴(kuò)展性,這樣的話,客戶不用太快花錢去重建數(shù)
11、據(jù)倉(cāng)庫(kù)系統(tǒng),就能很穩(wěn)定運(yùn)行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉(cāng)庫(kù)方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來了。第二章作業(yè)1.簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、多媒體簡(jiǎn)述以下高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用:面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)和WWW。面向?qū)ο笫且环N認(rèn)識(shí)方法學(xué),也是一種新的程序設(shè)計(jì)方法學(xué)。把面向?qū)ο蟮姆椒ê蛿?shù)據(jù)庫(kù)技術(shù)結(jié)合起來可以使數(shù)據(jù)庫(kù)
12、系統(tǒng)的分析、設(shè)計(jì)最大程度地與人們對(duì)客觀世界的認(rèn)識(shí)相一致。面向?qū)ο髷?shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)系統(tǒng)是為了滿足新的數(shù)據(jù)庫(kù)應(yīng)用需要而產(chǎn)生的新一代數(shù)據(jù)庫(kù)系統(tǒng)。在數(shù)據(jù)庫(kù)中提供面向?qū)ο蟮募夹g(shù)是為了滿足特定應(yīng)用的需要。隨著許多基本設(shè)計(jì)應(yīng)用(如MACD和ECAD)中的數(shù)據(jù)庫(kù)向面向?qū)ο髷?shù)據(jù)庫(kù)的過渡,面向?qū)ο笏枷胍仓饾u延伸到其它涉及復(fù)雜數(shù)據(jù)的應(yīng)用中,其中包括輔助軟件工程(CASE)、計(jì)算機(jī)輔助印刷(CAP)和材料需求計(jì)劃(MRP)。這些應(yīng)用如同設(shè)計(jì)應(yīng)用一樣在程序設(shè)
13、計(jì)方面和數(shù)據(jù)類型方面都是數(shù)據(jù)密集型的,它們需要識(shí)別于類型關(guān)系的存儲(chǔ)技術(shù),并能對(duì)相近數(shù)據(jù)備份進(jìn)行調(diào)整.空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)指的是地理信息系統(tǒng)在計(jì)算機(jī)物理存儲(chǔ)介質(zhì)上存儲(chǔ)的與應(yīng)用相關(guān)的地理空間數(shù)據(jù)的總和,一般是以一系列特定結(jié)構(gòu)的文件的形式組織在存儲(chǔ)介質(zhì)之上的??臻g數(shù)據(jù)庫(kù)的研究始于20世紀(jì)70年代的地圖制圖與遙感圖像處理領(lǐng)域其目的是為了有效地利用衛(wèi)星遙感資源迅速繪制出各種經(jīng)濟(jì)專題地圖。由于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)在空間數(shù)據(jù)的表示、存儲(chǔ)、管理、檢索上存在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公積金管理數(shù)據(jù)分析與挖掘探討
- 教案數(shù)據(jù)分析與挖掘?qū)崙?zhàn)專
- 公路收費(fèi)系統(tǒng)數(shù)據(jù)分析與挖掘.pdf
- 基于數(shù)據(jù)挖掘軟件weka 的數(shù)據(jù)分析與應(yīng)用
- python數(shù)據(jù)分析與挖掘 教學(xué)大綱
- 數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告-數(shù)據(jù)挖掘的基本數(shù)據(jù)分析
- 旅行社網(wǎng)站數(shù)據(jù)分析與挖掘-數(shù)據(jù)挖掘概論結(jié)果論文
- 基于數(shù)據(jù)挖掘的動(dòng)態(tài)數(shù)據(jù)分析與研究.pdf
- 基于數(shù)據(jù)挖掘軟件weka 的數(shù)據(jù)分析與應(yīng)用
- 基于數(shù)據(jù)挖掘的電信數(shù)據(jù)分析.pdf
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)分析與挖掘綜合能力提升實(shí)戰(zhàn)
- 醫(yī)院數(shù)據(jù)分析與挖掘的研究與實(shí)現(xiàn).pdf
- 基于數(shù)據(jù)挖掘的審計(jì)數(shù)據(jù)分析
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析.pdf
- 基于數(shù)據(jù)挖掘的氣象數(shù)據(jù)分析.pdf
- 基于網(wǎng)絡(luò)的金融數(shù)據(jù)分析與挖掘.pdf
評(píng)論
0/150
提交評(píng)論