數(shù)據(jù)挖掘chapter10數(shù)據(jù)挖掘應(yīng)用和發(fā)展趨勢(shì)_第1頁(yè)
已閱讀1頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十章第十章數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢(shì)數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢(shì)“有哪些突出的例子能夠說(shuō)明數(shù)據(jù)挖掘在科學(xué)和商業(yè)領(lǐng)域中的應(yīng)用?數(shù)據(jù)挖掘未來(lái)向何處去?”在閱讀了本書的前面一些章節(jié)后,這些問(wèn)題可能是大家最為關(guān)心的。在這最后一章中,我們將討論一下數(shù)據(jù)挖掘的應(yīng)用,并對(duì)購(gòu)買數(shù)據(jù)挖掘軟件系統(tǒng)應(yīng)注意的問(wèn)題給出一些建議。另外介紹一下數(shù)據(jù)挖掘中的其他一些主題,如視頻和音頻挖掘,數(shù)據(jù)挖掘的統(tǒng)計(jì)方法,數(shù)據(jù)挖掘的理論基礎(chǔ),以及通過(guò)引入數(shù)據(jù)挖掘技術(shù)支持智能查詢應(yīng)答等。

2、數(shù)據(jù)挖掘的的社會(huì)影響和未來(lái)趨勢(shì)也在本章討論之中。101數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用在本書的前面章節(jié)中,我們主要討論了對(duì)關(guān)系數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù),和復(fù)雜數(shù)據(jù)類型(包括空間數(shù)據(jù),多媒體數(shù)據(jù),時(shí)序數(shù)據(jù),文本數(shù)據(jù),和Web數(shù)據(jù))的挖掘原理和方法。由于數(shù)據(jù)挖掘是一門具有廣泛應(yīng)用的新興學(xué)科,數(shù)據(jù)挖掘的一般原理與針對(duì)特定應(yīng)用領(lǐng)域需要的有效數(shù)據(jù)挖掘工具之間,還存在不小的距離。本節(jié)我們分析幾個(gè)應(yīng)用領(lǐng)域,討論如何為這些應(yīng)用定制專門的數(shù)據(jù)挖掘工具。1011針對(duì)生物

3、醫(yī)學(xué)和針對(duì)生物醫(yī)學(xué)和DNA數(shù)據(jù)分析的數(shù)據(jù)挖掘數(shù)據(jù)分析的數(shù)據(jù)挖掘在過(guò)去的十年里,生物醫(yī)學(xué)研究有了迅猛的發(fā)展,從新藥物的開發(fā)和癌癥治療的突破,到通過(guò)大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進(jìn)行人類基因的識(shí)別與研究。由于目前生物醫(yī)學(xué)的大量研究都集中在DNA數(shù)據(jù)的分析上,這里我們重點(diǎn)研究此應(yīng)用的情況。近期DNA分析的研究成果已經(jīng)導(dǎo)致了對(duì)許多疾病和殘疾的基因成因的發(fā)現(xiàn),以及對(duì)疾病的診斷,預(yù)防,和治療的新藥物、新方法的發(fā)現(xiàn)?;蜓芯恐械囊粋€(gè)重要關(guān)注點(diǎn)是DN

4、A序列的研究,因?yàn)檫@種序列構(gòu)成了所有活的生物體的基因代碼的基礎(chǔ)。所有的DNA序列由四個(gè)基本的構(gòu)塊(稱為核苷)組成:腺嘌呤(A),胞核嘧啶(C),鳥嘌呤(G),胸腺嘧啶(T)。這四個(gè)核苷組合構(gòu)成很長(zhǎng)的序列或鏈,類似一個(gè)雙絞旋梯。人類有約100,000個(gè)基因。一個(gè)基因通常由成百個(gè)核苷按一定次序組織而成。核苷按不同的次序和序列可以形成不同的基因,幾乎是不計(jì)其數(shù)。具有挑戰(zhàn)性的問(wèn)題是從中找出導(dǎo)致各種疾病的特定基因序列模式。由于在數(shù)據(jù)挖掘中已經(jīng)有許

5、多有意思的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具,并在以下方面對(duì)DNA分析起著不小的貢獻(xiàn):異構(gòu)、分布基因數(shù)據(jù)庫(kù)的語(yǔ)義集成:異構(gòu)、分布基因數(shù)據(jù)庫(kù)的語(yǔ)義集成:由于廣泛多樣的DNA數(shù)據(jù)高度分布、無(wú)控地生成與使用,對(duì)這種異構(gòu)和廣泛分布的基因數(shù)據(jù)庫(kù)的語(yǔ)義集成就成為一項(xiàng)重要任務(wù),以便于對(duì)DNA數(shù)據(jù)庫(kù)進(jìn)行系統(tǒng)而協(xié)同的分析。這促進(jìn)了集成式數(shù)據(jù)倉(cāng)庫(kù)和分布式聯(lián)邦數(shù)據(jù)庫(kù)的開發(fā),用于存儲(chǔ)和管理原始的和導(dǎo)出的基因數(shù)據(jù)。數(shù)據(jù)挖掘中的數(shù)

6、據(jù)清洗和數(shù)據(jù)集成方法將有助于基因數(shù)據(jù)集成和用于基因數(shù)據(jù)分析的數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)造。DNA序列間相似搜索和比較:我們已經(jīng)研究過(guò)時(shí)序數(shù)據(jù)挖掘中的相似搜索方法。在基因分析中一個(gè)最為重要的搜索問(wèn)題是DNA序列中的相似搜索和比較。對(duì)分別來(lái)自帶病和群體的識(shí)別和目標(biāo)市場(chǎng)分析。例如,通過(guò)多維聚類分析,可以將具有相同儲(chǔ)蓄和貸款償還行為的客戶分為一組。有效的聚類和協(xié)同過(guò)濾(collabativefiltering)方法(即,使用各種技術(shù)濾出信息,如鄰近分類,決策

7、樹,等等)有助于識(shí)別客戶組,將新客戶關(guān)聯(lián)到適合的客戶組,以及推動(dòng)目標(biāo)市場(chǎng)。洗黑錢和其它金融犯罪的偵破:洗黑錢和其它金融犯罪的偵破:要偵破洗黑錢和其它金融犯罪行為,重要的一點(diǎn)是要把多個(gè)數(shù)據(jù)庫(kù)的信息(如銀行交易數(shù)據(jù)庫(kù),聯(lián)邦或州的犯罪歷史數(shù)據(jù)庫(kù)等)集成起來(lái),只要這些數(shù)據(jù)庫(kù)是與偵破工作有關(guān)的。然后可以采用多種數(shù)據(jù)分析工具來(lái)找出異常模式,如在某段時(shí)間內(nèi),通過(guò)某一組人,發(fā)生大量現(xiàn)金流量,等等。有用的工具包括數(shù)據(jù)可視化工具(用圖形的方式按一定時(shí)間一定

8、人群顯示交易活動(dòng)),鏈接分析工具(識(shí)別不同人和活動(dòng)之間的聯(lián)系),分類工具(濾掉不相關(guān)的屬性,對(duì)高度相關(guān)屬性排級(jí)),聚類分析工具(將不同案例分組),孤立點(diǎn)分析工具(探測(cè)異常資金量的轉(zhuǎn)移或其它行為),序列模式分析工具(分析異常訪問(wèn)模式的特征)。這些工具可以識(shí)別出一些重要的活動(dòng)關(guān)系和模式,有助于調(diào)查人員聚焦可疑線索,做進(jìn)一步的處理。1013零售業(yè)中的數(shù)據(jù)挖掘零售業(yè)中的數(shù)據(jù)挖掘零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因?yàn)榱闶蹣I(yè)積累了大量的銷售數(shù)據(jù),

9、顧客購(gòu)買歷史記錄,貨物進(jìn)出,消費(fèi)與服務(wù)記錄,等等。其數(shù)據(jù)量在不斷地迅速膨脹,特別是由于日益增長(zhǎng)的Web,或電子商務(wù)上的商業(yè)方式的方便,流行。今天,許多商店都有自己的Web站點(diǎn),顧客可以方便地聯(lián)機(jī)購(gòu)買商品。一些企業(yè),如,只有聯(lián)機(jī)方式,沒(méi)有磚瓦構(gòu)成的(物理的)商場(chǎng)。零售數(shù)據(jù)為數(shù)據(jù)挖掘提供了豐富的資源。零售數(shù)據(jù)挖掘可有助于識(shí)別顧客購(gòu)買行為,發(fā)現(xiàn)顧客購(gòu)買模式和趨勢(shì),改進(jìn)服務(wù)質(zhì)量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設(shè)計(jì)更好的貨品運(yùn)

10、輸與分銷策略,減少企業(yè)成本。以下給出零售業(yè)中的幾個(gè)數(shù)據(jù)挖掘的例子?;跀?shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與構(gòu)造:基于數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)與構(gòu)造:由于零售數(shù)據(jù)覆蓋面廣(包括銷售,顧客,職員,貨品運(yùn)輸,銷量和服務(wù)),所以有許多方式設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)。所包含的細(xì)節(jié)級(jí)別可以豐富多樣。由于數(shù)據(jù)倉(cāng)庫(kù)的主要用途是支持?jǐn)?shù)據(jù)分析和數(shù)據(jù)挖掘,預(yù)先的一些數(shù)據(jù)挖掘例子的結(jié)果可作為設(shè)計(jì)和開發(fā)數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的參考依據(jù)。這涉及要決定包括哪些維和什么級(jí)別,以及為保證高質(zhì)量和有效的數(shù)

11、據(jù)挖掘應(yīng)進(jìn)行哪些預(yù)處理。銷售,顧客,產(chǎn)品,時(shí)間,和地區(qū)的多維分析:銷售,顧客,產(chǎn)品,時(shí)間,和地區(qū)的多維分析:考慮到顧客的需求,產(chǎn)品的銷售,趨勢(shì)和時(shí)尚,以及日用品的質(zhì)量,價(jià)格,利潤(rùn),和服務(wù),零售業(yè)需要的是適時(shí)的信息。因此提供強(qiáng)有力的多維分析和可視化工具是十分重要的一件事情,這包括提供根據(jù)數(shù)據(jù)分析的需要構(gòu)造復(fù)雜的數(shù)據(jù)立方體。第二章介紹的多特征數(shù)據(jù)立方體(multifeaturedatacube),在零售數(shù)據(jù)分析中是一種有用的數(shù)據(jù)結(jié)構(gòu),因?yàn)樗?/p>

12、方便了帶有復(fù)雜條件的聚集上的分析。促銷活動(dòng)的有效性分析:零售業(yè)經(jīng)常通過(guò)廣告,優(yōu)惠券,和各種折扣和讓利的方式搞促銷活動(dòng),以達(dá)到促銷產(chǎn)品,吸引顧客的目的。認(rèn)真分分析促銷活動(dòng)的有效性,有助于提高企業(yè)利潤(rùn)。多維分析可滿足這方面分析的要求,方法是通過(guò)比較促銷期間的銷售量和交易數(shù)量與促銷活動(dòng)前后的有關(guān)情況。此外,關(guān)聯(lián)分析可以找出哪些商品可能隨降價(jià)商品一同購(gòu)買,特別是與促銷活動(dòng)前后的銷售相比。顧客保持力顧客保持力——顧客忠誠(chéng)分析:顧客忠誠(chéng)分析:通過(guò)顧

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論