基于Storm與Hadoop的日志數(shù)據(jù)實(shí)時(shí)處理研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩92頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、日志數(shù)據(jù)記錄著系統(tǒng)與網(wǎng)絡(luò)用戶行為等豐富的信息,在網(wǎng)絡(luò)管理、用戶行為分析等諸多領(lǐng)域具有較高的實(shí)用價(jià)值。隨著大數(shù)據(jù)時(shí)代的來臨,單位時(shí)間內(nèi)產(chǎn)生的日志數(shù)據(jù)規(guī)模呈幾何級(jí)數(shù)不斷增長(zhǎng),日志數(shù)據(jù)的多樣性、異構(gòu)性與動(dòng)態(tài)變化給日志數(shù)據(jù)采集、存儲(chǔ)和深入分析提出了挑戰(zhàn)。傳統(tǒng)的日志處理方式主要是基于單節(jié)點(diǎn)服務(wù)器,沒有擴(kuò)展性,單節(jié)點(diǎn)在CPU、I/O與存儲(chǔ)方面的性能,都是十分有限的。當(dāng)前,在實(shí)際應(yīng)用中對(duì)日志數(shù)據(jù)分析的響應(yīng)時(shí)間要求越來越高,實(shí)時(shí)性已和針對(duì)大數(shù)據(jù)量的高吞

2、吐率并行計(jì)算成為了日志數(shù)據(jù)處理的基本需求。在實(shí)時(shí)處理的應(yīng)用場(chǎng)景中,流式計(jì)算處理能完成日志流數(shù)據(jù)的實(shí)時(shí)處理,可針對(duì)一定時(shí)間段內(nèi)規(guī)模不大的數(shù)據(jù)集完成知識(shí)提取,但數(shù)據(jù)量的局限性限制了可應(yīng)用的算法和結(jié)果的可靠程度,因此,實(shí)時(shí)計(jì)算所提取和依賴的知識(shí)亟需與離線批處理技術(shù)針對(duì)大規(guī)模離線數(shù)據(jù)的分析結(jié)果相結(jié)合。
  針對(duì)信息化和大數(shù)據(jù)背景下飛速增長(zhǎng)的日志數(shù)據(jù)的采集、存儲(chǔ)和分析面臨的主要問題與離線數(shù)據(jù)與實(shí)時(shí)流數(shù)據(jù)的知識(shí)提取及其整合問題,通過對(duì)大數(shù)據(jù)技

3、術(shù)發(fā)展理論和實(shí)踐成果的研究,在分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop上通過Storm On YARN從資源調(diào)度層面集成MapReduce和Storm兩種不同計(jì)算框架構(gòu)建日志數(shù)據(jù)實(shí)時(shí)處理平臺(tái),采用Flume與HBase完成日志數(shù)據(jù)分布式采集與存儲(chǔ),利用吞吐率較高的MapReduce完成大規(guī)模離線數(shù)據(jù)的全局性知識(shí)提取,通過 Storm進(jìn)行 Kafka緩沖區(qū)中小規(guī)模數(shù)據(jù)的突發(fā)性知識(shí)提取、結(jié)合知識(shí)進(jìn)行流數(shù)據(jù)的實(shí)時(shí)持續(xù)計(jì)算,在保證實(shí)時(shí)性的同時(shí)提高準(zhǔn)確率。

4、本文主要研究?jī)?nèi)容與結(jié)果如下:
 ?。?)日志數(shù)據(jù)實(shí)時(shí)處理平臺(tái)研究
  研究設(shè)計(jì)具有3層結(jié)構(gòu)的日志數(shù)據(jù)實(shí)時(shí)處理平臺(tái)架構(gòu),包括負(fù)責(zé)數(shù)據(jù)采集與存儲(chǔ)的數(shù)據(jù)服務(wù)層、負(fù)責(zé)數(shù)據(jù)分析的業(yè)務(wù)邏輯層以及實(shí)現(xiàn)數(shù)據(jù)可視化的Web展示層,其中利用共享知識(shí)庫(kù)實(shí)現(xiàn)離線分析與實(shí)時(shí)分析的結(jié)合,并整合Hadoop、Storm、Flume、HBase與Kafka等大數(shù)據(jù)構(gòu)件實(shí)現(xiàn)整體架構(gòu)的分布式集群環(huán)境搭建。
 ?。?)日志數(shù)據(jù)的分布式采集與存儲(chǔ)
  

5、采用 Flume將從多源前端服務(wù)器中采集到的日志數(shù)據(jù)幾近實(shí)時(shí)地存儲(chǔ)到分布式數(shù)據(jù)庫(kù)HBase,其中采用預(yù)分區(qū)與 RowKey隨機(jī)散列技術(shù)對(duì) HBase進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明,平臺(tái)有效完成了前端服務(wù)器中日志數(shù)據(jù)幾近實(shí)時(shí)的采集與存儲(chǔ),經(jīng)過優(yōu)化后的 HBase在日志存儲(chǔ)過程中更加充分的利用集群中的I/O和CPU資源,負(fù)載更加均衡,有效解決了HBase的“熱點(diǎn)”問題。
  (3)基于MapReduce的離線日志數(shù)據(jù)深度分析
  結(jié)合M

6、apReduce計(jì)算模型將傳統(tǒng)數(shù)據(jù)挖掘算法進(jìn)行并行化處理,并將算法移植到平臺(tái)上執(zhí)行以實(shí)現(xiàn)對(duì) HBase中歷史日志數(shù)據(jù)的全局性知識(shí)提取并存入離線知識(shí)庫(kù)。并針對(duì)實(shí)際應(yīng)用將 K-means與Apriori進(jìn)行并行化處理在 MapReduce分布式環(huán)境下完成聚類分析與關(guān)聯(lián)規(guī)則分析。實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)結(jié)果表明平臺(tái)能有效從歷史日志數(shù)據(jù)中提取出高可靠度的知識(shí),并利用MapReduce并行技術(shù)使深度分析獲得更高的運(yùn)行效率與擴(kuò)展性,充分滿足大規(guī)模日志數(shù)據(jù)

7、知識(shí)提取的應(yīng)用需求。
 ?。?)基于Storm的日志流數(shù)據(jù)實(shí)時(shí)分析
  整合 Storm與 Kafka實(shí)現(xiàn)實(shí)時(shí)計(jì)算的日志流數(shù)據(jù)源的穩(wěn)定接入。將傳統(tǒng)數(shù)據(jù)挖掘算法結(jié)合 Storm模型完成對(duì)一定時(shí)間窗口內(nèi)小規(guī)模實(shí)時(shí)數(shù)據(jù)的突發(fā)性知識(shí)提取并存入實(shí)時(shí)知識(shí)庫(kù),并以共享知識(shí)庫(kù)中的信息作為決策支持對(duì)日志流數(shù)據(jù)進(jìn)行 Storm實(shí)時(shí)流式計(jì)算,完成離線計(jì)算與實(shí)時(shí)計(jì)算的結(jié)合。并針對(duì)實(shí)際應(yīng)用混合 K-means、KNN等多個(gè)算法完成網(wǎng)絡(luò)異常識(shí)別。實(shí)驗(yàn)結(jié)

8、果表明,平臺(tái)能有效提取出實(shí)時(shí)數(shù)據(jù)中的突發(fā)性知識(shí),并依賴共享知識(shí)庫(kù)完成高精準(zhǔn)度的實(shí)時(shí)持續(xù)計(jì)算,Storm技術(shù)的應(yīng)用使得實(shí)時(shí)分析獲得更高的實(shí)時(shí)性,在流式數(shù)據(jù)處理方面表現(xiàn)出了較大的優(yōu)勢(shì)。
  綜上所述,本研究構(gòu)建的日志數(shù)據(jù)實(shí)時(shí)處理平臺(tái)有效地解決了日志數(shù)據(jù)的采集、存儲(chǔ)與知識(shí)提取等問題,融合了Hadoop與Storm的優(yōu)勢(shì),在利用MapReduce提取隱藏在歷史日志數(shù)據(jù)中的全局性知識(shí)的同時(shí),基于 Storm提取小規(guī)模實(shí)時(shí)日志數(shù)據(jù)中的突發(fā)性知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論