版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)的飛速發(fā)展及企業(yè)信息化水平的提高,數(shù)據(jù)的產(chǎn)生量和積累量呈指數(shù)增長,如何利用好、管理好海量數(shù)據(jù),已成為影響企業(yè)決策,驅(qū)動價(jià)值增長的重要環(huán)節(jié)。MapReduce模型作為大規(guī)模集群并行處理框架,已成為海量數(shù)據(jù)處理的重要工具。
傳統(tǒng)數(shù)據(jù)倉庫無法在可接受時(shí)間內(nèi)處理TB級數(shù)據(jù),使得基于MapReduce的數(shù)據(jù)倉庫工具Hive應(yīng)用越來越廣泛。由于Hive將查詢語句轉(zhuǎn)化為MapReduce工作流,而MapReduce工作流串行作業(yè)間
2、需將中間結(jié)果寫回HDFS供下個(gè)作業(yè)讀取,產(chǎn)生大量I/O和作業(yè)啟動的時(shí)間開銷,降低了數(shù)據(jù)處理效率,且相似查詢之間無法共享查詢結(jié)果,浪費(fèi)了計(jì)算資源。針對該問題,本文對如何重用MapReduce計(jì)算結(jié)果的方法進(jìn)行了研究。
1.文章介紹了研究背景和研究現(xiàn)狀,闡述了海量數(shù)據(jù)背景下重用計(jì)算結(jié)果的重要性,并對基于 MapReduce的現(xiàn)有研究進(jìn)行了分析,總結(jié)了相關(guān)工作的特點(diǎn)和不足;介紹了HDFS的架構(gòu)和運(yùn)行原理,分析了MapReduce模型
3、的執(zhí)行流程,介紹了Hive的優(yōu)勢及HiveQL的語法規(guī)則。
2.在此基礎(chǔ)上,文章介紹了Hive生成抽象語法樹及依賴關(guān)系的過程,分析連接過程和原理,對基于 Hive的計(jì)算結(jié)果重用的可行性進(jìn)行了探討。
3.文章詳細(xì)介紹了重用策略的實(shí)現(xiàn)。定義了連接體、連接圖、連接子體和重用連接圖等,用于描述計(jì)算結(jié)果的數(shù)據(jù)結(jié)構(gòu),并提出抽取計(jì)算結(jié)果特征的算法。設(shè)計(jì)實(shí)現(xiàn)了計(jì)算結(jié)果匹配算法,提出單連接體和多連接體重用策略。當(dāng)有多個(gè)計(jì)算結(jié)果可用時(shí),
4、根據(jù)作業(yè)數(shù)量和所有數(shù)據(jù)源的記錄數(shù)之積生成最佳重用方案。對策略的時(shí)間復(fù)雜度和空間復(fù)雜度進(jìn)行了詳細(xì)分析。為了提高計(jì)算結(jié)果的重用概率,提出多鍵選擇、延遲算數(shù)運(yùn)算和語義理解三種方法,并通過實(shí)驗(yàn)對其代價(jià)進(jìn)行了分析。介紹了基于作業(yè)數(shù)量、作業(yè)執(zhí)行時(shí)間、重用次數(shù)和滿足最近查詢等需求的結(jié)算結(jié)果管理方法。
4.文章通過實(shí)驗(yàn)對文章所提出的策略進(jìn)行了詳實(shí)的驗(yàn)證。采用兩種基準(zhǔn)測試數(shù)據(jù)集分別對單連接體和多連接體重用策略進(jìn)行了分析,針對策略可能對初次查詢效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分布式環(huán)境下密碼計(jì)算平臺的研究.pdf
- 分布式環(huán)境下Skyline計(jì)算算法研究.pdf
- 云環(huán)境下分布式任務(wù)調(diào)度算法的研究與實(shí)現(xiàn).pdf
- 系統(tǒng)仿真數(shù)據(jù)分布式計(jì)算環(huán)境的研究與實(shí)現(xiàn)
- 系統(tǒng)仿真數(shù)據(jù)分布式計(jì)算環(huán)境的研究與實(shí)現(xiàn).pdf
- 分布式環(huán)境下的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn).pdf
- 分布式環(huán)境下ToP-K計(jì)算問題研究.pdf
- 分布式計(jì)算在企業(yè)環(huán)境下的應(yīng)用研究.pdf
- 分布式計(jì)算環(huán)境下進(jìn)程間通信策略的研究.pdf
- 基于移動代理的分布式計(jì)算環(huán)境設(shè)計(jì)與實(shí)現(xiàn).pdf
- 分布式環(huán)境下的權(quán)限控制系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 虛擬計(jì)算環(huán)境分布式存儲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- WSN環(huán)境下分布式聚類算法的研究與實(shí)現(xiàn).pdf
- 分布式環(huán)境下企業(yè)信息集成的研究與實(shí)現(xiàn).pdf
- 分布式環(huán)境下通用日志系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 分布式計(jì)算環(huán)境下大整數(shù)分解的研究.pdf
- 網(wǎng)格環(huán)境下分布式作業(yè)管理與調(diào)度技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于移動Agent的分布式計(jì)算研究與實(shí)現(xiàn).pdf
- 分布式環(huán)境下的數(shù)據(jù)挖掘算法的實(shí)現(xiàn)與應(yīng)用研究.pdf
- 分布式制造環(huán)境下嵌入式智能體的建模與實(shí)現(xiàn).pdf
評論
0/150
提交評論