分布式環(huán)境下大數(shù)據(jù)組織與管理關(guān)鍵技術(shù)的研究.pdf_第1頁
已閱讀1頁,還剩143頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著計算機(jī)技術(shù)發(fā)展以及電子設(shè)備普及,人類社會已經(jīng)進(jìn)入數(shù)字時代,信息數(shù)據(jù)在人類生活中無處不在,人類社會已經(jīng)處于信息爆炸時代。隨著參與人員與設(shè)備增加,各種分布式應(yīng)用系統(tǒng)數(shù)據(jù)正以前所未有速度在增長,這將使得分布式應(yīng)用系統(tǒng)面臨著大數(shù)據(jù)的挑戰(zhàn)。在分布式環(huán)境下系統(tǒng)對操作處理性能以及系統(tǒng)擴(kuò)展性上具有更高要求,在提高系統(tǒng)性能以及擴(kuò)展性上不僅可以對處理技術(shù)進(jìn)行優(yōu)化,同樣也可以通過對應(yīng)用系統(tǒng)的數(shù)據(jù)管理平臺進(jìn)行優(yōu)化。應(yīng)用系統(tǒng)的數(shù)據(jù)管理平臺中數(shù)據(jù)組織管理形式將

2、直接影響應(yīng)用系統(tǒng)的性能及擴(kuò)展能力,因此研究分布式環(huán)境下大數(shù)據(jù)的組織管理具有重要的理論價值和實際價值。
  分布式環(huán)境下,數(shù)據(jù)具有規(guī)模大、增長速度快、數(shù)據(jù)類型多樣等特征,這將對數(shù)據(jù)組織管理帶來全新挑戰(zhàn)。本文在分析分布式環(huán)境對大數(shù)據(jù)管理平臺提出新要求以及新挑戰(zhàn)下,在分析相關(guān)工作的基礎(chǔ)上,主要針對數(shù)據(jù)組織管理的數(shù)據(jù)劃分、數(shù)據(jù)塊分配和重分配以及索引技術(shù)上進(jìn)行了研究,主要研究內(nèi)容和成果包括:
  1)針對分布式環(huán)境中大數(shù)據(jù)系統(tǒng)需要支持

3、多維查詢分析、快速加載數(shù)據(jù)以及保證系統(tǒng)擴(kuò)展能力等問題,提出了一種基于混合范圍一致性Hash數(shù)據(jù)劃分策略(HRCH)。首先,根據(jù)歷史操作選擇常用的查詢屬性,使用降維技術(shù)將這些屬性進(jìn)行線性化(保證線性有序),并將該線性值作為數(shù)據(jù)表的Key;其次,使用一致性Hash將數(shù)據(jù)分配到多個節(jié)點集群中;最后,在每個節(jié)點集群中使用范圍劃分策略來對數(shù)據(jù)進(jìn)行劃分存儲。通過測試基準(zhǔn)程序——YCSB來驗證HRCH的有效性,結(jié)果表明雖然HRCH在數(shù)據(jù)操作效率上略低

4、于傳統(tǒng)劃分策略,但是HRCH具有更高的數(shù)據(jù)加載能力,同時HRCH還能夠提高系統(tǒng)可擴(kuò)展能力,最后HRCH還能夠很好支持多維查詢處理。
  2)針對分布式環(huán)境下大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)處理模式變化以及系統(tǒng)負(fù)載均衡問題,提出了一種基于負(fù)載感知的數(shù)據(jù)塊分配策略(LAFAS)。分布式環(huán)境下大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)處理模式已經(jīng)從“數(shù)據(jù)靠近計算”轉(zhuǎn)變?yōu)椤坝嬎憧拷鼣?shù)據(jù)”,則數(shù)據(jù)塊位置將直接影響系統(tǒng)中計算執(zhí)行位置,從而數(shù)據(jù)位置將影響系統(tǒng)節(jié)點負(fù)載。為了盡量平衡系統(tǒng)負(fù)

5、載,LAFAS針對新加入系統(tǒng)的數(shù)據(jù)塊進(jìn)行分配。首先,通過信息熵理論來計算影響節(jié)點負(fù)載因素的權(quán)值,從而可以準(zhǔn)確計算節(jié)點負(fù)載;其次,根據(jù)節(jié)點負(fù)載情況對候選存儲新數(shù)據(jù)塊的節(jié)點集合進(jìn)行裁剪,再用傳統(tǒng)策略將該新數(shù)據(jù)塊分配到候選節(jié)點集合,其能保證新數(shù)據(jù)塊不會被分配到高負(fù)載節(jié)點,從而來對系統(tǒng)負(fù)載進(jìn)行調(diào)整。通過模擬實驗來驗證LAFAS有效性,結(jié)果表明在LAFAS下的系統(tǒng)比隨機(jī)及輪詢策略下的系統(tǒng)負(fù)載更為均衡,而且在LAFAS下操作處理具有更高的性能。

6、r>  3)針對分布式環(huán)境下盲目提高操作并行度并不一定能夠提高操作的響應(yīng)能力,反而會很大程度增加操作過程中網(wǎng)絡(luò)通信代價問題上,提出了一種基于超圖的數(shù)據(jù)塊重分配策略(FASBH)來降低操作的通信代價。由于數(shù)據(jù)處理模式的變化,在保證操作并行度的前提下為了減少操作的網(wǎng)絡(luò)通信代價,則需要將操作訪問的數(shù)據(jù)塊盡量存儲到同一節(jié)點上,在這樣的目標(biāo)上提出了FASBH。首先,選擇較為典型的歷史操作,使用超圖模型來對歷史操作所訪問的數(shù)據(jù)塊的相關(guān)度進(jìn)行衡量;其

7、次,使用超圖劃分算法對數(shù)據(jù)塊超圖進(jìn)行劃分,該劃分算法保證操作一定并行度的前提下盡量將相關(guān)度高的數(shù)據(jù)塊劃分到同一節(jié)點上,從而降低操作執(zhí)行過程中的網(wǎng)絡(luò)通信代價;最后,以最小的遷移代價對數(shù)據(jù)塊進(jìn)行遷移。通過實驗來驗證FASBH的有效性,結(jié)果表明FASBH在數(shù)據(jù)塊相關(guān)性衡量以及系統(tǒng)處理性能上都比傳統(tǒng)策略(基于圖的策略)具有更高的效率。
  4)針對大數(shù)據(jù)的特定應(yīng)用(微博系統(tǒng))中對博文建立實時索引效率低的問題上,提出了一種基于主題的實時分布

8、式索引技術(shù)(RDIBT)。RDIBT首先使用主題判斷技術(shù)對新加入系統(tǒng)的博文的主題進(jìn)行推斷;其次,在該博文對應(yīng)的主題索引上對該博文建立索引,每個主題索引都是多層索引結(jié)構(gòu),該結(jié)構(gòu)能夠保證最新加入系統(tǒng)的博文只在該索引結(jié)構(gòu)的最低層索引上進(jìn)行操作,之后再批量將低層索引更新到高層索引上,從而來保證索引更新效率;最后,將主題索引分布存儲到系統(tǒng)上實現(xiàn)搜索的并行處理來提高搜索處理的效率。通過真實的Twitter數(shù)據(jù)集來驗證RDIBT的有效性,結(jié)果表明RD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論