2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著社交網(wǎng)絡(luò)的興起和物聯(lián)網(wǎng)的快速發(fā)展,各種形式的數(shù)據(jù)正發(fā)生爆炸式的增長和堆積。如今Apache Hadoop已成為大數(shù)據(jù)行業(yè)發(fā)展背后的驅(qū)動(dòng)力,而且成為了許多企業(yè)的首選。Hadoop是一種新型的計(jì)算架構(gòu),可以并行的對數(shù)據(jù)信息進(jìn)行分布式的管理。其提供的是便宜的處理大數(shù)據(jù)的能力,高容錯(cuò)性和易擴(kuò)展性也是其越來越受歡迎的原因。Hadoop分布式文件系統(tǒng)是 Hadoop的核心之一。HDFS采用master/slaves式結(jié)構(gòu),系統(tǒng)中有且只有一個(gè)主節(jié)

2、點(diǎn)(NameNode),可以有多個(gè)從節(jié)點(diǎn)(DataNode),在存取大文件時(shí),有非??捎^的性能。然而這樣的結(jié)構(gòu)同時(shí)帶來了弊端,在存取海量小文件時(shí),會(huì)產(chǎn)生大量的元數(shù)據(jù),并且系統(tǒng)需要維護(hù)這些數(shù)據(jù)信息的心跳機(jī)制,這會(huì)給主節(jié)點(diǎn)帶來了巨大的壓力,使得系統(tǒng)存取效率低下,成為Hadoop的性能瓶頸之一。現(xiàn)代及將來的云計(jì)算中,小文件是主要的數(shù)據(jù)信息,如何有效的存取海量小文件也成為了許多互聯(lián)網(wǎng)公司爭相研究的問題。
  由于分布式文件系統(tǒng)在存取海量小

3、文件時(shí)表現(xiàn)出的乏力現(xiàn)象,Hadoop自身提供了歸檔工具Hadoop Archiver(HAR)和Sequence File文件合并方案等,這些方案可以非常有效的降低主節(jié)點(diǎn)元數(shù)據(jù)的數(shù)量,從而一定程度上提高系統(tǒng)在小文件存取時(shí)的效率。但是由于HDFS存儲(chǔ)元數(shù)據(jù)和索引的隨機(jī)性,使得在讀取文件時(shí),消耗的資源很可能會(huì)增加,并且在訪問系統(tǒng)中不存在的文件時(shí),需要遍歷整個(gè)fsimage文件,極大的浪費(fèi)NameNode有限的資源。鑒于此,在吸取其他研究者優(yōu)

4、秀策略的基礎(chǔ)上,本文提出一種基于MapFile的小文件存取優(yōu)化方案。方案的主要思想是,在存儲(chǔ)小文件時(shí),客戶端根據(jù)小文件的類型和訪問權(quán)限,通過同類型和同訪問權(quán)限對小文件進(jìn)行分類合并成MapFile,合并后的大文件交給HDFS處理。根據(jù)緩存技術(shù)對數(shù)據(jù)命中的影響,引入由Nexist文件緩沖區(qū)域、多級緩存組成的緩存模塊,文件讀取時(shí),有效的提高文件命中效率,避開對NameNode頻繁訪問,減小NameNode的壓力。
  通過對傳統(tǒng)HDFS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論