hbase分析報(bào)告 - 1_第1頁(yè)
已閱讀1頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Hbase分析報(bào)告分析報(bào)告本文基于環(huán)境hadoop0.16.4和hbase0.1.3編寫Hbase是一個(gè)分布式開(kāi)源數(shù)據(jù)庫(kù),基于Hadoop分布式文件系統(tǒng),模仿并提供了基于Google文件系統(tǒng)的Bigtable數(shù)據(jù)庫(kù)的所有功能。Hbaes的目標(biāo)是處理非常龐大的表,可以用普通的計(jì)算機(jī)處理超過(guò)10億行數(shù)據(jù),并且有數(shù)百萬(wàn)列元素組成的數(shù)據(jù)表。Hbase可以直接使用本地文件系統(tǒng)或者Hadoop作為數(shù)據(jù)存儲(chǔ)方式,不過(guò)為了提高數(shù)據(jù)可靠性和系統(tǒng)的健壯性,

2、發(fā)揮Hbase處理大數(shù)據(jù)量等功能,需要使用Hadoop作為文件系統(tǒng),那么我們就先要了解Hadoop文件系統(tǒng)的基本特性和原理,才能更好地理解Hbase的工作方式。Hadoop文件系統(tǒng)文件系統(tǒng)Hadoop文件系統(tǒng)是一個(gè)能夠兼容普通硬件環(huán)境的分布式文件系統(tǒng),和現(xiàn)有的分布式文件系統(tǒng)不同的地方是Hadoop更注重容錯(cuò)性和兼容廉價(jià)的硬件設(shè)備,這樣做是為了用很小的預(yù)算甚至直接利用現(xiàn)有機(jī)器就實(shí)現(xiàn)大流量和大數(shù)據(jù)量的讀取。Hadoop使用了POSIX的設(shè)計(jì)

3、來(lái)實(shí)現(xiàn)對(duì)文件系統(tǒng)文件流的讀取。HDFS(HadoopFileSystem)原來(lái)是ApacheNutch搜索引擎(從Lucene發(fā)展而來(lái))開(kāi)發(fā)的一個(gè)部分,后來(lái)獨(dú)立出來(lái)作為一個(gè)Apache子項(xiàng)目。Hadoop的假設(shè)與目標(biāo)的假設(shè)與目標(biāo)1、硬件出錯(cuò),Hadoop假設(shè)硬件出錯(cuò)是一種正常的情況,而不是異常,為的就是在硬件出錯(cuò)的情況下盡量保證數(shù)據(jù)完整性,HDFS設(shè)計(jì)的目標(biāo)是在成百上千臺(tái)服務(wù)器中存儲(chǔ)數(shù)據(jù),并且可以快速檢測(cè)出硬件錯(cuò)誤和快速進(jìn)行數(shù)據(jù)的自動(dòng)恢

4、復(fù)。2、流數(shù)據(jù)讀寫,不同于普通的文件系統(tǒng),Hadoop是為了程序批量處理數(shù)據(jù)而設(shè)計(jì)的,而不是與用戶的交互或者隨機(jī)讀寫,所以POSIX對(duì)程序增加了許多硬性限制,程序必須使用流讀取來(lái)提高數(shù)據(jù)吞吐率。3、大數(shù)據(jù)集,HDFS上面一個(gè)典型的文件一般是用GB或者TB計(jì)算的,而且一個(gè)數(shù)百臺(tái)機(jī)器組成的集群里面可以支持過(guò)千萬(wàn)這樣的文件。4、簡(jiǎn)單的文件模型,HDFS上面的文件模型十分簡(jiǎn)單,就是一次寫入多次讀取的模型,文件一旦創(chuàng)建,寫入并關(guān)閉了,之后就再也不

5、會(huì)被改變了,只能被讀取,這種模型剛好符合搜索引擎的需求,以后可能會(huì)實(shí)現(xiàn)追加寫入數(shù)據(jù)這樣的功能。5、強(qiáng)大的跨平臺(tái)兼容性,由于是基于java的實(shí)現(xiàn),無(wú)論是硬件平臺(tái)或者是軟件平臺(tái)要求Hadoop文件系統(tǒng)命名空間文件系統(tǒng)命名空間Hadoop文件系統(tǒng)使用的是傳統(tǒng)的分級(jí)文件體系,客戶端程序可以創(chuàng)建目錄并且在目錄里面保存文件,類似與現(xiàn)在一般的文件系統(tǒng)。Hadoop允許用戶創(chuàng)建、刪除文件,在目錄間轉(zhuǎn)移文件,重命名文件等,但是還沒(méi)有實(shí)現(xiàn)磁盤配額和文件訪問(wèn)

6、權(quán)限等功能,也不支持文件的硬連接和軟連接(快捷方式),這些功能在短期內(nèi)不會(huì)實(shí)現(xiàn)。目錄節(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)和管理整個(gè)文件系統(tǒng)的命名空間,應(yīng)用程序可以指定某一個(gè)文件需要在Hadoop文件系統(tǒng)中冗余多少份,這個(gè)在Hadoop中稱為冗余因素,保存在目錄節(jié)點(diǎn)里面。Hadoop存儲(chǔ)原理存儲(chǔ)原理冗余數(shù)據(jù)保存冗余數(shù)據(jù)保存Hadoop文件系統(tǒng)是為了大文件的可靠保存而設(shè)計(jì)的,一個(gè)文件被劃分成一連串的數(shù)據(jù)塊,除了文件的最后一塊以外其它所有的數(shù)據(jù)塊都是固定大小的,為了

7、數(shù)據(jù)容錯(cuò)性,每一個(gè)數(shù)據(jù)塊都會(huì)被冗余存儲(chǔ)起來(lái),而每個(gè)文件的塊大小和冗余因素都是可以設(shè)置的,程序可以設(shè)置文件的數(shù)據(jù)塊要被復(fù)制多少份,而且這個(gè)冗余因素除了可以在創(chuàng)建的時(shí)候指定,還可以在之后改變。在Hadoop文件系統(tǒng)里面文件只會(huì)被寫入一次,并且任何時(shí)間只會(huì)有一個(gè)程序在寫入這個(gè)文件。目錄節(jié)點(diǎn)是根據(jù)數(shù)據(jù)塊的冗余狀況來(lái)作出處理決策的,數(shù)據(jù)節(jié)點(diǎn)會(huì)定期發(fā)送一個(gè)存在信號(hào)(Heartbeat)和數(shù)據(jù)塊列表給目錄節(jié)點(diǎn),存在信號(hào)使目錄節(jié)點(diǎn)認(rèn)為該數(shù)據(jù)節(jié)點(diǎn)還是有效

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論