重復(fù)數(shù)據(jù)刪除中的可變分塊算法【畢業(yè)論文+文獻(xiàn)綜述+開(kāi)題報(bào)告+任務(wù)書(shū)】_第1頁(yè)
已閱讀1頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  本科畢業(yè)設(shè)計(jì)(論文)</p><p><b>  ( 屆)</b></p><p>  論文題目重復(fù)數(shù)據(jù)刪除中的可變分塊算法</p><p>  所在學(xué)院 </p><p>  專(zhuān)業(yè)班級(jí) 信息管理與信息系統(tǒng) </p

2、><p>  學(xué)生姓名 學(xué)號(hào) </p><p>  指導(dǎo)教師 職稱(chēng) </p><p>  完成日期 年 月 日</p><p>  重復(fù)數(shù)據(jù)刪除中的可變分塊算法</p><p>  摘要:重復(fù)數(shù)

3、據(jù)刪除技術(shù)對(duì)縮減數(shù)據(jù)占用空間、提高存儲(chǔ)設(shè)備利用率、削減存儲(chǔ)成本、減輕網(wǎng)絡(luò)負(fù)載有十分重要的意義。本文針對(duì)這種現(xiàn)狀,分析了現(xiàn)在重復(fù)數(shù)據(jù)刪除技術(shù)的現(xiàn)狀,并著重分析了可變分塊算法。</p><p>  本次畢業(yè)設(shè)計(jì)主要通過(guò)對(duì)可變分塊的重復(fù)數(shù)據(jù)刪除技術(shù)的基本定義、算法思想、應(yīng)用情況進(jìn)行研究,了解了現(xiàn)今數(shù)據(jù)存儲(chǔ)方面的現(xiàn)狀,同時(shí)了解了當(dāng)今重復(fù)數(shù)據(jù)刪除技術(shù)的主流方法和主要的優(yōu)缺點(diǎn),分析得出了重復(fù)數(shù)據(jù)刪除技術(shù)在實(shí)際應(yīng)用方面的意義和

4、一些不足。</p><p>  關(guān)鍵詞: 重復(fù)數(shù)據(jù)刪除;可變分塊;應(yīng)用</p><p>  Variable-length Block Algorithm of Data De-duplication</p><p>  Abstract: Data de-duplication technology is very important to reduce the

5、data footprint, improve the storage utilization, reduce storage costs and reduce the network load. This paper analyses the current status of the data de-duplication technology under the current situation and analyses the

6、 variable-length block algorithm.</p><p>  The graduation design mainly through variable partition repeating data deleted the basic definition, algorithm technical ideas, application and study, understand th

7、e now data storage the status, and understand the current repeating data deleted the mainstream method and main technical advantages and disadvantages of repetition and analysis in practical application data deleted tech

8、nology of meaning and some shortage. </p><p>  Key words: Data De-duplication; Variable block; Application</p><p><b>  目錄</b></p><p>  1 引言- 1 -</p><p>  1

9、.1重復(fù)數(shù)據(jù)刪除技術(shù)的背景和意義- 1 -</p><p>  1.2重復(fù)數(shù)據(jù)刪除的定義、分類(lèi)- 1 -</p><p>  1.3重復(fù)數(shù)據(jù)刪除技術(shù)的國(guó)內(nèi)外現(xiàn)狀- 2 -</p><p>  1.3.1國(guó)外現(xiàn)狀- 2 -</p><p>  1.3.2國(guó)內(nèi)狀況- 3 -</p><p>  1.4主要任務(wù)和目

10、標(biāo)- 3 -</p><p>  1.5全篇論文的主要內(nèi)容- 3 -</p><p>  2 重復(fù)數(shù)據(jù)刪除技術(shù)- 4 -</p><p>  2.1重復(fù)數(shù)據(jù)刪除的流程- 4 -</p><p>  2.2檢測(cè)技術(shù)- 4 -</p><p>  2.2.1相同文件檢測(cè)技術(shù)- 4 -</p>&l

11、t;p>  2.2.2基于內(nèi)容算法的檢測(cè)技術(shù)- 5 -</p><p>  2.2.3定長(zhǎng)塊的切分- 5 -</p><p>  2.2.4變長(zhǎng)塊的切分- 6 -</p><p>  2.2.5滑動(dòng)塊檢測(cè)技術(shù)- 6 -</p><p>  2.3對(duì)于數(shù)據(jù)塊進(jìn)行Hash值計(jì)算- 7 -</p><p> 

12、 2.4消除重復(fù)- 8 -</p><p>  3 重復(fù)數(shù)據(jù)刪除中的可變分塊算法- 8 -</p><p>  3.1文件分塊和記錄指紋- 8 -</p><p>  3.2 計(jì)算數(shù)據(jù)塊Hash值- 9 -</p><p>  3.3重復(fù)數(shù)據(jù)比較- 10 -</p><p>  3.4數(shù)據(jù)存儲(chǔ)- 11 -&

13、lt;/p><p>  3.5 新文件的指紋以及已分?jǐn)?shù)據(jù)塊Hash值的保存- 11 -</p><p>  4 重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用- 12 -</p><p>  4.1重復(fù)數(shù)據(jù)刪除的主要應(yīng)用特點(diǎn)- 12 -</p><p>  4.1.1數(shù)據(jù)備份系統(tǒng)- 12 -</p><p>  4.1.2歸檔存儲(chǔ)系統(tǒng)-

14、 13 -</p><p>  4.1.3遠(yuǎn)程災(zāi)備系統(tǒng)- 13 -</p><p>  4.2重復(fù)數(shù)據(jù)刪除技術(shù)的實(shí)踐例證- 13 -</p><p>  4.3刪除備份數(shù)據(jù)重復(fù)部分- 14 -</p><p>  4.4不能脫離存儲(chǔ)系統(tǒng)單獨(dú)使用- 14 -</p><p>  4.5重復(fù)數(shù)據(jù)刪除技術(shù)的主要不足

15、- 14 -</p><p>  5 總結(jié)與展望- 15 -</p><p>  致 謝- 16 -</p><p>  參考文獻(xiàn)- 16 -</p><p><b>  1 引言</b></p><p>  1.1 重復(fù)數(shù)據(jù)刪除技術(shù)的背景和意義</p><p>

16、;  隨著數(shù)字圖書(shū)館、電子商務(wù)、科學(xué)計(jì)算、多媒體等應(yīng)用的不斷發(fā)展,數(shù)據(jù)從萬(wàn)億字節(jié)(TB)急速增長(zhǎng)到千萬(wàn)億字節(jié)(PB),甚至到一百億億字節(jié)(EB)。據(jù)IDC(國(guó)際數(shù)據(jù)公司)統(tǒng)計(jì)顯示,去年全球產(chǎn)生的數(shù)字信息量共計(jì)161 EB字節(jié),世界上有足夠存儲(chǔ)185 EB字節(jié)的存儲(chǔ)設(shè)備,到2010年,世界上將有能夠存儲(chǔ)601 EB字節(jié)的設(shè)備。然而到2010年,全球所產(chǎn)生的數(shù)碼信息量將由現(xiàn)在的161 EB字節(jié)猛增到988 EB字節(jié)[1]。</p>

17、;<p>  由于信息的海量增長(zhǎng),磁盤(pán)備份設(shè)備的容量已經(jīng)趨于飽和,在數(shù)據(jù)中心需要不停地增加硬盤(pán)來(lái)備份PB級(jí)別的數(shù)據(jù),在這種情況下,在我們希望將備份數(shù)據(jù)保存一個(gè)月時(shí),卻只能保存兩到三天,硬盤(pán)里的數(shù)據(jù)開(kāi)始變得臃腫和龐大。當(dāng)對(duì)這些數(shù)據(jù)進(jìn)行仔細(xì)分析時(shí),卻不難發(fā)現(xiàn)其中有太多的重復(fù)數(shù)據(jù),因此重復(fù)數(shù)據(jù)刪除技術(shù)開(kāi)始受到工業(yè)與學(xué)術(shù)界的關(guān)注[2]。</p><p>  為了緩解存儲(chǔ)系統(tǒng)的空間增長(zhǎng)問(wèn)題、縮減數(shù)據(jù)占用空間、

18、降低成本、最大程度的利用已有資源,我們需要對(duì)重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行研究。</p><p>  一方面,利用重復(fù)數(shù)據(jù)刪除技術(shù),可以對(duì)存儲(chǔ)空間的利用率進(jìn)行優(yōu)化。因傳統(tǒng)的數(shù)據(jù)壓縮技術(shù)主要根據(jù)一些固定的模式利用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)來(lái)消除重復(fù)數(shù)據(jù),不能有效地改善基于磁盤(pán)數(shù)據(jù)的成本效益[3],所以我們需要通過(guò)探究重復(fù)數(shù)據(jù)的特性,利用相應(yīng)的重復(fù)數(shù)據(jù)刪除技術(shù),以消除分布在存儲(chǔ)系統(tǒng)中的相同文件或者數(shù)據(jù)塊。</p>

19、<p>  另一方面,利用重復(fù)數(shù)據(jù)刪除技術(shù),可以減少在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量,進(jìn)而降低能量消耗和網(wǎng)絡(luò)成本。由于重復(fù)數(shù)據(jù)刪除技術(shù)的目標(biāo)是消除分布在存儲(chǔ)系統(tǒng)中的相同及相似文件或者數(shù)據(jù)塊,因此能夠減少大量的磁盤(pán)消耗,并且為數(shù)據(jù)復(fù)制大大節(jié)省網(wǎng)絡(luò)帶寬。</p><p>  1.2 重復(fù)數(shù)據(jù)刪除的定義、分類(lèi)</p><p>  一種數(shù)據(jù)縮減技術(shù),通常用于基于磁盤(pán)的備份系統(tǒng),旨在減少存儲(chǔ)系統(tǒng)中使

20、用的存儲(chǔ)容量,它的工作方式是在某個(gè)時(shí)間周期內(nèi)查找不同文件中不同位置的重復(fù)可變大小數(shù)據(jù)塊,這就是重復(fù)數(shù)據(jù)刪除技術(shù)的定義。重復(fù)數(shù)據(jù)刪除技術(shù)的宗旨就是為企業(yè)用戶(hù)提供重復(fù)數(shù)據(jù)的備份解決方案,增加有效存儲(chǔ)空間,提高存儲(chǔ)效率,使企業(yè)備份解決方案更加完善、高效。按照部署位置的不同,重復(fù)數(shù)據(jù)刪除可分為源端重復(fù)數(shù)據(jù)刪除和目標(biāo)端重復(fù)數(shù)據(jù)刪除。源端重復(fù)數(shù)據(jù)刪除是先刪除重復(fù)數(shù)據(jù),再將數(shù)據(jù)傳到備份設(shè)備。目標(biāo)端重復(fù)數(shù)據(jù)刪除是先將數(shù)據(jù)傳到備份設(shè)備,存儲(chǔ)時(shí)再刪除重復(fù)數(shù)

21、據(jù)。按照檢查重復(fù)數(shù)據(jù)的算法不同,重復(fù)數(shù)據(jù)刪除可以分為對(duì)象/文件級(jí)和塊級(jí)的重復(fù)數(shù)據(jù)刪除。對(duì)象級(jí)的重復(fù)數(shù)據(jù)刪除保證文件不重復(fù)。塊級(jí)重復(fù)數(shù)據(jù)刪除則將文件分成數(shù)據(jù)塊進(jìn)行比較。根據(jù)切分?jǐn)?shù)據(jù)塊方法的不同,又可分為定長(zhǎng)塊和變長(zhǎng)塊的重復(fù)數(shù)據(jù)刪除技術(shù)。變長(zhǎng)塊的重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)塊的長(zhǎng)度是變動(dòng)的。定長(zhǎng)塊的重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)塊的長(zhǎng)度是固定的。根據(jù)應(yīng)用場(chǎng)合的不同,可以分為通用型重復(fù)數(shù)據(jù)刪除系統(tǒng)和專(zhuān)用型重復(fù)數(shù)據(jù)刪除系統(tǒng)。通用型重復(fù)數(shù)據(jù)刪除系統(tǒng)是指廠商提供通用的重

22、復(fù)數(shù)據(jù)刪除產(chǎn)品,而不是和特定虛擬磁帶庫(kù)或備份設(shè)備相聯(lián)系</p><p>  根據(jù)目前的研究現(xiàn)狀,我們可以分析得出,隨著重復(fù)數(shù)據(jù)刪除技術(shù)的研究與應(yīng)用,其理論將得到不斷地發(fā)展和完善,人們對(duì)重復(fù)數(shù)據(jù)刪除的認(rèn)識(shí)也會(huì)越來(lái)越清晰。但是,如何充分挖掘數(shù)據(jù)的內(nèi)在特性,將其應(yīng)用到已有的技術(shù)中,發(fā)揮各技術(shù)的優(yōu)勢(shì),將是一個(gè)可深入探究的領(lǐng)域;從重復(fù)數(shù)據(jù)刪除技術(shù)的可靠性研究角度,如何在吸收現(xiàn)有成果的同時(shí),引入其他機(jī)制打破現(xiàn)有技術(shù)的局限性是

23、一個(gè)需要更深入研究的區(qū)域;從重復(fù)數(shù)據(jù)刪除技術(shù)的性能研究角度,如何融合各種現(xiàn)有技術(shù),同時(shí)提供通用性、可擴(kuò)展性和自適應(yīng)性也是一個(gè)需要更深入研究的方面。</p><p>  1.3 重復(fù)數(shù)據(jù)刪除技術(shù)的國(guó)內(nèi)外現(xiàn)狀</p><p>  1.3.1 國(guó)外現(xiàn)狀</p><p>  重復(fù)數(shù)據(jù)刪除作為一種文件間的無(wú)損壓縮技術(shù),在數(shù)據(jù)備份領(lǐng)域,特別是數(shù)據(jù)災(zāi)難備份領(lǐng)域得到廣泛的運(yùn)用,

24、因?yàn)榭梢钥缥募嚎s,并且能達(dá)到較高的壓縮比,因此國(guó)外諸多的研究機(jī)構(gòu)都對(duì)它做了較為深入的研究,而且設(shè)計(jì)開(kāi)發(fā)了較為成熟的系統(tǒng),比如Rsync和LBFS等。</p><p>  1.3.1.1 Rsync系統(tǒng)</p><p>  Rsync[5]算法由A. Tridgell于1999年在他的博士論文中提出,它通過(guò)檢測(cè)、傳輸新舊文件的差異部分,可以實(shí)現(xiàn)快速、高效的文件同步。</p>

25、<p>  Rsync算法也有一定的缺陷:首先, Rsync使用固定分塊的方法,這種分塊方法對(duì)數(shù)據(jù)變化非常敏感,因?yàn)楫?dāng)文件內(nèi)部數(shù)據(jù)有部分變化時(shí),緊接著的一系列文件塊會(huì)跟著相應(yīng)地改變。其次,其中對(duì)于數(shù)據(jù)相似性檢測(cè)的方法與文件目錄結(jié)構(gòu)有關(guān),所以倘若目錄結(jié)構(gòu)有所改變,但相應(yīng)文件內(nèi)容未做修改,其也會(huì)當(dāng)作新文件處理,產(chǎn)生多余的網(wǎng)絡(luò)流量。</p><p>  1.3.1.2 LBFS系統(tǒng)</p>

26、<p>  LBFS[6]是麻省理工學(xué)院于2001年由Athicha Muthitacharoen, Benjie Chen等人開(kāi)發(fā)的一款文件系統(tǒng),該系統(tǒng)使用Rabin fingerprint算法來(lái)實(shí)現(xiàn)變長(zhǎng)分塊,該方法對(duì)文件數(shù)據(jù)變化不敏感,是一種基于內(nèi)容的分塊方法,同時(shí)使用SHA-1(安全散列算法)值作為指示符,向服務(wù)器進(jìn)行塊存儲(chǔ)校驗(yàn),以判斷數(shù)據(jù)塊是否已存儲(chǔ),若已存在則不用發(fā)送數(shù)據(jù)塊,以此達(dá)到了減小傳輸帶寬的目的。</p

27、><p>  該系統(tǒng)作為一款文件系統(tǒng)提出,但是其中使用到了文件分塊處理,以及文件塊單一實(shí)例化存儲(chǔ)的思想,使得該系統(tǒng)在重復(fù)數(shù)據(jù)刪除技術(shù)中一直被作為經(jīng)典系統(tǒng)進(jìn)行引用研究。</p><p>  1.3.2 國(guó)內(nèi)狀況</p><p>  國(guó)內(nèi)有清華大學(xué)網(wǎng)絡(luò)存儲(chǔ)實(shí)驗(yàn)室和華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院兩家科研機(jī)構(gòu)對(duì)重復(fù)數(shù)據(jù)刪除領(lǐng)域進(jìn)行了深入的研究,并分別開(kāi)發(fā)了ADMAD和FBB

28、M系統(tǒng)。</p><p>  1.3.2.1 ADMAD系統(tǒng)</p><p>  清華大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)存儲(chǔ)實(shí)驗(yàn)室與明尼蘇達(dá)大學(xué)共同合作開(kāi)發(fā)了ADMAD[7]歸檔備份系統(tǒng),使用不同等級(jí)I/O通道的元數(shù)據(jù)信息把文件分成有一定意義的文件塊,以此來(lái)削減文件間的重復(fù)數(shù)據(jù),該系統(tǒng)同樣使用變長(zhǎng)分塊的方式。</p><p>  1.3.2.2 FBBM系統(tǒng)</p>

29、<p>  FBBM[8]系統(tǒng)由華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院開(kāi)發(fā)的一款文件備份系統(tǒng),它把文件使用變長(zhǎng)分塊算法,分成多個(gè)數(shù)據(jù)塊,然后使用描點(diǎn)分級(jí)的策略進(jìn)行重復(fù)數(shù)據(jù)塊的發(fā)現(xiàn)檢測(cè),同時(shí)根據(jù)文件塊內(nèi)容建立一個(gè)哈希表,以此來(lái)實(shí)現(xiàn)文件塊存儲(chǔ)的唯一性,然后把唯一的數(shù)據(jù)塊存入一次性寫(xiě)入的RAID設(shè)備中。</p><p>  1.4 主要任務(wù)和目標(biāo)</p><p>  為了緩解存儲(chǔ)系統(tǒng)的空

30、間增長(zhǎng)問(wèn)題、縮減數(shù)據(jù)占用空間、降低成本、最大程度的利用已有資源,我們需要對(duì)重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行研究。重復(fù)數(shù)據(jù)刪除技術(shù)可以有效提高存儲(chǔ)設(shè)備的利用率,減少存儲(chǔ)容量。同時(shí)在重復(fù)數(shù)據(jù)刪除技術(shù)中存在一種可變分塊算法,這種算法允許某些數(shù)據(jù)片段進(jìn)行伸縮,而不影響后面的數(shù)據(jù)塊,有助于提高系統(tǒng)查找重復(fù)數(shù)據(jù)塊的能力,從而達(dá)到大幅節(jié)省空間的目的。同時(shí)這種算法對(duì)于數(shù)據(jù)的敏感性不高,所以對(duì)于數(shù)據(jù)的一些小的改變不會(huì)引起數(shù)據(jù)的大規(guī)模的改變。例如該算法對(duì)于插入問(wèn)題和刪

31、除問(wèn)題處理高效。無(wú)論是插入還是刪除一小部分字節(jié),只會(huì)影響一到兩個(gè)塊,其余的塊保持不變。這種算法對(duì)于數(shù)據(jù)的重復(fù)冗余有著更多的清理和檢測(cè)。</p><p>  本課題設(shè)計(jì)了算法的流程來(lái)實(shí)現(xiàn)數(shù)據(jù)塊的可變長(zhǎng)切分,并將其應(yīng)用于重復(fù)數(shù)據(jù)刪除軟件中,檢驗(yàn)算法的性能。</p><p>  1.5 全篇論文的主要內(nèi)容</p><p>  論文主要分析了當(dāng)前重復(fù)數(shù)據(jù)刪除技術(shù)的主要方法

32、,及各自的優(yōu)缺點(diǎn),同時(shí)主要分析了可變分塊算法的主要過(guò)程以及算法實(shí)現(xiàn)的思想。同時(shí)闡述了重復(fù)數(shù)據(jù)刪除技術(shù)在時(shí)下社會(huì)的的應(yīng)用及主要不足。論文最后是對(duì)于重復(fù)數(shù)據(jù)刪除技術(shù)進(jìn)行展望和總結(jié)。</p><p>  2 重復(fù)數(shù)據(jù)刪除技術(shù)</p><p>  國(guó)外經(jīng)過(guò)多年的發(fā)展,重復(fù)數(shù)據(jù)刪除技術(shù)己形成完整的運(yùn)作體系。鑒于一般過(guò)程達(dá)到共識(shí),本章主要分析重復(fù)數(shù)據(jù)刪除主要運(yùn)用的關(guān)鍵技術(shù)。</p>&

33、lt;p>  2.1 重復(fù)數(shù)據(jù)刪除的流程</p><p>  重復(fù)數(shù)據(jù)刪除數(shù)據(jù)的流程如圖2-1所示:</p><p>  分塊Hash計(jì)算HashKey比較</p><p>  圖2-1 重復(fù)數(shù)據(jù)刪除數(shù)據(jù)的一般流程</p><p>  如圖所示,需要先對(duì)于文件進(jìn)行分塊,然后對(duì)于分塊并進(jìn)行文件Hash值的計(jì)算,再比較所得的Hash值

34、,最后實(shí)現(xiàn)對(duì)于重復(fù)數(shù)據(jù)的刪除。</p><p><b>  2.2 檢測(cè)技術(shù)</b></p><p>  本節(jié)介紹了相同數(shù)據(jù)檢測(cè)的4種技術(shù)。從前面的討論我們可以看出,重復(fù)數(shù)據(jù)的存在形式中有很大一部分是完全相同的數(shù)據(jù),文獻(xiàn)采用具有不同相關(guān)性的數(shù)據(jù)集評(píng)估了相同文件(whole file detection,WFD)、固定分塊(fixed-sized partition,

35、FSP)、可變分塊檢測(cè)技術(shù)(content-defined chunking,CDC)和滑動(dòng)塊檢測(cè)技術(shù),并給出了在變化的數(shù)據(jù)類(lèi)型上使用這些方法所獲得的益處。</p><p>  2.2.1 相同文件檢測(cè)技術(shù)</p><p>  相同文件檢測(cè)技術(shù)(WFD)是在文件級(jí)別的粒度下查找重復(fù)數(shù)據(jù)的方法。該方法是通過(guò)對(duì)整個(gè)文件進(jìn)行Hash[9]計(jì)算,然后將該值和已存儲(chǔ)的Hash值進(jìn)行比較,如果檢測(cè)到

36、相同的值,則僅將文件用指針替換,不進(jìn)行實(shí)際的存儲(chǔ),否則存儲(chǔ)新的文件。</p><p>  通過(guò)研究表明,基于Hash算法的相同文件檢測(cè)技術(shù)具有以下兩方面的優(yōu)勢(shì):(1)在普通硬件條件下計(jì)算速度很快,加州大學(xué)的研究表明[10],SHA-1是83MB/S,而MD5是227MB/S;(2)可以檢測(cè)到所有完全相同的文件,節(jié)省存儲(chǔ)空間較大。</p><p>  但是這種方法也有兩個(gè)主要的缺點(diǎn):(1)因

37、該方法是對(duì)所有的文件Hash值進(jìn)行比較,對(duì)于較大的數(shù)據(jù)集,需要比較的范圍大,時(shí)間消耗也多;(2)即使不同文件內(nèi)部存在很多相同的數(shù)據(jù),也不能被檢測(cè)并實(shí)現(xiàn)冗余消除。</p><p>  2.2.2 基于內(nèi)容算法的檢測(cè)技術(shù)</p><p>  基于內(nèi)容識(shí)別的重復(fù)檢測(cè)技術(shù)的基本原理是對(duì)記錄的數(shù)據(jù)格式進(jìn)行比對(duì)。在備份數(shù)據(jù)時(shí),該技術(shù)會(huì)讀取數(shù)據(jù)并從中提取出每組備份集以及備份集中數(shù)據(jù)對(duì)象的元數(shù)據(jù),存入到

38、內(nèi)嵌文件系統(tǒng)的數(shù)據(jù)庫(kù)內(nèi)。當(dāng)有新的數(shù)據(jù)進(jìn)入時(shí)則對(duì)新的元數(shù)據(jù)與數(shù)據(jù)庫(kù)中的元數(shù)據(jù)進(jìn)行版本比對(duì)?;趦?nèi)容的算法可以減少計(jì)算量,并可以利用元數(shù)據(jù)之間的聯(lián)系更快地查找重復(fù)數(shù)據(jù),但需要針對(duì)不同情況分別提取不同的元數(shù)據(jù),實(shí)現(xiàn)起來(lái)比較復(fù)雜。</p><p>  2.2.3 定長(zhǎng)塊的切分</p><p>  相同文件檢測(cè)技術(shù)不能用于文件內(nèi)部的重復(fù)數(shù)據(jù)查找,使得數(shù)據(jù)占用空間沒(méi)有充分縮減,因此研究者們將目光集中

39、于更細(xì)粒度——塊級(jí)別的重復(fù)數(shù)據(jù)檢測(cè)上來(lái)[11]。固定分塊檢測(cè)技術(shù)(FSP)是使用固定大小的分塊策略在存儲(chǔ)系統(tǒng)中識(shí)別相同數(shù)據(jù)的一種方法,如圖2-2所示,該方法分為三個(gè)步驟:(1)固定大小的分塊技術(shù)提供一個(gè)預(yù)先已經(jīng)定義好的塊的大小(該值獨(dú)立于所存取的數(shù)據(jù)內(nèi)容),所有文件均按照這個(gè)固定的塊大小進(jìn)行劃分;(2)每個(gè)劃分好的數(shù)據(jù)塊均通過(guò)哈希算法(MD5或SHA1)得到一個(gè)指紋值;(3)將該值和已存儲(chǔ)的塊指紋值進(jìn)行比對(duì),如果檢測(cè)到相同的值,則刪除其

40、代表的數(shù)據(jù)塊,否則存儲(chǔ)新的數(shù)據(jù)塊。</p><p><b>  ...文件...</b></p><p>  SHA-1 HashSHA-1 Hash SHA-1 Hash</p><p><b>  否</b></p><p><b>  是</b></p>

41、;<p>  圖2-2 固定分塊檢測(cè)技術(shù)</p><p>  通過(guò)研究發(fā)現(xiàn),固定分塊檢測(cè)技術(shù)已應(yīng)用在很多領(lǐng)域,并具有如下兩個(gè)特征:(1)縮減存儲(chǔ)空間:針對(duì)數(shù)據(jù)歸檔的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)Venti應(yīng)用該技術(shù)減少了大約30%的存儲(chǔ)空間。(2)減少網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量:虛擬機(jī)優(yōu)化系統(tǒng)通過(guò)該技術(shù)加速了在低寬帶網(wǎng)絡(luò)上的數(shù)據(jù)傳輸并改進(jìn)了內(nèi)存的性能。</p><p>  此外,固定分塊檢測(cè)技術(shù)還可以

42、提供很高的處理速度,適合于在交互性的環(huán)境中應(yīng)用[12]。但是它也具有一定的局限性:在刪除重復(fù)數(shù)據(jù)時(shí)該技術(shù)對(duì)編輯和修改的序列很敏感,對(duì)于插入問(wèn)題(在原來(lái)的數(shù)據(jù)流中某處插入少量新字節(jié),其它部分不變)和刪除問(wèn)題(在原來(lái)的數(shù)據(jù)流中某處刪除少量新字節(jié),其它部分不變)處理十分低效,即該技術(shù)不能智能的根據(jù)文件自身內(nèi)容的變化和文件之間的關(guān)聯(lián)關(guān)系進(jìn)行調(diào)整與優(yōu)化,這也是基于固定分塊檢測(cè)技術(shù)的一個(gè)劣勢(shì)。</p><p>  2.2.4

43、 變長(zhǎng)塊的切分</p><p>  為了彌補(bǔ)固定塊大小劃分技術(shù)的局限性,更加靈活的找到重復(fù)數(shù)據(jù),研究者們提出了可變塊大小劃分的檢測(cè)技術(shù)。</p><p>  這是一種基于內(nèi)容Content-Defined Chunking(CDC)技術(shù)的分塊方法,與固定分塊不同的是它的塊斷點(diǎn)不以一個(gè)預(yù)設(shè)值來(lái)確定,而是以其文件內(nèi)容進(jìn)行計(jì)算,當(dāng)滿足一定的標(biāo)準(zhǔn)之后方認(rèn)為其為塊斷點(diǎn)。在實(shí)現(xiàn)變長(zhǎng)分塊前,我們先建立

44、一種弱Hash的機(jī)制,滿足兩個(gè)規(guī)則:(1)Hash值相同的時(shí)候內(nèi)容不一定相同,Hash值不同的時(shí)候內(nèi)容一定不同。(2)Hash的沖突盡可能的頻繁,這樣可以避免文件塊變得異常的大。我們使用這種Hash函數(shù),對(duì)文件進(jìn)行計(jì)算,當(dāng)Hash值滿足一定條件,比如等于一個(gè)預(yù)定義值的時(shí)候我們便認(rèn)為此時(shí)該內(nèi)容所在的地方為一個(gè)塊斷點(diǎn)。</p><p>  根據(jù)CDC算法的特性,我們可以發(fā)現(xiàn)基于CDC算法檢測(cè)技術(shù)的特點(diǎn)是:對(duì)于插入問(wèn)題

45、和刪除問(wèn)題處理高效。無(wú)論是插入還是刪除一小部分字節(jié),只會(huì)影響一到兩個(gè)塊,其余的塊保持不變,即CDC方法在兩個(gè)相似對(duì)象(只相差幾個(gè)字節(jié))之間可以檢測(cè)出更多的冗余。</p><p>  但是CDC算法也存在一定的局限性,它劃分的粒度絕大部分取決于期望塊的設(shè)定,如果該值設(shè)置的較小,雖然粒度較細(xì),重復(fù)數(shù)據(jù)查找較為精確,但是額外存儲(chǔ)每塊信息的開(kāi)銷(xiāo)很大,相反,如果該值設(shè)置的較大,則粒度過(guò)粗,重復(fù)數(shù)據(jù)刪除的效果不好。所以,如何

46、權(quán)衡取舍是一個(gè)難點(diǎn)。</p><p>  2.2.5 滑動(dòng)塊檢測(cè)技術(shù)</p><p>  可變分塊檢測(cè)技術(shù)對(duì)一個(gè)文件間小的隨機(jī)改變檢測(cè)效果不佳。針對(duì)這一問(wèn)題,一些研究者將滑動(dòng)塊技術(shù)引入到相同數(shù)據(jù)檢測(cè)中來(lái),以期更好的檢測(cè)到變化的數(shù)據(jù)?;瑒?dòng)塊技術(shù)結(jié)合了固定塊大小檢測(cè)技術(shù)和可變塊大小檢測(cè)技術(shù)的優(yōu)點(diǎn),塊大小固定,管理簡(jiǎn)單。通過(guò)測(cè)試發(fā)現(xiàn),對(duì)大的簇,CDC的重復(fù)數(shù)據(jù)檢測(cè)性能較好,而滑動(dòng)塊技術(shù)對(duì)細(xì)粒度

47、匹配更適用?;诨瑒?dòng)塊技術(shù)的相同塊檢測(cè)過(guò)程有4步,如圖2-3所示:(1)一個(gè)文件用rsync求和校驗(yàn)(checksum)函數(shù)和固定塊大小的滑動(dòng)窗口來(lái)計(jì)算文件對(duì)象的每個(gè)重疊塊的求和校驗(yàn)值;(2)對(duì)于每個(gè)塊,將計(jì)算出的求和校驗(yàn)值與先前存儲(chǔ)的值進(jìn)行比較;(3)如果匹配,則利用更嚴(yán)格的SHA-1算法對(duì)塊進(jìn)行Hash計(jì)算,并將SHA-1 Hash值與先前存儲(chǔ)的值進(jìn)行比較,從而進(jìn)行冗余檢測(cè)。如果檢測(cè)到數(shù)據(jù)冗余,將其記錄后,滑動(dòng)窗口越過(guò)這個(gè)冗余塊繼續(xù)

48、前進(jìn)。而且對(duì)于在先前的已經(jīng)被劃分的塊和最近被檢測(cè)到冗余之前的這個(gè)碎片,需要被記錄并且存儲(chǔ);(4)如果求和校驗(yàn)值或Hash值不能匹配,則滑動(dòng)窗口繼續(xù)向前。如果滑動(dòng)窗口已經(jīng)行駛了一個(gè)塊大小的距離,但是仍然無(wú)法匹配到任何已經(jīng)被存儲(chǔ)的塊,則需要對(duì)這個(gè)塊進(jìn)行求和校驗(yàn)和S</p><p><b> ?。募?lt;/b></p><p><b>  校驗(yàn)</b

49、></p><p><b>  校驗(yàn)</b></p><p><b>  否</b></p><p><b>  是</b></p><p><b>  否</b></p><p>  圖2-3 滑動(dòng)塊檢測(cè)技術(shù)</p&

50、gt;<p>  根據(jù)滑動(dòng)塊技術(shù)的特性,我們可知該技術(shù)的特點(diǎn)是對(duì)于插入問(wèn)題和刪除問(wèn)題處理高效,并能始終檢測(cè)到更多的冗余數(shù)據(jù)。(1)插入問(wèn)題:如果一小部分字節(jié)被插入到一個(gè)對(duì)象中,只有周?chē)膲K會(huì)改變,接下來(lái)的塊將仍然會(huì)被識(shí)別出來(lái)并被該算法匹配,并且一個(gè)長(zhǎng)度等于插入的字節(jié)數(shù)的碎片會(huì)被產(chǎn)生出來(lái)。(2)刪除問(wèn)題:刪除一小部分字節(jié)也會(huì)產(chǎn)生一個(gè)長(zhǎng)度等于塊大小減去被刪除部分字節(jié)長(zhǎng)度的碎片,其它的塊不受影響。但該技術(shù)也存在一個(gè)不足:在插入和

51、刪除問(wèn)題中都會(huì)引入碎片,如何能夠準(zhǔn)確識(shí)別改變的數(shù)據(jù),不影響匹配數(shù)據(jù)塊,從而不產(chǎn)生額外的碎片將是一個(gè)研究的難點(diǎn)。</p><p>  2.3 對(duì)于數(shù)據(jù)塊進(jìn)行Hash值計(jì)算</p><p>  文件被切分成數(shù)據(jù)塊之后,需要對(duì)每個(gè)數(shù)據(jù)塊的內(nèi)容計(jì)算Hash值,保存下數(shù)據(jù)塊的各個(gè)Hash值,以便為以后的數(shù)據(jù)進(jìn)行比較。內(nèi)容不同,Hash值不同。內(nèi)容相同,Hash相同。對(duì)于數(shù)據(jù)塊進(jìn)行Hash值的計(jì)算,

52、使得數(shù)據(jù)塊的存在不同時(shí),Hash值不同,使得數(shù)據(jù)重復(fù)檢測(cè)成為可能。</p><p><b>  2.4 消除重復(fù)</b></p><p>  首先對(duì)于保存的Hash值進(jìn)行檢索,根據(jù)Hash值的不同,判斷數(shù)據(jù)塊的重復(fù)性,對(duì)于數(shù)據(jù)進(jìn)行進(jìn)一步的刪除、修改、插入,使得重復(fù)數(shù)據(jù)得到刪除。使得數(shù)據(jù)能夠得到單一化存儲(chǔ),同時(shí)將更新的文件進(jìn)一步保存和對(duì)其進(jìn)行指紋和數(shù)據(jù)塊的計(jì)算,保存下

53、新的Hash值和指紋。</p><p>  3 重復(fù)數(shù)據(jù)刪除中的可變分塊算法</p><p>  本算法可以分為文件分塊和記錄指紋,計(jì)算數(shù)據(jù)塊Hash值,重復(fù)數(shù)據(jù)比較,數(shù)據(jù)存儲(chǔ)四個(gè)部分,如圖3-1。本章將對(duì)于這四個(gè)部分進(jìn)行分別介紹。</p><p>  圖3-1 重復(fù)數(shù)據(jù)刪除可變分塊算法模型</p><p>  3.1 文件分塊和記錄指紋

54、</p><p>  文件分塊是本算法的關(guān)鍵,是該算法體現(xiàn)文件可變分塊的具體體現(xiàn)。主要體現(xiàn)它與固定分塊的區(qū)別。</p><p>  文件被分為大小可變的數(shù)據(jù)塊,數(shù)據(jù)塊的大小在一個(gè)規(guī)定的最小值和最大值之間??勺兇笮〉臄?shù)據(jù)塊用一個(gè)滑動(dòng)窗口來(lái)劃分,當(dāng)滑動(dòng)窗口的Hash值與一個(gè)基準(zhǔn)值相匹配時(shí)就創(chuàng)建一個(gè)分塊,這樣數(shù)據(jù)塊的尺寸分布就可達(dá)到一個(gè)希望的情形。對(duì)于文件的分塊計(jì)算反而帶來(lái)便利。</p&g

55、t;<p>  基準(zhǔn)值可以采用Rabin指紋(Rabin指紋生成算法由美國(guó)哈佛大學(xué)教授Rabin提出的算法)進(jìn)行計(jì)算,首先要定一個(gè)數(shù)據(jù)塊的最大值與最小值,使得數(shù)據(jù)塊不會(huì)太小或太大,有利于數(shù)據(jù)的比較。一般將這個(gè)范圍定于1k到8k之間。預(yù)先定義一個(gè)D與r(例如:可以定義D=32,r=0,這樣使得數(shù)據(jù)塊的平均大小在2k左右),在文件數(shù)據(jù)塊達(dá)到最小標(biāo)準(zhǔn)后,用一個(gè)固定大小滑動(dòng)窗口在文件上滑動(dòng),并計(jì)算其滑動(dòng)時(shí)的指紋的Hash值,當(dāng)該處

56、窗口內(nèi)的數(shù)據(jù)的Hash值在與k處滿足模D等于r時(shí)即為該文件的一個(gè)塊斷點(diǎn),記錄下來(lái)這個(gè)塊斷點(diǎn),或者當(dāng)文件達(dá)到8k是硬性定為一個(gè)斷點(diǎn),這時(shí)的數(shù)據(jù)塊的大小為8k(即使不滿足指紋處Hash值模D等于r)。同時(shí)在文件大小不足1k時(shí),將整個(gè)文件當(dāng)做一個(gè)數(shù)據(jù)塊,作為一個(gè)數(shù)據(jù)塊。然后窗口繼續(xù)滑動(dòng),重復(fù)上述動(dòng)作,在每個(gè)分塊點(diǎn)的位置上記錄下來(lái)。在文件結(jié)束處,將剩余的數(shù)據(jù)塊作為一個(gè)數(shù)據(jù)塊,但是最后一個(gè)可能不滿足上述要求,文件被分為n塊,同時(shí)有n-1個(gè)指紋值。

57、將指紋值記錄下來(lái)。過(guò)程如圖3-2[13]:</p><p><b>  ...文件...</b></p><p>  fingerprint是</p><p><b>  否</b></p><p>  圖3-2 文件分塊過(guò)程</p><p>  3.2 計(jì)算數(shù)據(jù)塊Has

58、h值</p><p>  在第一個(gè)部分中已經(jīng)將文件分為了各個(gè)數(shù)據(jù)塊,現(xiàn)在要將各個(gè)分好的數(shù)據(jù)塊進(jìn)行MD5運(yùn)算出其Hash值。記錄下每個(gè)分塊點(diǎn)的位置,以及每個(gè)數(shù)據(jù)塊的Hash值,保存下來(lái),作為原文件的文件記錄。系統(tǒng)會(huì)通過(guò)分塊點(diǎn)和Hash值來(lái)判斷文件的異同。 </p><p>  MD5為計(jì)算機(jī)安全領(lǐng)域廣泛使用的一種散列函數(shù),用以提供消息的完整性保護(hù)。對(duì)MD5算法簡(jiǎn)要的敘述可以為:MD5以51

59、2位分組來(lái)處理輸入的信息,且每一分組又被劃分為16個(gè)32位子分組,經(jīng)過(guò)了一系列的處理后,算法的輸出由四個(gè)32位分組組成,將這四個(gè)32位分組級(jí)聯(lián)后將生成一個(gè)128位散列值。MD5的典型應(yīng)用是對(duì)一段Message(字節(jié)串)產(chǎn)生fingerprint(指紋),以防止被“篡改”。舉個(gè)例子,你將一段話寫(xiě)在一個(gè)叫 readme.txt文件中,并對(duì)這個(gè)readme.txt產(chǎn)生一個(gè)MD5的值并記錄在案,然后你可以傳播這個(gè)文件給別人,別人如果修改了文件中

60、的任何內(nèi)容,你對(duì)這個(gè)文件重新計(jì)算MD5時(shí)就會(huì)發(fā)現(xiàn)兩個(gè)MD5值不相同。</p><p>  3.3 重復(fù)數(shù)據(jù)比較</p><p> ?。?)將新文件的屬性信息與所有已備份文件的信息進(jìn)行比較,看是否有相同文件或名稱(chēng)不同內(nèi)容相同的文件。如果有,則不需要實(shí)際的傳輸數(shù)據(jù),只需更新文件信息庫(kù)內(nèi)容,將新文件信息索引指向已存的相同文件;</p><p>  (2)如果沒(méi)有發(fā)現(xiàn)重復(fù)

61、文件,則用Rabin指紋算法來(lái)對(duì)新文件進(jìn)行掃描分塊,計(jì)算數(shù)據(jù)塊的Hash值,并與已有的文件指紋庫(kù)和相對(duì)應(yīng)的偏移位置進(jìn)行比較。標(biāo)記所有發(fā)生了變化的數(shù)據(jù)塊;</p><p>  (3)如果變化的數(shù)據(jù)量小或者帶寬充足,則直接同步對(duì)應(yīng)的數(shù)據(jù)塊內(nèi)容即可,如圖3-3所示。</p><p>  S1C1C2C3C4C5C6C7</p><p>  S2C1C2

62、C3C8C5C6 C7</p><p>  S3C1C2C3C8C9C10C6 C7</p><p>  S4C1C11C8C9C10C6 C7</p><p>  圖 3-3 直接同步數(shù)據(jù)塊</p><p>  假設(shè)文件A在初始狀態(tài)( S1)生成了備份文件A′,當(dāng)文件A

63、發(fā)生插入修改( S2, S3) ,刪除修改后( S4) ,生成新備份文件A″:</p><p> ?。?)文件A′根據(jù)Rabin 指紋算法,生成6個(gè)指紋,文件被劃分為7個(gè)數(shù)據(jù)塊,指紋以{M1, M2, ?, M6}表示,數(shù)據(jù)塊以{C1, C2, C3, C4, C5, C6, C7}表示;</p><p>  (2)發(fā)生插入修改,如S2所示,新插入的數(shù)據(jù)位于C4中,如果(C4 + 新插入的

64、數(shù)據(jù)塊)經(jīng)過(guò)Rabin指紋計(jì)算,為一個(gè)chunk (未產(chǎn)生新的指紋) ,僅需傳輸C8數(shù)據(jù)塊,在服務(wù)端更新版本庫(kù)和指紋庫(kù),得到A″;</p><p>  (3)插入修改,如S3所示,如果插入的數(shù)據(jù)導(dǎo)致原來(lái)一個(gè)chunk劃分為兩個(gè)chunk,僅需傳輸C9和C10 兩個(gè)數(shù)據(jù)塊,在服務(wù)端更新版本庫(kù)和指紋庫(kù),得到A″;</p><p> ?。?)刪除修改,如S4所示,如果刪除的數(shù)據(jù)塊影響了一個(gè)指紋,

65、導(dǎo)致原來(lái)兩個(gè)chunk 合并為一個(gè)chunk,則僅需傳輸C11,在服務(wù)端更新版本庫(kù)和指紋庫(kù)后,得到A″。</p><p><b>  3.4 數(shù)據(jù)存儲(chǔ)</b></p><p>  對(duì)于存儲(chǔ)數(shù)據(jù)而言,需要記錄下更新文件以后的MD5的值,以及分塊點(diǎn)的位置,可以做成一個(gè)< fingerprint,MD5 >的二元組,那么在用戶(hù)下次再更新數(shù)據(jù)時(shí)就相當(dāng)方便。在下次

66、更新時(shí)就不用對(duì)原文進(jìn)行處理了,而在下一次更新時(shí)獲得方便的同時(shí)對(duì)于文件數(shù)據(jù)有一定的記錄作用。如圖3-4所示:</p><p>  圖 3-4 重復(fù)數(shù)據(jù)檢測(cè)流程</p><p>  在文件存儲(chǔ)方面主要是要保持文件以及分塊的單一性,保證重復(fù)數(shù)據(jù)的正確刪除,和對(duì)于數(shù)據(jù)的分塊信息的即使備份。方便在下一更新是對(duì)于更新文件進(jìn)行比較。</p><p>  3.5 新文件的指紋以

67、及已分?jǐn)?shù)據(jù)塊Hash值的保存</p><p>  對(duì)于新文件的保存主要分為以下幾步完成</p><p> ?。?)對(duì)于原文件和更新文件進(jìn)行各個(gè)分塊的Hash值對(duì)比,找出Hash值相同的部分,并記錄下下兩個(gè)文件相同的分塊的分塊點(diǎn)在什么位置;</p><p> ?。?)然后對(duì)于不同部分進(jìn)行同步,等到新的文件數(shù)據(jù)庫(kù);</p><p> ?。?)對(duì)于

68、新的文件數(shù)據(jù)進(jìn)行分塊,記錄新的分塊點(diǎn)保存下來(lái)。</p><p>  整個(gè)的流程如下圖3-5:</p><p>  圖 3-5 文件指紋和已分?jǐn)?shù)據(jù)塊Hash值保存流程</p><p>  4 重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用</p><p>  在基礎(chǔ)架構(gòu)中的多個(gè)不同位置部署重復(fù)數(shù)據(jù)刪除技術(shù),以解決存在大量冗余數(shù)據(jù)的問(wèn)題。重復(fù)數(shù)據(jù)的作用包括以下幾方面

69、:(1)降低成本。重復(fù)數(shù)據(jù)刪除帶來(lái)了資源效率和成本節(jié)約,包括數(shù)據(jù)中心耗電量以及存儲(chǔ)容量、網(wǎng)絡(luò)帶寬和IT管理人員的減少。(2)提高備份和恢復(fù)級(jí)別。重復(fù)數(shù)據(jù)刪除可大大提高備份性能,從而可以在有限的備份時(shí)間窗口內(nèi)完成備份。重復(fù)數(shù)據(jù)刪除技術(shù)還可以充分利用隨機(jī)存取磁盤(pán)存儲(chǔ),與順序存?。ù艓В┓椒ㄏ啾忍岣吡嘶謴?fù)性能。(3)改變磁盤(pán)相對(duì)于磁帶的經(jīng)濟(jì)性。重復(fù)數(shù)據(jù)刪除使基于磁盤(pán)的備份適用于更多的應(yīng)用程序。磁帶之所以仍在數(shù)據(jù)中心的數(shù)據(jù)備份存儲(chǔ)中扮演著重要角

70、色,是由于其經(jīng)濟(jì)性和易于歸檔特性。然而在與重復(fù)數(shù)據(jù)刪除配合使用時(shí)每GB成本將降低,從而使磁盤(pán)的成本等于甚至小于磁帶成本。(4)重復(fù)數(shù)據(jù)刪除降低了數(shù)據(jù)存儲(chǔ)在電源、冷卻和空間方面的需求,降低能源消耗,因而減少了二氧化碳排放,承擔(dān)起環(huán)保責(zé)任。</p><p>  4.1 重復(fù)數(shù)據(jù)刪除的主要應(yīng)用特點(diǎn)</p><p>  4.1.1 數(shù)據(jù)備份系統(tǒng)</p><p>  重復(fù)

71、數(shù)據(jù)刪除技術(shù)為數(shù)據(jù)保護(hù)領(lǐng)域帶來(lái)革命性突破,有效地改善了磁盤(pán)數(shù)據(jù)保護(hù)的成本效益。因?yàn)樵趥鹘y(tǒng)數(shù)據(jù)保護(hù)中無(wú)法實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除,往往采用廉價(jià)的磁帶庫(kù)作為備份設(shè)備,而磁帶備份在備份窗口、恢復(fù)速度方面難以滿足用戶(hù)的需求?,F(xiàn)在,基于磁盤(pán)的數(shù)據(jù)保護(hù)方案如虛擬磁盤(pán)庫(kù)(VTL)被廣泛采用,并且在未來(lái)會(huì)繼續(xù)增長(zhǎng)。備份到VTL或其他基于磁盤(pán)的備份已經(jīng)縮小了備份窗口,改善了備份和恢復(fù)能力,但由于數(shù)據(jù)量的不斷增加,人們所要備份的數(shù)據(jù)越來(lái)越多,面臨容量膨脹的壓力。重

72、復(fù)數(shù)據(jù)刪除技術(shù)的出現(xiàn),為最小化存儲(chǔ)容量找到有效的方法。</p><p>  4.1.2 歸檔存儲(chǔ)系統(tǒng)</p><p>  重復(fù)數(shù)據(jù)刪除技術(shù)對(duì)歸檔存儲(chǔ)非常重要。由于參考數(shù)據(jù)的數(shù)量不斷增長(zhǎng),而法規(guī)遵從要求數(shù)據(jù)在線保留的時(shí)間更長(zhǎng),并且由于高性能需求需要采用磁盤(pán)進(jìn)行歸檔,因此,企業(yè)一旦真正開(kāi)始進(jìn)行數(shù)據(jù)的存儲(chǔ)歸檔就面臨成本問(wèn)題。理想的歸檔存儲(chǔ)系統(tǒng)應(yīng)能滿足長(zhǎng)期保存歸檔數(shù)據(jù)的需求,并且總擁有成本也要低

73、于生產(chǎn)環(huán)境。重復(fù)數(shù)據(jù)刪除技術(shù)通過(guò)消除冗余實(shí)現(xiàn)高效率的歸檔存儲(chǔ),從而實(shí)現(xiàn)最低的成本。目前,歸檔存儲(chǔ)系統(tǒng)的重復(fù)數(shù)據(jù)刪除技術(shù)主要是基于Hash的方法。</p><p>  4.1.3 遠(yuǎn)程災(zāi)備系統(tǒng)</p><p>  在遠(yuǎn)程災(zāi)備系統(tǒng)中,需要將大量的數(shù)據(jù)遷移到異地的系統(tǒng)中。隨著數(shù)據(jù)量的不斷增長(zhǎng),數(shù)據(jù)傳輸?shù)膲毫υ絹?lái)越大,通過(guò)重復(fù)數(shù)據(jù)刪除技術(shù)在數(shù)據(jù)傳輸前檢測(cè)并刪除重復(fù)的數(shù)據(jù),可以有效地減少傳輸?shù)臄?shù)據(jù)

74、量,提高傳輸數(shù)據(jù)速度,例如飛康的MicroScan軟件就采用了該技術(shù)。</p><p>  4.2 重復(fù)數(shù)據(jù)刪除技術(shù)的實(shí)踐例證</p><p>  在IT方面,中國(guó)人民銀行鄭州中心支行(簡(jiǎn)稱(chēng)鄭州支行)有十多個(gè)應(yīng)用系統(tǒng)為工作提供技術(shù)保障,包括賬戶(hù)系統(tǒng)、財(cái)務(wù)系統(tǒng)、報(bào)表系統(tǒng)、辦公自動(dòng)化系統(tǒng)、會(huì)計(jì)核算系統(tǒng)、事后監(jiān)督系統(tǒng)、國(guó)庫(kù)會(huì)計(jì)核算系統(tǒng)、同城清算系統(tǒng)、公文傳輸系統(tǒng)、總行郵件系統(tǒng)、事后影響系統(tǒng)、綜

75、合管理平臺(tái)系統(tǒng)等等。每一個(gè)系統(tǒng)都流動(dòng)著非常重要的數(shù)據(jù),因此,數(shù)據(jù)備份是一件及其重要的工作。</p><p>  根據(jù)每個(gè)應(yīng)用系統(tǒng)的不同要求,有的需要每天備份,保留最少7天的數(shù)據(jù);有的需要每天備份,保留一年的數(shù)據(jù);有的需要分別保留最近12個(gè)月、最近四周和最近7天的數(shù)據(jù)。</p><p>  隨著人民銀行業(yè)務(wù)信息系統(tǒng)的不斷升級(jí)和完善,數(shù)據(jù)保護(hù)問(wèn)題面臨著越來(lái)越大的挑戰(zhàn)。各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用分散的

76、模式各自獨(dú)立保存,其數(shù)據(jù)備份方式一般采用磁盤(pán)、磁帶、光盤(pán)、移動(dòng)介質(zhì)等方式,且大多在本地保存,很難滿足數(shù)據(jù)異地備份需要。</p><p>  鄭州中支的數(shù)據(jù)總量相對(duì)較大,保存期復(fù)雜,因此,如果采用傳統(tǒng)的備份方式,無(wú)論數(shù)據(jù)總量和備份窗口都很成問(wèn)題。隨后,鄭州中支把目光投向了重復(fù)數(shù)據(jù)刪除技術(shù),并采用了EMC公司基于重復(fù)數(shù)據(jù)刪除技術(shù)的磁盤(pán)備份技術(shù)方案。</p><p>  EMC Avamar重

77、復(fù)數(shù)據(jù)刪除解決方案的部署很簡(jiǎn)單,地市中心支行不需要部署硬件,只要在業(yè)務(wù)系統(tǒng)服務(wù)器上安裝備份代理即可;在中心支行部署兩個(gè)Avamar節(jié)點(diǎn),完成雙節(jié)點(diǎn)的冗余、互備、復(fù)制和負(fù)載均衡。而且,安裝備份代理沒(méi)有數(shù)量限制,只要備份服務(wù)器節(jié)點(diǎn)的數(shù)量不超出,就可以無(wú)限擴(kuò)展。鄭州中支的分支機(jī)構(gòu)眾多,應(yīng)用服務(wù)器的數(shù)量比較大,總共安裝了近100個(gè)備份代理。</p><p>  在鄭州中支的應(yīng)用環(huán)境中,經(jīng)過(guò)測(cè)算,鄭州中支所有設(shè)備(包括地市

78、中支)初次完全備份下來(lái)的重復(fù)數(shù)據(jù)刪除率為3:1,之后的備份由于有基礎(chǔ)數(shù)據(jù),重復(fù)數(shù)據(jù)刪除率大大提高,達(dá)到了300:1的水平。這樣,不僅節(jié)省了大量的備份空間,而且節(jié)省了廣域網(wǎng)帶寬,使異地備份和恢復(fù)成為可能。</p><p>  4.3 刪除備份數(shù)據(jù)重復(fù)部分</p><p>  重復(fù)數(shù)據(jù)刪除軟件技術(shù)是對(duì)備份數(shù)據(jù)內(nèi)容進(jìn)行比對(duì)、切分處理以后,將重復(fù)的內(nèi)容刪除掉的一種數(shù)據(jù)處理技術(shù)。而那些經(jīng)過(guò)軟件技術(shù)

79、處理以后,被判定為不重復(fù)的數(shù)據(jù)或者數(shù)據(jù)片段將被完整保存。它不是一種數(shù)據(jù)壓縮行為,而是根據(jù)備份系統(tǒng)保存數(shù)據(jù)和數(shù)據(jù)副本的特點(diǎn),以及保存這些數(shù)據(jù)內(nèi)容對(duì)存儲(chǔ)空間的使用方式特點(diǎn),利用重復(fù)數(shù)據(jù)軟件及功能實(shí)現(xiàn)的一種針對(duì)備份數(shù)據(jù)和副本的壓縮效果。所以沒(méi)有備份操作的信息系統(tǒng)以及那些數(shù)據(jù)量不大的信息系統(tǒng)是沒(méi)有必要使用這種軟件技術(shù)的。</p><p>  4.4 不能脫離存儲(chǔ)系統(tǒng)單獨(dú)使用</p><p>  

80、重復(fù)數(shù)據(jù)刪除技術(shù)的核心功能是處理數(shù)據(jù),它自身并不能完成數(shù)據(jù)的長(zhǎng)期存儲(chǔ)。它必須借助其它存儲(chǔ)技術(shù)的幫助,通過(guò)集成實(shí)現(xiàn)一體化的重復(fù)數(shù)據(jù)刪除備份系統(tǒng)存儲(chǔ)設(shè)備,才能使其在信息系統(tǒng)的備份系統(tǒng)當(dāng)中發(fā)揮完整的效用。從數(shù)據(jù)處理效率和軟件技術(shù)性能方面分析,為了滿足信息系統(tǒng)對(duì)備份系統(tǒng)數(shù)據(jù)吞吐能力的需求,通常情況下,重復(fù)數(shù)據(jù)刪除軟件技術(shù)主要與硬盤(pán)存儲(chǔ)技術(shù)進(jìn)行集成來(lái)實(shí)現(xiàn)其綜合應(yīng)用目的。</p><p>  4.5 重復(fù)數(shù)據(jù)刪除技術(shù)的主要

81、不足</p><p>  重復(fù)數(shù)據(jù)刪除作為存儲(chǔ)的一個(gè)新技術(shù)方向,有著廣泛的應(yīng)用前景,全面應(yīng)用于主存儲(chǔ)系統(tǒng)和歸檔存儲(chǔ)系統(tǒng)中。未來(lái)發(fā)展的方向?qū)⑹牵簭亩ㄩL(zhǎng)分塊向智能變長(zhǎng)分塊發(fā)展;從傳統(tǒng)Hash算法向速度更快、沖突更小的Hash算法發(fā)展;從靜態(tài)Hash檢索到動(dòng)態(tài)分布式Hash檢索方向發(fā)展。</p><p>  從目前的研究來(lái)看,我們可以得出如下結(jié)論:(1)近年來(lái),隨著重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用,其理論

82、不斷得到發(fā)展和加強(qiáng),人們對(duì)重復(fù)數(shù)據(jù)刪除的認(rèn)識(shí)也越來(lái)越清晰。但是,如何挖掘不同類(lèi)型的數(shù)據(jù)特性,快速準(zhǔn)確的檢測(cè)到重復(fù)數(shù)據(jù),高效結(jié)合已有的技術(shù)仍然存在著可探究的空間,因此也需要研究者進(jìn)行更深入的探索。(2)因重復(fù)數(shù)據(jù)檢測(cè)技術(shù)自身設(shè)計(jì)上均存在有一定的局限性,如何在融合各技術(shù)特征的同時(shí),通過(guò)結(jié)合統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘領(lǐng)域的各種技術(shù),對(duì)數(shù)據(jù)特性進(jìn)行充分的分析和挖掘,找到其規(guī)律性的認(rèn)識(shí)來(lái)彌補(bǔ)重復(fù)數(shù)據(jù)刪除技術(shù)上的不足,提高整體系統(tǒng)的性能,也是一個(gè)需要深入探究

83、的方面;(3)因新的壓縮理論或更有效的數(shù)學(xué)模型不斷出現(xiàn),壓縮技術(shù)發(fā)展非常迅速,如何通過(guò)引進(jìn)壓縮算法開(kāi)發(fā)新的技術(shù)與已有技術(shù)結(jié)合在一起,有效地優(yōu)化存儲(chǔ)空間也是一個(gè)需要研究的問(wèn)題;(4)重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用盡管節(jié)約了存儲(chǔ)空間,但也降低了系統(tǒng)的可靠性。當(dāng)前研究表明,已有的可靠性技術(shù)是基于增加冗余數(shù)據(jù)的。雖然這樣的技術(shù)模型具有簡(jiǎn)單高效的特點(diǎn),但在存儲(chǔ)開(kāi)銷(xiāo)和系統(tǒng)性能方面存在一定的局限性。因此如何針對(duì)不同的數(shù)據(jù)類(lèi)型,設(shè)計(jì)有效的度量方式,適度的增加冗

84、余數(shù)據(jù)來(lái)高效的提高系統(tǒng)的可靠性或</p><p><b>  5 總結(jié)與展望</b></p><p>  通過(guò)重復(fù)數(shù)據(jù)刪除中的可變分塊算法的編寫(xiě)大致了解了現(xiàn)今數(shù)據(jù)存儲(chǔ)方面的現(xiàn)狀,同時(shí)了解了當(dāng)今重復(fù)數(shù)據(jù)刪除技術(shù)的主流方法和主要的優(yōu)缺點(diǎn)! </p><p>  近年來(lái),隨著重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用,其理論不斷得到發(fā)展和加強(qiáng),人們對(duì)重復(fù)數(shù)據(jù)刪除的認(rèn)識(shí)

85、也越來(lái)越清晰。但是,如何挖掘不同類(lèi)型的數(shù)據(jù)特性,快速準(zhǔn)確的檢測(cè)到重復(fù)數(shù)據(jù),高效結(jié)合已有的技術(shù)仍然存在著可探究的空間,因此也需要研究者進(jìn)行更深入的探索。</p><p>  因重復(fù)數(shù)據(jù)檢測(cè)技術(shù)自身設(shè)計(jì)上均存在一定的局限性,如何在融合各技術(shù)特征的同時(shí),通過(guò)結(jié)合統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘領(lǐng)域的各種技術(shù),對(duì)數(shù)據(jù)特性進(jìn)行充分的分析和挖掘,找到其規(guī)律性的認(rèn)識(shí)來(lái)彌補(bǔ)重復(fù)數(shù)據(jù)刪除技術(shù)上的不足,提高整體系統(tǒng)的性能,也是一個(gè)需要深入探究的方面

86、。</p><p>  重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用盡管節(jié)約了存儲(chǔ)空間,但也降低了系統(tǒng)的可靠性。當(dāng)前研究表明,已有的可靠性技術(shù)是基于增加冗余數(shù)據(jù)的。雖然這樣的技術(shù)模型具有簡(jiǎn)單高效的特點(diǎn),但在存儲(chǔ)開(kāi)銷(xiāo)和系統(tǒng)性能方面存在一定的局限性。</p><p>  面對(duì)當(dāng)今社會(huì)信息的爆炸式的增長(zhǎng),重復(fù)數(shù)據(jù)刪除算法技術(shù)越來(lái)越成為主流的技術(shù)方法。同時(shí)重復(fù)數(shù)據(jù)刪除中的可變分塊算法在對(duì)于插入問(wèn)題和刪除問(wèn)題處理高效性必

87、然會(huì)使其成為重復(fù)數(shù)據(jù)中的主流算法。同時(shí)CDC算法也存在一定的局限性,它劃分的粒度絕大部分取決于期望塊的設(shè)定,如果該值設(shè)置的較小,雖然粒度較細(xì),重復(fù)數(shù)據(jù)查找較為精確,但是額外存儲(chǔ)每塊信息的開(kāi)銷(xiāo)很大,相反,如果該值設(shè)置的較大,則粒度過(guò)粗,重復(fù)數(shù)據(jù)刪除的效果不好的缺點(diǎn)也局限了其適用范圍,所以在以后的發(fā)展過(guò)程中必然要注意這方面的改進(jìn)。</p><p>  由于Hash算法不關(guān)心數(shù)據(jù)塊的內(nèi)容,因此已經(jīng)壓縮的數(shù)據(jù),比如Zip

88、,JPEG,GIF以及各種媒體數(shù)據(jù)對(duì)這種算法技術(shù)的重復(fù)數(shù)據(jù)刪除技術(shù)來(lái)說(shuō)是極大的困難。因此,基于Hash算法的重復(fù)數(shù)據(jù)刪除軟件要么在自身核心技術(shù)方面取得突破,要么打破技術(shù)壁壘與內(nèi)容已知軟件技術(shù)實(shí)現(xiàn)合作,取長(zhǎng)補(bǔ)短才能更有發(fā)展前途。</p><p>  所以面對(duì)這些問(wèn)題,重復(fù)數(shù)據(jù)刪除算法如何融合各種現(xiàn)有技術(shù)的同時(shí),提供通用性、可擴(kuò)展性和自適應(yīng)性是重中之重。同時(shí)也要減小重復(fù)數(shù)據(jù)在檢測(cè)和刪除過(guò)程中的系統(tǒng)開(kāi)銷(xiāo)。</p&

89、gt;<p><b>  參考文獻(xiàn)</b></p><p>  [1]程菊生.重復(fù)數(shù)據(jù)刪除技術(shù)的研究[J].華賽科技,2008,4:8-11. </p><p>  [2] Douglis,F.,Iyengar,A.Application-Specific delta encoding via resemblance detection[C].In Us

90、enix Annual Technical Conference,San Antonio,Texas:USENIX Association,2003:113-126.</p><p>  [3] 劉俊輝.HASH消息摘要算法實(shí)現(xiàn)及改進(jìn)[J].福建電腦,2007,(4):92-93.</p><p>  [4] 顏軍.重復(fù)數(shù)據(jù)刪除帶來(lái)集群架構(gòu)革命[J].計(jì)算機(jī)世界·技術(shù)與應(yīng)用,20

91、08,6(24):40-41.</p><p>  [5] 范濤.網(wǎng)絡(luò)存儲(chǔ)技術(shù)的研究與應(yīng)用[J].福建電腦,2008,(6):90-93.</p><p>  [6] 佟樂(lè).重復(fù)數(shù)據(jù)刪除的前世今生[J].福建電腦,2007,(4):92-93.</p><p>  [7] 蔡盛鑫.一種基于重復(fù)數(shù)據(jù)刪除的備份系統(tǒng)[D].北京郵電大學(xué)碩士論文,2006.</p&g

92、t;<p>  [8] J. McKnight,T.Asaro,B.Babineau.Digital Archiving:End-User Survey and Market Forecast [J].The Enterprise Strategy Group,2006:30-35.</p><p>  [9] Athicha Muthitacharoen,Benjie Chen,David Maz

93、i´eres.A Low-Bandwidth Network File System[C].In Proceedings of the Symposium on Operating Systems Principles (SOSP'01).Chateau Lake Louise,Banff,Canada: ACM Association,2001:174-187.</p><p>  [10]S

94、AVAGE S,WETHERALL D,KARLINA,etal.Network support for IPtraceback[J].ACM/IEEE Transactions on Networking,2001,9(3):226-237.</p><p>  [11] 敖莉,舒繼武,李明強(qiáng).重復(fù)數(shù)據(jù)刪除技術(shù)[J].軟件學(xué)報(bào),2010,5(21):916-929. </p><p

95、>  [12] RICHARD S W 著.范偉華,胥光輝,張清,等譯.TCP/IP 詳解一卷 1:協(xié)議[M].北京:機(jī)械工業(yè)出版社,2000.</p><p>  [13] Pearl J.Data Mining with Graphical Models[D]. Standford University,2000.</p><p>  [14] 李立松.基于IP存儲(chǔ)的網(wǎng)絡(luò)容災(zāi)技術(shù)

96、研究與系統(tǒng)實(shí)現(xiàn)[D].中國(guó)優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫(kù)(碩士),2005。</p><p>  本科畢業(yè)設(shè)計(jì)(論文)</p><p><b>  任 務(wù) 書(shū)</b></p><p><b> ?。?011屆)</b></p><p><b>  畢業(yè)論文(設(shè)計(jì))</b><

97、/p><p><b>  文獻(xiàn)綜述</b></p><p>  題  目:   重復(fù)數(shù)據(jù)刪除中的可變分塊算法 </p><p>  學(xué)  院:   商學(xué)院    </p><p>  專(zhuān)  業(yè):   信息管理與信息系統(tǒng)   </p><

98、p>  班  級(jí):       </p><p>  學(xué)  號(hào):         </p><p>  姓  名:      </p><p>  指導(dǎo)教師:      

99、 </p><p><b>  教 務(wù) 處 制</b></p><p><b>  一、前言部分</b></p><p>  在存儲(chǔ)備份過(guò)程存在大量?jī)?nèi)容相同的數(shù)據(jù),將這些內(nèi)容相同的數(shù)據(jù)刪除,只保留其中一份。這種技術(shù)稱(chēng)為重復(fù)數(shù)刪除技術(shù)。重復(fù)數(shù)據(jù)刪除技術(shù)的宗旨就是為企業(yè)用戶(hù)提供重復(fù)數(shù)據(jù)的備份解決方案,增加有效存儲(chǔ)空間

100、,提高存儲(chǔ)效率,使企業(yè)備份解決方案更加完善、高效。按照部署位置的不同,重復(fù)數(shù)據(jù)刪除可分為源端重復(fù)數(shù)據(jù)刪除和目標(biāo)端重復(fù)數(shù)據(jù)刪除。源端重復(fù)數(shù)據(jù)刪除是先刪除重復(fù)數(shù)據(jù),再將數(shù)據(jù)傳到備份設(shè)備。目標(biāo)端重復(fù)數(shù)據(jù)刪除是先將數(shù)據(jù)傳到備份設(shè)備,存儲(chǔ)時(shí)再刪除重復(fù)數(shù)據(jù)。按照檢查重復(fù)數(shù)據(jù)的算法不同,重復(fù)數(shù)據(jù)刪除可以分為對(duì)象/文件級(jí)和塊級(jí)的重復(fù)數(shù)據(jù)刪除。對(duì)象級(jí)的重復(fù)數(shù)據(jù)刪除保證文件不重復(fù)。塊級(jí)重復(fù)數(shù)據(jù)刪除則將文件分成數(shù)據(jù)塊進(jìn)行比較。根據(jù)切分?jǐn)?shù)據(jù)塊方法的不同,又可分

101、為定長(zhǎng)塊和變長(zhǎng)塊的重復(fù)數(shù)據(jù)刪除技術(shù)。變長(zhǎng)塊的重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)塊的長(zhǎng)度是變動(dòng)的。定長(zhǎng)塊的重復(fù)數(shù)據(jù)刪除,數(shù)據(jù)塊的長(zhǎng)度是固定的。根據(jù)應(yīng)用場(chǎng)合的不同,可以分為通用型重復(fù)數(shù)據(jù)刪除系統(tǒng)和專(zhuān)用型重復(fù)數(shù)據(jù)刪除系統(tǒng)。通用型重復(fù)數(shù)據(jù)刪除系統(tǒng)是指廠商提供通用的重復(fù)數(shù)據(jù)刪除產(chǎn)品,而不是和特定虛擬磁帶庫(kù)或備份設(shè)備相聯(lián)系。專(zhuān)用型重復(fù)數(shù)據(jù)刪除系統(tǒng)是和特定虛擬磁帶或備份設(shè)備相聯(lián)系,一般采取目標(biāo)端重復(fù)</p><p>  根據(jù)目前的研究現(xiàn)狀,我

102、們可以分析得出,隨著重復(fù)數(shù)據(jù)刪除技術(shù)的研究與應(yīng)用,其理論得到不斷發(fā)展和完善,人們對(duì)重復(fù)數(shù)據(jù)刪除的認(rèn)識(shí)也越來(lái)越清晰。但是,如何充分挖掘數(shù)據(jù)的內(nèi)在特性,將其應(yīng)用到已有的技術(shù)中,發(fā)揮各技術(shù)的優(yōu)勢(shì),彌補(bǔ)其中的不足是一個(gè)可深入探究的領(lǐng)域;從重復(fù)數(shù)據(jù)刪除技術(shù)的可靠性研究角度,如何在吸收現(xiàn)有成果的同時(shí),引入其他機(jī)制打破現(xiàn)有技術(shù)的局限性是一個(gè)需要更深入研究的方面;從重復(fù)數(shù)據(jù)刪除技術(shù)的性能研究角度,如何融合各種現(xiàn)有技術(shù)的同時(shí),提供通用性、可擴(kuò)展性和自適應(yīng)

103、性也是一個(gè)需要更深入研究的方面。</p><p><b>  二、主題部分</b></p><p>  1.重復(fù)數(shù)據(jù)刪除中的可變分塊算法原理</p><p>  在關(guān)于重復(fù)數(shù)據(jù)刪除中的可變分塊算法的實(shí)現(xiàn)上,本文運(yùn)用VC2005中的MFC,在MFC中可以擁有很好界面操作,同時(shí)C++在各個(gè)系統(tǒng)有很好的兼容性。</p><p>

104、;  在算法設(shè)計(jì)方面,我在文件分塊方面,采用rabinhash算法對(duì)于文件分塊(同時(shí)對(duì)于數(shù)據(jù)塊有1kbit到8kbit的限制)時(shí)的31bit的數(shù)據(jù)進(jìn)行加密,讓后對(duì)于所得的hash值進(jìn)行32的模值運(yùn)算,得到模值為0的hash值的指紋為分塊指紋,記錄下分塊的位置,同時(shí)對(duì)于每一個(gè)分塊的數(shù)據(jù)塊進(jìn)行MD5算法求hash值,保存分快點(diǎn)位置和對(duì)應(yīng)的MD5的值。當(dāng)更新文件到來(lái)時(shí),對(duì)于更新文件采取相同的算法然后比較兩個(gè)文件的hash值對(duì)于不同hash值的

105、數(shù)據(jù)塊采用基于CDC的算法。對(duì)于文件進(jìn)行更新。在對(duì)于更新的文件在對(duì)于其進(jìn)行指紋和MD5運(yùn)算計(jì)算hash值,然后跟新指紋庫(kù)和hash值庫(kù),保存下來(lái)。</p><p>  rabinhash算法滿足兩個(gè)規(guī)則:(1)hash值相同的時(shí)候內(nèi)容不一定相同,hash值不同的時(shí)候內(nèi)容一定不同。(2)hash的沖突盡可能的頻繁,這樣可以避免文件塊變得異常的大。同時(shí)這個(gè)算法扥到一個(gè)9到10位的10進(jìn)制hash值方便下一步計(jì)算。這樣

106、在于文件的指紋計(jì)算上有很大的優(yōu)勢(shì),它對(duì)于時(shí)間復(fù)雜度上有很大的優(yōu)越性,同時(shí)在文件相同時(shí)的判斷是準(zhǔn)確的,雖然在不同上會(huì)出現(xiàn)誤差,但在文件指紋計(jì)算上不是很重要,所以rabinhash在文件分塊上有很大的優(yōu)勢(shì)。</p><p>  在文件分塊方面,本算法通過(guò)對(duì)于大于1024大小的數(shù)據(jù)塊進(jìn)行最后32位的rabinhash的計(jì)算,同時(shí)對(duì)于得到的hash值進(jìn)行模32的計(jì)算,得到模值為0的為分塊點(diǎn),若不為0,則以31為窗口進(jìn)行滑

107、動(dòng),然后再進(jìn)行hash計(jì)算重復(fù)上述過(guò)程。記錄下各個(gè)分塊點(diǎn)。</p><p><b>  2.重復(fù)數(shù)據(jù)的檢查</b></p><p>  2.1相同文件檢測(cè)技術(shù)</p><p>  相同文件檢測(cè)技術(shù)(WFD)是在文件級(jí)別的粒度下查找重復(fù)數(shù)據(jù)的方法。如圖2所示,該方法是通過(guò)對(duì)整個(gè)文件進(jìn)行hash[2]計(jì)算,然后將該值和已存儲(chǔ)的hash值進(jìn)行比較,如

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論