分布式在線社交網(wǎng)絡(luò)數(shù)據(jù)存儲及優(yōu)化技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩162頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、近年來,在線社交網(wǎng)絡(luò)(Online Social Network,OSN)取得了巨大成功,在全球范圍內(nèi)擁有數(shù)十億用戶。通過 OSN,用戶可以結(jié)交新的朋友或與自己的朋友共享信息。目前比較流行的商用OSN包括 Facebook,Twitter,人人網(wǎng),新浪微博,騰訊微信等,它們都采用了集中式數(shù)據(jù)存儲架構(gòu),所有的用戶數(shù)據(jù)集中存儲到服務(wù)提供商所運維的服務(wù)器上。服務(wù)提供商可以使用和分析這些數(shù)據(jù),甚至直接將之出售給第三方,破壞了用戶隱私。因此,這種

2、集中式在線社交網(wǎng)絡(luò)(Centralized Online Social Network,COSN)中存在嚴(yán)重的用戶數(shù)據(jù)隱私泄露問題,已經(jīng)引起了廣泛的關(guān)注。
  在此背景下,分布式在線社交網(wǎng)絡(luò)(DecentralizedOnline Social Network,DOSN)被提出來解決上述用戶數(shù)據(jù)隱私泄露問題。盡管DOSN還不如COSN流行和成熟,但是業(yè)界對它的研究非?;钴S,正處于快速發(fā)展時期。在 DOSN中,為了保護隱私,用戶數(shù)據(jù)

3、繞過服務(wù)器直接在朋友圈內(nèi)存儲和轉(zhuǎn)發(fā)。DOSN雖然能防止服務(wù)提供商泄露用戶隱私數(shù)據(jù),但是存在數(shù)據(jù)可用性低下的問題:當(dāng)某一用戶處于離線狀態(tài)時,其它用戶不能訪問存儲在該離線用戶處的數(shù)據(jù)。為了在數(shù)據(jù)隱私保護約束條件下提高數(shù)據(jù)可用性,必須設(shè)計適用于DOSN場景的數(shù)據(jù)存儲方案及相應(yīng)的優(yōu)化策略,這是目前DOSN研究中的最大挑戰(zhàn)之一。
  DOSN具有如下特點:1)用戶動態(tài)性高;2)接入終端存儲資源有限;3)大部分用戶的朋友圈不大;4)社交數(shù)據(jù)以

4、小數(shù)據(jù)為主,且很少修改。本文通過深入研究已有的DOSN數(shù)據(jù)存儲技術(shù)和存儲優(yōu)化相關(guān)工作發(fā)現(xiàn),已有工作主要關(guān)注用戶動態(tài)性,而忽略了其它特點對數(shù)據(jù)存儲優(yōu)化目標(biāo)的影響。
  針對現(xiàn)有工作的不足,本文系統(tǒng)地研究了以數(shù)據(jù)隱私保護約束下提高數(shù)據(jù)可用性為主要目標(biāo)的DOSN數(shù)據(jù)存儲和存儲優(yōu)化問題,主要包括如下幾個方面:
  1.存儲容量敏感的DOSN數(shù)據(jù)可用性建模與分析
  已有的DOSN數(shù)據(jù)存儲方案通常假設(shè)朋友總是能為用戶提供足夠的存

5、儲容量保存用戶發(fā)布的數(shù)據(jù),然而,這個假設(shè)在 DOSN中是不合適的。為了保證不泄露用戶隱私,未受保護的用戶隱私數(shù)據(jù)只能存儲在朋友圈內(nèi)。而如下原因?qū)?dǎo)致朋友圈內(nèi)的總存儲容量有限:1)在線朋友數(shù)量有限;2)DOSN用戶通常使用移動智能設(shè)備,它們的存儲容量通常有限。直觀地,有限的朋友圈總存儲容量降低了數(shù)據(jù)可用性。但是僅僅知道這一粗略結(jié)論是不夠的,我們還希望獲悉存儲容量對數(shù)據(jù)可用性的影響程度,以確定是否有必要進行數(shù)據(jù)存儲優(yōu)化。因此,在重新設(shè)計 D

6、OSN數(shù)據(jù)存儲方案之前,有必要定量分析朋友圈可貢獻的總存儲容量與所能達到的數(shù)據(jù)可用性之間的關(guān)系,這是本文要解決的首要問題。
  針對此問題,本文提出了一個存儲容量敏感的數(shù)據(jù)可用性模型,深入分析了朋友圈可貢獻的總存儲容量與所能達到的數(shù)據(jù)可用性之間的定量關(guān)系。此外,朋友圈內(nèi)的在線朋友高度動態(tài)變化,影響了朋友圈可貢獻的總存儲容量,進而導(dǎo)致數(shù)據(jù)可用性也高度動態(tài)變化。針對這一問題,本文通過預(yù)測朋友圈實時總存儲容量預(yù)測實時數(shù)據(jù)可用性,進一步研

7、究了朋友圈總存儲容量與所能達到數(shù)據(jù)可用性之間的動態(tài)變化關(guān)系。最后,本文還進行了大量實驗,驗證了存儲容量敏感的數(shù)據(jù)可用性模型的有效性。基于存儲容量敏感的數(shù)據(jù)可用性模型,給定預(yù)期數(shù)據(jù)可用性可以確定朋友圈所需的最小總存儲容量,進而可以確定每個朋友所需貢獻的平均最小存儲容量,為應(yīng)用程序存儲容量的分配提供依據(jù);反之,給定朋友圈總存儲容量,可以確定朋友圈所能達到的最大數(shù)據(jù)可用性,從而可以確定預(yù)期數(shù)據(jù)可用性是否能夠得到滿足,并指導(dǎo)下一步的數(shù)據(jù)存儲方案

8、設(shè)計。
  2.云輔助的DOSN數(shù)據(jù)存儲方案Cadros
  如上文所述,DOSN中,為了保證用戶隱私不被泄露,數(shù)據(jù)在未受保護的情況下只能冗余存儲在朋友圈內(nèi)。但是 DOSN是一個高度動態(tài)的網(wǎng)絡(luò),用戶可以隨時添加和刪除朋友,且朋友可以隨時上線和下線,所以朋友圈內(nèi)在線朋友集合和所貢獻的總存儲容量是有限且動態(tài)變化的。如果僅依賴朋友圈冗余存儲用戶數(shù)據(jù),將不能獲得較高的數(shù)據(jù)可用性。以數(shù)據(jù)隱私保護約束下提高數(shù)據(jù)可用性為主要目標(biāo),設(shè)計適用

9、于DOSN的數(shù)據(jù)存儲方案是本文要解決的第二個關(guān)鍵問題。
  針對該問題,本文基于存儲容量敏感的數(shù)據(jù)可用性模型,提出了一種云輔助的DOSN數(shù)據(jù)存儲方案Cadros,引入云服務(wù)器提高數(shù)據(jù)可用性。當(dāng)朋友圈不能滿足數(shù)據(jù)存儲需求時,將多余數(shù)據(jù)用糾刪碼技術(shù)分片編碼后存儲到云服務(wù)器中,且保證云服務(wù)器中存儲的數(shù)據(jù)片段數(shù)量不超過恢復(fù)原始數(shù)據(jù)所需要的數(shù)據(jù)片段數(shù)量,以防止云服務(wù)提供商獲得原始數(shù)據(jù),從而保護了用戶數(shù)據(jù)隱私。本文定量研究了Cadros的數(shù)據(jù)

10、存儲能力,討論了Cadros的數(shù)據(jù)可用性,從理論上證明了Cadros方案的可行性和有效性;同時還建立了朋友圈內(nèi)朋友動態(tài)行為的概率模型,通過預(yù)測朋友圈將來的數(shù)據(jù)存儲能力和存儲需求,建立了Cadros實時數(shù)據(jù)可用性預(yù)測模型,可以為下一步設(shè)計數(shù)據(jù)存儲策略提供依據(jù)。
  3.社交數(shù)據(jù)在DOSN中的存儲優(yōu)化技術(shù)
  上一研究中的實時數(shù)據(jù)可用性預(yù)測結(jié)果只是表明Cadros在給定朋友圈總存儲容量的前提下有能力達到相應(yīng)的數(shù)據(jù)可用性。朋友圈最

11、終是否能獲得預(yù)期的數(shù)據(jù)可用性還依賴于數(shù)據(jù)存儲策略。即使朋友圈能提供足夠的存儲容量,如果沒有一個好的數(shù)據(jù)存儲策略,也不能獲得理想的數(shù)據(jù)可用性。在Cadros數(shù)據(jù)存儲方案中,如何基于實時數(shù)據(jù)可用性預(yù)測結(jié)果,針對DOSN用戶行為特征,設(shè)計一個適用的數(shù)據(jù)存儲策略是本文要解決的第三個關(guān)鍵問題。
  針對這一問題,本文進一步優(yōu)化Cadros數(shù)據(jù)存儲方案,研究社交數(shù)據(jù)在DOSN中的存儲優(yōu)化技術(shù),首先提出了一個開銷敏感的數(shù)據(jù)劃分方法和存儲策略,分

12、別確定存儲到朋友圈內(nèi)和云服務(wù)器中的數(shù)據(jù),可充分利用朋友圈可用存儲容量,使系統(tǒng)開銷最?。蝗缓?,提出一個可用性驅(qū)動的DOSN數(shù)據(jù)副本放置方法,合理地將數(shù)據(jù)放置到朋友圈內(nèi),可實現(xiàn)預(yù)期的數(shù)據(jù)可用性,且能均衡系統(tǒng)負(fù)載,降低系統(tǒng)為實現(xiàn)數(shù)據(jù)可用性所造成的維護開銷。
  4.社交數(shù)據(jù)在云服務(wù)器中的存儲優(yōu)化技術(shù)
  如上文所述,Cadros數(shù)據(jù)存儲方案不僅將用戶數(shù)據(jù)冗余存儲在朋友圈內(nèi),還在朋友圈不能滿足數(shù)據(jù)存儲需求時將一部分?jǐn)?shù)據(jù)存儲到云服務(wù)器

13、中。云服務(wù)器具有長期高可用的特點,因此云服務(wù)器上數(shù)據(jù)的可用性可近似認(rèn)為達到100%,不存在數(shù)據(jù)可用性問題。然而當(dāng)用戶訪問云服務(wù)器上社交數(shù)據(jù)時,卻存在訪問性能不高的問題。社交數(shù)據(jù)以小數(shù)據(jù)為主,并很少修改。云服務(wù)器通常采用傳統(tǒng)的分布式文件系統(tǒng)來存儲和管理用戶數(shù)據(jù),在處理海量社交小數(shù)據(jù)時性能較低。如何提高云服務(wù)器中社交小數(shù)據(jù)的訪問性能是本文要解決的第四個關(guān)鍵問題。
  為了解決這個問題,本文首先研究了分布式文件系統(tǒng)處理海量社交小數(shù)據(jù)的性

14、能瓶頸;然后提出了一種輕量級的文件系統(tǒng)iFlatLFS對社交小數(shù)據(jù)進行優(yōu)化存儲和管理。iFlatLFS大大簡化了元數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)訪問流程。新的元數(shù)據(jù)總量僅占原元數(shù)據(jù)總量的一小部分,可以被全部緩存到服務(wù)器內(nèi)存中,消除了小數(shù)據(jù)尋址開銷,提高了性能。最后本文在CentOS5.5操作系統(tǒng)中實現(xiàn)了一個iFlatLFS原型,并集成到了開源分布式文件系統(tǒng)TFS中。本章最后進行了大量實驗,結(jié)果證明,iFlatLFS能夠優(yōu)化存儲海量社交小數(shù)據(jù),大幅提高數(shù)

15、據(jù)訪問性能。
  綜上所述,針對DOSN數(shù)據(jù)存儲及存儲優(yōu)化問題研究面臨的挑戰(zhàn)和現(xiàn)有工作的分析與總結(jié),本文首先定量分析了朋友圈貢獻的總存儲容量與所能達到的數(shù)據(jù)可用性之間的關(guān)系;在此基礎(chǔ)之上,針對朋友圈總存儲容量有限所導(dǎo)致的數(shù)據(jù)可用性低下問題,提出了一種云輔助的DOSN數(shù)據(jù)存儲方案Cadros,解決了數(shù)據(jù)隱私保護問題,提高了數(shù)據(jù)可用性,并從理論上證明了Cadros方案的可行性和有效性,建立了實時數(shù)據(jù)可用性預(yù)測模型;然后研究了社交數(shù)據(jù)在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論