基于粗集的關(guān)系型聯(lián)機分析優(yōu)化技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著數(shù)字時代的到來,企業(yè)積累的數(shù)據(jù)呈爆炸式增長,在海量數(shù)據(jù)上的分析決策已成為當(dāng)前數(shù)據(jù)庫領(lǐng)域的一大難題;而與此同時,分布式計算的飛速發(fā)展則為解決這一難題帶來了機遇和新的挑戰(zhàn)。構(gòu)建一個具有分布式特征的關(guān)系型數(shù)據(jù)倉庫,并輔之以高效的聯(lián)機分析優(yōu)化手段,成為依托已有成熟技術(shù)解決這一難題的首選。多維作為聯(lián)機分析中最本質(zhì)的特征,在關(guān)系型數(shù)據(jù)倉庫中以視圖的形式體現(xiàn),因此在滿足一定數(shù)據(jù)實時性的前提下,高效地維護視圖成為關(guān)系型聯(lián)機分析優(yōu)化的最根本任務(wù)。基于

2、這一應(yīng)用背景,在自主研制的企業(yè)加速引擎基礎(chǔ)上集成了聯(lián)機分析處理功能,構(gòu)建了一個關(guān)系型的分布式數(shù)據(jù)倉庫系統(tǒng)DMWS。利用四層架構(gòu)達到了DMWS的高可擴展性,借助粗集的相對不可辨識聚類在自治站點上實現(xiàn)了數(shù)據(jù)粒度可控的事實垂直分區(qū),基于粗集約簡的分層視圖更新有效地提高了大規(guī)模負載下DMWS更新視圖的效率。
   本文提出了一種基于層次外關(guān)鍵字引用搜索加選擇率度量的負載水平分布方法。該方法首先基于廣度優(yōu)先搜索一組查詢和更新代價較高且存在

3、單向外關(guān)鍵字傳遞引用的單親關(guān)系構(gòu)成聯(lián)合集;然后依據(jù)查詢選擇率水平傳遞劃分聯(lián)合集;最后基于DMWS的四層倉庫架構(gòu),采用round-robin方法均勻分布聯(lián)合水平分區(qū)。利用分布于數(shù)據(jù)源和自治站點上的觸發(fā)系統(tǒng),DMWS能夠保證倉庫視圖的強一致性更新;通過將聯(lián)合集水平分布于自治站點,該方法實現(xiàn)了自治站點對更新負載的有效分攤,因而大大增強了DMWS的可擴展性;在此基礎(chǔ)上,依據(jù)選擇率劃分水平分區(qū),使得聯(lián)合集的元組具有站點凝聚特性,且凝聚優(yōu)先考慮與高

4、代價視圖相關(guān)的更新數(shù)據(jù)。
   本研究通過粒計算描述粗集理論及其相關(guān)擴展,并提出三種與知識發(fā)現(xiàn)相關(guān)的粗集擴展新方法?;诟怕仕枷氲膬蓪咏品椒ㄍㄟ^閥值控制對象集的近似邊界以線性比率變化,有效提高了知識獲取的容錯性;基于相對不可辨識類的偏序結(jié)構(gòu)利用鄰域?qū)ο蠼⑻卣骷?,有利于解決非三角距離的對象聚類問題;在這兩種?;瘮U展方法之上,既約特征集有力地揭示了特征集內(nèi)部的層次關(guān)系,為特征集的分層類化提供了一條極具啟發(fā)意義的途徑。在聯(lián)合水平分

5、布前提下,提出了一種針對自治站點上事實關(guān)系的時態(tài)垂直分區(qū)劃分方法。利用對每個查詢樣本的分解,該方法首先將事實關(guān)系劃分為一個由阻塞算子界定的屬性訪問特征集;然后基于全部查詢樣本下的特征集構(gòu)建一個聚類模型。為求解這個對象距離不滿足三角不等式的聚類模型,在粗集不可辨識關(guān)系的基礎(chǔ)上,基于偏序結(jié)構(gòu)迭代收斂的特性,構(gòu)造了一個粒度可控的聚類求解模型。面向復(fù)雜多樣的查詢時,基于查詢分解構(gòu)造聚類模型并依據(jù)有效性函數(shù)選取候選聚類,可以有效克服傳統(tǒng)事務(wù)劃分方

6、法分區(qū)粒度過小的缺點,因此該方法能夠更加有效地發(fā)掘聯(lián)機分析查詢訪問事實關(guān)系屬性的時態(tài)局部性。
   本文針對多連接視圖提出了一種基于輔助視圖的粗分層增量維護方法。依據(jù)局部更新負載在集成器上合并的時機,弱局部合并和強局部合并對集成器負載的影響被放到DMWS環(huán)境下分別加以分析。由于強局部合并下全局查詢的主要負載集中在各自治查詢上,因而通過選擇下推,SPJ視圖被轉(zhuǎn)換為自治站點間的多連接視圖進行優(yōu)化。在此基礎(chǔ)上,首先基于查詢視圖兩兩之間

7、的共享關(guān)系構(gòu)造輔助視圖的候選空間;然后將查詢視圖和中間視圖分別作為對象集和特征集,利用粗集約簡構(gòu)造一個中間視圖候選集的層次生成方法,并證明了各層中任意候選集內(nèi)的視圖相互獨立且高層單向依賴于低層視圖集;最后在層內(nèi)選取有效代價最低者作為待選視圖集,并淘汰待選視圖集中造成聯(lián)合代價增加的視圖。具有獨立和依賴特性的待選視圖集改進了已有估算選取方法局部考量跨度小的不足,基于有效代價確定待選視圖集顯著減少了估算時間復(fù)雜度。層次特征的關(guān)系型聯(lián)機分析優(yōu)化

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論