網(wǎng)格中基于軟計(jì)算的數(shù)據(jù)挖掘若干關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩159頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)有用知識的一種手段,已成為目前國際上數(shù)據(jù)庫和信息決策領(lǐng)域最前沿的研究方向之一,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。但隨著數(shù)據(jù)量越來越大和數(shù)據(jù)位置上的分布性,傳統(tǒng)的計(jì)算模式已滿足不了實(shí)際要求,而網(wǎng)格具有資源共享和協(xié)同求解的特點(diǎn),為大規(guī)模分布式數(shù)據(jù)提供了良好的分析和計(jì)算平臺。本文以網(wǎng)格服務(wù)為基礎(chǔ),軟計(jì)算為工具重點(diǎn)研究網(wǎng)格數(shù)據(jù)挖掘的若干關(guān)鍵技術(shù),包括海量數(shù)據(jù)分割、網(wǎng)格資源分配和調(diào)度以及分布式分類和函數(shù)挖掘算法等,主要工作

2、如下所示:
   (1)提出了面向服務(wù)的網(wǎng)格數(shù)據(jù)挖掘體系結(jié)構(gòu),詳細(xì)論述了該體系結(jié)構(gòu)下的各個功能模塊的內(nèi)容和相互之間的關(guān)系,同時介紹了網(wǎng)格數(shù)據(jù)挖掘的原型設(shè)計(jì)。
   (2)為了使得海量數(shù)據(jù)更好地在網(wǎng)格平臺下執(zhí)行分布式數(shù)據(jù)挖掘,提出并實(shí)現(xiàn)了基于GEP約簡的海量數(shù)據(jù)分割算法(Mass Data Partition based upon GEP ReductioN,MDP-GR),在MDP-GR算法中引入了基于GEP的屬性約簡,

3、通過GEP的約簡,提高了數(shù)據(jù)分割的效率,降低了計(jì)算量,同時大大減少了原始數(shù)據(jù)信息的遺失。
   (3)提出了基于并行基因表達(dá)式編程的網(wǎng)格資源分配算法(Grid Resource Allocation Algorithm based on Parallel GEP,GRA-PGEP)。仿真實(shí)驗(yàn)表明,利用基因表達(dá)式編程的遺傳操作和天然并行性的特點(diǎn),可以提高資源分配的質(zhì)量,很好地克服傳統(tǒng)啟發(fā)式算法的局部最優(yōu)問題。
   (4)

4、提出了基于GEP-BP的混合分類算法(Hybrid Classification Algorithm based upon GEP-BP,HCA-GB),利用GEP算法不斷優(yōu)化BP網(wǎng)絡(luò)的參數(shù),提高分類精度,加快BP算法的訓(xùn)練速度;同時在HCA-GB算法中,結(jié)合自適應(yīng)的動態(tài)種群產(chǎn)生策略,使得算法能夠產(chǎn)生足夠大的解空間。其次為了很好地解決分布式數(shù)據(jù)的分類問題,在HCA-GB算法的基礎(chǔ)上,結(jié)合網(wǎng)格服務(wù)的概念,給出了網(wǎng)格下基于GEP-BP的分布

5、式分類算法(Distributed Classification algorithm based upon GEP-BP in Grid,DC-GBGrid)。仿真實(shí)驗(yàn)表明,通過動態(tài)調(diào)整自適應(yīng)系數(shù),提高了HCA-GB的平均收斂次數(shù);對于大數(shù)據(jù)集而言,在局域網(wǎng)環(huán)境下,DC-GBGrid算法的平均耗時比傳統(tǒng)的算法少,分類精度比傳統(tǒng)的算法高。
   (5)提出了基于折半查找的屬性約簡算法(Optimum Attribution Red

6、uction on Binary Search Algorithm,OAR-BSA),通過OAR-BSA算法可以快速找到一個約簡,在此基礎(chǔ)上構(gòu)造新的樣本數(shù)據(jù)。同時在傳統(tǒng)GEP算法的基礎(chǔ)上,結(jié)合折半查找和網(wǎng)格服務(wù)的思想,提出了網(wǎng)格下基于GEP和折半查找的分布式函數(shù)挖掘算法(Distributed Function Mining on GEP and Binary Search in Grid,DFMGBS)。DFMGBS算法利用屬性約簡提

7、高函數(shù)挖掘的效率和成功率,同時在全局模型生成中給出了函數(shù)一致性合并算法,使得到的全局模型能夠擬合大部分的樣本數(shù)據(jù)。仿真實(shí)驗(yàn)表明,OAR-BSA算法求解最優(yōu)約簡比傳統(tǒng)的算法要快,DFMGBS算法比GEP和并行GEPSA算法的平均耗時要小,且隨著網(wǎng)格節(jié)點(diǎn)個數(shù)的增加,DFMGBS算法的全局?jǐn)M合誤差明顯下降。
   (6)設(shè)計(jì)并實(shí)現(xiàn)網(wǎng)格數(shù)據(jù)挖掘原型系統(tǒng)(Grid Data Mining System,GDMS)。首先介紹了GDMS系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論