版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于Hadoop數(shù)據(jù)挖掘算法研究,導(dǎo)師:王靜宇 學(xué)生:盧勝宇,Cloud Computing,1,2,3,課題的背景,基于Hadoop平臺的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實驗與結(jié)果分析,相關(guān)概念,Cloud Computing,課題背景,聚類算法及其分類Kmeans算法Canopy算法HadoopMapReduce,Cloud Computing,聚類算法及其分類,聚類是對點
2、進行考察并按照某種距離測度將它們聚成多個“簇”的過程。聚類的目標(biāo)是使得同一簇內(nèi)的點之間距離比較短,而不同簇中點之間距離較大。,課題背景,Cloud Computing,課題背景,,聚類主要包括以下幾個過程:數(shù)據(jù)準(zhǔn)備、特征選擇、提出、特征提取、聚類、聚類結(jié)果驗證。動態(tài)的聚類過程步驟如下所示:,Cloud Computing,課題背景,Canopy 算法是 McCallum提出的一種簡單、快速、但不太準(zhǔn)確的聚類方法,是專門應(yīng)對高維海量數(shù)據(jù)
3、源的一種新型聚類算法。算法的思路是:首先在計算數(shù)據(jù)樣本距離時采用算法復(fù)雜度低的距離度量(metric distance),把樣本數(shù)據(jù)集劃分為一些部分重疊的子集,這種子集稱之為華蓋(canopies)。然后,在傳統(tǒng)聚類中,比如 k 均值,應(yīng)用復(fù)雜度高的度量距離,進一步計算,從而使得高維海量數(shù)據(jù)源聚類難題易于實現(xiàn)。,K-Means算法是由 MacQueen 提出來的,該算法思想簡單,實現(xiàn)相對容易,在多個學(xué)科里面都有廣泛應(yīng)用。它是聚類算法中最
4、常見的劃分方法,所謂的劃分方法就是給定一個包含 n 個數(shù)據(jù)對象的數(shù)據(jù)集,將數(shù)據(jù)集劃分為 k 個子集,其中每個子集均代表一個聚類,同一聚類中的對象相似度較高,而不同聚類中的對象相似度較小。,Cloud Computing,Hadoop平臺,Hadoop是Apache旗下開源的分布式計算框架,可編寫以及可運行分布式應(yīng)用來處理大規(guī)模數(shù)據(jù)。Hadoop框架最核心組成部分就是HDFS(Hadoop Distributed File System)
5、和MapReduce。,課題背景,Cloud Computing,課題背景,,MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念Map(映射)和Reduce(歸約),是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。 當(dāng)前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值
6、對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。,MapReduce,為什么選擇基于Hadoop平臺的Canopy-Kmeans并行算法?,Cloud Computing,課題背景,Cloud Computing,1.隨著大數(shù)據(jù)時代的到來,同時硬件的提升也越來越困難,導(dǎo)致現(xiàn)在我們在單機下處理大規(guī)模數(shù)據(jù)遇到了前所未有的阻力和難度。2.傳統(tǒng)的K-means算法在處理海量數(shù)據(jù)時效率低下、聚類質(zhì)量差等
7、弊端日益顯露出來,其時間復(fù)雜度較高且處理數(shù)據(jù)的能力存在局限性也尤為突出。3.基于Hadoop平臺的CK-means并行算法,該算法采用canopy算法改善K-means算法在確定初始聚類中心的盲目性,采用并行計算框架對算法并行擴展,使之能夠適應(yīng)對海量數(shù)據(jù)處理。,課題背景,1,2,3,課題的背景,基于Hadoop平臺的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實驗與結(jié)果分析,Cloud Compu
8、ting,算法的基本思想,CK-means算法是對K-means算法的一種優(yōu)化,算法的思想為:采用基于余弦距離度量方式的canopy聚類算法對數(shù)據(jù)集初始中心點進行優(yōu)化,canopy聚類算法利用MapReduce計算模式實現(xiàn)并行計算運行,經(jīng)過Map和Reduce階段得到全局的canopy中心集合,在對數(shù)據(jù)集進行精確聚類之前,還需要利用上面獲取的全局canopy中心集合對數(shù)據(jù)集進行粗糙聚類,生成多個互相重疊的canopy聚類集合,這一系列的
9、工作為下一步K-means精確聚類奠定基礎(chǔ)。,算法流程,Canopy中心點生成,得到穩(wěn)定的聚類,結(jié)束,Canopy粗糙聚類生成,中心點標(biāo)注,新中心點生成,聚類結(jié)果生成,開始,,,,,,,,Cloud Computing,,,Cloud Computing,Canopy—Kmeans算法并行實現(xiàn),根據(jù)前面的Canopy_Kmeans算法并行流程圖,我們將整個過程設(shè)計成了兩個MapReduce階段,第一階段執(zhí)行Canopy算法,第二階段
10、執(zhí)行Kmeans算法。,第一階段Canopy算法的MapReduce實現(xiàn),實現(xiàn)Canopy算法包括三個MR,即三個Job,可以描述為下面2個步驟:(1)Job1:將輸入數(shù)據(jù)處理為Canopy算法可以使用的輸入格式。(2)Job2:每個Mapper針對自己的輸入執(zhí)行Canopy聚類,輸出每個Canopy的中心向量。(3)Job2:每個Reducer接收Mapper的中心向量,并加以整合以計算最后的Canopy的中心向量。(4)Jo
11、b3:根據(jù)Job2的中心向量來對原始數(shù)據(jù)進行分類。,,Cloud Computing,第二階段Kmeans算法的MapReduce實現(xiàn),Kmeans算法利用上一階段的生成的簇中心向量列表,對數(shù)據(jù)對象集合進行劃分其主要的MapReduce編程模型包括了Map、Combine和Reduce三個階段。,Map階段,輸入依然是各個數(shù)據(jù)塊集合,輸入格式為,,,Combine階段,,Combine函數(shù)用于合并Map結(jié)果中相同的key2的鍵值對,輸入
12、是Map的輸出m,key3依然還是簇類向量標(biāo)識符,value3為相同key3的所有向量組合和這些向量的數(shù)目。,,Reduce階段,,處理屬于同一簇的所有數(shù)據(jù)對象向量,并重新生成新的簇類中心向量,其輸入輸出均是鍵值對形式,輸入信息是各個子節(jié)點的combine結(jié)果,輸出信息是簇類標(biāo)識符和新的簇類中,,1,2,3,課題的背景,基于Hadoop平臺的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實驗與結(jié)果分析
13、,,Cloud Computing,實驗平臺的搭建,由于實驗條件有限,本實驗平臺集群共4臺計算機,搭建4個節(jié)點,服務(wù)器的配置如下表所示:,服務(wù)器的網(wǎng)絡(luò)配置如下,操作系統(tǒng):CentOS 6JDK 版本:1.7Hadoop版本:2.5.2Mahout版本:0.10.1,Cloud Computing,軟件環(huán)境,搭建Hadoop集群,Hadoop部署情況:,,Cloud Computing,啟動集群和Mahout,Web UI查看集群是
14、否啟動成功,在Master節(jié)點上啟動Firefox瀏覽器,在瀏覽器地址欄輸入http://master:50070/,檢查namenode和datanode是否啟動正常。啟動正常的UI頁面如圖2.10所示:,當(dāng)Hadoop平臺正常啟動后,然后啟動Mahout,,Cloud Computing,實驗過程,,首先要準(zhǔn)備數(shù)據(jù),本實驗運用的數(shù)據(jù)是在網(wǎng)站:http://archive.ics.uci.edu/ml/databases/synth
15、etic_control/synthetic_control.data中下載相應(yīng)數(shù)據(jù)synthetic_control.data。測試數(shù)據(jù)是由Dr Robert Alcock在1999年利用程序合成的600個樣本的控制圖數(shù)據(jù)。每個樣本包括60個屬性列,一共可以分為6類,分別為:正常(C)、循環(huán)(B)、上升趨勢(E)、下降趨勢(A)、向上移位(D)、向下移位(F)。首先上傳該文本數(shù)據(jù)到HDFS。上傳后在文件系統(tǒng)監(jiān)控界面查看此文件。,,Cl
16、oud Computing,分別執(zhí)行Canopy算法和Kmeans算法,,Cloud Computing,實驗結(jié)果分析,并行算法收斂曲線圖,算法加速比分析,,Cloud Computing,算法可擴展性分析,1,2,3,課題的背景,基于Hadoop平臺的Canopy-Kmeans并行算法,課題總結(jié),Cloud Computing,4,實驗與結(jié)果分析,課題總結(jié)——已完成的工作,針對傳統(tǒng)的串行K-means聚類算法在處理海量數(shù)據(jù)時出現(xiàn)性能及
17、初始聚類中心敏感等問題,提出了一種基于Hadoop平臺的并行CK-means聚類算法,該算法采用Canopy算法和余弦相似度度量來改善K-means算法在確定初始聚類中心的盲目性,采用并行計算框架對算法并行擴展,使之能夠適應(yīng)海量數(shù)據(jù)處理。實驗結(jié)果表明提出的基于Hadoop 平臺的CK-means并行算法具有更好的聚類質(zhì)量,在處理海量數(shù)據(jù)時具有良好的加速比和擴展性。,課題總結(jié)——已完成的工作,本文的主要工作有:,(1)針對傳統(tǒng)的串行K-m
18、eans聚類算法在處理海量數(shù)據(jù)時出現(xiàn)性能及初始聚類中心敏感等問題,提出了一種基于Hadoop平臺的并行CK-means聚類算法。(2)通過利用代價低的余弦相似性度量方式的Canopy算法快速獲取聚類中心作為K-means并行算法的初始聚類中心,加快K-means算法的收斂速度。(3)該算法對原始數(shù)據(jù)使用基于余弦相似度度量方式的Canopy算法進行聚類和覆蓋劃分,使得并行K-means算法進行精確聚類時不需要計算不處于同一個C
19、anopy的點之間的距離,這在很大程度上減少計算量。(4)實驗驗證所提出的CK-means算法的聚類質(zhì)量、加速比和擴展性。,研究進度—存在的問題,雖然在搭建好的Hadoop平臺上對本文提出的一種基于Hadoop平臺的CKmeans算法進行了實驗驗證,但實驗數(shù)據(jù)單一,并且由于條件有限,adoop平臺下處理數(shù)據(jù)的結(jié)點較少,這也造成了該算法在不同量的結(jié)點上得出的結(jié)論,且本實驗沒有在單機模式下也就是看kmeans串行算法進行對比實驗,這也將是
20、論文下一步的工作重點。,課題總結(jié)——下一步改進計劃,(1)繼續(xù)對Hadoop平臺的相關(guān)技術(shù)進行研究,對Hadoop中的HDFS分布式存儲系統(tǒng)與MapReduce編程模式做進一步研究。(2)繼續(xù)完善實驗平臺,由于實驗室結(jié)點有限,以后要盡量選擇多的節(jié)點對本文提出的算法進行并行實驗,并選擇不同數(shù)據(jù)集對本文提出的算法驗證。,期刊論文發(fā)表情況(已見刊),盧勝宇,王靜宇,張曉琳,高俊峰.基于Hadoop平臺的K-means聚類算法優(yōu)化研究[J].
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 碩士研究生論文答辯秘書用
- 碩士研究生畢業(yè)學(xué)位論文答辯記錄
- 碩士研究生學(xué)位論文答辯評分表
- 碩士研究生論文答辯及學(xué)位申請
- 2008年碩士研究生學(xué)位論文答辯安排
- 碩士研究生學(xué)位論文答辯孫世元
- 碩士研究生結(jié)業(yè)論文答辯資格審查表
- 碩士研究生畢業(yè)論文答辯資格審查表
- 碩士研究生論文答辯上交材料明細表
- 2015屆碩士研究生論文答辯安排表
- 碩士研究生畢業(yè)論文答辯資格審查表
- 2016年碩士研究生畢業(yè)論文答辯ppt超贊動畫效果
- 2018年碩士研究生學(xué)位論文答辯流程春季學(xué)期
- 2018屆mba碩士研究生畢業(yè)論文答辯安排
- 碩士研究生論文答辯及學(xué)位申請------工作手冊
- 碩士研究生學(xué)位論文答辯委員會決議模板
- 公共管理mpa專業(yè)碩士研究生畢業(yè)論文答辯安排
- 公共管理mpa專業(yè)碩士研究生畢業(yè)論文答辯安排
- 計量學(xué)院2004級碩士研究生學(xué)位論文答辯會
- 公共管理mpa專業(yè)碩士研究生畢業(yè)論文答辯安排
評論
0/150
提交評論