版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p><b> 北京航空航天大學</b></p><p> 本科畢業(yè)設計(論文)中期報告</p><p> 論文題目:面向Hadoop科學工作流的可視化支撐環(huán)境</p><p><b> 的研究與實現</b></p><p><b> 專業(yè)名稱:</b>&
2、lt;/p><p><b> 學生姓名:</b></p><p><b> 指導教師:</b></p><p> 北京航空航天大學計算機學院</p><p> 2012年4月12日</p><p><b> 目錄</b></p>&l
3、t;p> 1、課題背景和意義1</p><p> 2、研究目標和內容2</p><p> 2.1、用戶交互界面的設計與實現2</p><p> 2.2、工作流XML描述腳本的動態(tài)生成與解析2</p><p> 2.3、監(jiān)視系統(tǒng)的研究與實現2</p><p><b> 3、工作進展
4、3</b></p><p> 3.1 用戶交互界面的工作進展3</p><p> 3.2 XML腳本生成器與解析器的工作進展4</p><p> 3.3 Hadoop監(jiān)視系統(tǒng)的工作進展6</p><p><b> 4、下一步計劃7</b></p><p> 5、主要參
5、考文獻7</p><p><b> 1、課題背景和意義</b></p><p> 本課題來源于軟件開發(fā)環(huán)境國家重點實驗室承擔的工信部“唯實”人才培育基金“面向科研群組的科技資源云共享機制研究”的后續(xù)研究工作。</p><p> 工作流[](Workflow),是對工作流程及其各個步驟之間業(yè)務規(guī)劃的抽象、概括和描述。為了減少科研人員在科研
6、計算環(huán)境工作上的精力投入,各個科研組織亟須一種類似于管理業(yè)務流程的工作流管理平臺來對復雜的科學計算流程進行定義和自動化管理??茖W工作流(Scientific Workflow, SWF)技術正是在這種需求下應運而生,它作為一種促進和保障協同開發(fā)的技術路線,為科研人員提供一個科學計算流程定義和自動運行的管理平臺。SWF是工作流技術在科學研究領域的應用,如今已經成為網絡基礎設施之上進行大規(guī)模科學計算和協同研究的有效方法。相對于以過程為中心,
7、面向控制流的商業(yè)工作流,SWF通常是圍繞試驗進行的,以數據為中心,面向數據流的分析管道。SWF趨向于建立一個以數據流為導向的可執(zhí)行模型,而業(yè)務工作流則把重點放在控制流的模式與活動。工作流應用到科學研究領域,不僅僅在于它能夠對一些重復性任務進行自動控制,同時,它能夠在不同層面對復雜的分析過程進行跟蹤[]。</p><p> Hadoop[]是一個云計算環(huán)境下的分布式系統(tǒng)基礎架構,用戶可以在不了解分布式底層細節(jié)的情
8、況下開發(fā)分布式程序。Hadoop技術的兩大核心是MapReduce[]和HDFS[]。MapReduce是由Google公司開發(fā)的一種可用于數據處理的編程模型,它的任務過程被分為兩個處理階段:map階段和reduce階段,每個階段都以鍵/值對作為輸入和輸出,并由程序員選擇它們的類型,同時還需具體定義兩個函數:map函數和reduce函數。HDFS(Hadoop Distributed File System)是Hadoop實現的一個分布
9、式文件系統(tǒng),它有著高容錯性的特點,并且設計用來部署在低廉的硬件上。Hadoop能夠對大量數據進行分布式處理,而且其處理方式是可靠的、高效的和可伸縮的,將Hadoop應用于科學工作流可以大大提高科學計算的效率。</p><p> 本課題研究的面向Hadoop科學工作流的可視化支撐環(huán)境,其意義主要體現在以下2點:</p><p> 1、科研人員可以在交互界面實現對科學計算流程的靈活定制,且
10、Hadoop平臺上的計算過程對于用戶都是透明的,科研人員無需關心數據計算的具體實現,這大大提高了科研工作的效率;</p><p> 2、通過監(jiān)視系統(tǒng)的信息反饋,科研人員可以在交互界面實時查看作業(yè)中各個任務在Hadoop平臺上的運行狀態(tài)。</p><p><b> 2、研究目標和內容</b></p><p> 科學工作流的可視化支撐環(huán)境的研
11、究目的是為科研人員提供一個科學計算流程定義以及作業(yè)運行狀態(tài)監(jiān)測的管理平臺,該管理平臺結構如圖3-1所示, </p><p> 圖2-1 可視化支撐環(huán)境系統(tǒng)結構圖</p><p> 該可視化支撐環(huán)境系統(tǒng)的研究內容主要包括以下3部分:</p><p> 2.1、用戶交互界面的設計與實現</p><p> 對科研人員的科學計算工作流程進行
12、調研,針對用戶需求進行分析,設計功能完善且用戶友好型的交互界面,并用相關的Web技術加以實現;</p><p> 2.2、工作流XML描述腳本的動態(tài)生成與解析</p><p> 研究并實現科學工作流XML描述腳本的生成器與解析器,利用XML腳本生成器根據作業(yè)提交信息動態(tài)生成工作流XML描述腳本,該腳本提供了作業(yè)內部多個任務的先后執(zhí)行順序,并利用XML腳本解析器對該XML描述腳本進行解析
13、,將得到的解析結果存入關系數據庫,為Hadoop平臺的程序執(zhí)行提供依據;</p><p> 2.3、監(jiān)視系統(tǒng)的研究與實現</p><p> 為了能夠實時地查看作業(yè)的運行狀態(tài),包括作業(yè)內部各個任務的運行狀態(tài)(包括開始時間、等待時間、執(zhí)行時間、完成百分比和執(zhí)行結果等),我們需要設計一個監(jiān)視系統(tǒng)來對這些數據進行監(jiān)測,并將這些數據存入關系數據庫。</p><p><
14、;b> 3、工作進展</b></p><p> 3.1 用戶交互界面的工作進展</p><p> WireIt是一個可以用于開發(fā)數據流應用、可視化編程語言、圖形化建模以及圖形化編輯器的開源javascript庫。同時,WireIt自身調用了YUI和InputEx,YUI和InputEx都是開源的javascript庫。</p><p> 由
15、于是在WireIt基礎上開發(fā)交互界面,我首先對WireIt的源代碼進行了研究,其源代碼的簡要UML類圖如下圖所示:</p><p> 圖3.1 WireIt源代碼UML類圖</p><p> WireIt是一個可以靈活定制的開源工具,如下圖是一個自定義的工作流:</p><p> 圖3.2 自定義的工作流</p><p> 3.2 X
16、ML腳本生成器與解析器的工作進展</p><p> XML腳本的生成由交互界面內的javascript代碼來完成,由于交互界面還處于前臺的設計編碼階段,故XML腳本生成器會在后期的工作中完成。</p><p> 在前段時間的工作中,我完成了XML腳本解析器的代碼編寫,其UML類圖結構如下圖所示:</p><p> 圖3.3 XML腳本解析器UML類圖</
17、p><p> 在完成了XML腳本解析器的同時,我還完成了工作流數據庫表的設計,并實現了從工作流XML描述腳本到數據庫的存儲,其表設計如下所示。</p><p> Workflow表(用于存儲當前最大的工作流編號): </p><p> Block表(用于存儲工作流中的作業(yè)):</p><p> Connector表(用于存儲工作流中作業(yè)之
18、間的聯系):</p><p> 3.3 Hadoop監(jiān)視系統(tǒng)的工作進展</p><p> 在Hadoop監(jiān)視系統(tǒng)方面,我前段時間主要學習了Hadoop平臺的工作機制,包括Hadoop運行MapReduce作業(yè)的工作原理、MapReduce的shuffle和排序機制以及狀態(tài)更新在MapReduce系統(tǒng)中的傳遞過程。該監(jiān)視系統(tǒng)的實現依賴于狀態(tài)更新在MapReduce系統(tǒng)中的傳遞。</
19、p><p> 圖3.4 狀態(tài)更新在MapReduce系統(tǒng)中的傳遞過程</p><p> 經過學習并仔細研究,我總結出了4種方法可以從Hadoop系統(tǒng)中獲取工作流的運行狀態(tài),并準備在后期的工作中加以實現:</p><p> 通過 Hadoop Java API 編程獲取狀態(tài)</p><p> 通過Hadoop內置的計數器獲取狀態(tài)</p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網格環(huán)境下基于科學工作流的可視化研究與實現.pdf
- 工作流及其可視化研究與應用.pdf
- 面向用戶的科學工作流數據跟蹤的研究與實現.pdf
- 可視化工作流模型的設計與實現研究.pdf
- e-Science工作流可視化編輯器的研究與實現.pdf
- 可視化工作流建模工具的設計與實現.pdf
- 工作流實例方面可視化建模工具的研究.pdf
- 多集群網格環(huán)境中面向科學工作流應用的調度研究.pdf
- 基于工作流的過程管理可視化平臺研究.pdf
- 工作流引擎及其可視化實現關鍵技術研究.pdf
- BPEL4WS工作流可視化建模工具的設計與實現.pdf
- 面向科學工作流的云數據布局方法研究.pdf
- 基于Eclipse的可視化工作流編輯器的研究與實現.pdf
- 可視化工作流建模工具的研究與設計.pdf
- 基于eclipse的可視化工作流編輯器的研究與實現(1)
- 基于Hadoop的工作流系統(tǒng)設計與實現.pdf
- 面向應用的可視化環(huán)境研究.pdf
- 面向服務的工作流研究與實現.pdf
- 支持復雜應用的工作流模型的研究與一個可視化工作流定義工具的實現.pdf
- 科學計算可視化報告
評論
0/150
提交評論