機(jī)群系統(tǒng)容錯中間件技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩135頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、在高性能計算機(jī)的研究當(dāng)中,如何保證系統(tǒng)的可用性和應(yīng)用的可靠性一直就是需要首要考慮的問題之一。機(jī)群以其高性價比和高可擴(kuò)展性已經(jīng)成為構(gòu)造高性能計算機(jī)一種主要的方法,而節(jié)點間松散耦合的結(jié)構(gòu)也使得機(jī)群系統(tǒng)更易于保證系統(tǒng)的可用性。隨著機(jī)群系統(tǒng)規(guī)模的逐漸增大,也帶來許多了新的問題,如更加頻繁的組件失效,軟件體系結(jié)構(gòu)的擴(kuò)展性等問題。這些新的問題對如何保證系統(tǒng)的可用性帶來了更多的挑戰(zhàn)。機(jī)群容錯中間件技術(shù)將機(jī)群、容錯和中間件技術(shù)結(jié)合在一起,是一種在機(jī)群系

2、統(tǒng)軟件層實現(xiàn)的能夠同時保證系統(tǒng)可用性和應(yīng)用可靠性的方法。 本文結(jié)合曙光4000A系統(tǒng)的機(jī)群操作系統(tǒng)Phoenix高可用核心的設(shè)計與實現(xiàn),對機(jī)群容錯中間件的關(guān)鍵技術(shù)進(jìn)行了探索,重點研究了:1)在大規(guī)模情況下,適用于機(jī)群系統(tǒng)的容錯中間件的框架與體系結(jié)構(gòu);2)在容錯中間件技術(shù)中,適合于大規(guī)模機(jī)群的容錯實現(xiàn)機(jī)制;3)在采用容錯中間件情況下,對機(jī)群系統(tǒng)可用性和應(yīng)用可靠性的評價。本文取得的研究成果如下: 1.在提出和分析機(jī)群系統(tǒng)規(guī)模

3、變大給系統(tǒng)可用性所帶來的新的挑戰(zhàn)后,提出了一 個用于大規(guī)模機(jī)群系統(tǒng)的容錯中間件框架DCFT-Kernel。這個框架采用了分區(qū)管 理的思想及“平等式”與“結(jié)構(gòu)式”結(jié)合的體系結(jié)構(gòu),較當(dāng)前的機(jī)群高可用軟件有效地解決了大規(guī)模系統(tǒng)所帶來的系統(tǒng)擴(kuò)展性、軟件體系結(jié)構(gòu)擴(kuò)展性、和容錯機(jī)制擴(kuò)展性等問題。DCFT-Kernel框架由組服務(wù)、故障管理服務(wù)、配置服務(wù) 、事件服務(wù)和用戶接口組成,能夠提供完備的錯誤偵測、錯誤修復(fù)、錯誤通知功能。 2.在分析

4、了將容錯技術(shù)應(yīng)用到機(jī)群系統(tǒng)在理論上需要解決的問題后,提出了一種 用于實現(xiàn)機(jī)群容錯中間件核心容錯機(jī)制的關(guān)鍵技術(shù)——組服務(wù)技術(shù)。機(jī)群容錯 中間件的工作基礎(chǔ)是自身的高可靠,組服務(wù)技術(shù)通過采用組結(jié)構(gòu)和成員關(guān)系協(xié)議,能夠保證機(jī)群容錯中間件自身在運行時嚴(yán)格的一致性和高可靠性。在組服務(wù)基礎(chǔ)上,提出的機(jī)群容錯機(jī)制充分考慮了機(jī)群系統(tǒng)和并行應(yīng)用的特點,提供 了層次化的故障偵測和處理方法,能夠?qū)Υ蟛糠值南到y(tǒng)故障和應(yīng)用故障進(jìn)行有 效的處理。 3.在曙光

5、4000A系統(tǒng)上實現(xiàn)了一個實際運行的機(jī)群容錯中間件系統(tǒng)DCFTM。DCFTM位于機(jī)群操作系統(tǒng)的核心,為機(jī)群操作系統(tǒng)的各種服務(wù)部件提供高可用支持,同時也可以直接向上層應(yīng)用程序提供編程接口,保障應(yīng)用程序的容錯運行。通過對DCFTM實際運行的性能分析表明:1)DCFTM能夠保證機(jī)群操作系統(tǒng)中各類服務(wù)的高可用運行,在故障處理時可以提供很高的響應(yīng)時間,能夠及時的發(fā)現(xiàn)和修復(fù)各種故障,并通知這些事件。2)DCFTM只占據(jù)很少的系統(tǒng)開銷,只要將心跳間隔

6、時間設(shè)置不低于1秒,即使在極限的負(fù)載情況下也能正常工作,且DCFTM的運行對系統(tǒng)上其它程序的運行性能影響在5%以下。 4.分析機(jī)群容錯中問件有效性的主要方法就是評價其對系統(tǒng)可用性和應(yīng)用可靠性的影響。在第六章,我們采用隨機(jī)回報網(wǎng)技術(shù),分別從系統(tǒng)和用戶兩個角度建立了考慮失效相關(guān)性的機(jī)群系統(tǒng)的可用性模型和機(jī)群并行應(yīng)用的可靠性模型。通過對模型求解后的結(jié)果分析表明:1)機(jī)群容錯中間件技術(shù)對系統(tǒng)的可用性提高比較明顯,而機(jī)群組件問的失效相關(guān)性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論