Computational Analysis of Biological Data on Parallel Architectures.pdf_第1頁
已閱讀1頁,還剩153頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、并行體系結(jié)構(gòu)的優(yōu)越性應(yīng)該用來處理超指數(shù)增長的生物學(xué)數(shù)據(jù),這一事實(shí)揭示了本論文的兩個(gè)方面。本文我們提出了一種計(jì)算密集型生物學(xué)數(shù)據(jù)分析的解決方案。文中所研究的生物學(xué)數(shù)據(jù)對象是生物序列、結(jié)構(gòu)和網(wǎng)絡(luò)。此外,我們利用的是不同的并行體系結(jié)構(gòu),英特爾多核、多核CPU以及集群。
  本文第一個(gè)貢獻(xiàn)是一種新的并行 k路原地歸并算法—Lazy-Merge。該歸并算法是本論文中整個(gè)工作的最后一步。由于本文中提出的生物學(xué)計(jì)算方法的加速算法是在將生物學(xué)數(shù)據(jù)

2、集分成可并行的較小部分基礎(chǔ)上進(jìn)行處理的,所以該 Lazy-Merge是本文必不可少的一步。最后,一個(gè)結(jié)果中的每一部分與其他結(jié)果進(jìn)行融合來形成最終結(jié)果。
  本 Lazy-Merge算法包含三部分。第一部分描述了輸入段的劃分的過程和目的;這一部分將原來的k路歸并任務(wù)重定義為大小確定的t個(gè)較小的k路歸并任務(wù),這里的t為劃分?jǐn)?shù)。第二部分描述不連續(xù)段的歸并過程。最后一部分是以正確順序使用不完全歸并的段的算法。Lazy-Merge時(shí)間復(fù)雜度

3、分析O(k×log(n/k)).
  我們計(jì)劃使用三種不同的數(shù)據(jù)。第一種規(guī)模上萬;他的輸入規(guī)模在到之間,我們稱之為數(shù)據(jù)集1。第二種有幾千萬的規(guī)模;大約從到,我們稱之為數(shù)據(jù)集2。增加數(shù)據(jù)集1和數(shù)據(jù)集2的方法是取其原有規(guī)模的兩倍;換句話說,將”2”的指數(shù)加1。
  實(shí)驗(yàn)結(jié)果顯示,Lazy-Merge算法在移動(dòng)次數(shù)和總用時(shí)上均勝過已有算法。使用128個(gè)線程來處理數(shù)據(jù)集1和數(shù)據(jù)集2,Lazy-Merge在與重復(fù)2路原地歸并任務(wù)的比較

4、樹的比較中,平均減少了8.5倍的移動(dòng)次數(shù)。移動(dòng)的次數(shù)減少的程度隨劃分?jǐn)?shù)的增多而上升。另外,對數(shù)據(jù)集1,Lazy-Merge相比于bitonic算法和Guan’s算法分別具有4.4倍和5.4倍的移動(dòng)次數(shù)下降。對于數(shù)據(jù)集2,在規(guī)模最大的的情況下Lazy-Merge相比于bitonic算法具有3.2倍的移動(dòng)次數(shù)下降。在數(shù)據(jù)集1的運(yùn)行時(shí)間方面,Lazy-Merge比bitonic和Guan的算法分別快了2.5倍和292倍。在數(shù)據(jù)集2的運(yùn)行時(shí)間方

5、面,Lazy-Merge相比bitonic算法表現(xiàn)出5.7倍的加速比。
  在第二個(gè)貢獻(xiàn)中,我們通過解決兩大不同的問題來處理生物序列。這兩大問題是多序列聯(lián)配(MSA)問題和系統(tǒng)發(fā)育樹重建問題。
  據(jù)我們所知,大多數(shù)現(xiàn)有的并行MSA問題的解決方法都是在工作站或者網(wǎng)絡(luò)集群上實(shí)現(xiàn)的。這種體系結(jié)構(gòu)的計(jì)算機(jī)價(jià)格比較高,而且對于非專業(yè)的用戶來說使用比較困難。眾所周知,使用配有共享存儲器與多核處理器的計(jì)算機(jī)如今已經(jīng)普遍存在。
  

6、我們提出了一個(gè)在多核以及眾核體系結(jié)構(gòu)中處理MSA的并行策略—CDAM。CDAM的動(dòng)機(jī)是將大規(guī)模序列組分解成若干任何一個(gè) MSA程序都可以處理的小規(guī)模子序列組。用集群的方法來分解序列組的原因是序列之間的距離越短,聯(lián)配出現(xiàn)的錯(cuò)誤就會越少。
  我們在 CDAM中采用了五種聚類算法:CD-hit,UCLUST,SiLiX,CLUSS和BLASTClust;四種主流的基準(zhǔn):BAliBASE,PREFAB,IRMBASE和OXBench,以

7、及28個(gè)大規(guī)模人工合成的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果清晰地表明,不同的聚類方法對CDAM的速度和精度的影響各不相同,CDAM(UCLUST)和CDAM(CD-hit)的綜合性能最佳。盡管 CDAM(UCLUST)和CDAM(CD-hit)分別平均失去了2.19%和2.87%的聯(lián)配精確度,但是它們可以將算法的執(zhí)行時(shí)間分別提高151倍和111倍。
  此處我們解決的另外一個(gè)序列分析問題是系統(tǒng)發(fā)育樹的構(gòu)建。一個(gè)系統(tǒng)發(fā)育(進(jìn)化)樹的構(gòu)建是計(jì)算生物學(xué)中

8、的一個(gè)重大挑戰(zhàn)。系統(tǒng)發(fā)育樹描述了從 DNA多序列聯(lián)配或 AA序列(taxa)代表的生物體開始的生物體之間的進(jìn)化關(guān)系。比較分析最近的調(diào)查可得出,使用ML方法的最精確、最快速的軟件工具是PHYML和RAxML。
  我們提出了一個(gè) PhyML的改進(jìn)方法—Fast-PhyML,F(xiàn)ast-PhyML可以縮小PhyML由于序列數(shù)量的增加造成的執(zhí)行時(shí)間增加而帶來的差距。對于此處提出的軟件工具,我們進(jìn)行了并行性能測試,結(jié)果顯示了加速 PhyML

9、的引導(dǎo)計(jì)算的潛力。該測試的測試平臺是多核和眾核體系結(jié)構(gòu)、測試對象是 DNA序列和蛋白序列,獲得了相當(dāng)大的加速比;由于MICCPU協(xié)處理器,MIC的加速比比多核更高。
  作為第三個(gè)貢獻(xiàn),我們處理了生物學(xué)結(jié)構(gòu)。我們把蛋白質(zhì)結(jié)構(gòu)比對作為中心論題。
  然而,由于新結(jié)構(gòu)數(shù)目持續(xù)穩(wěn)定增長,在個(gè)人計(jì)算機(jī)或服務(wù)器上的蛋白質(zhì)結(jié)構(gòu)比較成為一項(xiàng)棘手的任務(wù)。因此,為解決這個(gè)問題,急需提供一個(gè)大規(guī)模的并行工具。
  這一工具無論在平均數(shù)據(jù)庫

10、構(gòu)建還是搜索時(shí)間上都表現(xiàn)出線性的近乎完美的加速比。在一個(gè)單獨(dú)的14核的工作站上使用這一工具,數(shù)據(jù)集3平均可以在1.9和5.6秒內(nèi)完成搜索,而用3D-BLAST and PSISA則分別需要25和75秒。且這一工具對精確度沒有任何影響。
  我們的第四個(gè)貢獻(xiàn)是處理了生物網(wǎng)絡(luò)。降維和可視化是有效地分析和解釋生物網(wǎng)絡(luò)的高維數(shù)據(jù)的關(guān)鍵環(huán)節(jié)。矩陣的分解和可視化,允許用戶顯示感興趣的生物網(wǎng)絡(luò)的基本結(jié)構(gòu)及其隨時(shí)間演變過程。生物網(wǎng)絡(luò)可視化面臨的是

11、一個(gè)巨大的數(shù)據(jù)集。
  我們提供了生物網(wǎng)絡(luò)快速的NMF。多核和非負(fù)矩陣分解的計(jì)算密集型任務(wù)的多核心版本(NMF)。該工具的目標(biāo)是使生物網(wǎng)絡(luò)圖更簡單和更快速的降維分析。此外,它可以作為眾所周知的工具,如Cytoscape的一個(gè)插件。
  我們利用字符串?dāng)?shù)據(jù)庫作為源數(shù)據(jù)庫。然后,針對三種不同的硬件配置,我們從眾多的數(shù)據(jù)集中提取了3個(gè)。它們的大小分別是9533,21215和25713的數(shù)據(jù)集-1,數(shù)據(jù)集-2和數(shù)據(jù)集-3。這些數(shù)據(jù)集

12、上分別用在不同的并行體系結(jié)構(gòu)的多核,眾核以及多核集群。實(shí)驗(yàn)結(jié)果表明,快速的NMF加速比是線性的。
  作為最后一個(gè)也就是第五個(gè)貢獻(xiàn),我們把以上所有組合成一個(gè)通用的框架—Bio-Loads-to-Nodes。該框架根據(jù)輸入的大小確定并行資源 m中的最佳數(shù)量,其中N是可用并行資源的數(shù)量,也就是內(nèi)核和(或)計(jì)算節(jié)點(diǎn)的數(shù)目,且 m≤N。然后,框架平衡地管理通過這 m個(gè)資源分配生物數(shù)據(jù)集的過程。之后,框架管理運(yùn)行數(shù)據(jù)分析程序的m個(gè)實(shí)例的執(zhí)行

13、過程,該過程處理分布式生物學(xué)數(shù)據(jù)集的分區(qū)部分。最后,框架將結(jié)果中m個(gè)不同的部分合并起來。
  選定的方案分別是:3D-BLAST、BLAST和用于蛋白質(zhì)結(jié)構(gòu)比較的CpG島搜索器,序列比對和CpG島取景器。
  對于獨(dú)立的多核節(jié)點(diǎn),該框架幾乎實(shí)現(xiàn)了對3D-BLAST和BLAST分別可達(dá)7.5倍與7倍的線性加速比,而CpG Island finder的加速比只提高了5倍。這是因?yàn)榧铀俦入S著串行程序的運(yùn)行時(shí)間增加而增加,CpG I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論