Computational Analysis of Biological Data on Parallel Architectures.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-01 格式：pdf 頁(yè)數(shù)：154 大?。?2.13MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩153頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、并行體系結(jié)構(gòu)的優(yōu)越性應(yīng)該用來(lái)處理超指數(shù)增長(zhǎng)的生物學(xué)數(shù)據(jù)，這一事實(shí)揭示了本論文的兩個(gè)方面。本文我們提出了一種計(jì)算密集型生物學(xué)數(shù)據(jù)分析的解決方案。文中所研究的生物學(xué)數(shù)據(jù)對(duì)象是生物序列、結(jié)構(gòu)和網(wǎng)絡(luò)。此外，我們利用的是不同的并行體系結(jié)構(gòu)，英特爾多核、多核CPU以及集群。
　　本文第一個(gè)貢獻(xiàn)是一種新的并行 k路原地歸并算法—Lazy-Merge。該歸并算法是本論文中整個(gè)工作的最后一步。由于本文中提出的生物學(xué)計(jì)算方法的加速算法是在將生物學(xué)數(shù)據(jù)

2、集分成可并行的較小部分基礎(chǔ)上進(jìn)行處理的，所以該 Lazy-Merge是本文必不可少的一步。最后，一個(gè)結(jié)果中的每一部分與其他結(jié)果進(jìn)行融合來(lái)形成最終結(jié)果。
　　本 Lazy-Merge算法包含三部分。第一部分描述了輸入段的劃分的過(guò)程和目的；這一部分將原來(lái)的k路歸并任務(wù)重定義為大小確定的t個(gè)較小的k路歸并任務(wù)，這里的t為劃分?jǐn)?shù)。第二部分描述不連續(xù)段的歸并過(guò)程。最后一部分是以正確順序使用不完全歸并的段的算法。Lazy-Merge時(shí)間復(fù)雜度

3、分析O(k×log(n/k)).
　　我們計(jì)劃使用三種不同的數(shù)據(jù)。第一種規(guī)模上萬(wàn)；他的輸入規(guī)模在到之間，我們稱之為數(shù)據(jù)集1。第二種有幾千萬(wàn)的規(guī)模；大約從到，我們稱之為數(shù)據(jù)集2。增加數(shù)據(jù)集1和數(shù)據(jù)集2的方法是取其原有規(guī)模的兩倍；換句話說(shuō)，將”2”的指數(shù)加1。
　　實(shí)驗(yàn)結(jié)果顯示，Lazy-Merge算法在移動(dòng)次數(shù)和總用時(shí)上均勝過(guò)已有算法。使用128個(gè)線程來(lái)處理數(shù)據(jù)集1和數(shù)據(jù)集2，Lazy-Merge在與重復(fù)2路原地歸并任務(wù)的比較

4、樹的比較中，平均減少了8.5倍的移動(dòng)次數(shù)。移動(dòng)的次數(shù)減少的程度隨劃分?jǐn)?shù)的增多而上升。另外，對(duì)數(shù)據(jù)集1，Lazy-Merge相比于bitonic算法和Guan’s算法分別具有4.4倍和5.4倍的移動(dòng)次數(shù)下降。對(duì)于數(shù)據(jù)集2，在規(guī)模最大的的情況下Lazy-Merge相比于bitonic算法具有3.2倍的移動(dòng)次數(shù)下降。在數(shù)據(jù)集1的運(yùn)行時(shí)間方面，Lazy-Merge比bitonic和Guan的算法分別快了2.5倍和292倍。在數(shù)據(jù)集2的運(yùn)行時(shí)間方

5、面，Lazy-Merge相比bitonic算法表現(xiàn)出5.7倍的加速比。
　　在第二個(gè)貢獻(xiàn)中，我們通過(guò)解決兩大不同的問(wèn)題來(lái)處理生物序列。這兩大問(wèn)題是多序列聯(lián)配(MSA)問(wèn)題和系統(tǒng)發(fā)育樹重建問(wèn)題。
　　據(jù)我們所知，大多數(shù)現(xiàn)有的并行MSA問(wèn)題的解決方法都是在工作站或者網(wǎng)絡(luò)集群上實(shí)現(xiàn)的。這種體系結(jié)構(gòu)的計(jì)算機(jī)價(jià)格比較高，而且對(duì)于非專業(yè)的用戶來(lái)說(shuō)使用比較困難。眾所周知，使用配有共享存儲(chǔ)器與多核處理器的計(jì)算機(jī)如今已經(jīng)普遍存在。
　　

6、我們提出了一個(gè)在多核以及眾核體系結(jié)構(gòu)中處理MSA的并行策略—CDAM。CDAM的動(dòng)機(jī)是將大規(guī)模序列組分解成若干任何一個(gè) MSA程序都可以處理的小規(guī)模子序列組。用集群的方法來(lái)分解序列組的原因是序列之間的距離越短，聯(lián)配出現(xiàn)的錯(cuò)誤就會(huì)越少。
　　我們?cè)?CDAM中采用了五種聚類算法：CD-hit，UCLUST，SiLiX，CLUSS和BLASTClust；四種主流的基準(zhǔn)：BAliBASE，PREFAB，IRMBASE和OXBench，以

7、及28個(gè)大規(guī)模人工合成的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果清晰地表明，不同的聚類方法對(duì)CDAM的速度和精度的影響各不相同，CDAM(UCLUST)和CDAM(CD-hit)的綜合性能最佳。盡管 CDAM(UCLUST)和CDAM(CD-hit)分別平均失去了2.19％和2.87%的聯(lián)配精確度，但是它們可以將算法的執(zhí)行時(shí)間分別提高151倍和111倍。
　　此處我們解決的另外一個(gè)序列分析問(wèn)題是系統(tǒng)發(fā)育樹的構(gòu)建。一個(gè)系統(tǒng)發(fā)育（進(jìn)化）樹的構(gòu)建是計(jì)算生物學(xué)中

8、的一個(gè)重大挑戰(zhàn)。系統(tǒng)發(fā)育樹描述了從 DNA多序列聯(lián)配或 AA序列（taxa）代表的生物體開始的生物體之間的進(jìn)化關(guān)系。比較分析最近的調(diào)查可得出，使用ML方法的最精確、最快速的軟件工具是PHYML和RAxML。
　　我們提出了一個(gè) PhyML的改進(jìn)方法—Fast-PhyML，F(xiàn)ast-PhyML可以縮小PhyML由于序列數(shù)量的增加造成的執(zhí)行時(shí)間增加而帶來(lái)的差距。對(duì)于此處提出的軟件工具，我們進(jìn)行了并行性能測(cè)試，結(jié)果顯示了加速 PhyML

9、的引導(dǎo)計(jì)算的潛力。該測(cè)試的測(cè)試平臺(tái)是多核和眾核體系結(jié)構(gòu)、測(cè)試對(duì)象是 DNA序列和蛋白序列，獲得了相當(dāng)大的加速比；由于MICCPU協(xié)處理器，MIC的加速比比多核更高。
　　作為第三個(gè)貢獻(xiàn)，我們處理了生物學(xué)結(jié)構(gòu)。我們把蛋白質(zhì)結(jié)構(gòu)比對(duì)作為中心論題。
　　然而，由于新結(jié)構(gòu)數(shù)目持續(xù)穩(wěn)定增長(zhǎng)，在個(gè)人計(jì)算機(jī)或服務(wù)器上的蛋白質(zhì)結(jié)構(gòu)比較成為一項(xiàng)棘手的任務(wù)。因此，為解決這個(gè)問(wèn)題，急需提供一個(gè)大規(guī)模的并行工具。
　　這一工具無(wú)論在平均數(shù)據(jù)庫(kù)

10、構(gòu)建還是搜索時(shí)間上都表現(xiàn)出線性的近乎完美的加速比。在一個(gè)單獨(dú)的14核的工作站上使用這一工具，數(shù)據(jù)集3平均可以在1.9和5.6秒內(nèi)完成搜索，而用3D-BLAST and PSISA則分別需要25和75秒。且這一工具對(duì)精確度沒(méi)有任何影響。
　　我們的第四個(gè)貢獻(xiàn)是處理了生物網(wǎng)絡(luò)。降維和可視化是有效地分析和解釋生物網(wǎng)絡(luò)的高維數(shù)據(jù)的關(guān)鍵環(huán)節(jié)。矩陣的分解和可視化，允許用戶顯示感興趣的生物網(wǎng)絡(luò)的基本結(jié)構(gòu)及其隨時(shí)間演變過(guò)程。生物網(wǎng)絡(luò)可視化面臨的是

11、一個(gè)巨大的數(shù)據(jù)集。
　　我們提供了生物網(wǎng)絡(luò)快速的NMF。多核和非負(fù)矩陣分解的計(jì)算密集型任務(wù)的多核心版本（NMF）。該工具的目標(biāo)是使生物網(wǎng)絡(luò)圖更簡(jiǎn)單和更快速的降維分析。此外，它可以作為眾所周知的工具，如Cytoscape的一個(gè)插件。
　　我們利用字符串?dāng)?shù)據(jù)庫(kù)作為源數(shù)據(jù)庫(kù)。然后，針對(duì)三種不同的硬件配置，我們從眾多的數(shù)據(jù)集中提取了3個(gè)。它們的大小分別是9533，21215和25713的數(shù)據(jù)集-1，數(shù)據(jù)集-2和數(shù)據(jù)集-3。這些數(shù)據(jù)集

12、上分別用在不同的并行體系結(jié)構(gòu)的多核，眾核以及多核集群。實(shí)驗(yàn)結(jié)果表明，快速的NMF加速比是線性的。
　　作為最后一個(gè)也就是第五個(gè)貢獻(xiàn)，我們把以上所有組合成一個(gè)通用的框架—Bio-Loads-to-Nodes。該框架根據(jù)輸入的大小確定并行資源 m中的最佳數(shù)量，其中N是可用并行資源的數(shù)量，也就是內(nèi)核和（或）計(jì)算節(jié)點(diǎn)的數(shù)目,且 m≤N。然后，框架平衡地管理通過(guò)這 m個(gè)資源分配生物數(shù)據(jù)集的過(guò)程。之后，框架管理運(yùn)行數(shù)據(jù)分析程序的m個(gè)實(shí)例的執(zhí)行

13、過(guò)程,該過(guò)程處理分布式生物學(xué)數(shù)據(jù)集的分區(qū)部分。最后，框架將結(jié)果中m個(gè)不同的部分合并起來(lái)。
　　選定的方案分別是：3D-BLAST、BLAST和用于蛋白質(zhì)結(jié)構(gòu)比較的CpG島搜索器，序列比對(duì)和CpG島取景器。
　　對(duì)于獨(dú)立的多核節(jié)點(diǎn)，該框架幾乎實(shí)現(xiàn)了對(duì)3D-BLAST和BLAST分別可達(dá)7.5倍與7倍的線性加速比，而CpG Island finder的加速比只提高了5倍。這是因?yàn)榧铀俦入S著串行程序的運(yùn)行時(shí)間增加而增加，CpG I

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Computational Analysis of Biological Data on Parallel Architectures.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Computational Analysis of Biological Data on Parallel Architectures.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載