版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p> 分類號 TP314 學(xué)號 11060022</p><p> ?。眨模?密級 公 開</p><p><b> 工學(xué)碩士學(xué)位論文</b></p><p> Cache Copy-On-Write: TLS 猜測數(shù)據(jù)管理機(jī)制的研究</p><p><b> 碩士生姓名 郭輝</b
2、></p><p> 學(xué) 科 專 業(yè) 計算機(jī)科學(xué)與技術(shù)</p><p> 研 究 方 向 計算機(jī)體系結(jié)構(gòu)</p><p> 指 導(dǎo) 教 師 沈 立 副教授</p><p> 國防科學(xué)技術(shù)大學(xué)研究生院</p><p><b> 二〇一三年十一月</b></p><
3、p><b> 萬方數(shù)據(jù)</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 猜測數(shù)據(jù)管理機(jī)制的研究</p><p> 國防科學(xué)技術(shù)大學(xué)研究生院</p><p><b> 萬方數(shù)據(jù)</b></p&g
4、t;<p> Cache Copy-on-Write:</p><p> Research of mechanism of speculated data</p><p> management in TLS</p><p> Candidate:Guo Hui</p><p> Advisor:Prof. Shen
5、Li</p><p><b> A thesis</b></p><p> Submitted in partial fulfillment of the requirements</p><p> for the degree of Master of Engineering</p><p> in Compu
6、ter Science and Technology</p><p> Graduate School of National University of Defense Technology</p><p> Changsha,Hunan,P.R.China</p><p> November,2013</p><p><b&g
7、t; 萬方數(shù)據(jù)</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>&l
8、t;b> 目 錄</b></p><p> 摘 要 ................................................................................................................. i</p><p> ABSTRACT ........................
9、................................................................................iii</p><p> 第一章 緒論...................................................................................................... 1<
10、/p><p> 研究背景與意義 ............................................................................................. 1</p><p> 多核/眾核處理器發(fā)展趨勢...............................................................
11、.. 1</p><p> 多核多線程并行編程模型的發(fā)展...................................................... 3</p><p> TLS 編程模型的研究現(xiàn)狀.................................................................. 5</p><p&g
12、t; 本文主要工作 ................................................................................................. 9</p><p> 猜測變量的生命周期.......................................................................... 9&l
13、t;/p><p> Cache Copy-on-Write 機(jī)制................................................................ 10</p><p> 基于 Enhanced Local Memory 的實現(xiàn)方式..................................... 10</p><p
14、> 本文的組織結(jié)構(gòu) ........................................................................................... 11</p><p> 第二章 TLS 猜測數(shù)據(jù)管理機(jī)制....................................................................... 1
15、2</p><p> 猜測數(shù)據(jù)生命周期 ....................................................................................... 12</p><p> 猜測數(shù)據(jù)產(chǎn)生階段..................................................................
16、.......... 12</p><p> 猜測數(shù)據(jù)使用階段............................................................................ 14</p><p> 猜測數(shù)據(jù)確認(rèn)階段..................................................................
17、.......... 16</p><p> 現(xiàn)有技術(shù)的分類和比較 ................................................................................. 18</p><p> 設(shè)計空間..............................................................
18、.............................. 18</p><p> 設(shè)計空間探索方法............................................................................ 19</p><p> 多核/眾核平臺下 TLS 面臨的挑戰(zhàn)....................................
19、........................... 21</p><p> 本章小結(jié) ......................................................................................................... 21</p><p> 第三章 Cache Copy-on-Write........
20、................................................................. 23</p><p> 基于 Cache Copy-on-Write 的 TLS 框架..................................................... 23</p><p> Cache Copy-on-Write
21、 的基本思想.................................................... 23</p><p> 基于 Cache Copy-on-Write 的 TLS 系統(tǒng)執(zhí)行框架 ........................ 24</p><p> 猜測數(shù)據(jù)的管理 ..........................................
22、................................................... 25</p><p> 創(chuàng)建.................................................................................................... 25</p><p> 訪問.............
23、....................................................................................... 26</p><p> 提交.................................................................................................... 29&l
24、t;/p><p> 本章小結(jié) ......................................................................................................... 30</p><p><b> 第 I 頁</b></p><p><b> 萬方數(shù)據(jù)<
25、;/b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p> 第四章 實現(xiàn)與性能分析.................................................................................. 31</p><p> 實現(xiàn) ...........................
26、.................................................................................... 31</p><p> Enhanced Local Memory ................................................................... 31</p><p&
27、gt; Enhanced Local Memory 的數(shù)據(jù)訪問 .............................................. 33</p><p> 系統(tǒng)結(jié)構(gòu)............................................................................................ 34</p><
28、p> SESC-ELM....................................................................................................... 36</p><p> SESC 模擬器簡介..................................................................
29、............ 36</p><p> SESC-ELM 的實現(xiàn)............................................................................ 37</p><p> 性能測試與分析 ............................................................
30、............................... 41</p><p> 實驗環(huán)境............................................................................................ 41</p><p> 測試程序集....................................
31、.................................................... 41</p><p> 實驗結(jié)果及分析................................................................................ 43</p><p> 本章小結(jié) ........................
32、............................................................................... 46</p><p> 第五章 結(jié)束語 ................................................................................................ 48</p&g
33、t;<p> 工作總結(jié) ....................................................................................................... 48</p><p> 工作展望 ..................................................................
34、..................................... 49</p><p> 致 謝 .............................................................................................................. 50</p><p> 參考文獻(xiàn).............
35、.............................................................................................. 52</p><p> 作者在學(xué)期間取得的學(xué)術(shù)成果........................................................................... 56</p>
36、;<p><b> 第 II 頁</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b> 表 目 錄</b></p><p> 表 2.1 各階段的技術(shù)要求及實現(xiàn)方法匯總 ..
37、............................................................... 17</p><p> 表 4.1 模擬器的多核處理器結(jié)構(gòu) ................................................................................ 41</p><p> 表 4.2 C
38、ache Level 的硬件結(jié)構(gòu).................................................................................... 42</p><p> 表 4.3 實驗中使用的測試程序集 ............................................................................
39、.... 43</p><p> 表 4.4 程序模擬執(zhí)行時間(ms)..................................................................................... 44</p><p> 表 4.5 Pi 程序不同優(yōu)化的情況下程序執(zhí)行時間(ms) ...............................
40、.................. 44</p><p><b> 第 III 頁</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b> 圖 目 錄</b></p><
41、p> 圖 1.1 共享一級緩存的片上多核處理器結(jié)構(gòu) .............................................................. 2</p><p> 圖 1.2 MPI 基本編程框架.......................................................................................
42、........ 4</p><p> 圖 1.3 OpenMP 并行編程框架........................................................................................ 5</p><p> 圖 1.4 Hydra 處理器結(jié)構(gòu) .....................................
43、........................................................... 7</p><p> 圖 1.5 CorD 對串行程序并行化機(jī)制 ............................................................................. 8</p><p> 圖 1.6 BOP 的并
44、行編程模型 .......................................................................................... 9</p><p> 圖 2.1 共享變量在多線程中的問題以及解決方案 .................................................... 13</p><p&g
45、t; 圖 2.2 利用硬件方法實現(xiàn)猜測數(shù)據(jù)的管理 ................................................................ 14</p><p> 圖 2.3 CorD 的存儲空間管理 .....................................................................................
46、.. 15</p><p> 圖 2.4 操作系統(tǒng)中 Copy-on-Write 機(jī)制...................................................................... 16</p><p> 圖 2.5 相鄰兩次迭代之間產(chǎn)生 RAW 相關(guān).............................................
47、.................... 16</p><p> 圖 2.6 根據(jù)猜測數(shù)據(jù)生命周期劃分的 TLS 系統(tǒng)設(shè)計空間....................................... 19</p><p> 圖 3.1 Cache Copy-on-Write 管理機(jī)制的執(zhí)行流程............................................
48、......... 25</p><p> 圖 3.2 Cache Copy-on-Write 機(jī)制 Load 指令執(zhí)行策略............................................... 26</p><p> 圖 3.3 顯式通信消息處理過程 .......................................................
49、............................. 27</p><p> 圖 3.4 共享變量表的結(jié)構(gòu) ............................................................................................ 28</p><p> 圖 3.5 隱式通信的執(zhí)行流程 ................
50、........................................................................ 29</p><p> 圖 3.6 共享變量表數(shù)據(jù)相關(guān)沖突示例 ........................................................................ 29</p><p> 圖 4.
51、1 帶有 Enhanced Local Memory 的存儲層次結(jié)構(gòu).............................................. 32</p><p> 圖 4.2 采用 Enhanced Local Memory 的 TLS 系統(tǒng)硬件結(jié)構(gòu) .................................... 35</p><p> 圖 4.3 SE
52、SC 功能模擬中類的依賴關(guān)系....................................................................... 36</p><p> 圖 4.4 程序示例 ..................................................................................................
53、.......... 37</p><p> 圖 4.5 SESC-ELM 程序并行化實例............................................................................. 40</p><p> 圖 4.6 采用線程間通信所獲得的性能加速比 ....................................
54、......................... 45</p><p> 圖 4.7 Cache Copy-on-Write 機(jī)制的可擴(kuò)展性測試結(jié)果............................................. 46</p><p><b> 第 IV 頁</b></p><p><b> 萬方數(shù)據(jù)
55、</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b> 摘 要</b></p><p> 隨著芯片集成度的不斷提高,越來越多的處理器核被集成到單個芯片上,出</p><p> 現(xiàn)了多核和眾核處理器。與多核和眾核體系結(jié)構(gòu)快速發(fā)展所不同的是,并行程序</p>
56、<p> 設(shè)計卻沒有實現(xiàn)跨越式發(fā)展。傳統(tǒng)的并行編程模型——數(shù)據(jù)并行編程模型、消息</p><p> 傳遞編程模型、共享內(nèi)存編程模型,雖然從一定程度上簡化程序員程序并行化的</p><p> 工作,但是它們對于一些粗粒度并行缺乏一定的支持,而且它們都不支持線程的</p><p> 猜測執(zhí)行,這也造成了巨大的計算資源浪費(fèi)。</p>&
57、lt;p> 在以猜測的方式挖掘應(yīng)用中的粗粒度并行方面,TLS(Thread-Level Speculation</p><p> 線程級猜測執(zhí)行)就是其中的典型代表。它的最大優(yōu)點(diǎn)是編程模型非常簡潔——</p><p> 程序員只需標(biāo)識出那些可以猜測執(zhí)行的代碼段即可,運(yùn)行時系統(tǒng)或硬件負(fù)責(zé)確保</p><p> 猜測線程之間的數(shù)據(jù)相關(guān)不被破壞。但是由于其自
58、身系統(tǒng)開銷過高等原因,導(dǎo)致</p><p> TLS 機(jī)制的應(yīng)用并不廣泛。</p><p> 本文提出并實現(xiàn)一種編程模型簡單、系統(tǒng)開銷低的 TLS 系統(tǒng)猜測數(shù)據(jù)管理機(jī)</p><p> 制,它不僅能夠在不降低處理器核主頻的情況下,實現(xiàn)高效的猜測數(shù)據(jù)管理,而</p><p> 且在一定程度上解決了猜測線程間共享數(shù)據(jù)相關(guān)的問題。</
59、p><p> 本文的研究工作和成果有:</p><p> 1、提出猜測變量生命周期的概念</p><p> 猜測變量生命周期包括猜測變量的產(chǎn)生、使用和提交三個階段,按照猜測變量</p><p> 的生命周期,本文提出了一種新的 TLS 技術(shù)分類方法,并比較了各種已有 TLS 實</p><p> 現(xiàn)方法的優(yōu)缺點(diǎn);
60、根據(jù)猜測變量的生命周期,歸納了支持 TLS 的多核平臺的設(shè)計</p><p> 空間,提出了探索該設(shè)計空間的若干方法;最后,指出了 TLS 技術(shù)當(dāng)前面臨的挑</p><p><b> 戰(zhàn)和未來發(fā)展趨勢。</b></p><p> 2、提出基于猜測數(shù)據(jù)生命周期的猜測數(shù)據(jù)管理機(jī)制 Cache Copy-on-Write</p>
61、<p> 傳統(tǒng)的 TLS 系統(tǒng)由于沒有針對猜測數(shù)據(jù)管理做專門的優(yōu)化,導(dǎo)致其在猜測數(shù)</p><p> 據(jù)管理方面開銷過大,性能不佳。本文通過對 TLS 技術(shù)分析,提出了基于猜測變</p><p> 量生命周期的 Cache Copy-on-Write 猜測數(shù)據(jù)管理機(jī)制。Cache Copy-on-Write 機(jī)制</p><p> 采用類似于操作系
62、統(tǒng) Copy on Write 的技術(shù)實現(xiàn)對猜測變量的動態(tài)管理,減少了線</p><p> 程創(chuàng)建時拷貝數(shù)據(jù)的開銷。另外,Cache Copy-on-Write 機(jī)制支持猜測線程間通信,</p><p> 通過這一機(jī)制可以消除由猜測線程間共享變量沖突帶來的線程多次回滾,從而提</p><p> 高了線程執(zhí)行成功率,進(jìn)而提高了性能。</p><
63、;p> 3、提出采用 Enhanced Local Memory 的猜測數(shù)據(jù)管理機(jī)制的實現(xiàn)</p><p> 從性能上來說,Cache Copy-on-Write 機(jī)制具有高效的猜測數(shù)據(jù)管理能力并且</p><p><b> 第 i 頁</b></p><p><b> 萬方數(shù)據(jù)</b></p>
64、<p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p> 管理產(chǎn)生的開銷較少。而采用 Enhanced Local Memory 作為猜測線程的私有數(shù)據(jù)緩</p><p> 存可以最大限度地發(fā)揮 Cache Copy-on-Write 機(jī)制的優(yōu)勢。首先,Enhanced Local</p><p> Memory 具有訪問速度快的特點(diǎn);其
65、次,Enhanced Local Memory 是片上存儲器。</p><p> 基于這兩點(diǎn),同時結(jié)合 Cache Copy-on-Write 機(jī)制,就實現(xiàn)了一種具有高效猜測數(shù)</p><p> 據(jù)管理的 TLS 系統(tǒng)。</p><p> 本文基于 SESC 模擬器實現(xiàn)了采用 Enhanced Local Memory 的 TLS 系統(tǒng)猜測數(shù)</p>
66、;<p> 據(jù)管理機(jī)制,并針對測試程序進(jìn)行了詳細(xì)的性能測試分析。實驗的結(jié)果驗證了本</p><p> 文所提出的猜測數(shù)據(jù)管理機(jī)制的高效性和有效性。</p><p> 主題詞:線程級猜測執(zhí)行;并行編程模型;猜測變量管理;增強(qiáng)型局部存儲</p><p><b> 器</b></p><p><b&
67、gt; 第 ii 頁</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b> ABSTRACT</b></p><p> With chip integration continues to impr
68、ove, more and more processor cores are</p><p> integrated into a single chip, which results in the emergence of many-core processors.</p><p> Different with the rapid development of multi-core
69、 architecture, parallel programming</p><p> did not achieve a leapfrog development. Although traditional parallel programming</p><p> models, such as data-parallel programming model, message p
70、assing programming</p><p> model, shared memory programming model, make the programmers' work of</p><p> parallelization easier to some extent, but they lack of a certain support for some&
71、lt;/p><p> coarse-grained parallelism and they do not support the thread speculative execution,</p><p> which also causes a huge waste of computing resources.</p><p> TLS (Thread-Le
72、vel Speculation) is one of the typical mechanism in terms of</p><p> mining coarse-grained parallelism in applications in the way of speculation.</p><p> Its biggest advantage is the very simp
73、le programming model. The programmer can</p><p> simply identify those sections of code that can be speculatively executed and the</p><p> runtime system or hardware are responsible for ensuri
74、ng data dependencies between</p><p> speculative threads are not destroyed. However, because of its high overhead and other</p><p> reasons, TLS mechanism is not widely used.</p><p&
75、gt; This paper presents and implements a kind of speculative data management</p><p> mechanisms for TLS system, which has a simple programming model and low-overhead</p><p> system management
76、. This mechanism not only implements an efficient speculative data</p><p> management, under the circumstance of no reduction in the clock frequency of processor core, and to some extent, solves the problem
77、 of sharing data hazard betweenspeculative threads.</p><p> The works and results of this paper are:</p><p> 1 The proposed concept of life cycle of the speculative variable</p><p&
78、gt; The life cycle of speculative variable includes the generation, use and submission ofspeculative variable. According to the life cycle of speculative variable, this paperproposes a new TLS technical classification
79、 method and compares the advantages anddisadvantages of existing methods. In the meantime, this paper sums up the multi-coreplatform design space, which supports TLS, and proposes several ways to explore thedesign spa
80、ce. At last, this paper notes the current challenges and future t</p><p> Because there is no special optimization for speculative data management intraditional TLS system, this results in its high-overhea
81、d and poor performance. Basedon the TLS technical analysis, this paper proposes Cache Copy-on-Write speculativedata management based on the life cycle of speculative data. Cache Copy-on-Write 第 iii 頁</p><p&
82、gt;<b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p> mechanism implements dynamic management to speculative data, which is similar to</p><p> Copy on Write technology
83、in operating system, and eliminates the overhead of copying</p><p> data when threads are built. In addition, Cache Copy-on-Write mechanism supports</p><p> speculative thread communication, t
84、hrough which TLS can eliminate many thread</p><p> rollbacks due to sharing data hazard between speculative threads. Because of this, the</p><p> successful rate of thread execution is enhance
85、d and so does the performance.</p><p> 3 The implement of speculative data management mechanism using Enhanced</p><p> Local Memory</p><p> From the point of performance, Cache C
86、opy-on-Write mechanism has the ability of</p><p> high-efficiency speculative data management and low management overhead. However,</p><p> using the Enhanced Local Memory as speculative threa
87、d private data cache can</p><p> maximize Cache Copy-on-Write mechanism advantages. First, Enhanced Local</p><p> Memory has the characteristics of high speed. Secondly, Enhanced Local Memory
88、is the</p><p> on-chip memory. Based on these two points and combined with Cache Copy-on-Write</p><p> mechanism, this paper implements a highly efficient data management TLS system.</p>
89、<p> Based on SESC simulator, this paper implements a TLS speculative data</p><p> management mechanism using Enhanced Local Memory and carries out a detailed</p><p> analysis of perfo
90、rmance testing. The experimental results demonstrate that the proposed</p><p> mechanism for speculative data management is efficient and effective.</p><p> Key Words: TLS, Parallel Programmin
91、g Model, Speculative data</p><p> management, Enhanced Local Memory</p><p><b> 第 iv 頁</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文<
92、/p><p><b> 第一章 緒論</b></p><p><b> 研究背景與意義</b></p><p> 多核/眾核處理器發(fā)展趨勢</p><p> 隨著當(dāng)前計算機(jī)應(yīng)用領(lǐng)域的不斷深入,一些新興的計算應(yīng)用,如云計算,分</p><p> 布式計算,大數(shù)據(jù)等占據(jù)了大
93、量的計算資源并且計算數(shù)據(jù)呈現(xiàn)指數(shù)級爆炸式增長,</p><p> 使得用戶對處理器處理大規(guī)模數(shù)據(jù)的需求不斷提升。雖然處理器可以依靠提高單</p><p> 核頻率來滿足用戶的計算需求,但是受到物理因素的限制將不再具有可擴(kuò)展性。</p><p> 眾所周知,處理器的發(fā)展一直在遵循著摩爾定律[1]——即每個芯片上集成的晶</p><p>
94、 體管數(shù)(集成度)會每十八個月翻一番。但是不幸的是,這種將晶體管數(shù)轉(zhuǎn)換為</p><p> 性能增長的方式日趨困難。時至今日,晶體管數(shù)量已經(jīng)邁入十億個大關(guān),并且逐</p><p> 漸接近晶片尺度的物理極限。因此,性能的增長遇到了三個物理規(guī)律的限制:功</p><p> 耗、互連線延時以及設(shè)計空間和設(shè)計復(fù)雜度。</p><p> 綜合
95、這些因素導(dǎo)致了多核體系結(jié)構(gòu)的產(chǎn)生。多核處理器是指在一個處理器中</p><p> 集成多個完整的計算內(nèi)核的處理器。從執(zhí)行程序的角度看[2],可以將并行性分為:</p><p> 指令內(nèi)部并行、指令級并行、線程級并行、任務(wù)級或過程級并行以及作業(yè)或程序</p><p> 級并行。對于單核處理器來說,主要通過提高指令級并行來提高處理器的并行處</p>
96、<p> 理能力,例如,流水線技術(shù)、超標(biāo)量技術(shù)等,這一類型的并行是通過調(diào)度基本塊</p><p> 中的指令,并行執(zhí)行兩條或者多條指令,但是目前挖掘指令級并行的工作已經(jīng)趨</p><p> 于完善。而多核處理器則主要是開發(fā)線程級并行,它通過一個主進(jìn)程控制并派生</p><p> 出多個線程,每個線程在一個處理器核上并發(fā)執(zhí)行實現(xiàn)。而線程間數(shù)據(jù)的共享則
97、</p><p> 是利用處理器核共享的寄存器或緩存單元來實現(xiàn)。</p><p> 在硬件結(jié)構(gòu)上,按照共享 Cache 的層次可以把片上多處理器結(jié)構(gòu)[3]分為三類: 共享 L1 Cache、共享 L2 Cache 和共享內(nèi)存。在共享 L1 Cache 的多核處理器中,L1 Cache 被多個處理器核共享,即各處理器核使用 L1 Cache 實現(xiàn)它們之間的連接。在共享 L2 Cach
98、e 的結(jié)構(gòu)中,每個處理器核具有一個獨(dú)立的 L1 Cache,而多個處理器核共享 L2 Cache。在共享內(nèi)存的體系結(jié)構(gòu)中,每個處理器核要么具有獨(dú)立的 L1Cache 和獨(dú)立的 L2 Cache 存儲結(jié)構(gòu),要么處理器核不使用 Cache 存儲結(jié)構(gòu),而是每個處理器核使用共享主存進(jìn)行連接。圖 1.1 展示了一種簡單的共享二級 Cache 的片上多核處理器的結(jié)構(gòu)。</p><p><b> 第 1 頁
99、</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p> CPU 核 1 CPU 核 2 CPU 核 n</p><p> LD-1 LI-1 LD-1 LI-1 LD-1 LI-1</p><p>
100、Shared L2 Cache</p><p> 圖 1.1 共享一級緩存的片上多核處理器結(jié)構(gòu)</p><p> 另 外 , 在 多 核 體 系 結(jié) 構(gòu) 的 基 礎(chǔ) 上 還 可 以 同 時 搭 配 同 時 多 線 程 技 術(shù) [2]</p><p> (Simultaneous Multi-Thread)來進(jìn)一步提升處理器的并行處理能力。同時多線程</p
101、><p> 技術(shù)是一種在多流出、動態(tài)調(diào)度處理器上開發(fā)線程級并行和指令級并行的改進(jìn)的</p><p> 多線程技術(shù)。采用寄存器重命名技術(shù)和指令動態(tài)調(diào)度機(jī)制,實現(xiàn)了來自各個獨(dú)立</p><p> 線程的多條指令的同時流出,而且不用考慮它們之間的相互依賴的數(shù)據(jù)關(guān)系;對</p><p> 于相互依賴的數(shù)據(jù)關(guān)系則可以通過動態(tài)調(diào)度機(jī)制得以解決。同時多
102、線程技術(shù)的使</p><p> 用提高了處理器資源的利用率,但另一方面,在硬件設(shè)置上需要設(shè)置龐大的寄存</p><p> 器文件用來保存多個線程的上下文,同時還要在關(guān)鍵處理步驟上盡量的降低開銷</p><p> 以保證性能不會下降。</p><p> 隨著多核體系結(jié)構(gòu)的發(fā)展,多核處理器的硬件結(jié)構(gòu)也出現(xiàn)了不同類型,其設(shè)</p>
103、;<p> 計大致可以分為三類:互連方式采用總線或者交換開關(guān)互連、流處理器和 GPU 以</p><p><b> 及網(wǎng)絡(luò)互連處理器。</b></p><p> 最初的多核處理器中處理器核數(shù)量較小,因此就采用了最簡單的互連方式</p><p> ——總線和交叉開關(guān),而且每個內(nèi)核的結(jié)構(gòu)相似且功能強(qiáng)大。這種結(jié)構(gòu)的始祖便<
104、/p><p> 是 Hydra[4]。這類處理器具有統(tǒng)一訪問存儲路徑并且具有強(qiáng)大的計算功能,但是總</p><p> 線和交換開關(guān)的互連卻成為系統(tǒng)性能和功耗的瓶頸。</p><p> 而隨著計算技術(shù)應(yīng)用的不斷深入,大規(guī)模數(shù)據(jù)并行計算模式異軍突起。流處</p><p> 理器和 GPU[5]針對數(shù)據(jù)并行計算采用了完全不同于傳統(tǒng)處理器設(shè)計。這
105、類處理器</p><p> 屬于單指令流多數(shù)據(jù)流(SIMD)處理器,它們的一條指令流可以同時對多個(組)</p><p> 數(shù)據(jù)進(jìn)行相同的操作。這種處理模式可以充分發(fā)揮大規(guī)模數(shù)據(jù)并行的優(yōu)勢,但是</p><p> 需要對應(yīng)用程序進(jìn)行大量優(yōu)化來挖掘其并行性而且其性能提升還受限于程序本身</p><p> 的并行性。目前這類處理器的發(fā)展趨
106、勢是異構(gòu)多核設(shè)計,程序中串行的部分能在</p><p> 一個強(qiáng)大的單核上運(yùn)行,而并行部分則通過很多小核來實現(xiàn)加速。</p><p> 不論是總線設(shè)計,還是流處理器,都沒有從根本上改變傳統(tǒng)的互連方式,因</p><p> 此人們提出了片上網(wǎng)絡(luò)的方法,眾多處理器核使用分布式通訊從而避免了集中式</p><p><b> 第 2
107、 頁</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p> 帶來的系統(tǒng)性能瓶頸以及較大的功耗開銷。但是就目前研究情況來看,其理論性</p><p> 能較高,但對于實際程序的優(yōu)化很難而且眾核的片上緩存一致性也是急需解決的</
108、p><p><b> 問題。</b></p><p> 另外,在多核處理器上集成多個結(jié)構(gòu)簡單、功耗低的核心以及應(yīng)用可重構(gòu)技</p><p> 術(shù)也是未來多核體系結(jié)構(gòu)的發(fā)展方向。</p><p> 多核多線程并行編程模型的發(fā)展</p><p> 雖然多核處理器的出現(xiàn)為解決大規(guī)模數(shù)據(jù)處理問題提供
109、了豐富的計算資源并</p><p> 且其硬件結(jié)構(gòu)不是十分復(fù)雜,但是要將這些資源轉(zhuǎn)化為應(yīng)用程序的性能提升還需</p><p> 要多核系統(tǒng)的軟件支持[6]。隨著多核處理器集成的核心數(shù)目不斷增多,為了提高多</p><p> 核計算機(jī)系統(tǒng)性能以及滿足可靠性需求的增長,研究和開發(fā)新型軟件編程模型的</p><p><b> 工作
110、顯得格外重要。</b></p><p> 并行編程模型是指并行編程的一種形式。并行編程時,程序員將程序各模塊</p><p> 并行執(zhí)行,按照模塊間的通信方式,可以將目前并行編程模型[7]分為三類:數(shù)據(jù)并</p><p> 行編程模型、消息傳遞編程模型以及共享內(nèi)存編程模型。</p><p> 數(shù)據(jù)并行編程模型可以將一條指令
111、的操作同時處理不同的數(shù)據(jù),因此在 SIMD</p><p> 類型的并行計算機(jī)上,這種編程模型得到了廣泛的應(yīng)用。對于這種編程模型,程</p><p> 序員只需要簡單地標(biāo)明需要并行處理的數(shù)據(jù)以及所執(zhí)行的并行操作就可以完成數(shù)</p><p> 據(jù)并行編程。例如,在向量機(jī)執(zhí)行語句 A=B+C 就可以實現(xiàn)將數(shù)組 B 和數(shù)組 C 的</p><p&
112、gt; 對應(yīng)元素并行相加后,將結(jié)果賦給數(shù)組 A 的功能。所以數(shù)據(jù)并行編程模型的表達(dá)</p><p> 相對簡單,并且它不需要程序員了解計算機(jī)內(nèi)部是如何并行執(zhí)行該操作的。但是,</p><p> 這種模型僅適用與數(shù)據(jù)并行問題。對于非數(shù)據(jù)并行類問題,由于這種編程模型很</p><p> 難或者無法表達(dá)其他形式的并行特征,所以一般難以取得較高的效率。數(shù)據(jù)并行<
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Cache Copy-On-Write:TLS猜測數(shù)據(jù)管理機(jī)制的研究.pdf
- 面向延遲優(yōu)化的多核處理器Cache數(shù)據(jù)管理機(jī)制研究.pdf
- 網(wǎng)格數(shù)據(jù)庫中元數(shù)據(jù)管理機(jī)制的研究.pdf
- 海量存儲系統(tǒng)中元數(shù)據(jù)管理機(jī)制的研究.pdf
- 原生模式GML空間數(shù)據(jù)管理機(jī)制研究.pdf
- 原生模式gml空間數(shù)據(jù)管理機(jī)制研究(1)
- 基于屬性的歸檔存儲系統(tǒng)中元數(shù)據(jù)管理機(jī)制的研究.pdf
- 容遲移動傳感器網(wǎng)絡(luò)中數(shù)據(jù)傳輸與數(shù)據(jù)管理機(jī)制的研究.pdf
- SaaS多租戶數(shù)據(jù)副本管理機(jī)制研究.pdf
- 面向ViWo的海量數(shù)據(jù)存儲與管理機(jī)制.pdf
- 面向云數(shù)據(jù)中心的資源管理機(jī)制研究.pdf
- 面向網(wǎng)絡(luò)取證的數(shù)據(jù)流狀態(tài)管理機(jī)制研究.pdf
- 學(xué)校管理機(jī)制
- 民航數(shù)據(jù)交換平臺用戶安全管理機(jī)制研究.pdf
- 企業(yè)知識管理機(jī)制研究
- 科學(xué)數(shù)據(jù)管理系統(tǒng)的研究.pdf
- 基于元數(shù)據(jù)的生態(tài)研究數(shù)據(jù)管理研究.pdf
- 面向能耗優(yōu)化的數(shù)據(jù)中心資源動態(tài)管理機(jī)制研究.pdf
- 大型航展數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)庫模型的構(gòu)架與交互機(jī)制的研究.pdf
- xml數(shù)據(jù)管理技術(shù)
評論
0/150
提交評論