2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩70頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、<p>  分類號 TP314 學(xué)號 11060022</p><p> ?。眨模?密級 公 開</p><p><b>  工學(xué)碩士學(xué)位論文</b></p><p>  Cache Copy-On-Write: TLS 猜測數(shù)據(jù)管理機(jī)制的研究</p><p><b>  碩士生姓名 郭輝</b

2、></p><p>  學(xué) 科 專 業(yè) 計算機(jī)科學(xué)與技術(shù)</p><p>  研 究 方 向 計算機(jī)體系結(jié)構(gòu)</p><p>  指 導(dǎo) 教 師 沈 立 副教授</p><p>  國防科學(xué)技術(shù)大學(xué)研究生院</p><p><b>  二〇一三年十一月</b></p><

3、p><b>  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  猜測數(shù)據(jù)管理機(jī)制的研究</p><p>  國防科學(xué)技術(shù)大學(xué)研究生院</p><p><b>  萬方數(shù)據(jù)</b></p&g

4、t;<p>  Cache Copy-on-Write:</p><p>  Research of mechanism of speculated data</p><p>  management in TLS</p><p>  Candidate:Guo Hui</p><p>  Advisor:Prof. Shen

5、Li</p><p><b>  A thesis</b></p><p>  Submitted in partial fulfillment of the requirements</p><p>  for the degree of Master of Engineering</p><p>  in Compu

6、ter Science and Technology</p><p>  Graduate School of National University of Defense Technology</p><p>  Changsha,Hunan,P.R.China</p><p>  November,2013</p><p><b&g

7、t;  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>&l

8、t;b>  目 錄</b></p><p>  摘 要 ................................................................................................................. i</p><p>  ABSTRACT ........................

9、................................................................................iii</p><p>  第一章 緒論...................................................................................................... 1<

10、/p><p>  研究背景與意義 ............................................................................................. 1</p><p>  多核/眾核處理器發(fā)展趨勢...............................................................

11、.. 1</p><p>  多核多線程并行編程模型的發(fā)展...................................................... 3</p><p>  TLS 編程模型的研究現(xiàn)狀.................................................................. 5</p><p&g

12、t;  本文主要工作 ................................................................................................. 9</p><p>  猜測變量的生命周期.......................................................................... 9&l

13、t;/p><p>  Cache Copy-on-Write 機(jī)制................................................................ 10</p><p>  基于 Enhanced Local Memory 的實現(xiàn)方式..................................... 10</p><p

14、>  本文的組織結(jié)構(gòu) ........................................................................................... 11</p><p>  第二章 TLS 猜測數(shù)據(jù)管理機(jī)制....................................................................... 1

15、2</p><p>  猜測數(shù)據(jù)生命周期 ....................................................................................... 12</p><p>  猜測數(shù)據(jù)產(chǎn)生階段..................................................................

16、.......... 12</p><p>  猜測數(shù)據(jù)使用階段............................................................................ 14</p><p>  猜測數(shù)據(jù)確認(rèn)階段..................................................................

17、.......... 16</p><p>  現(xiàn)有技術(shù)的分類和比較 ................................................................................. 18</p><p>  設(shè)計空間..............................................................

18、.............................. 18</p><p>  設(shè)計空間探索方法............................................................................ 19</p><p>  多核/眾核平臺下 TLS 面臨的挑戰(zhàn)....................................

19、........................... 21</p><p>  本章小結(jié) ......................................................................................................... 21</p><p>  第三章 Cache Copy-on-Write........

20、................................................................. 23</p><p>  基于 Cache Copy-on-Write 的 TLS 框架..................................................... 23</p><p>  Cache Copy-on-Write

21、 的基本思想.................................................... 23</p><p>  基于 Cache Copy-on-Write 的 TLS 系統(tǒng)執(zhí)行框架 ........................ 24</p><p>  猜測數(shù)據(jù)的管理 ..........................................

22、................................................... 25</p><p>  創(chuàng)建.................................................................................................... 25</p><p>  訪問.............

23、....................................................................................... 26</p><p>  提交.................................................................................................... 29&l

24、t;/p><p>  本章小結(jié) ......................................................................................................... 30</p><p><b>  第 I 頁</b></p><p><b>  萬方數(shù)據(jù)<

25、;/b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  第四章 實現(xiàn)與性能分析.................................................................................. 31</p><p>  實現(xiàn) ...........................

26、.................................................................................... 31</p><p>  Enhanced Local Memory ................................................................... 31</p><p&

27、gt;  Enhanced Local Memory 的數(shù)據(jù)訪問 .............................................. 33</p><p>  系統(tǒng)結(jié)構(gòu)............................................................................................ 34</p><

28、p>  SESC-ELM....................................................................................................... 36</p><p>  SESC 模擬器簡介..................................................................

29、............ 36</p><p>  SESC-ELM 的實現(xiàn)............................................................................ 37</p><p>  性能測試與分析 ............................................................

30、............................... 41</p><p>  實驗環(huán)境............................................................................................ 41</p><p>  測試程序集....................................

31、.................................................... 41</p><p>  實驗結(jié)果及分析................................................................................ 43</p><p>  本章小結(jié) ........................

32、............................................................................... 46</p><p>  第五章 結(jié)束語 ................................................................................................ 48</p&g

33、t;<p>  工作總結(jié) ....................................................................................................... 48</p><p>  工作展望 ..................................................................

34、..................................... 49</p><p>  致 謝 .............................................................................................................. 50</p><p>  參考文獻(xiàn).............

35、.............................................................................................. 52</p><p>  作者在學(xué)期間取得的學(xué)術(shù)成果........................................................................... 56</p>

36、;<p><b>  第 II 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  表 目 錄</b></p><p>  表 2.1 各階段的技術(shù)要求及實現(xiàn)方法匯總 ..

37、............................................................... 17</p><p>  表 4.1 模擬器的多核處理器結(jié)構(gòu) ................................................................................ 41</p><p>  表 4.2 C

38、ache Level 的硬件結(jié)構(gòu).................................................................................... 42</p><p>  表 4.3 實驗中使用的測試程序集 ............................................................................

39、.... 43</p><p>  表 4.4 程序模擬執(zhí)行時間(ms)..................................................................................... 44</p><p>  表 4.5 Pi 程序不同優(yōu)化的情況下程序執(zhí)行時間(ms) ...............................

40、.................. 44</p><p><b>  第 III 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  圖 目 錄</b></p><

41、p>  圖 1.1 共享一級緩存的片上多核處理器結(jié)構(gòu) .............................................................. 2</p><p>  圖 1.2 MPI 基本編程框架.......................................................................................

42、........ 4</p><p>  圖 1.3 OpenMP 并行編程框架........................................................................................ 5</p><p>  圖 1.4 Hydra 處理器結(jié)構(gòu) .....................................

43、........................................................... 7</p><p>  圖 1.5 CorD 對串行程序并行化機(jī)制 ............................................................................. 8</p><p>  圖 1.6 BOP 的并

44、行編程模型 .......................................................................................... 9</p><p>  圖 2.1 共享變量在多線程中的問題以及解決方案 .................................................... 13</p><p&g

45、t;  圖 2.2 利用硬件方法實現(xiàn)猜測數(shù)據(jù)的管理 ................................................................ 14</p><p>  圖 2.3 CorD 的存儲空間管理 .....................................................................................

46、.. 15</p><p>  圖 2.4 操作系統(tǒng)中 Copy-on-Write 機(jī)制...................................................................... 16</p><p>  圖 2.5 相鄰兩次迭代之間產(chǎn)生 RAW 相關(guān).............................................

47、.................... 16</p><p>  圖 2.6 根據(jù)猜測數(shù)據(jù)生命周期劃分的 TLS 系統(tǒng)設(shè)計空間....................................... 19</p><p>  圖 3.1 Cache Copy-on-Write 管理機(jī)制的執(zhí)行流程............................................

48、......... 25</p><p>  圖 3.2 Cache Copy-on-Write 機(jī)制 Load 指令執(zhí)行策略............................................... 26</p><p>  圖 3.3 顯式通信消息處理過程 .......................................................

49、............................. 27</p><p>  圖 3.4 共享變量表的結(jié)構(gòu) ............................................................................................ 28</p><p>  圖 3.5 隱式通信的執(zhí)行流程 ................

50、........................................................................ 29</p><p>  圖 3.6 共享變量表數(shù)據(jù)相關(guān)沖突示例 ........................................................................ 29</p><p>  圖 4.

51、1 帶有 Enhanced Local Memory 的存儲層次結(jié)構(gòu).............................................. 32</p><p>  圖 4.2 采用 Enhanced Local Memory 的 TLS 系統(tǒng)硬件結(jié)構(gòu) .................................... 35</p><p>  圖 4.3 SE

52、SC 功能模擬中類的依賴關(guān)系....................................................................... 36</p><p>  圖 4.4 程序示例 ..................................................................................................

53、.......... 37</p><p>  圖 4.5 SESC-ELM 程序并行化實例............................................................................. 40</p><p>  圖 4.6 采用線程間通信所獲得的性能加速比 ....................................

54、......................... 45</p><p>  圖 4.7 Cache Copy-on-Write 機(jī)制的可擴(kuò)展性測試結(jié)果............................................. 46</p><p><b>  第 IV 頁</b></p><p><b>  萬方數(shù)據(jù)

55、</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  摘 要</b></p><p>  隨著芯片集成度的不斷提高,越來越多的處理器核被集成到單個芯片上,出</p><p>  現(xiàn)了多核和眾核處理器。與多核和眾核體系結(jié)構(gòu)快速發(fā)展所不同的是,并行程序</p>

56、<p>  設(shè)計卻沒有實現(xiàn)跨越式發(fā)展。傳統(tǒng)的并行編程模型——數(shù)據(jù)并行編程模型、消息</p><p>  傳遞編程模型、共享內(nèi)存編程模型,雖然從一定程度上簡化程序員程序并行化的</p><p>  工作,但是它們對于一些粗粒度并行缺乏一定的支持,而且它們都不支持線程的</p><p>  猜測執(zhí)行,這也造成了巨大的計算資源浪費(fèi)。</p>&

57、lt;p>  在以猜測的方式挖掘應(yīng)用中的粗粒度并行方面,TLS(Thread-Level Speculation</p><p>  線程級猜測執(zhí)行)就是其中的典型代表。它的最大優(yōu)點(diǎn)是編程模型非常簡潔——</p><p>  程序員只需標(biāo)識出那些可以猜測執(zhí)行的代碼段即可,運(yùn)行時系統(tǒng)或硬件負(fù)責(zé)確保</p><p>  猜測線程之間的數(shù)據(jù)相關(guān)不被破壞。但是由于其自

58、身系統(tǒng)開銷過高等原因,導(dǎo)致</p><p>  TLS 機(jī)制的應(yīng)用并不廣泛。</p><p>  本文提出并實現(xiàn)一種編程模型簡單、系統(tǒng)開銷低的 TLS 系統(tǒng)猜測數(shù)據(jù)管理機(jī)</p><p>  制,它不僅能夠在不降低處理器核主頻的情況下,實現(xiàn)高效的猜測數(shù)據(jù)管理,而</p><p>  且在一定程度上解決了猜測線程間共享數(shù)據(jù)相關(guān)的問題。</

59、p><p>  本文的研究工作和成果有:</p><p>  1、提出猜測變量生命周期的概念</p><p>  猜測變量生命周期包括猜測變量的產(chǎn)生、使用和提交三個階段,按照猜測變量</p><p>  的生命周期,本文提出了一種新的 TLS 技術(shù)分類方法,并比較了各種已有 TLS 實</p><p>  現(xiàn)方法的優(yōu)缺點(diǎn);

60、根據(jù)猜測變量的生命周期,歸納了支持 TLS 的多核平臺的設(shè)計</p><p>  空間,提出了探索該設(shè)計空間的若干方法;最后,指出了 TLS 技術(shù)當(dāng)前面臨的挑</p><p><b>  戰(zhàn)和未來發(fā)展趨勢。</b></p><p>  2、提出基于猜測數(shù)據(jù)生命周期的猜測數(shù)據(jù)管理機(jī)制 Cache Copy-on-Write</p>

61、<p>  傳統(tǒng)的 TLS 系統(tǒng)由于沒有針對猜測數(shù)據(jù)管理做專門的優(yōu)化,導(dǎo)致其在猜測數(shù)</p><p>  據(jù)管理方面開銷過大,性能不佳。本文通過對 TLS 技術(shù)分析,提出了基于猜測變</p><p>  量生命周期的 Cache Copy-on-Write 猜測數(shù)據(jù)管理機(jī)制。Cache Copy-on-Write 機(jī)制</p><p>  采用類似于操作系

62、統(tǒng) Copy on Write 的技術(shù)實現(xiàn)對猜測變量的動態(tài)管理,減少了線</p><p>  程創(chuàng)建時拷貝數(shù)據(jù)的開銷。另外,Cache Copy-on-Write 機(jī)制支持猜測線程間通信,</p><p>  通過這一機(jī)制可以消除由猜測線程間共享變量沖突帶來的線程多次回滾,從而提</p><p>  高了線程執(zhí)行成功率,進(jìn)而提高了性能。</p><

63、;p>  3、提出采用 Enhanced Local Memory 的猜測數(shù)據(jù)管理機(jī)制的實現(xiàn)</p><p>  從性能上來說,Cache Copy-on-Write 機(jī)制具有高效的猜測數(shù)據(jù)管理能力并且</p><p><b>  第 i 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p>

64、<p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  管理產(chǎn)生的開銷較少。而采用 Enhanced Local Memory 作為猜測線程的私有數(shù)據(jù)緩</p><p>  存可以最大限度地發(fā)揮 Cache Copy-on-Write 機(jī)制的優(yōu)勢。首先,Enhanced Local</p><p>  Memory 具有訪問速度快的特點(diǎn);其

65、次,Enhanced Local Memory 是片上存儲器。</p><p>  基于這兩點(diǎn),同時結(jié)合 Cache Copy-on-Write 機(jī)制,就實現(xiàn)了一種具有高效猜測數(shù)</p><p>  據(jù)管理的 TLS 系統(tǒng)。</p><p>  本文基于 SESC 模擬器實現(xiàn)了采用 Enhanced Local Memory 的 TLS 系統(tǒng)猜測數(shù)</p>

66、;<p>  據(jù)管理機(jī)制,并針對測試程序進(jìn)行了詳細(xì)的性能測試分析。實驗的結(jié)果驗證了本</p><p>  文所提出的猜測數(shù)據(jù)管理機(jī)制的高效性和有效性。</p><p>  主題詞:線程級猜測執(zhí)行;并行編程模型;猜測變量管理;增強(qiáng)型局部存儲</p><p><b>  器</b></p><p><b&

67、gt;  第 ii 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  ABSTRACT</b></p><p>  With chip integration continues to impr

68、ove, more and more processor cores are</p><p>  integrated into a single chip, which results in the emergence of many-core processors.</p><p>  Different with the rapid development of multi-core

69、 architecture, parallel programming</p><p>  did not achieve a leapfrog development. Although traditional parallel programming</p><p>  models, such as data-parallel programming model, message p

70、assing programming</p><p>  model, shared memory programming model, make the programmers' work of</p><p>  parallelization easier to some extent, but they lack of a certain support for some&

71、lt;/p><p>  coarse-grained parallelism and they do not support the thread speculative execution,</p><p>  which also causes a huge waste of computing resources.</p><p>  TLS (Thread-Le

72、vel Speculation) is one of the typical mechanism in terms of</p><p>  mining coarse-grained parallelism in applications in the way of speculation.</p><p>  Its biggest advantage is the very simp

73、le programming model. The programmer can</p><p>  simply identify those sections of code that can be speculatively executed and the</p><p>  runtime system or hardware are responsible for ensuri

74、ng data dependencies between</p><p>  speculative threads are not destroyed. However, because of its high overhead and other</p><p>  reasons, TLS mechanism is not widely used.</p><p&

75、gt;  This paper presents and implements a kind of speculative data management</p><p>  mechanisms for TLS system, which has a simple programming model and low-overhead</p><p>  system management

76、. This mechanism not only implements an efficient speculative data</p><p>  management, under the circumstance of no reduction in the clock frequency of processor core, and to some extent, solves the problem

77、 of sharing data hazard betweenspeculative threads.</p><p>  The works and results of this paper are:</p><p>  1 The proposed concept of life cycle of the speculative variable</p><p&

78、gt;  The life cycle of speculative variable includes the generation, use and submission ofspeculative variable. According to the life cycle of speculative variable, this paperproposes a new TLS technical classification

79、 method and compares the advantages anddisadvantages of existing methods. In the meantime, this paper sums up the multi-coreplatform design space, which supports TLS, and proposes several ways to explore thedesign spa

80、ce. At last, this paper notes the current challenges and future t</p><p>  Because there is no special optimization for speculative data management intraditional TLS system, this results in its high-overhea

81、d and poor performance. Basedon the TLS technical analysis, this paper proposes Cache Copy-on-Write speculativedata management based on the life cycle of speculative data. Cache Copy-on-Write 第 iii 頁</p><p&

82、gt;<b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  mechanism implements dynamic management to speculative data, which is similar to</p><p>  Copy on Write technology

83、in operating system, and eliminates the overhead of copying</p><p>  data when threads are built. In addition, Cache Copy-on-Write mechanism supports</p><p>  speculative thread communication, t

84、hrough which TLS can eliminate many thread</p><p>  rollbacks due to sharing data hazard between speculative threads. Because of this, the</p><p>  successful rate of thread execution is enhance

85、d and so does the performance.</p><p>  3 The implement of speculative data management mechanism using Enhanced</p><p>  Local Memory</p><p>  From the point of performance, Cache C

86、opy-on-Write mechanism has the ability of</p><p>  high-efficiency speculative data management and low management overhead. However,</p><p>  using the Enhanced Local Memory as speculative threa

87、d private data cache can</p><p>  maximize Cache Copy-on-Write mechanism advantages. First, Enhanced Local</p><p>  Memory has the characteristics of high speed. Secondly, Enhanced Local Memory

88、is the</p><p>  on-chip memory. Based on these two points and combined with Cache Copy-on-Write</p><p>  mechanism, this paper implements a highly efficient data management TLS system.</p>

89、<p>  Based on SESC simulator, this paper implements a TLS speculative data</p><p>  management mechanism using Enhanced Local Memory and carries out a detailed</p><p>  analysis of perfo

90、rmance testing. The experimental results demonstrate that the proposed</p><p>  mechanism for speculative data management is efficient and effective.</p><p>  Key Words: TLS, Parallel Programmin

91、g Model, Speculative data</p><p>  management, Enhanced Local Memory</p><p><b>  第 iv 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文<

92、/p><p><b>  第一章 緒論</b></p><p><b>  研究背景與意義</b></p><p>  多核/眾核處理器發(fā)展趨勢</p><p>  隨著當(dāng)前計算機(jī)應(yīng)用領(lǐng)域的不斷深入,一些新興的計算應(yīng)用,如云計算,分</p><p>  布式計算,大數(shù)據(jù)等占據(jù)了大

93、量的計算資源并且計算數(shù)據(jù)呈現(xiàn)指數(shù)級爆炸式增長,</p><p>  使得用戶對處理器處理大規(guī)模數(shù)據(jù)的需求不斷提升。雖然處理器可以依靠提高單</p><p>  核頻率來滿足用戶的計算需求,但是受到物理因素的限制將不再具有可擴(kuò)展性。</p><p>  眾所周知,處理器的發(fā)展一直在遵循著摩爾定律[1]——即每個芯片上集成的晶</p><p> 

94、 體管數(shù)(集成度)會每十八個月翻一番。但是不幸的是,這種將晶體管數(shù)轉(zhuǎn)換為</p><p>  性能增長的方式日趨困難。時至今日,晶體管數(shù)量已經(jīng)邁入十億個大關(guān),并且逐</p><p>  漸接近晶片尺度的物理極限。因此,性能的增長遇到了三個物理規(guī)律的限制:功</p><p>  耗、互連線延時以及設(shè)計空間和設(shè)計復(fù)雜度。</p><p>  綜合

95、這些因素導(dǎo)致了多核體系結(jié)構(gòu)的產(chǎn)生。多核處理器是指在一個處理器中</p><p>  集成多個完整的計算內(nèi)核的處理器。從執(zhí)行程序的角度看[2],可以將并行性分為:</p><p>  指令內(nèi)部并行、指令級并行、線程級并行、任務(wù)級或過程級并行以及作業(yè)或程序</p><p>  級并行。對于單核處理器來說,主要通過提高指令級并行來提高處理器的并行處</p>

96、<p>  理能力,例如,流水線技術(shù)、超標(biāo)量技術(shù)等,這一類型的并行是通過調(diào)度基本塊</p><p>  中的指令,并行執(zhí)行兩條或者多條指令,但是目前挖掘指令級并行的工作已經(jīng)趨</p><p>  于完善。而多核處理器則主要是開發(fā)線程級并行,它通過一個主進(jìn)程控制并派生</p><p>  出多個線程,每個線程在一個處理器核上并發(fā)執(zhí)行實現(xiàn)。而線程間數(shù)據(jù)的共享則

97、</p><p>  是利用處理器核共享的寄存器或緩存單元來實現(xiàn)。</p><p>  在硬件結(jié)構(gòu)上,按照共享 Cache 的層次可以把片上多處理器結(jié)構(gòu)[3]分為三類: 共享 L1 Cache、共享 L2 Cache 和共享內(nèi)存。在共享 L1 Cache 的多核處理器中,L1 Cache 被多個處理器核共享,即各處理器核使用 L1 Cache 實現(xiàn)它們之間的連接。在共享 L2 Cach

98、e 的結(jié)構(gòu)中,每個處理器核具有一個獨(dú)立的 L1 Cache,而多個處理器核共享 L2 Cache。在共享內(nèi)存的體系結(jié)構(gòu)中,每個處理器核要么具有獨(dú)立的 L1Cache 和獨(dú)立的 L2 Cache 存儲結(jié)構(gòu),要么處理器核不使用 Cache 存儲結(jié)構(gòu),而是每個處理器核使用共享主存進(jìn)行連接。圖 1.1 展示了一種簡單的共享二級 Cache 的片上多核處理器的結(jié)構(gòu)。</p><p><b>  第 1 頁

99、</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  CPU 核 1 CPU 核 2 CPU 核 n</p><p>  LD-1 LI-1 LD-1 LI-1 LD-1 LI-1</p><p>  

100、Shared L2 Cache</p><p>  圖 1.1 共享一級緩存的片上多核處理器結(jié)構(gòu)</p><p>  另 外 , 在 多 核 體 系 結(jié) 構(gòu) 的 基 礎(chǔ) 上 還 可 以 同 時 搭 配 同 時 多 線 程 技 術(shù) [2]</p><p>  (Simultaneous Multi-Thread)來進(jìn)一步提升處理器的并行處理能力。同時多線程</p

101、><p>  技術(shù)是一種在多流出、動態(tài)調(diào)度處理器上開發(fā)線程級并行和指令級并行的改進(jìn)的</p><p>  多線程技術(shù)。采用寄存器重命名技術(shù)和指令動態(tài)調(diào)度機(jī)制,實現(xiàn)了來自各個獨(dú)立</p><p>  線程的多條指令的同時流出,而且不用考慮它們之間的相互依賴的數(shù)據(jù)關(guān)系;對</p><p>  于相互依賴的數(shù)據(jù)關(guān)系則可以通過動態(tài)調(diào)度機(jī)制得以解決。同時多

102、線程技術(shù)的使</p><p>  用提高了處理器資源的利用率,但另一方面,在硬件設(shè)置上需要設(shè)置龐大的寄存</p><p>  器文件用來保存多個線程的上下文,同時還要在關(guān)鍵處理步驟上盡量的降低開銷</p><p>  以保證性能不會下降。</p><p>  隨著多核體系結(jié)構(gòu)的發(fā)展,多核處理器的硬件結(jié)構(gòu)也出現(xiàn)了不同類型,其設(shè)</p>

103、;<p>  計大致可以分為三類:互連方式采用總線或者交換開關(guān)互連、流處理器和 GPU 以</p><p><b>  及網(wǎng)絡(luò)互連處理器。</b></p><p>  最初的多核處理器中處理器核數(shù)量較小,因此就采用了最簡單的互連方式</p><p>  ——總線和交叉開關(guān),而且每個內(nèi)核的結(jié)構(gòu)相似且功能強(qiáng)大。這種結(jié)構(gòu)的始祖便<

104、/p><p>  是 Hydra[4]。這類處理器具有統(tǒng)一訪問存儲路徑并且具有強(qiáng)大的計算功能,但是總</p><p>  線和交換開關(guān)的互連卻成為系統(tǒng)性能和功耗的瓶頸。</p><p>  而隨著計算技術(shù)應(yīng)用的不斷深入,大規(guī)模數(shù)據(jù)并行計算模式異軍突起。流處</p><p>  理器和 GPU[5]針對數(shù)據(jù)并行計算采用了完全不同于傳統(tǒng)處理器設(shè)計。這

105、類處理器</p><p>  屬于單指令流多數(shù)據(jù)流(SIMD)處理器,它們的一條指令流可以同時對多個(組)</p><p>  數(shù)據(jù)進(jìn)行相同的操作。這種處理模式可以充分發(fā)揮大規(guī)模數(shù)據(jù)并行的優(yōu)勢,但是</p><p>  需要對應(yīng)用程序進(jìn)行大量優(yōu)化來挖掘其并行性而且其性能提升還受限于程序本身</p><p>  的并行性。目前這類處理器的發(fā)展趨

106、勢是異構(gòu)多核設(shè)計,程序中串行的部分能在</p><p>  一個強(qiáng)大的單核上運(yùn)行,而并行部分則通過很多小核來實現(xiàn)加速。</p><p>  不論是總線設(shè)計,還是流處理器,都沒有從根本上改變傳統(tǒng)的互連方式,因</p><p>  此人們提出了片上網(wǎng)絡(luò)的方法,眾多處理器核使用分布式通訊從而避免了集中式</p><p><b>  第 2

107、 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  帶來的系統(tǒng)性能瓶頸以及較大的功耗開銷。但是就目前研究情況來看,其理論性</p><p>  能較高,但對于實際程序的優(yōu)化很難而且眾核的片上緩存一致性也是急需解決的</

108、p><p><b>  問題。</b></p><p>  另外,在多核處理器上集成多個結(jié)構(gòu)簡單、功耗低的核心以及應(yīng)用可重構(gòu)技</p><p>  術(shù)也是未來多核體系結(jié)構(gòu)的發(fā)展方向。</p><p>  多核多線程并行編程模型的發(fā)展</p><p>  雖然多核處理器的出現(xiàn)為解決大規(guī)模數(shù)據(jù)處理問題提供

109、了豐富的計算資源并</p><p>  且其硬件結(jié)構(gòu)不是十分復(fù)雜,但是要將這些資源轉(zhuǎn)化為應(yīng)用程序的性能提升還需</p><p>  要多核系統(tǒng)的軟件支持[6]。隨著多核處理器集成的核心數(shù)目不斷增多,為了提高多</p><p>  核計算機(jī)系統(tǒng)性能以及滿足可靠性需求的增長,研究和開發(fā)新型軟件編程模型的</p><p><b>  工作

110、顯得格外重要。</b></p><p>  并行編程模型是指并行編程的一種形式。并行編程時,程序員將程序各模塊</p><p>  并行執(zhí)行,按照模塊間的通信方式,可以將目前并行編程模型[7]分為三類:數(shù)據(jù)并</p><p>  行編程模型、消息傳遞編程模型以及共享內(nèi)存編程模型。</p><p>  數(shù)據(jù)并行編程模型可以將一條指令

111、的操作同時處理不同的數(shù)據(jù),因此在 SIMD</p><p>  類型的并行計算機(jī)上,這種編程模型得到了廣泛的應(yīng)用。對于這種編程模型,程</p><p>  序員只需要簡單地標(biāo)明需要并行處理的數(shù)據(jù)以及所執(zhí)行的并行操作就可以完成數(shù)</p><p>  據(jù)并行編程。例如,在向量機(jī)執(zhí)行語句 A=B+C 就可以實現(xiàn)將數(shù)組 B 和數(shù)組 C 的</p><p&

112、gt;  對應(yīng)元素并行相加后,將結(jié)果賦給數(shù)組 A 的功能。所以數(shù)據(jù)并行編程模型的表達(dá)</p><p>  相對簡單,并且它不需要程序員了解計算機(jī)內(nèi)部是如何并行執(zhí)行該操作的。但是,</p><p>  這種模型僅適用與數(shù)據(jù)并行問題。對于非數(shù)據(jù)并行類問題,由于這種編程模型很</p><p>  難或者無法表達(dá)其他形式的并行特征,所以一般難以取得較高的效率。數(shù)據(jù)并行<

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論