版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、多核處理器技術,華南理工大學 陳虎 博士tommychen74@yahoo.com.cn,參考文獻,[1] Tom R. Halfhill,Intel Goes Quad, Issue #234,Processor Watch,Oct. 19, 2006[2] Cameron McNairy, Rohit Bhatia, MONTECITO: A Dual-Core, Dual-Thread ITANIUM Processor, I
2、EEE Mirco, Mar./Apr., 2005[3]Ron Kalla,Balaram Sinharoy, Joel M. Tendle, IBM POWER5 CHIP: A Dual-Core, Multithreaded Processor, IEEE Micro, Mar./Apr., 2004[4] Poonacha Kongetira, Kathirgamar Aingaran, Kunle Olukotun, N
3、IAGARA: A 32-way Multithreaded SPARC Processor, IEEE Micro, Mar./Apr., 2005[5] Toshinari Takayanagi, Jinuk Luke Shin, ect., A Dual-Core 64-bit UltraSPARC Microprocessor for Dense Server Applications, IEEE JOURNAL OF SOL
4、ID-STATE CIRCUITS, Vol.40(1):7-18, JAN. 2005[6] Intel Corp., Intel IXP2400 Network Processor Product Brief, www.intel.com,2003[7] Motorola Inc., Motorola C-5 Architecture Guide, www.motorola.com, 2001[8] John Montrym,
5、 Henry Moreton, THE GEFORCE 6800, IEEE Micro, Mar./Apr., 2005[9] J. A. Kahle, etc., Introduction to the Cell multiprocessor, IBM J. RES. & DEV. VOL.49(4/5):589-604, JULY/SEP., 2005[10] Ujval J. Kapasi, etc., Progra
6、mmable Stream Processors, IEEE Computer, Aug.,2003[11] Tom R. Halfhill,Ambric's New Parallel Processor, Issue #234 - Processor Watch - October 19, 2006[12] Sriram Vangal, Jason Howard, etc., An 80-Tile 1.28TFLOPS N
7、etwork-on-Chip in 65nm CMOS, IEEE International Solid-State Circuits Conference, 2007,微處理器技術發(fā)展的主要歷史回顧,90年代——增大指令的并行發(fā)射能力指令級并行性自身存在很大限制,超標量技術已經(jīng)到了盡頭;VLIW(超長指令字)存在二進制代碼不兼容,對編譯要求高的缺點;,90年代末期——提高主頻流水線不斷細化,指令間相關性導致系統(tǒng)復雜性大大提高;
8、Memory Wall,存儲器性能滯后,嚴重影響整體性能;功耗問題嚴重;,微處理器技術發(fā)展的主要歷史回顧,本世紀前5年——多線程只能屏蔽線程的存儲器訪問延遲,增加系統(tǒng)吞吐率(15%左右),并未提高單個單線程的執(zhí)行速度;,當前和未來五年——多核充分利用摩爾定律帶來的芯片面積,放置多個微處理器內(nèi)核;通過開發(fā)程序內(nèi)的線程級或進程級并行性提高性能,典型的多核處理器系統(tǒng),通用處理器:Intel——Xeon 5300 (四核) IBM
9、——POWER5(雙核)SUN——NIAGARA(8核)、UltraSpac(雙核) 網(wǎng)絡處理器Intel——IXP2400Motorola——C-5嵌入式系統(tǒng)TI——OMAP,DavinciARM——ARM11MP,圖像處理Nvdia——GF6800多媒體處理IBM,Sony和Toshiba——Cell處理器Stanford大學——Imagine實驗系統(tǒng)Ambric——AM2045(360核)Intel——
10、80個核的實驗處理器,多核處理器系統(tǒng)中的主要問題,每個處理器地址空間的關系怎樣?存儲器層次如何劃分?如何保持存儲器的一致性?,互連結(jié)構如何?,并行程序設計模型如何?,,,存儲器結(jié)構——cc-UMAcache-coherence Unified Memory Access,所有CPU共享一個統(tǒng)一的地址空間;有單獨的L1 Cache;采用多級Cache結(jié)構;采用總線或者Crossbar作為互連結(jié)構;使用Cache一致性協(xié)議維護數(shù)
11、據(jù)一致性;采用多線程或者多進程作為并行軟件設計方法,CPU0,CPU1,…,CPUn,L1 Cache,L1 Cache,L1 Cache,L1 Cache,L2, L3Caches,Maim Memory,,,SUN’s NIAGARA,8個4線程處理器通過crossbar連接到4個L2 CacheL1 Cache:16KB for Instructions8KB for DataCache一致性協(xié)議:在L2 C
12、ache建立L1 Cache的tag shadows讀不命中時,根據(jù)L2 Cache的tag shadow尋找合適數(shù)據(jù);寫數(shù)據(jù)時,無效所有具有此拷貝的L1 Cache。,ARM’s ARM11MP,多個ARM11核有獨自的L1 Cache通過Snoop Control Unit實現(xiàn)Cache 一致性協(xié)議:保持了L1 Cache物理地址的Tag采用MESI( Modified, exclusive, shared, invali
13、d)協(xié)議,cc-UMA的評價,優(yōu)點:硬件實現(xiàn)數(shù)據(jù)一致性協(xié)議,軟件不需要關心;多線程/進程的并行軟件資源豐富;缺點:Cache一致性協(xié)議的性能和面積開銷;Cache一致性協(xié)議可能對互連結(jié)構有特殊要求,例如偵聽協(xié)議需要總線結(jié)構,影響了互連結(jié)構主頻和數(shù)據(jù)寬度;總線或Crossbar難以支持更多的處理器;結(jié)論適用于通用計算連接的處理器數(shù)目受到限制,存儲器結(jié)構——異構多處理器,系統(tǒng)中的處理器類型不完全一致典型配置是一個RISC
14、處理器+一個或多個DSP每個處理器有獨自的Cache地址空間不完全重疊數(shù)據(jù)一致性由軟件/硬件協(xié)同完成,CPU0,CPU1,…,CPUn,L1 Cache,L1 Cache,L1 Cache,L1 Cache,Connection Achitecture,Maim Memory,,,存儲器結(jié)構——LMLocal Memory,每個從CPU(SCPU)僅能訪問局部存儲器主處理器(MCPU)將各個局部存儲器作為全局地址映射的
15、一個部分采用環(huán)行、流水線等互連結(jié)構;硬件提供簡單的數(shù)據(jù)一致性方法(如DMA一致性)由軟件控制一致性,MCPU,SCPU0,…,SCPUn,Cache,LM,LM,LM,Connection Architecture,Maim Memory,,,IBM’s Cell,主CPU——64bit PowerPC32K L1Cache512K L2 Cache地址空間包括所有的局部存儲器和主存從CPU——8個SPE,包含:4個并行
16、可執(zhí)行單元;128KB局部存儲器僅能直接訪問局部存儲器,需要通過DMA訪問其它局部存儲器或者主存,IBM’s Cell,四路環(huán)行連接;集中式仲裁;數(shù)據(jù)寬度16字節(jié)/環(huán);主頻1.6GHZ峰值傳輸帶寬204.8Gbps通過DMA實現(xiàn)數(shù)據(jù)交換;有全局唯一的DMA地址一致性檢查部件,Intel的80核處理器,單個處理器上集成了80個處理單元80個處理器單元按照10×8的mesh結(jié)構連接采用65nm工藝實現(xiàn)100
17、M個晶體管主頻4GHZ性能達到TFLOPS,Intel的80核處理器,每個處理單元包含:兩個浮點乘加器(FMAC)寄存器文件2KB數(shù)據(jù)存儲器3KB指令存儲器五方向路由節(jié)點(Router),Nvidia’s GeForce6800,多級專用處理器流水線方式連接每個處理器有局部存儲器或寄存器組,LM結(jié)構的評價,優(yōu)點:局部存儲器與處理器核緊密耦合,存儲器帶寬高;數(shù)據(jù)一致性檢查機制比較簡單,開銷大幅度?。幻嫦驊煤歪槍π?/p>
18、片布局設計的連接拓撲結(jié)構,提高處理器核之間互連通道的頻率和帶寬。缺點:局部存儲器的空間有限,使用和調(diào)度完全需要軟件控制,這直接造成了軟件設計的難度,難以繼承業(yè)已存在的豐富軟件資源。 適合于特定的應用,Intel® Multi-core,獨立L2 Cache,獨立外部存儲器接口,共享的L2 Cache和外部存儲器接口,Intel® Multi-core,,獨立L2 Cache,共享存儲器接口,獨立L2 Cache
19、和L3 Cache,共享存儲器接口,多核時代對軟件設計的挑戰(zhàn),在單個芯片上集成了眾多處理器核,軟件人員如何能發(fā)揮出它們的性能優(yōu)勢,試想一下在有100個處理器核上編寫程序?答案在于程序的并行化!,程序并行化的主要途徑,通過編譯技術將串行程序并行化目前并行編譯技術對線程級、任務級的并行化尚處于起步階段設計全新的并行程序設計語言這需要全部改寫原來的程序,工程量巨大串行語言加并行庫或偽注釋制導語句的擴展增加一個庫或一些新的制導語句
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 多核處理器的設計技術研究.pdf
- 多核網(wǎng)絡處理器中定制控制處理器關鍵技術研究.pdf
- 多核包處理器數(shù)據(jù)控制總線技術研究.pdf
- 基于多核處理器的圖像處理技術研究與實現(xiàn).pdf
- 多核處理器網(wǎng)絡應用研究.pdf
- win-深入淺出多核心處理器技術
- 基于SOPC的多核處理器互連技術的研究.pdf
- 基于多核處理器的并行圖像融合處理技術的研究.pdf
- 多核處理器溫度均衡策略研究.pdf
- 多核處理器功耗和性能模型.pdf
- 片上多核處理器末級cache優(yōu)化技術研究
- 多核多線程處理器上任務調(diào)度技術研究.pdf
- 基于仿真的多核處理器功能驗證技術研究.pdf
- 基于SOPC技術的多核處理器的設計與實現(xiàn).pdf
- 多核處理器片上光互連的研究.pdf
- 多核處理器層次化存儲體系研究.pdf
- 多核處理器內(nèi)部核間通信研究.pdf
- 異構多核系統(tǒng)中協(xié)處理器優(yōu)化.pdf
- 適應多核處理器的任務調(diào)度研究.pdf
- 功耗受限情況下多核處理器能效優(yōu)化技術.pdf
評論
0/150
提交評論