Sima Dezső Többmagos/sokmagos processzorok ősz
Áttekintés 1. Többmagos processzorok megjelenésének szükségszerűsége 2. Homogén többmagos processzorok 3. Heterogén többmagos processzorok 2.1 Hagyományos többmagos processzorok 3.1 Mester/szolga elvű többmagos processzorok 3.2 Csatolt többmagos processzorok 4. Kitekintés 2.2 Sokmagos processzorok
1. Többmagos processzorok megjelenésének szükségszerűsége
1.1 ábra: Az integrált áramkörök gyártási technológiájának fejlődése 1. Többmagos processzorok megjelenésének szükségszerűsége (1) Shrinking: ~ 0.7/2 Years
1. Többmagos processzorok megjelenésének szükségszerűsége (2) IC gyártási technológia Moore szabály azonos tranzisztorszám ½ Si területen (Lineáris zsugorítás ~ 0.7x/2 év) azonos területen 2x annyi tranzisztor Két évente Kétévente kb. duplázódik az egy lapkán megvalósítható ltranzisztorok száma
1.2 ábra: A lapkán integrált tranzisztorok számának növekedése – a Moore szabály 1. Többmagos processzorok megjelenésének szükségszerűsége (3)
Possible use of surplus transistors Wider processor widthCore enhancementsCache enhancements superscalar branch prediction speculative loads... L2/L3 enhancements (size, associativity...) 1. Gen.2. Gen pipeline A tranzisztorszámok duplázódása ~ két évente Mire használhatók fel a többlet-tranzisztorok? Moore szabály 1. Többmagos processzorok megjelenésének szükségszerűsége (4)
A többlet tranzisztorok felhasználása többmagos processzorként A többmagos processzorok megjelenésének szükségszerűsége Növekvő tranzisztorszámok Egyre csökkenő teljesítményhozam 1. Többmagos processzorok megjelenésének szükségszerűsége (5)
1.3 ábra: Intel többmagos processzorainak robbanásszerű elterjedése 1. Többmagos processzorok megjelenésének szükségszerűsége (6)
1. Többmagos processzorok megjelenésének szükségszerűsége (7) 1.4 ábra: Többmagos processzorok főbb osztályai Desktops Heterogenous multicores Homogenous multicores Multicore processors Manycore processors Servers with >8 cores Conventional MC processors Master/slave architectures Add-on architectures MPC CPU GPU 2 ≤ n ≤ 8 cores General purpose computing Prototypes/ experimental systems MM/3D/HPC production stage HPC near future
2. Homogén többmagos processzorok
2. Homogén többmagos procdesszorok (1) 2.1 ábra: Többmagos processzorok főbb osztályai Desktops Heterogenous multicores Homogenous multicores Multicore processors Manycore processors Servers with >8 cores Conventional MC processors Master/slave architectures Add-on architectures MPC CPU GPU 2 ≤ n ≤ 8 cores General purpose computing Prototypes/ experimental systems MM/3D/HPC production stage HPC near future
Többmagos MP szerver processzorok 2.1 Többmagos MP szerver processzorok (1) AMD MP szerver processzorai Intel MP szerver processzorai
2007: AMD: K10 (Barcelona)-alapú QC MP szerver (Opteron 8300 család) Többmagos négyprocesszoros MP szerverek megjelenésének mérföldkövei 2006: Intel: Netburst-alapú DC MP szerver (8500 platform) 2007: Intel: Core 2-alapú QC MP szerver (7300 platform) 2005: AMD: K8-alapú DC MP szerver (Opteron 800 család) 2006: AMD: K8-alapú DC MP szerver (Opteron 8000 család) Többmagos MP szerver processzorok (2)
Intel többmagos MP szerver processzorai 2.1 Többmagos MP szerver processzorok (3)
Xeon /2005 Cores Xeon 7200 Xeon 7300 Xeon /2007 8/2006 MP Chipsets 3/2006 4/2006 9/ (Paxville MP DC)(Tulsa DC)(Tigerton DC)(Tigerton QC) /2007 (Clarksboro) (Twin Castle) (?) 2.2 ábra: Intel négyfoglalatos DC/QC MP platformjai (magok, lapkák) 2xFSB 667 MT/s 4 x XMB (2 x DDR2) 32GB 2xFSB 800 MT/s 4 x XMB (2 x DDR2) 32GB 4xFSB 1066 MT/s 4 x FBDIMM (DDR2) 512GB (Caneland) 8500 (Truland) DC QC Intel’s DC/QC MP-servers 3/ – Intel többmagos MP szerver processzorai (1)
2.3 ábra: Intel MP szerver lapka készleteinek fejlődése Preceding NB Potomac Clarksboro Tigerton (Twin Castle) Paxville MP Tulsa XMB Paxville MP Tulsa Paxville MP Tulsa Paxville MP Tulsa 8500 DC/QC SC DC 2005: 2006: 2007: DDR/ DDR2 FBDIMM/DDR2 DDR/ DDR2 2.1 – Intel többmagos MP szerver processzorai (2)
2.4 ábra: Intel négyfoglalatos 7300-as (Caneland) platformja (9/2007) FB-DIMM up to 512 GB 7200 (Tigerton DC, Core2), DC Xeon 7300 (Tigerton QC, Core2), QC 2.1 – Intel többmagos MP szerver processzorai (3)
FB-DIMM DDR2 192 GB 7200 DC 7300 QC (Tigerton) Xeon 2.5 ábra: Négyfoglalatos 7300 (Caneland) alaplap (Supermicro X7QC3) SBE2 SB 7300 NB 2.1 – Intel többmagos MP szerver processzorai (4)
AMD többmagos MP szerver processzorai
UP: Opteron 100/1000DP: Opteron 200/2000, MP: 800/ ábra: Az Opteron család alapvető felépítése 2.1 – AMD többmagos MP szerver processzorai (1)
2.7 ábra: AMD 4P/8P Direct Connect szerver architektúrája 2.1 – AMD többmagos MP szerver processzorai (2)
2.8 ábra: Többmagos processzorok főbb osztályai Desktops Heterogenous multicores Homogenous multicores Multicore processors Manycore processors Servers with >8 cores Conventional MC processors Master/slave architectures Add-on architectures MPC CPU GPU 2 ≤ n ≤ 8 cores General purpose computing Prototypes/ experimental systems MM/3D/HPC production stage HPC near future 2.2 Sokmagos processzorok (1)
2.2 Sokmagos processzorok (Intel Tiled processszora) Intel Larrabee processzora
Intel Larrabee processzora 2.2 Sokmagos processzorok - Larrabee (1)
Larrabee Intel’s Tera-Scale kezdeményezésének részeként. Projekt kezdete ~ 2005 Az első nem nyilvános prezentáció: 03/2006 (visszavonva) Az első nyilvános prezentáció: 08/2008 (SIGGRAPH) Várható megjelenés ~ 2009 Teljesítmény (cél): 2 TFlops Előzmények: Célok: Nem egyetlen termék, hanem több család alapjául szolgáló bázis architektúra. Nagyteljesítményű grafikai processzor, HPC 2.2 Sokmagos processzorok - Larrabee (2)
2.9 ábra: A GPU-orientált Larrabe blokk diagramja (2008 aug. SIGGRAPH) 2.2 Sokmagos processzorok - Larrabee (3) Basic architecture 16-byte széles SIMD feldolgozó egységek
2.10 ábra: GPU-orientált Larrabee alaplapja (2006, túlhaladott) 2.2 Sokmagos processzorok - Larrabee (4)
2.11 ábra: Négyfoglalatos MP szerver célú Larrabee rendszer architektúrája 2.2 Sokmagos processzorok - Larrabee (5) CSI: Common Systems Interface (csomagalapú soros IF)
Intel Tiled processzora 2.2 Sokmagos processzorok – Tiled processzor (1)
Intel Tera-Scale kezdeményezésének első megvalósítása Bejelentése IDF 9/2006 Várható megjelenése2009/2010 Cél: Tera-Scale kísérleti chip (több, mint 100 projekt között) Előzmények: Processzor 2.2 Sokmagos processzorok – Tiled processzor (2)
2.12 ábra: A Tiled processzor alapvető felépítése 2.2 Sokmagos processzorok – Tiled processzor (3)
3. Heterogén többmagos processzorok
3.1 Heterogén mester/szolga elvű többmagos processzorok (1) 3.1 ábra Többmagos processzorok főbb osztályai Desktops Heterogenous multicores Homogenous multicores Multicore processors Manycore processors Servers with >8 cores Conventional MC processors Master/slave architectures Add-on architectures MPC CPU GPU 2 ≤ n ≤ 8 cores General purpose computing Prototypes/ experimental systems MM/3D/HPC production stage HPC near future
3. Heterogén többmagos processzorok 3.1 Heterogén többmagos mester/szolga elvű TP-ok A Cell processzor
3.1 Heterogén mester/szolga elvű TP-ok - A Cell (1) Cell BE Előzmények: 2000 nyara:Az architektúra alapjainak meghatározása 02/2006: Cell Blade QS20 08/ 2007 Cell Blade QS21 05/ 2008 Cell Blade QS22 Sony, IBM és Toshiba közös terméke Cél: Játékok/multimédia, HPC alkalmazások Playstation 3 (PS3) QS2x Blade Szerver család (2 Cell BE/blade)
EIB: Element Interface Bus 3.2 ábra: A Cell BE blokk diagramja SPE: Synergistic Procesing Element SPU: Synergistic Processor Unit SXU: Synergistic Execution Unit LS: Local Store of 256 KB SMF: Synergistic Mem. Flow Unit PPE: Power Processing Element PPU: Power Processing Unit PXU: POWER Execution Unit MIC: Memory Interface Contr. BIC: Bus Interface Contr. XDR: Rambus DRAM 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (2)
3.3 ábra: A Cell BE lapka (221mm 2, 234 mtrs) 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (3)
3.10 ábra: A Cell BE lapka - EIB 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (4)
3.11 ábra: Az EIB működési elve 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (5)
3.12 ábra: Konkurens átvitelek az EIB-en 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (6)
3.2 GHz: QS21 Csúcs SP FP: 409,6 GFlops (3.2 GHz x 2x8 SPE x 2x4 SP FP/cycle) Cell BE - NIK 2007: Faculty Award (Cell 3Đ app./Teaching) 2008: IBM – NIK Kutatási Együttműködési Szerződés: Teljesítményvizsgálatok IBM Böblingen Lab IBM Austin Lab 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (7)
The Roadrunner 6/2008 : International Supercomputing Conference, Dresden A világ 500 leggyorsabb számítógépe 1. Roadrunner 1 Petaflops (10 15 ) fenntartott teljesítmény (linpack) 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (8)
3.13 ábra:A világ leggyorsabb számítógépe: IBM Roadrunner (Los Alamos 2008) 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (9)
3.14 ábra: A Roadrunner főbb jellemzői 3.1 Heterogén mester/szolga elvű TP-ok - A Cell (10)
3.15 ábra: Többmagos processzorok főbb jellemzői Desktops Heterogenous multicores Homogenous multicores Multicore processors Manycore processors Servers with >8 cores Conventional MC processors Master/slave architectures Add-on architectures MPC CPU GPU 2 ≤ n ≤ 8 cores General purpose computing Prototypes/ experimental systems MM/3D/HPC production stage HPC near future 3.2 Heterogén csatolt többmagos processzorok (1)
3. Heterogén többmagos processzorok 3.2 Heterogén csatolt többmagos processzorok
Ötlet A jelenlegi GPUk (Graphics Prtocessing Units) hatalmas számítási teljesítményűek, pl. NVIDIA GeForce GTX 260/280 (2008) AMD/ATI FireStream 9250 (6/2008) 3.2 Heterogén csatolt többmagos processzorok (2)
3.2 Heterogén csatolt többmagos processzorok (3) 3.16 ábra: CPU-k és GPU-k egyszeresen pontos LP csúcsteljesítménye
3.2 Heterogén csatolt többmagos processzorok (4) 3.17 ábra: CPUk és GPUk memória sávszélessége [GB/s]
Not cached 3.18 ábra: A lapkafelület hasznosítása CPU-kban ill. GPU-kban 3.2 Heterogén csatolt többmagos processzorok (5)
3.19 ábra: A GeForce GTX 280 és a Penryn lapkaméretének összehasonlítása 1400 mtrs 3.2 Heterogén csatolt többmagos processzorok (6)
3.2 Heterogén csatolt többmagos processzorok (7) 3.20 ábra: A Geforce GTX 280 rendszerarchitektúrája 240 SP
3.2 Heterogén csatolt többmagos processzorok (8) 3.21 ábra: Az SP-k felépítése SP
3.2 Heterogén csatolt többmagos processzorok (9) 3.22 ábra: Az AMD/ATI 2950 felépítése LP csúcsteljesítmény EP LP telj. > 1 TFlops Egyetlen PCIe kártya
3.2 Heterogén csatolt többmagos processzorok (10) 3.23 ábra: Csatolt GPU architektúrák várható fejlődése Integration to the chip
4. Kitekintés
4. Kitekintés (1) Processor Technology Aim Bloomfield (45 nm) desktop Beckton (45 nm) MP server Westmare (32 nm) desktop DP server Cores Memory channels 4 triple channel DDR3 8 quad channel FB_DIMM (2) 4/6 triple channel DDR3 4/6 quad channel DDR3 Intel Nehalem (i7) processzorcsaládja (várhatóan 2008 novemberében bejelentik) Integrált memóriavezérlő Megnövelt memória sávszélesség 4/6/8-magos Magonként kétszálas A hagyományos párhuzamos (64-bites) rendszerbusz leváltása nagysávszélességű soros buszra Főbb jellemzők
4. Kitekintés (2) 4.1 ábra: Intel asztali gépeinek várható fejlódése (roadmap) Core2i7 (Nehalem)Pentium4 Q4/08
4. Kitekintés (3) 4.2 ábra: Intel processzor fejlesztési tervének részlete Q2/09 Q3/09 Q4/08Q1/09
4. Kitekintés (4) Kitekintés Heterogenous multicores Master/slave architectures Add-on architectures 1(Ma):M(S)2(Ma):M(S)M(Ma):M(S) 1(CPU):1(D)M(CPU):1(D)M(CPU):M(D) Ma: Master S: Slave M: Many D: Dedicated (like GPU) H: Homogenous M: Many M(Ma) = M(CPU) M(S) M(D) ? 4.3 ábra: Hetererogén többmagos processzorok várható fejlődése
Köszönöm a figyelmet!