Korszakváltás a processzorok fejlődésében Sima Dezső 2014 őszi félév (verzió 3.5)

Slides:



Advertisements
Hasonló előadás
Alaplap.
Advertisements

Memóriák típusai, jellemzői
A számítógép felépítése
A memória.
Neumann-elvek A számítógép legyen teljesen elektronikus, külön vezérlő és végrehajtó egységgel. Kettes számrendszert használjon. Az adatok és a programok.
Számítógép architektúra
A hardver és a személyi számítógép konfigurációja
Alaplapra integrált csatlakozók
Alapfogalmak Hardver:  A számításokat végző fizikai-technikai rendszer (kézzel fogható, fizikai termékek) Szoftver:  Programok, programrendszerek (szellemi.
Mikroprocesszorok (CPU)
A memória.
Alapfogalmak Adat: fogalmak, tények, jelenségek olyan formalizált ábrázolása, amely emberi vagy gépi értelmezésre, feldolgozásra, közlésre alkalmas. Információ:
A 2000-es év utáni processzorok jellemzői
Memóriák.
Digitális rendszerek I. c
Paradigmaváltások a processzorfejlesztésben Sima Dezső augusztus 25.
3. Szálszinten párhuzamos feldolgozás (TLP)
Korszakváltás a processzorok fejlődésében Sima Dezső 2013 őszi félév (verzió 3.4)
Sima Dezső Többmagos/sokmagos processzorok Október Version 3.0.
Korszakváltás a processzorok fejlődésében Sima Dezső 2011 őszi félév (módosított, verzió 3)
Korszakváltás a processzorok fejlődésében Sima Dezső 2011 őszi félév.
Korszakváltás a processzorok fejlődésében Sima Dezső 2007 őszi félév.
Korszakváltás a processzorok fejlődésében Sima Dezső 2009 őszi félév.
Korszakváltás a processzorok fejlődésében
CISC - RISC processzor jellemzők
A memória.
Számítógép memória jellemzői
Többmagos processzorok
Tematikus fogalomtár FÉLVEZETŐS TÁRAK
Teszt minta kérdések. Az alábbiak közül melyik korlátozza az optikai alapú Ethernet sebességét? Adótechnológia Az optikai szál abszolút fényvivő kapacitása.
Determinisztikus vonások a mikroprocesszorok fejlődésében Sima Dezső május 27.
Paradigmaváltások a processzorfejlesztésben Sima Dezső augusztus 25.
Korszakváltás a processzorok fejlődésében Sima Dezső Szeptember.
Az ILP feldolgozás fejlődése
A számítógép teljesítménye
Alaplap Fő komponensek.
Processzorok.
A Neumann-elvű gépek A Neumann elvek:
Magas rendelkezésre állású Hyper-V rendszer építése
A többmagos processzorok világa Páter-Részeg Attila (PAASABI.ELTE) Beadandó I.
Alaplapra integrált csatlakozók
Ismerkedjünk tovább a számítógéppel
Készítette: Atkári György
IT ALAPFOGALMAK HARDVER.
Mikroprocesszorok (Microprocessors, CPU-s)
ifin811/ea1 C Programozás: Hardver alapok áttekintése
Intel P965 chipset.
A processzorok (CPU).
1 Számítógépek felépítése 5. előadás a CPU gyorsítása, pipeline, cache Dr. Istenes Zoltán ELTE-TTK.
Sima Dezső Többmagos/sokmagos processzorok Október Version 3.0.
2015. július július július 22. Készítette: Gráf Tímea Informatika 9. évf. Informatikai alapismeretek III.
Korszakváltás a processzorok fejlődésében Sima Dezső 2014 őszi félév (verzió 3.5)
Alaplapok.
A CPU (központi feldolgozó egység vagy processzor)
1 A számítógépek felépítése jellemzői, működése. 2 A számítógép feladata Az adatok Bevitele Tárolása Feldolgozása Kivitele (eredmény megjelenítése)
A számítógép modulokból (részegységekből) áll. Az alaplap A részek illesztését megvalósító elem:
CPU (Processzor) A CPU (Central Processing Unit – Központi Feldolgozó Egység) a számítógép azon egysége, amely értelmezi az utasításokat és vezérli.
Ilyen számítógépet szeretnék
RAM (Random Access Memory)
Ilyen számítógépet szeretnék
Információtechnológiai alapismeretek
Korszakváltás a processzorok fejlődésében
Korszakváltás a processzorok fejlődésében
Korszakváltás a processzorok fejlődésében
Korszakváltás a processzorok fejlődésében
Az ILP feldolgozás fejlődése
Korszakváltás a processzorok fejlődésében
A számítógép működésének alapjai
Pipeline példák (IMSC, 2019).
Számítógépek felépítése 9. előadás I/O rendszerek
Előadás másolata:

Korszakváltás a processzorok fejlődésében Sima Dezső 2014 őszi félév (verzió 3.5)

2 A processzorok hatékonysága 5 A második hatékonysági korlát 9 Paradigmaváltás 7 Párhuzamos buszok frekvenciakorlátja Áttekintés 6 A disszipációs korlát 1 Processzorok teljesítménye 3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok 8 EPIC architektúrák/processzorok 4 Az órafrekvencia erőteljes növelése

Abszolút teljesítmény Relatív teljesítmény Eredményesen végrehajtott utasítások száma/sec Eredményesen végrehajtott műveletek száma/sec (SIMD) Egy benchmark programcsomag valamely referenciarendszeren és a vizsgált rendszeren mért futási időinek összevetése az alábbi értelmezéssel (mértani közép): Pl: SPECint92, SPECint_base2000 f c : Órafrekvencia IPC: Utasítások száma/ciklus (P a alkalmazásfüggő, max. teljesítmény jellemzésére) OPI: Műveletek száma/utasítás 1.1. Bevezetés (1) Pl:MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS Számítási teljesítmény megadása Egy adott alkalmazási területen jellemzi a teljesítményt

Példa SPECint eredményekre: 1.1. Bevezetés (2) 1.1. ábra: Programcsomag egyes programjainak futásidő arányai Forrás:

Processzorok abszolút teljesítménye az utasításokra vonatkoztatva: 1.1. Bevezetés (3) ahol: f c : órafrekvencia IPC eff : az óraciklusonként eredményesen végrehajtott utasítások száma az eredményesen végrehajtott utasítások száma/sec

1.1. Bevezetés (4) H = IPC eff P = f c * H Processzorok hatékonysága (H): az óraciklusonként eredményesen végrehajtott utasítások száma azaz így

1.1. Bevezetés (5) Grafikai teljesítmény megadása pl. játékok futtatásakor ardware-canucks-reviews/53054-intel-i k-ivy-bridge-cpu-review-17.html

1.2. A processzor teljesítmények növekedése (1) 1.2. ábra: Az x86 alapú egymagos Intel processzorok FX-teljesítményének növekedése

1.2. A processzor teljesítmények növekedése (2) ábra: A fixpontos teljesítmények növekedése (általában - 2) Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf

2.1. Bevezetés ? 2. A processzorok hatékonysága

2.1. ábra: Intel processzorok hatékonysága 2.2. A processzorok hatékonyságának növekedése (1)

2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában) Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”, Microprocessor Forum, October 14, A processzorok hatékonyságának növekedése (2)

2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig) ? A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.

2.4. A hatékonyság növekedése és annak korlátja 2.4. ábra: Processzorok hatékonyságának növekedése a 2. gen. szuperskalárokig

2.5. A hatékonyság növelésének főbb forrásai (1) Szóhossz növelése Feldolgozási szélesség növelése Általános célú feldolgozást tekintve

Szóhossz növelése 8 bit (8008)  16 bit (286)  32 bit (386DX)  64 bit adatszélesség (Pentium)  64 bit (Pentium 4 EMT) 2.5. A hatékonyság növelésének főbb forrásai (2)

Időbeli párhuzamosság bevezetése, növelése Kibocsátási párhuzamosság bevezetése, növelése 1. és 2. generációs futószalag processzorok (386DX, 486DX) 1. és 2. generációs szuperskalárok (Pentium, Pentium Pro) Feldolgozási szélesség növelése 1 1. Gen. 2. Gen A hatékonyság növelésének főbb forrásai (3)

superscalar 1. Gen.2. Gen pipeline 2.5. A hatékonyság növelésének főbb forrásai (4) A feldolgozási szélesség növelése (összefoglalás)

2.5. ábra: Processzorok hatékonyságának növekedése a 2. gen szuperskalárokig Futószalag 1.gen. szuperskalár 2. gen. szuperskalár ~10x/10 év Stagnálás 2.5. A hatékonyság növelésének főbb forrásai (5)

2.5. A hatékonyság növelésének első korlátja (1) Feldolgozási szélesség 4 RISC utasítás/ciklus ~3 CISC utasítás/ciklus 2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban 2. generációs szuperskalárok (széles szuperskalárok) Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990

Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően a hatékonyság növelésének lehetősége a feldolgozási szélesség nővelésével kimerült Általános célú alkalmazásokban: 2.5. A hatékonyság növelésének korlátja (2) 2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét

EPIC architektúrák kifejlesztése Az órafrekvencia erőteljes növelése A fejlődés fővonala (4. – 7. pontok) 3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése (8. pont)

A gyártási technológia vonalvastagságának csökkentése A futószalag fokozatok logikai hosszának csökkentése 4.1. Az órafrekvencia növelésének forrásai (1) Az órafrekvencia növelése 4. Az órafrekvencia erőteljes növelése

4.1. ábra: Az Intel gyártási technológiák fejlődése Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, Az órafrekvencia növelésének forrásai (2)

4.1. Az órafrekvencia növelésének forrásai (3/1) Egy futószalag fokozat logikai hossza (n x FO4) A “leghosszabb” futószalag fokozat logikai hossza határozza meg a max. órafrekvenciát (a jelnek át kell érnie!). Órajel n x FO4 Órajel FO4: Fan-out of Four

A futószalag logikai hosszának csőkkentése a futószalag fokozatok számának növelésével: F D E W W1W2 F1 F2 D1 D2E1E Az órafrekvencia növelésének forrásai (3/2)

4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4) 4.1. Az órafrekvencia növelésének forrásai (4) Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf

20 30 Year * * * * * Pentium (5) 2005 No of pipeline stages Pentium Pro (~12) Pentium 4 (~20) Athlon-64 (12) P4 Prescott (~30) (14) Conroe * Athlon (6) K6 (6) * 1995 * Core Duo 4.2 ábra: A futószalag fokozatok száma Intel és AMD processzorokban 4.1. Az órafrekvencia növelésének forrásai (5)

4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése 4.2. Az órafrekvenciák növekedési üteme (1)

4.2. Az órafrekvenciák növekedési üteme (2) 4.5. ábra: Az órafrekvenciák növekedési üteme (általában)

Fejlődési korlátok megjelenése RISC processzorok kiszorulása 4.3. Az órafrekvencia erőteljes növelésének konzekvenciái Áttekintés (4.3.2) (4.3.3)

RISC processzorok kiszorulása (1) 4.6. ábra: RISC processzorok kiszorulása

: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC) A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA családjai, illetve a PowerPC Consortium PowerPC családja RISC processzorok kiszorulása (2) 1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a 32-bites x86 architektúrát leváltó új generációt

Fejlődési korlátok megjelenése (1) Párhuzamos buszok frekvenciakorlátja Disszipációs korlát Hatékonysági korlát (5. pont) (6. pont) (7. pont)

Fejlődési korlátok megjelenése (2) Párhuzamos buszok frekvenciakorlátja Disszipációs korlát Hatékonysági korlát (5. pont) (6. pont) (7. pont) Órafrekvenciák stagnálása Disszipáció csökkentés előtérbe kerülése Soros buszok megjelenése

A processzor és a memória közötti sebességolló 5.1. Áttekintés 5. A második hatékonysági korlát Alapvető ok: (növekvő órafrekvenciákon tágul)

Memória átviteli rátája DRAM késleltetési ideje A processzor busz átviteli rátája Cache tárak elérési ideje 5.1. Áttekintés (2) A sebességolló konkrét megnyilvánulásai:

5.1 Áttelomtás (3) The scene of main memories 1 Used in the Cell BE and the PlayStation 3, but not yet in desktops or servers Ábra: Legfontosabb DRAM típusok DRAM (1970) FBDIMM (2006) DRDRAM (1999) DDR3 (2007) DDR2 (2004) DDR (2000) SDRAM (1996) FPM (1983) FP (~1974) XDR (2006) 1 Year of intro. Asynchronous DRAMs Synchronous DRAMs DRAMs with parallel bus connection DRAMs with serial bus connection DRAMs for general use Main stream DRAM types Challenging DRAM types EDO (1995) Commodity DRAMs

486 DXP PII PIII386 DX * PC AT * * * * * * * * * * 16 K64 K256 K 64 M Year processor Chipset Typ. DRAM size (bits) (ns) FPM 4 M 1 M 16 M128 M 64 M 16 M 64 M 256 M EDO FPM EDO SDRAM RDRAM SDRAM 64 K DRAM FPM DRAM 64 K P4 64 M 128 M 256 M SDRAM Core2 512 M 1 G 2 G DDR2 * * * * * * K 256 K 256 M 512 M 1 G DDR DDR2 DDR3 DDR2 40 * Desktop DRAM type Read latency 1 1 Read latency of DRAM, FPM, EDO and BEDO parts = t RAC (Row access time (time from row address until data valid)) Read latency of SDRAM parts = CL + t RCD (Cslumn delay + Row to Cloumn delay) 2 The 815 chipset support SDRAM while the 820 RDRAM 512 M 1 G P M 512 M 1 G M RDRAM 128 M 256 M EDO FPM SDRAM 4 M 256 K FPM 1 M 440ZX 430VX 430FX 420TX 430LX 3 A new revision of the 845 supports DDR instead of SDRAM DRAM FPM 16 M 4 M 5.2. A processzor és a memória közötti sebességolló (2) 5.1b ábra: DRAM chipek késleltetési ideje Pentium D

5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns) 486 DXPPPro PIIPIII 386 DX PC AT (286) (8088) P4 Memory latency ns * * * * * * Year * 160 * 110 * 85 * Core2 processor Chipset Typ. DRAM parts (bits) Desktop DRAM type 16 K DRAM 64 K DRAM 64 K 128 K 256 K 1 M DRAM FPM DRAM FPM 256 K FPM 4 M 1 M 256 K FPM 1 M 420TX 430LX 16 M 64 M EDO FPM EDO FPM SDRAM 4 M 430VX 430FX 16 M 4 M 64 M 128 M 16 M 64 M 256 M EDO SDRAM RDRAM SDRAM 64 M 128 M 256 M SDRAM DDR M 512 M 1 G M RDRAM 128 M 256 M ZX 512 M 1 G 2 G DDR2 256 M 512 M 1 G DDR DDR2 DDR3 DDR2 512 M 1 G P RDRAM 5.2. A processzor és a memória közötti sebességolló (3) Pentium D

486 DXPPPro PIIPIII 386 DX PC AT (286) (8088) P4 Core2 processor Chipset Typ. DRAM parts (bits) Desktop DRAM type 16 K DRAM 64 K DRAM 64 K 128 K 256 K 1 M DRAM FPM DRAM FPM 256 K FPM 4 M 1 M 256 K FPM 1 M 420TX 430LX 16 M 64 M EDO FPM EDO FPM SDRAM 4 M 430VX 430FX 16 M 4 M 64 M 128 M 16 M 64 M 256 M EDO SDRAM RDRAM SDRAM 64 M 128 M 256 M SDRAM DDR M 512 M 1 G M RDRAM 128 M 256 M ZX 512 M 1 G 2 G DDR2 256 M 512 M 1 G DDR DDR2 DDR3 DDR2 512 M 1 G P Memory latency in proc. cycles Year * * * * * * * * * * RDRAM 5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban) 5.2. A processzor és a memória közötti sebességolló (4) Pentium D

5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás) 5.2. A processzor és a memória közötti sebességolló (5)

5.4. ábra: A processzor busz (FSB) relatív átviteli rátája 5.2. A processzor és a memória közötti sebességolló (6)

f c max at intro. (GHz) L2 size (Kbyte) L2 latency (clock cycles) Willamette Northwood Prescott ábra: Intel Pentium 4 L2 cache tárak elérési ideje 5.2. A processzor és a memória közötti sebességolló (7)

5.3. A 3. generációs szuperskalárok hatékonysága (1) 5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén FSB órafrekvencia Memoria átviteli rátája Háttértár típusa

5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén 5.3. A 3. generációs szuperskalárok hatékonysága (2)

5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők 5.3. A 3. generációs szuperskalárok hatékonysága (3)

5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása 5.3. A 3. generációs szuperskalárok hatékonysága (4)

5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása 5.3. A 3. generációs szuperskalárok hatékonysága (5)

Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet A processzorok hatékonysági korlátjának konzekvenciája: 5.3. A 3. generációs szuperskalárok hatékonysága (6) Magasabb órafrekvencia Magasabb disszipáció Az órafrekvenciák stagnálása

6. A disszipációs korlát (1) Disszipáció (D) : D d =A*C*V 2 *f c ahol: A:aktív kapuk részaránya C:a kapuk összesített kapacitása V:tápfeszültség f c :órafrekvencia I leak :szivárgási áram Dinamikus Statikus D s =V*I leak

In addition: higher fc requires higher Vdd (Vdd ≈ const x fc) [] Figure: Core voltage (Vdd) vs. clock frequency (fc) for Intel’s Westmere processors [] 6. A disszipációs korlát (2)

6.2. ábra: Intel processzorok fajlagos disszipációja 6. A disszipációs korlát (2)

6. A disszipációs korlát (2b) A disszipáció növekedés problémájának felismerése (ISSCC 2001, Gelsinger P. Intel)

6. A disszipációs korlát (2c) A tápfeszűltség skálázása a gyártási technológiával Forrás: Gelsinger P. IDF, June

6.3. ábra: Intel és AMD processzorok 6. A disszipációs korlát (3)

6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra) 6. A disszipációs korlát (4)

6.5. ábra: A fajlagos disszipáció értékének növekedése (általában) Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., A disszipációs korlát (5)

6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp A disszipációs korlát (6)

Forrás: 6. A disszipációs korlát (7) Kapcsolási sebesség: 120 % 6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1)

6. A disszipációs korlát (7b) 6.7 ábra: A szívárgási áramok csökkenése Forrás:

The traditional planar transistor [82] 6. A disszipációs korlát (7c) Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011,

The 22 nm Tri-Gate transistor-1 6. A disszipációs korlát (7d) Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011,

The 22 nm Tri-Gate transistor-2 Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011, 6. A disszipációs korlát (7e)

A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása A disszipációs korlát konzekvenciái: 6. A disszipációs korlát (8) A processzorok tervezésének új paradigmája: Teljesítmény/Watt

6.8 ábra: Intel 2006-ban nyilvánosságra hozott utiterve, mely megadta a gyártási technológiák fejlesztési ütemét és a tervezett új processzor architektúrák kibocsátásának idejét [74] 6. A disszipációs korlát (9) Intel processzor tervezési filozófiájának változása Forrás:

Az adatbeolvasás mechanizmusa a buszok vevőoldalán 7. Párhuzamos buszok frekvenciakorlátja (1) A busz vevőrésze a felfutó órajellel vezérelten bekapuzza az adat jelet. ClockDQ next Rising edge00 11 Non-RisingXQ A bekapuzás D flip flop-ok használatán alapul. D flip-flop

Az időbeli feltételeket az órajel felfutó élére vonatkoztatott adat érvényes ablak (Data Valid Window, DVW) írja le, a feszültségszint feltételeket egy minimálisan elvárt H szint (VHmin) és egy maximálisan megengedett L szint (VLmax) definiálja. Forbidden V area for the data signal t V VLmax VHmin DVW VL Data VH DVW: Min. idő, amig a jelnek érvényesnek kell lennie Órajel (adat bekapuzáshoz) 7. Párhuzamos buszok frekvenciakorlátja (1b) Az adat helyes bekapuzásának időbeli és feszültségszint feltételei vannak

A DVW két feltételt támaszt, 7.1 Ábra: Az adat érvényes ablak (DVW) értelmezése ideális jel esetén Data CK tStS tHtH Min. DVW 7. Párhuzamos buszok frekvenciakorlátja (2) t s : setup time t H : hold time egyrészt az adat-jelnek már érvényesnek kell lennie legalább t S idővel az órajel jel felfutó élének megérkezése előtt, és másrészt pedig érvényesnek kell maradnia legalább t H ideig az órajel felfutó élét követően annak érdekében, hogy a vevőáramkör az adat-bitet helyesen kapuzza be. Az adat érvényes ablak (DVW) értelmezése

DVW min max 7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával Adatjelek egymásra irásával előállított kép. Az elvárt adat-beolvasási követelmények teljesülésének az ellenőrzésére szolgál. 7. Párhuzamos buszok frekvenciakorlátja (3) A szem diagram (Eye diagram) DVW

Elektromos jelenségek, elsődlegesen behatárolják a buszok adatátviteli sebességét. 7. Párhuzamos buszok frekvenciakorlátja (4) Az adatbeolvasás tolerancia sávjait csökkentő (zavaró) elektromos jelenségek a skew jel-visszaverődések (reflections), melyek vonal lezárási illesztettlenségek miatt lépnek fel, és a jitter csökkentik az adat-beolvasás tolerancia sávjait, és ezáltal

7.3 Ábra: Egy adott jelvezeték két pontján fellépő futási idő különbség valamely lapkán vagy NYÁK-on A jelek felfutó (vagy lefutó) élei közötti időkülönbség, mely kétféleképpen értelmezhető. a)A skew értelmezése egy adott jel (pl. órajel) vezetékének különböző pontjain egy lapkán vagy egy NYÁK-on. 7. Párhuzamos buszok frekvenciakorlátja (5) Skew (általában)

7. Párhuzamos buszok frekvenciakorlátja (5b) E tekintetben különösen fontos pl. egy lapkán lévö áramköri elemek órajelekkel való ellátása 650 mm 2 Példa: IBM Power 8 processzor lapka órajelekkel való ellátása Forrás:

Bináris fa alapú órajel ellátás H-fa alapú órajel ellátás Fa-alapú órajel ellátás Bináris fa H-fa 7. Párhuzamos buszok frekvenciakorlátja (5c) Példa órajel elosztó hálózatokra

7.4. ábra: Párhuzamos buszok bit-vezetékein futó jelek élei között megjelenő futási idő különbségek (skew) 7. Párhuzamos buszok frekvenciakorlátja (6) b) A skew értelmezése mint egy párhuzamos busz különböző bit-vezetékein futó jelek élei közőtt megjelenő eltolódás, melyet a futási idők eltérése okoz.

A párhuzamos buszok egyes bitvezetékei között megjelenő skew előidéző okai (elsődlegesen) 7. Párhuzamos buszok frekvenciakorlátja (7) 1) Párhuzamos buszok egyes bit-vezetékeinek eltérő hosszai NYÁK lapokon. Adott jelterjedési sebesség (time of flight) mellett, melynek értéke kb. 170 ps/inch) [8], ill. kb. 60 ps/cm, a hosszeltérések él-eltolódásokhoz vezetnek. A hossz-különbségeket a tervezők NYÁK lapokon (pl. alaplapokon) bizonyos mértékben kiegyenlítik.

7.5. ábra: A futási idő különbségek (skew) kiegyenlítése az MSI 915 G Combo alaplapon 7. Párhuzamos buszok frekvenciakorlátja (8)

Ábra: Jelvezetékek kapacitív terhelése miatt fellépő skew [8] CK-1 CK-2 Skew 7. Párhuzamos buszok frekvenciakorlátja (9) 2) NYÁK vezetékek eltérő kapacitív terhelése miatt fellépő skew (kb. 50 ps per pF).

A GHz tartományban a NYÁK-okon (pl. az alaplapokon) kialakított rézvezetékek tápvezetékként működnek (transmission lines). 7. Párhuzamos buszok frekvenciakorlátja (10) Visszaverődések (reflections) Annak érdekében, hogy a tápvezetékeken ne álljanak elő visszaverődések a tápvezetékeket a hullám impedanciájukkal (characteristic impedance) (Z 0 ) kell lezárni, mely kb Ω alaplapon illetve DIMM kártyán kialakított rézvezetékek esetén. Ha a tápvonalat nem a hullám impedanciájával zárjuk le vagy a tápvonalon inhomogenitások vannak, visszaverődések keletkeznek, melyek csőkkentik az adat-beolvasásnál rendelkezésre álló tolerancia sávokat. Z0Z0

7.6 Ábra: Egy szem diagramon látható visszaverődések, melyek a tápvonal lezárás illesztetlensége miatt keletkeztek 7. Párhuzamos buszok frekvenciakorlátja (11) Példa visszaverődésekre

Memória vezérlő (MCH) DIMM kártyák Alaplapon kiképzett vezetékek 7.7 Ábra: A memória vezérlőt és a DIMM kártyákon elhelyezett DRAM chipeket összekötő vezetékeken fellépő inhomogenitások ([6] alapján) Az adatút egyes pontjain inhomogenitások jelentkeznek. 7. Párhuzamos buszok frekvenciakorlátja (12) Példa inhomogenitásokra a mem. vezérlőt és a DRAM chipeket összekötő adatút esetén

7.7/b ábra: Vezetéklezárások DDR3 DIMM-ek esetén (R s = Ω, R T = Ω, R ZQ = 240 Ω ±1%) V ss V TT RsRs Dyn. ODT ZQ V ss R ZQ Memory Contr. Comm., Contr. Addr. DQ, DQS/# DM DDR3 DIMM SSTL_15 V ss V TT RsRs ZQ V ss R ZQ Dyn. ODT R1R1 R2R2 R1R1 R2R2 VTTVTT RTRT VTTVTT RTRT 7. Párhuzamos buszok frekvenciakorlátja (12b) Vezetéklezárások DDR3 DIMM-ek esetén ODT: On-Die Termination

Jelentése: fázisbizonytalanság, mely a jelek felfutó és lefutó éleit elmossa. 7.8 Ábra: Jelek felfutó illetve lefutó élein jelentkező jitter A jitter főbb forrásai Áthallás (crosstalk), melyet a szomszédos vezetékek közötti csatolás okoz a NYÁK-on, ISI (Inter-Symbol Interference): egymást követő eltérő jelszintek (pl. H-L) esetén ha az előző jel még nem kellő mértékben csengett le, a következő jel egy maradvány jelszintről indul. Akkor áll elő, ha busz magasabb frekvencián működik minthogy a jelek le tudnának csengeni, EMI (Electromagnetic Interference) melyet külső vagy belső forrásokból származó elektromágneses sugárzás okoz. 7. Párhuzamos buszok frekvenciakorlátja (13) Jitter (fázis bizonytalanság) A jitter leszűkíti az adatok beolvasásánál rendelkezésre álló tolerancia sávokat mind a DVW, mind a jelszintek tekintetében. A jitter sztohasztikus jellegű.

A vevő oldalon csökkentik a jelek beolvasásának tolerancia sávjait. 7. Párhuzamos buszok frekvenciakorlátja (14) A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával DVW min max DVW Ez bekorlátozza a párhuzamos buszok átviteli sebességét.

7. Párhuzamos buszok frekvenciakorlátja (15) A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-2 A tárgyalt elektromos zavaró jelenségek egyúttal bekorlátozzák az egy memória csatornára csatlakoztatható DIMM-ek számát is. Pl. hagyományos rendszerarchitektúrákban, melyekben a memória csatornák az MCH-ra (északi híd) csatlakoznak, DDR2 vagy DDR3 memóriák esetén általában csak két DIMM csatlakoztatható, sőt magasabb átviteli ráták esetén (pl. DDR vagy MT/s esetén) akár csak egyetlen egy.

Soros buszok használata 7.9. ábra: Jelátvitel soros buszon 7. Párhuzamos buszok frekvenciakorlátja (16) Párhuzamos buszok frekvenciakorlátja által kiváltott trend: Vezetékpár (lane)

16 data 2 protocol 2 CRC TX Unidirectional link RX Unidirectional link 7.3 ábra: A QuickPath Interconnect busz (QPI-bus) jelei [Forrás: Intel] Példa: A soros QuickPath Interconnect bus (QPI bus) (DDR data transfer) 7. Párhuzamos buszok frekvenciakorlátja (16a)

Példák “gyors” soros buszokra: PCI-e SATA SAS HT (HyperTransport bus) QPI (Quick Path Interconnect bus) Soros buszok bevezetése lassú periféria buszok esetén is (költségokokból!): USB USB2 7. Párhuzamos buszok frekvenciakorlátja (17)

Forrás: Vogt, IDF Spring Párhuzamos buszok frekvenciakorlátja (18) A soros buszok használata nagyban leegyszerűsíti az alaplapok tervezését is 7.10 Ábra: Vezeték összeköttetések alaplapon párhuzamos és soros memória busz esetén

Az órafrekvenciák növelésén alapuló fejlődési főirány hatékonysági, disszipációs és skew korlátokba ütközik és tovább már nem követhető A fejlődési korlátok felerősödésének konzekvenciája-1

A fejlődési korlátok összefoglalása Párhuzamos buszok frekvenciakorlátja Disszipációs korlát Hatékonysági korlát (5. pont) (6. pont) (7. pont) Órafrekvenciák bekorlátozása Disszipáció csökkentés, Teljesítmény/Watt Soros buszok

* * * ~10 2 x/10év P t * * ~10x/10év IPC t 2. gen superscalar The evolution of P, IPC and fc ~10 2 x/10év * * ~10x/10év fcfc t

Az órafrekvencia erőteljes növelése EPIC architektúrák kifejlesztése A fejlődés fővonala (4. – 7. pontok) 8. EPIC architektúrák/processzorok (1) (8. pont)

Szuperskalár feldolgozás elve FEFE FEFE FEFE dinamikus függőség kezelés Processzor függő utasítások utasítások VLIW feldolgozás elve FEFE FEFE FEFE VLIW: Very Large Instruction Word független utasítások (statikus függőség kezelés) Processzor 8.1. ábra: VLIW processzorok működési elve 8. EPIC architektúrák/processzorok (2)

VLIWEPIC EPIC: Explicitly Parallel Instruction Computer Továbbfejlesztett VLIW elágazásbecslés explicit cache utasítások 8. EPIC architektúrák/processzorok (3) (fejlett szuperskalár vonások integrálása)

Forrás: 8. EPIC architektúrák/processzorok (4) 8.2 ábra: Az Intel processzorok fejlesztésének kezdete 5/2001 EPIC

MP Platforms MP Cores Itanium 2 Itanium 9100Itanium 2 10/ /2004 6/2003 7/2002 (McKinley) SC(Madison 6M) SC(Madison 9M) SC(Montvale) DC Itanium 2 (McKinley/Madison) (Montecito/Montvale) 130 nm/410 mtrs 1.5 GHz 256 kB L2 6/4/3 MB L3 128 bit FSB 533/400 MT/s PAC611 FSB-based Vastly enhanced microarchitecture FSB-based Dual-threaded Enh. cache arch. Cache safe techn. 180 nm/220 mtrs 900/1000 MHz 256 kB L2 3/1.5 MB L3 128 bit FSB 400 MT/s PAC nm/592 mtrs 1.6 GHz 256 kB L2 9 MB L3 128 bit FSB 533 MT/s PAC nm/1720 mtrs 1.66/1.6 GHz 1 MB L2I/256 kB L2D 2 x 12 MB L3 128bit 667/533 MT/s PPGA611 Itanium 9000 (Montecito) DC 90 nm/1720 mtrs 1.6 GHz 1MB L2I/256 kB L2D 2*12 MB L3 128-bit FSB 533 MT/s PPGA611 1 : Special memory cards are used SNC: Scalable Node Controller 7/2006 Itanium 5/ nm/25 mtrs 733/800 MHz 96 KB L2 2/4 MB dir. L3 64-bit FSB 266 MT/s PAC418 FSB-based (Merced SC) Itanium (Merced) 8. EPIC architektúrák/processzorok (5) 8.3 ábra: Az Intel Itanium család (1)

8.4. ábra: Itanium processzorok hatékonysága 8. EPIC architektúrák/processzorok (6)

MP Platforms MP Cores Itanium 2 Itanium 9100Itanium 2 10/ /2004 6/2003 7/2002 (McKinley) SC(Madison 6M) SC(Madison 9M) SC(Montvale) DC Itanium 2 (McKinley/Madison) (Montecito/Montvale) 130 nm/410 mtrs 1.5 GHz 256 kB L2 6/4/3 MB L3 128 bit FSB 533/400 MT/s PAC611 FSB-based Vastly enhanced microarchitecture FSB-based Dual-threaded Enh. cache arch. Cache safe techn. 180 nm/220 mtrs 900/1000 MHz 256 kB L2 3/1.5 MB L3 128 bit FSB 400 MT/s PAC nm/592 mtrs 1.6 GHz 256 kB L2 9 MB L3 128 bit FSB 533 MT/s PAC nm/1720 mtrs 1.66/1.6 GHz 1 MB L2I/256 kB L2D 2 x 12 MB L3 128bit 667/533 MT/s PPGA611 Itanium 9000 (Montecito) DC 90 nm/1720 mtrs 1.6 GHz 1MB L2I/256 kB L2D 2*12 MB L3 128-bit FSB 533 MT/s PPGA611 1 : Special memory cards are used SNC: Scalable Node Controller 7/2006 Itanium 5/ nm/25 mtrs 733/800 MHz 96 KB L2 2/4 MB dir. L3 64-bit FSB 266 MT/s PAC418 FSB-based (Merced SC) Itanium (Merced) 8. EPIC architektúrák/processzorok (6a) 8.3 ábra: Az Intel Itanium család (1)

8.4. ábra: Itanium processzorok hatékonysága 8. EPIC architektúrák/processzorok (6b)

8.5. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, EPIC architektúrák/processzorok (7)

8.7. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása 8. EPIC architektúrák/processzorok (8)

MP Platforms MP Cores Itanium 9500Itanium xxItanium or /2012 2/2010 (Tukwila) 4C(Poulson) 8C(Kittson) na Boxboro-MC 32 nm/3100 mtrs GHz 512 kB L2I/256 kB L2D 32 MB shared L3 2 x MC x 2 SMI x 2 x DDR full/2 half QPI 6.4/4.8 GT/s LGA1248 New instructions New microarchitecture Integrated MC Serial SMI links Ring bus interconnect Turbo Boost QPI-based SMM Directory cache Vastly enh. RAS 65 nm/2050 mtrs GHz 512 kB L2I/256 kB L2D 6 MB L3/core 2 x MC x 2 SMI x 2 x DDR full/2 half QPI 4.8 GT/s LGA nm/na mtrs na na. LGA1248 MC: Memory Controller SMI: Scalable Memory Interface Integrated MC Serial SMI links Crossbar interconnect Turbo Boost QPI-based SMM Directory cache Vastly enh. RAS 8. EPIC architektúrák/processzorok (9) 8.8 ábra: Az Intel Itanium család (2)

az EPIC architektúrák/processzorok kiszorulása 8. EPIC architektúrák/processzorok (10) Microsoft 2010 áprilisában bejelentette, hogy a továbbiakban nem támogatja az Itanium architektúrát. Windows Server 2008 R2/SQL Server 2008 R2 és Visual Studio 2010 lesz az utolsó szerver szoftver környezet, mely támogatja az Itanium-ot márciusában Oracle is bejelentette, hogy a jövőben beszünteti szoftver fejlesztéseit az Itanium architektúrára.

Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett, ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött Egymagos szuperskalárok alkonya 9. Paradigmaváltás (1)