Korszakváltás a processzorok fejlődésében

Slides:



Advertisements
Hasonló előadás
A processzorok rövid történelme, áttekintése
Advertisements

Alaplap.
1 Számítógépek felépítése 9. előadás I/O rendszerek.
Memóriák típusai, jellemzői
A számítógép felépítése
Nagy Tamás.  Nincsenek akadályozó, „megtörő” kábelek  Költséghatékony  Akár másodlagos hálózatként is használható  Folyamatosan fejlődik, gyorsul,
A számítógép felépítése
A memória.
Neumann-elvek A számítógép legyen teljesen elektronikus, külön vezérlő és végrehajtó egységgel. Kettes számrendszert használjon. Az adatok és a programok.
Számítógép architektúra
 Többszálúság  Gyártási költségek  A modellnevek megváltoztatása  Processzor magok  Athlon és Phenom összehasonlítása.
A többmagos processzorok
A hardver és a személyi számítógép konfigurációja
Alaplapra integrált csatlakozók
Alapfogalmak Hardver:  A számításokat végző fizikai-technikai rendszer (kézzel fogható, fizikai termékek) Szoftver:  Programok, programrendszerek (szellemi.
Mikroprocesszorok (CPU)
A memória.
Alapfogalmak Adat: fogalmak, tények, jelenségek olyan formalizált ábrázolása, amely emberi vagy gépi értelmezésre, feldolgozásra, közlésre alkalmas. Információ:
A 2000-es év utáni processzorok jellemzői
A D INAMIKUS RAM ÚJDONSÁGAI. D INAMIKUS RAM  DDR  DDR2  DDR3  DDR4  DDR 5.
Memóriák.
Digitális rendszerek I. c
Paradigmaváltások a processzorfejlesztésben Sima Dezső augusztus 25.
3. Szálszinten párhuzamos feldolgozás (TLP)
Korszakváltás a processzorok fejlődésében Sima Dezső 2013 őszi félév (verzió 3.4)
Sima Dezső Többmagos/sokmagos processzorok Október Version 3.0.
Korszakváltás a processzorok fejlődésében Sima Dezső 2011 őszi félév (módosított, verzió 3)
Korszakváltás a processzorok fejlődésében Sima Dezső 2011 őszi félév.
Korszakváltás a processzorok fejlődésében Sima Dezső 2007 őszi félév.
Korszakváltás a processzorok fejlődésében Sima Dezső 2009 őszi félév.
CISC - RISC processzor jellemzők
A memória.
Számítógép memória jellemzői
Többmagos processzorok
Felkészítő tanár: Széki Tibor tanár úr
Tematikus fogalomtár FÉLVEZETŐS TÁRAK
Teszt minta kérdések. Az alábbiak közül melyik korlátozza az optikai alapú Ethernet sebességét? Adótechnológia Az optikai szál abszolút fényvivő kapacitása.
Determinisztikus vonások a mikroprocesszorok fejlődésében Sima Dezső május 27.
Mikroelektronikaéstechnológia Bevezetõ elõadás Villamosmérnöki Szak, III. Évfolyam.
Paradigmaváltások a processzorfejlesztésben Sima Dezső augusztus 25.
Korszakváltás a processzorok fejlődésében Sima Dezső Szeptember.
Az ILP feldolgozás fejlődése
Alaplap Fő komponensek.
IC gyártás Új technológiák. 2 Strained Silicon (laza szilícium)
Processzorok.
A Neumann-elvű gépek A Neumann elvek:
A többmagos processzorok világa Páter-Részeg Attila (PAASABI.ELTE) Beadandó I.
Alaplapra integrált csatlakozók
Ismerkedjünk tovább a számítógéppel
Processzorok és típusai
Írja fel a tizes számrendszerbeli
IT ALAPFOGALMAK HARDVER.
Mikroprocesszorok (Microprocessors, CPU-s)
ifin811/ea1 C Programozás: Hardver alapok áttekintése
1 Számítógépek felépítése 5. előadás a CPU gyorsítása, pipeline, cache Dr. Istenes Zoltán ELTE-TTK.
Korszakváltás a processzorok fejlődésében Sima Dezső 2014 őszi félév (verzió 3.5)
Korszakváltás a processzorok fejlődésében Sima Dezső 2014 őszi félév (verzió 3.5)
Alaplapok.
A CPU (központi feldolgozó egység vagy processzor)
1 A számítógépek felépítése jellemzői, működése. 2 A számítógép feladata Az adatok Bevitele Tárolása Feldolgozása Kivitele (eredmény megjelenítése)
A számítógép modulokból (részegységekből) áll. Az alaplap A részek illesztését megvalósító elem:
CPU (Processzor) A CPU (Central Processing Unit – Központi Feldolgozó Egység) a számítógép azon egysége, amely értelmezi az utasításokat és vezérli.
RAM (Random Access Memory)
Információtechnológiai alapismeretek
Korszakváltás a processzorok fejlődésében
Korszakváltás a processzorok fejlődésében
Korszakváltás a processzorok fejlődésében
Korszakváltás a processzorok fejlődésében
Az ILP feldolgozás fejlődése
Korszakváltás a processzorok fejlődésében
Előadás másolata:

Korszakváltás a processzorok fejlődésében Sima Dezső 2013 őszi félév (verzió 3.3)

Áttekintés 1 Processzorok teljesítménye 2 A processzorok hatékonysága 3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok 4 Az órafrekvencia erőteljes növelése 5 A Hatékonysági korlát 6 A disszipációs korlát 7 Párhuzamos buszok frekvenciakorlátja 8 EPIC architektúrák/processzorok 9 Paradigmaváltás

Abszolút teljesítmény Relatív teljesítmény 1.1. Bevezetés (1) Számítási teljesítmény megadása Abszolút teljesítmény Relatív teljesítmény Eredményesen végrehajtott utasítások száma/sec Egy benchmark programcsomag valamely referenciarendszeren és a vizsgált rendszeren mért futási időinek összevetése az alábbi értelmezéssel (mértani közép): Eredményesen végrehajtott műveletek száma/sec (SIMD) fc: Órafrekvencia IPC: Utasítások száma/ciklus Pl: SPECint92, SPECint_base2000 OPI: Műveletek száma/utasítás MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS (Pa nehezen mérhető, alkalmazásfüggő)

1.1. Bevezetés (2) Példa SPECint eredményekre: 1.1. ábra: Programcsomag egyes programjainak futásidő arányai Forrás: http://www.spec.org

Processzorok abszolút teljesítménye az utasításokra vonatkoztatva: 1.1. Bevezetés (3) Processzorok abszolút teljesítménye az utasításokra vonatkoztatva: ahol: fc : órafrekvencia IPCeff : az óraciklusonként eredményesen végrehajtott utasítások száma

1.1. Bevezetés (4) H = IPCeff P = fc * H Processzorok hatékonysága (H): az óraciklusonként eredményesen végrehajtott utasítások száma Mivel H = IPCeff P = fc * H

1.1. Bevezetés (5) Grafikai teljesítmény megadása pl. játékok futtatásakor http://www.hardwarecanucks.com/forum/hardware-canucks-reviews/53054-intel-i7-3770k-ivy-bridge-cpu-review-17.html

1.2. A processzor teljesítmények növekedése (1) 1.2. ábra: Az x86 alapú egymagos Intel processzorok FX-teljesítményének növekedése

1.2. A processzor teljesítmények növekedése (2) 3. 1.4. ábra: A fixpontos teljesítmények növekedése (általában - 2) Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf

2. A processzorok hatékonysága 2.1. Bevezetés ?

2.2. A processzorok hatékonyságának növekedése (1) 2.1. ábra: Intel processzorok hatékonysága

2.2. A processzorok hatékonyságának növekedése (2) 2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában) Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”, Microprocessor Forum, October 14, 1997.

2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig) ? A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.

2.4. A hatékonyság növekedése és annak korlátja 2.4. ábra: Processzorok hatékonyságának növekedése (általában)

2.5. A hatékonyság növelés forrásai (1) Szóhossz növelése 8/16  32 bit (286  386DX) Időbeli párhuzamosság bevezetése, növelése 1. és 2. generációs futószalag processzorok (386DX, 486DX) Kibocsátási párhuzamosság bevezetése, növelése 1. és 2. generációs szuperskalárok (Pentium, Pentium Pro)

2.5. A hatékonyság növelés forrásai (2) 2. gen. szuperskalár gen. szuperskalár Stagnálás Futószalag ~10x/10 év 2.4. ábra: Processzorok hatékonyságának növekedése (általában)

2.5. A hatékonyság növelésének korlátja (1) 2. generációs szuperskalárok (széles szuperskalárok) Feldolgozási szélesség 4 RISC utasítás/ciklus ~3 CISC utasítás/ciklus Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990 2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban

2.5. A hatékonyság növelésének korlátja (3) Általános célú alkalmazásokban: 2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően a hatékonyság növelésének extenzív forrásai kimerültek

3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése Az órafrekvencia erőteljes növelése EPIC architektúrák kifejlesztése (4. – 7. pontok) (8. pont) A fejlődés fővonala

4. Az órafrekvencia erőteljes növelése 4.1. Az órafrekvencia növelésének forrásai (1) Az órafrekvencia növelése A gyártási technológia vonalvastagságának csökkentése A futószalag fokozatok logikai hosszának csökkentése

4.1. Az órafrekvencia növelésének forrásai (2) 4.1. ábra: Az Intel gyártási technológiák fejlődése Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, 2006.

4.1. Az órafrekvencia növelésének forrásai (4) Egy futöszalag fokozat logikai hossza (n x FO4) Órajel n x FO4 A “leghosszabb” futószalag fokozat logikai hossza határozza meg a max. órafrekvenciát (a jelnek át kell érnie!). Órajel

4.1. Az órafrekvencia növelésének forrásai (4) 4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4) Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf

4.1. Az órafrekvencia növelésének forrásai (3) No of pipeline stages 40 P4 Prescott (~30) 30 * Pentium 4 (~20) Core Duo 20 * Conroe Pentium Pro Athlon-64 (12) (14) (~12) Athlon (6) Pentium * 10 * K6 (6) * (5) * * * Year 1990 1995 2000 2005 4.2 ábra: A futószalag fokozatok száma Intel és AMD processzorokban

4.2. Az órafrekvenciák növekedési üteme (1) 4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése

4.2. Az órafrekvenciák növekedési üteme (2) 4.5. ábra: Az órafrekvenciák növekedési üteme (általában)

4.3. Az órafrekvencia erőteljes növelésének konzekvenciái 4.3.1. Áttekintés RISC processzorok kiszorulása (4.3.2) Fejlődési korlátok megjelenése (4.3.3)

4.3.2. RISC processzorok kiszorulása (1) 4.6. ábra: RISC processzorok kiszorulása

4.3.2. RISC processzorok kiszorulása (2) 1995-2000: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC) 1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a jövendő új generációt A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA családjai, illetve a PowerPC Consortium PowerPC családja

4.3.3. Fejlődési korlátok megjelenése (1) Hatékonysági korlát (5. pont) Disszipációs korlát (6. pont) Párhuzamos buszok frekvenciakorlátja (7. pont)

4.3.3. Fejlődési korlátok megjelenése (2) Többmagos processzorok Hatékonysági korlát (5. pont) Disszipáció csökkentés előtérbe kerülése Disszipációs korlát (6. pont) Soros buszok Párhuzamos buszok frekvenciakorlátja (7. pont)

5. A Hatékonysági korlát 5.1. Áttekintés Alapvető ok: A processzor és a memória közötti sebességolló (növekvő órafrekvenciákon tágul)

5.1. Áttekintés (2) A sebességolló konkrét megnyilvánulásai: DRAM késleltetési ideje Memória átviteli rátája L2 cache tárak elérési ideje A processzor busz átviteli rátája

DRAMs with parallel bus connection DRAMs with serial bus connection 5.1 Áttelomtás (3) The scene of main memories 1 Used in the Cell BE and the PlayStation 3, but not yet in desktops or servers Ábra: Legfontosabb DRAM típusok DRAM (1970) FBDIMM (2006) DRDRAM (1999) DDR3 (2007) DDR2 (2004) DDR (2000) SDRAM (1996) FPM (1983) FP (~1974) XDR (2006)1 Year of intro. Asynchronous DRAMs Synchronous DRAMs DRAMs with parallel bus connection DRAMs with serial bus connection DRAMs for general use Main stream DRAM types Challenging DRAM types EDO (1995) Commodity DRAMs

5.2. A processzor és a memória közötti sebességolló (2) Read latency1 (ns) 200 200 * 180 160 150 * 140 120 100 100 * 80 80 * * 80 70 * 60 60 60 * * 50 * * 40 40 50 * * 30 40 * 25 35 * * 20 30 * * * 24 22 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 Year Desktop processor PC AT 386 DX 486 DX P PII PIII P4 Core2 Chipset 420TX 430LX 430FX 430VX 440ZX 8152 8202 850 845 8453 915 865 935 DRAM type DRAM DRAM DRAM DRAM FPM DRAM FPM FPM FPM EDO FPM EDO FPM SDRAM EDO SDRAM RDRAM SDRAM SDRAM DDR DDR DDR2 DDR2 DDR3 DDR2 RDRAM Typ. DRAM parts (bits) 16 K 64 K 64 K 64 K 256 K 256 K 256 K 4 M 4 M 16 M 64 M 128 M 64 M 256 M 256 M 512 M 512 M 128 K 128 K 1 M 1 M 1 M 16 M 16 M 64 M 128 M 256 M 128 M 512 M 512 M 1 G 1 G 256 K 4 M 64 M 256 M 256 M 1 G 1 G 2 G 512 M 1 Read latency of DRAM, FPM, EDO and BEDO parts = tRAC (Row access time (time from row address until data valid)) Read latency of SDRAM parts = CL + tRCD (Cslumn delay + Row to Cloumn delay) 2 The 815 chipset support SDRAM while the 820 RDRAM 3 A new revision of the 845 supports DDR instead of SDRAM 5.1b ábra: DRAM chipek késleltetési ideje

5.2. A processzor és a memória közötti sebességolló (3) Memory latency ns 300 210 200 * 200 * RDRAM 160 * 155 * 135 140 * * 120 110 * 100 * 85 * 70 * 50 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 Year Desktop PC AT 386 DX 486 DX P PPro PII PIII P4 Core2 processor (8088) (286) Chipset 420TX 430LX 430FX 430VX 440ZX 8152 8202 850 845 8453 915 865 835 DRAM type DRAM DRAM DRAM DRAM FPM DRAM FPM FPM FPM EDO FPM EDO FPM SDRAM EDO SDRAM RDRAM SDRAM SDRAM DDR DDR DDR2 DDR2 DDR3 DDR2 RDRAM Typ. DRAM parts (bits) 16 K 64 K 64 K 64 K 256 K 256 K 256 K 4 M 4 M 16 M 64 M 128 M 64 M 256 M 256 M 512 M 512 M 128 K 128 K 1 M 1 M 1 M 16 M 16 M 64 M 128 M 256 M 128 M 512 M 512 M 1 G 1 G 256 K 4 M 64 M 256 M 256 M 1 G 1 G 2 G 512 M 5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns)

5.2. A processzor és a memória közötti sebességolló (4) Memory latency in proc. cycles 1000 500 240 280 300 220 * * * 200 180 RDRAM * 100 85 * 50 40 * 30 20 10 10 * 5 3 3 * 2 1 1 1 * * 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 Year Desktop PC AT 386 DX 486 DX P PPro PII PIII P4 Core2 processor (8088) (286) Chipset 420TX 430LX 430FX 430VX 440ZX 8152 8202 850 845 8453 915 865 835 DRAM type DRAM DRAM DRAM DRAM FPM DRAM FPM FPM FPM EDO FPM EDO FPM SDRAM EDO SDRAM RDRAM SDRAM SDRAM DDR DDR DDR2 DDR2 DDR3 DDR2 RDRAM Typ. DRAM parts (bits) 16 K 64 K 64 K 64 K 256 K 256 K 256 K 4 M 4 M 16 M 64 M 128 M 64 M 256 M 256 M 512 M 512 M 128 K 128 K 1 M 1 M 1 M 16 M 16 M 64 M 128 M 256 M 128 M 512 M 512 M 1 G 1 G 256 K 4 M 64 M 256 M 256 M 1 G 1 G 2 G 512 M 5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban)

5.2. A processzor és a memória közötti sebességolló (5) 5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás)

5.2. A processzor és a memória közötti sebességolló (7) 5.4. ábra: A processzor busz relatív átviteli rátája

5.2. A processzor és a memória közötti sebességolló (6) fc max at intro. (GHz) L2 size (Kbyte) L2 latency (clock cycles) Willamette 1.5 128 7 Northwood 2.0 512 16 Prescott 3.4 1024 23 5.3. ábra: Intel Pentium 4 L2 cache tárak elérési ideje

5.3. A 3. generációs szuperskalárok hatékonysága (1) 5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén

5.3. A 3. generációs szuperskalárok hatékonysága (2) 5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén

5.3. A 3. generációs szuperskalárok hatékonysága (3) 5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők

5.3. A 3. generációs szuperskalárok hatékonysága (4) 5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása

5.3. A 3. generációs szuperskalárok hatékonysága (5) 5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása

5.3. A 3. generációs szuperskalárok hatékonysága (6) A processzorok hatékonysági korlátjának konzekvenciája: Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet

6. A disszipációs korlát (1) Disszipáció (D) : Dinamikus Statikus Dd=A*C*V2*fc Ds=V*Ileak ahol: A: aktív kapuk részaránya C: a kapuk összesített kapacitása V: tápfeszültség fc: órafrekvencia Ileak: szivárgási áram

6. A disszipációs korlát (2) 6.2. ábra: Intel processzorok fajlagos disszipációja

6. A disszipációs korlát (2b) A disszipáció növekedés problémájának felismerése (ISSCC 2001, Gelsinger P. Intel)

6. A disszipációs korlát (2c) A tápfeszűltség skálázása a gyártási technológiával Forrás: Gelsinger P. IDF, June 7 2006

6. A disszipációs korlát (3) 6.3. ábra: Intel és AMD processzorok

6. A disszipációs korlát (4) 6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra)

6. A disszipációs korlát (5) 6.5. ábra: A fajlagos disszipáció értékének növekedése (általában) Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., 2005

6. A disszipációs korlát (6) 6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75.

6. A disszipációs korlát (7) 6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1) Kapcsolási sebesség: 120 % Szivárgási áram: 10 %

6. A disszipációs korlát (8) Source:[5] 6.7. ábra: A Penryn processzor tranzisztorainak felépítése (2)

6. A disszipációs korlát (9) A disszipációs korlát konzekvenciái: Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése

6. A disszipációs korlát (10) Intel processzor tervezési filozófiájának változása 6.8 ábra: Intel 2006-ban nyilvánosságra hozott utiterve, mely megadta a gyártási technológiák fejlesztési ütemét és a tervezett új processzor architektúrák kibocsátásának idejét [74]

6. A disszipációs korlát (11) A számítási hatékonyság növekedése http://citris-uc.org/files/koomeyoncomputingtrends-v2.pdf

6. A disszipációs korlát (12) A számítási hatékonyság növekedése (PC-k) http://citris-uc.org/files/koomeyoncomputingtrends-v2.pdf

7. Párhuzamos buszok frekvenciakorlátja (1) Az adatbeolvasás mechanizmusa a buszok vevőoldalán A vevő az órajellel vezérelten bekapuzza az adat jelet. Az adat helyes bekapuzásának időbeli és feszültségszint feltételei vannak. Az időbeli feltételeket az adat érvényes ablak (Data Valid Window, DVW) írja le, a feszültségszint feltételeket egy minimálisan elvárt H szint (VHmin) és egy maximálisan lehetséges L szint (VLmax) definiálja. V VH VHmin Forbidden V area Data VLmax VL t DVW DVW: Min. idő, amig a jelnek érvényesnek kell lennie Óra (adat bekapuzáshoz)

7. Párhuzamos buszok frekvenciakorlátja (2) Az adat érvényes ablak (DVW) értelmezése A DVW az a minimális időintervallum, melyben az adat-jelnek (mely vagy H vagy L szintű) érvényesnek kell maradnia egyrészt az adat-jelnek már kellő időben az órajel jel megérkezése előtt (tS) érvényesnek kell lennie és másrészt pedig az adat-jelnek az órajelet követően még egy előírt ideig (tH) érvényesnek kell maradnia annak érdekében, hogy a vevőáramkör az adat-bitet helyesen kapuzza be. Data CK tS tH Min. DVW ts: setup time tH: hold time 7.1 Ábra: Az adat érvényes ablak (DVW) értelmezése ideális jel esetén

7. Párhuzamos buszok frekvenciakorlátja (3) A szem diagram (Eye diagram) nagyszámú H szintű illetve L szintű adatjel egymásra irásával előállított kép. Az elvárt adat-beolvasási követelmények teljesülésének az ellenőrzésére szolgál. DVW min max DVW 7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával

7. Párhuzamos buszok frekvenciakorlátja (4) Az adatbeolvasás tolerancia sávjait csökkentő (zavaró) elektromos jelenségek Elektromos jelenségek, elsődlegesen a skew vonal lezárási illesztettlenségek miatt fellépő jel-visszaverődések (reflections) jitter csökkentik az adat-beolvasás tolerancia sávjait, és ezáltal behatárolják a buszok adatátviteli sebességét.

7. Párhuzamos buszok frekvenciakorlátja (5) Skew (általában) A jelek fel- illetve lefutó élei közötti időkülönbség, mely kétféleképpen értelmezhető. A skew értelmezése egyazon jelre (pl. egy adott órajelre) mely egy chip vagy egy NYÁK különböző pontjain hat. 7.3 Ábra: Egy chip vagy egy NYÁK különböző pontjain ható órajel élei között megjelenő futási idő különbségek (skew)

7. Párhuzamos buszok frekvenciakorlátja (6) b) A skew értelmezése egy párhuzamos busz különböző bit-vezetékei között, egy adott helyen. 7.4. ábra: Párhuzamos buszok bit-vezetékei között megjelenő futási idő különbségek (skew)

7. Párhuzamos buszok frekvenciakorlátja (7) A párhuzamos buszok egyes bitvezetékei között megjelenő skew előidéző okai (elsődlegesen) a) Párhuzamos buszok egyes bit-vezetékeinek eltérő hosszai NYÁK lapokon. Adott jelterjedési sebesség (time of flight) mellett, melynek értéke kb. 170 ps/inch) [8], ill. kb. 60 ps/cm, a hosszeltérések él-eltolódásokhoz vezetnek. A hossz-különbségeket a tervezők NYÁK lapokon (pl. alaplapokon) bizonyos mértékben kiegyenlítik.

7. Párhuzamos buszok frekvenciakorlátja (8) 7.5. ábra: A futási idő különbségek (skew) kiegyenlítése az MSI 915 G Combo alaplapon

7. Párhuzamos buszok frekvenciakorlátja (9) b) NYÁK vezetékek kapacitív terhelése miatt fellépő skew (kb. 50 ps per pF). CK-1 CK-2 Skew Ábra: Jelvezetékek kapacitív terhelése miatt fellépő skew [8]

7. Párhuzamos buszok frekvenciakorlátja (10) Visszaverődések (reflections) A GHz tartományban a NYÁK-okon (pl. az alaplapokon) kialakított rézvezetékek tápvezetékként működnek (transmission lines). Annak érdekében, hogy a tápvezetékeken ne álljanak elő visszaverődések a tápvezetékeket a hullám impedanciájukkal (charactristic impedance) (Z0) kell lezárni, mely kb. 50-70 Ω alaplapon illetve DIMM kártyán kialakított rézvezetékek esetén. Z0 Ha tápvonalat nem a hullám impedanciájával zárjuk le vagy a tápvonalon inhomogenitások vannak, visszaverődések keletkeznek, melyek csőkkentik az adat-beolvasásnál rendelkezésre álló tolerancia sávokat.

7. Párhuzamos buszok frekvenciakorlátja (11) Példa visszaverődésekre 7.6 Ábra: Egy szem diagramon látható visszaverődések, melyek a tápvonal lezárás illesztetlensége miatt keletkeztek

7. Párhuzamos buszok frekvenciakorlátja (12) Példa inhomogenitásokra a mem. vezérlőt és a DRAM chipeket összekötő adatút esetén DIMM kártyák Az adatút egyes pontjain inhomogenitások jelentkeznek. Memória vezérlő (MCH) Alaplapon kiképzett vezetékek 7.7 Ábra: A memória vezérlőt és a DIMM kártyákon elhelyezett DRAM chipeket összekötő vezetékeken fellépő inhomogenitások ([6] alapján)

7. Párhuzamos buszok frekvenciakorlátja (13) Jitter (fázis bizonytalanság) Jelentése: fázisbizonytalanság, mely a jelek felfutó és lefutó éleit elmossa. 7.8 Ábra: Jelek felfutó illetve lefutó élein jelentkező jitter A jitter sztohasztikus jellegű. A jitter főbb forrásai Áthallás (crosstalk), melyet a szomszédos vezetékek közötti csatolás okoz a NYÁK-on, ISI (Inter-Symbol Interference) akkor áll elő, ha busz magasabb frekvencián működik minthogy azon a jelek le tudnának csengeni, EMI (Electromagnetic Interference) melyet külső vagy belső forrásokból származó elektromágneses sugárzás okoz. A jitter leszűkíti az adatok beolvasásánál rendelkezésre álló tolerancia sávokat mind a DVW, mind a jelszintek tekintetében.

7. Párhuzamos buszok frekvenciakorlátja (14) A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-1 A vevő oldalon csökkentik a jelek beolvasásának tolerancia sávjait. DVW min max 7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával Ez bekorlátozza a párhuzamos buszok átviteli sebességét.

7. Párhuzamos buszok frekvenciakorlátja (15) A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-2 A tárgyalt elektromos zavaró jelenségek egyúttal bekorlátozzák az egy memória csatornára csatlakoztatható DIMM-ek számát is. Pl. hagyományos rendszerarchitektúrákban, melyekben a memória csatornák az MCH-ra (északi híd) csatlakoznak, DDR2 vagy DDR3 memóriák esetén két DIMM-re.

7. Párhuzamos buszok frekvenciakorlátja (16) Párhuzamos buszok frekvenciakorlátja által kiváltott trend: Soros buszok használata 7.9. ábra: Jelátvitel soros buszon

7. Párhuzamos buszok frekvenciakorlátja (17) Példák “gyors” soros buszokra: PCI-e SATA SAS HT (HyperTransport bus) QPI (Quick Path Interconnect bus) Soros buszok bevezetése lassú periféria buszok esetén is (költségokokból!): USB USB2

7. Párhuzamos buszok frekvenciakorlátja (18) A soros buszok használata nagyban leegyszerűsíti az alaplapok tervezését is 7.10 Ábra: Vezeték összeköttetések alaplapon párhuzamos és soros memória busz esetén Forrás: Vogt, IDF Spring 2004

A fejlődési korlátok felerősödésének konzekvenciája-1 Az órafrekvenciák növelésén alapuló fejlődési főirány hatékonysági, disszipációs és skew korlátokba ütközik és tovább már nem követhető

4.3.3. Fejlődési korlátok megjelenése (2) Többmagos processzorok Hatékonysági korlát (5. pont) Disszipáció csökkentés előtérbe kerülése Disszipációs korlát (6. pont) Soros buszok Párhuzamos buszok frekvenciakorlátja (7. pont)

A fejlődési korlátok felerősödésének konzekvenciája-2 1 101 102 103 1980 1990 2000 2010 * ~102x/10év 104 105 P t 1 101 102 1980 1990 2000 2010 * ~10x/10év IPC t 2. gen superscalar ~102x/10év 1 101 102 1980 1990 2000 2010 * ~10x/10év fc t

8. EPIC architektúrák/processzorok (1) Az órafrekvencia erőteljes növelése EPIC architektúrák kifejlesztése (4. – 7. pontok) (8. pont) A fejlődés fővonala

8. EPIC architektúrák/processzorok (2) Szuperskalár feldolgozás elve F E dinamikus függőség kezelés Processzor függő utasítások utasítások VLIW feldolgozás elve F E VLIW: Very Large Instruction Word független utasítások (statikus függőség kezelés) Processzor 8.1. ábra: VLIW processzorok működési elve

8. EPIC architektúrák/processzorok (3) VLIW EPIC EPIC: Explicitly Parallel Instruction Computer Továbbfejlesztett VLIW (fejlett szuperskalár vonások integrálása) elágazásbecslés explicit cache utasítások 1994: Intel, HP 1997:EPIC elnevezés 2001: IA-64  Itanium

8. EPIC architektúrák/processzorok (4) Tukwila (2/2010) 8.2. ábra: Itanium alapú magok áttekintése

8. EPIC architektúrák/processzorok (5) 8.3. ábra: Itanium processzorok hatékonysága

8. EPIC architektúrák/processzorok (6) 8.4. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, 2000

8. EPIC architektúrák/processzorok (7) 8.5. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása

8. EPIC architektúrák/processzorok (8) Általános célú alkalmazásokban az EPIC architektúrák/processzorok kiszorulása

Egymagos szuperskalárok 9. Paradigmaváltás (1) Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett, ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött Egymagos szuperskalárok - egy korszak alkonya

9. Paradigmaváltás (2) A rendelkezésre álló hardver komplexitás továbbra is exponenciálisan nő (Moore törvénye) Jelenleg a tranzisztorszám ~ 24 havonta duplázódik Paradigmaváltás a processzorok fejlesztésében A többmagos (többszálas) processzorok korszakába léptunk A magok várható duplázódási ideje is közelítőleg ~ 24 hónap

9. Paradigmaváltás (3) 9.1. ábra:Többmagos processzorok robbanásszerű elterjedése az Intel processzorok példáján