Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaIrma Budainé Megváltozta több, mint 10 éve
1
Korszakváltás a processzorok fejlődésében Sima Dezső 2009 őszi félév
2
2 A processzorok hatékonysága 5 A Hatékonysági korlát 9 Paradigmaváltás 7 Párhuzamos buszok frekvenciakorlátja Áttekintés 6 A disszipációs korlát 1 Processzorok teljesítménye 3 A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése 8 EPIC architektúrák/processzorok 4 Az órafrekvencia erőteljes növelése
3
Abszolút teljesítmény Relatív teljesítmény Eredményesen végrehajtott utasítások száma/sec Eredményesen végrehajtott műveletek száma/sec (SIMD) Egy benchmark programcsomag valamely referenciarendszeren és a vizsgált rendszeren mért futási időinek összevetése az alábbi értelmezéssel: Pl: SPECint92, SPECint_base2000 1.1. Bevezetés (1) 1. Processzorok teljesítménye f c : Órafrekvencia IPC: Utasítások száma/ciklus OPI: Műveletek száma/utasítás (P a nehezen mérhető, alkalmazásfüggő)
4
Általános célú alkalmazásokban: 1.1. Bevezetés (2) ahol: IPC: kibocsájtott utasítások száma ciklusonként η: eredményesen végrehajtott/kibocsájtott utasítások száma (spekulatív végrehajtás hatékonysága)
5
1.1. Bevezetés (3) Teljesítmény/hatékonyság vizsgálatokban: Elvi értelmezés: P a Gyakorlati mérés: P r ?
6
1.1. Bevezetés (4) Ha teljesülne: Ez esetben:
7
De mivel: 1.1. Bevezetés (5) 1.1. ábra: Programcsomag egyes programjainak futásidő arányai Forrás: http://www.spec.org
8
Két rendszer teljesítményének összehasonlításakor: 1.1. Bevezetés (6) A fenti közelítés trendvizsgálatokban megengedhető.
9
Két rendszer hatékonyságának összehasonlításakor: 1.1. Bevezetés (7)
10
1.2. A processzor teljesítmények növekedése (1) 1.2. ábra: Az x86 alapú Intel processzorok fixpontos teljesítményének növekedése
11
1.2. A processzor teljesítmények növekedése (2) 1.3. ábra: A fixpontos teljesítmények növekedése (általában - 1) Forrás: X86-64 Technology White Paper, AMD Inc., Sunnyvale, CA, 2000
12
1.2. A processzor teljesítmények növekedése (3) 3. 1.4. ábra: A fixpontos teljesítmények növekedése (általában - 2) Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf
13
2.1. Bevezetés ? 2. A processzorok hatékonysága
14
2.1. ábra: Intel processzorok hatékonysága 2.2. A processzorok hatékonyságának növekedése (1)
15
2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában) Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”, Microprocessor Forum, October 14, 1997. 2.2. A processzorok hatékonyságának növekedése (2)
16
2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig) ? A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.
17
2.4. A hatékonyság növelés forrásai Szóhossz növelése Időbeli párhuzamosság bevezetése, növelése Kibocsátási párhuzamosság bevezetése, növelése 8/16 32 bit (286 386DX) 1. és 2. generációs futószalag processzorok (386DX, 486DX) 1. és 2. generációs szuperskalárok (Pentium, Pentium Pro)
18
2.5. A hatékonyság növelésének korlátja (1) Feldolgozási szélesség 4 RISC utasítás/ciklus ~3 CISC utasítás/ciklus 2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban 2. generációs szuperskalárok (széles szuperskalárok) Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990
19
2.5. A hatékonyság növelésének korlátja (2) 2.4. ábra: Processzorok hatékonyságának növekedése (általában)
20
Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően a hatékonyság növelésének extenzív forrásai kimerültek Általános célú alkalmazásokban: 2.5. A hatékonyság növelésének korlátja (3) 2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét
21
EPIC architektúrák kifejlesztése Az órafrekvencia erőteljes növelése A fejlődés fővonala (4. – 7. pontok) 3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése (8. pont)
22
A gyártási technológia vonalvastagságának csökkentése A futószalag fokozatok logikai hosszának csökkentése 4.1. Az órafrekvencia növelésének forrásai (1) Az órafrekvencia növelése 4. Az órafrekvencia erőteljes növelése
23
4.1. ábra: Az Intel gyártási technológiák fejlődése Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, 2006. 4.1. Az órafrekvencia növelésének forrásai (2)
24
20 30 Year * 10 40 1990 2000 * * * * Pentium (5) 2005 No of pipeline stages Pentium Pro (~12) Pentium 4 (~20) Athlon-64 (12) P4 Prescott (~30) (14) Conroe * Athlon (6) K6 (6) * 1995 * Core Duo 4.2 ábra: A futószalag fokozatok száma Intel és AMD processzorokban 4.1. Az órafrekvencia növelésének forrásai (3)
25
4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4) 4.1. Az órafrekvencia növelésének forrásai (4) Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf
26
4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése 4.2. Az órafrekvenciák növekedési üteme (1)
27
4.2. Az órafrekvenciák növekedési üteme (2) 4.5. ábra: Az órafrekvenciák növekedési üteme (általában)
28
Fejlődési korlátok megjelenése RISC processzorok kiszorulása 4.3. Az órafrekvencia erőteljes növelésének konzekvenciái 4.3.1. Áttekintés (4.3.2) (4.3.3)
29
4.3.2. RISC processzorok kiszorulása (1) 4.6. ábra: RISC processzorok kiszorulása
30
1995-2000: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC) A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA családjai, illetve a PowerPC Consortium PowerPC családja 4.3.2. RISC processzorok kiszorulása (2) 1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a jövendő új generációt
31
4.3.3. Fejlődési korlátok megjelenése Párhuzamos buszok frekvenciakorlátja Disszipációs korlát Hatékonysági korlát (5. pont) (6. pont) (7. pont)
32
A processzor és a memória közötti sebességolló 5.1. Áttekintés 5. A Hatékonysági korlát Alapvető ok: (növekvő órafrekvenciákon tágul)
33
Memória átviteli rátája DRAM késleltetési ideje A processzor busz átviteli rátája L2 cache tárak elérési ideje 5.1. Áttekintés (2) A sebességolló konkrét megnyilvánulásai:
34
5.2. A processzor és a memória közötti sebességolló (1) 5.1a ábra: DRAM típusok
35
486 DXP PII PIII386 DX 86 88818283 84 85 8789199091 92 939495 96 979899 200 180 160 140 120 100 80 60 40 20 2000 * PC AT * * * * * * * * * * 16 K64 K256 K 64 M Year processor Chipset Typ. DRAM parts (bits) (ns) FPM 4 M 1 M 16 M128 M 64 M 16 M 64 M 256 M 200 150 100 80 60 70 50 60 50 35 EDO FPM EDO SDRAM RDRAM SDRAM 64 K 01 02 030405 06 07 DRAM FPM DRAM 64 K P4 64 M 128 M 256 M SDRAM Core2 512 M 1 G 2 G DDR2 * * * * * * 30 25 40 24 22 128 K 256 K 256 M 512 M 1 G DDR DDR2 DDR3 DDR2 40 * Desktop DRAM type Read latency 1 1 Read latency of DRAM, FPM, EDO and BEDO parts = t RAC (Row access time (time from row address until data valid)) Read latency of SDRAM parts = CL + t RCD (Cslumn delay + Row to Cloumn delay) 2 The 815 chipset support SDRAM while the 820 RDRAM 512 M 1 G 835 865 915 845 256 M 512 M 1 G 845 3 512 M RDRAM 128 M 256 M 815 2 820 2 850 EDO FPM SDRAM 4 M 256 K FPM 1 M 440ZX 430VX 430FX 420TX 430LX 3 A new revision of the 845 supports DDR instead of SDRAM DRAM FPM 16 M 4 M 5.2. A processzor és a memória közötti sebességolló (2) 5.1b ábra: DRAM chipek késeltetési ideje
36
5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns) 486 DXPPPro PIIPIII 386 DX PC AT (286) (8088) P4 Memory latency ns 300 200 100 * * * * * 155 135 140 120 210 * 200 86 88818283 84 85 8789199091 92 939495 96 979899 2000 Year 01 02 030405 06 0708 * 160 * 110 * 85 * 70 50 Core2 processor Chipset Typ. DRAM parts (bits) Desktop DRAM type 16 K DRAM 64 K DRAM 64 K 128 K 256 K 1 M DRAM FPM DRAM FPM 256 K FPM 4 M 1 M 256 K FPM 1 M 420TX 430LX 16 M 64 M EDO FPM EDO FPM SDRAM 4 M 430VX 430FX 16 M 4 M 64 M 128 M 16 M 64 M 256 M EDO SDRAM RDRAM SDRAM 64 M 128 M 256 M SDRAM DDR 845 256 M 512 M 1 G 845 3 512 M RDRAM 128 M 256 M 815 2 820 2 850 440ZX 512 M 1 G 2 G DDR2 256 M 512 M 1 G DDR DDR2 DDR3 DDR2 512 M 1 G 835 865 915 RDRAM 5.2. A processzor és a memória közötti sebességolló (3)
37
486 DXPPPro PIIPIII 386 DX PC AT (286) (8088) P4 Core2 processor Chipset Typ. DRAM parts (bits) Desktop DRAM type 16 K DRAM 64 K DRAM 64 K 128 K 256 K 1 M DRAM FPM DRAM FPM 256 K FPM 4 M 1 M 256 K FPM 1 M 420TX 430LX 16 M 64 M EDO FPM EDO FPM SDRAM 4 M 430VX 430FX 16 M 4 M 64 M 128 M 16 M 64 M 256 M EDO SDRAM RDRAM SDRAM 64 M 128 M 256 M SDRAM DDR 845 256 M 512 M 1 G 845 3 512 M RDRAM 128 M 256 M 815 2 820 2 850 440ZX 512 M 1 G 2 G DDR2 256 M 512 M 1 G DDR DDR2 DDR3 DDR2 512 M 1 G 835 865 915 Memory latency in proc. cycles 86 88818283 84 85 878919909192939495 96 979899 100 10 1 2000 Year 50 1000 30 20 500 200 2 3 5 * * * 10 40 85 300 * * * 1 1 3 0102030405 06 0708 * * * * 240 220 280 180 RDRAM 5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban) 5.2. A processzor és a memória közötti sebességolló (4)
38
5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás) 5.2. A processzor és a memória közötti sebességolló (5)
39
f c max at intro. (GHz) L2 size (Kbyte) L2 latency (clock cycles) Willamette1.5 128 7 Northwood2.0 51216 Prescott3.4 102423 5.3. ábra: L2 cache tárak elérési ideje 5.2. A processzor és a memória közötti sebességolló (6)
40
5.4. ábra: A processzor busz relatív átviteli rátája 5.2. A processzor és a memória közötti sebességolló (7)
41
5.3. A 3. generációs szuperskalárok hatékonysága (1) 5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén
42
5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén 5.3. A 3. generációs szuperskalárok hatékonysága (2)
43
5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők 5.3. A 3. generációs szuperskalárok hatékonysága (3)
44
5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása 5.3. A 3. generációs szuperskalárok hatékonysága (4)
45
5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása 5.3. A 3. generációs szuperskalárok hatékonysága (5)
46
Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet A processzorok hatékonysági korlátjának konzekvenciája: 5.3. A 3. generációs szuperskalárok hatékonysága (6)
47
6. A disszipációs korlát (1) Disszipáció (D) : D d =A*C*V 2 *f c ahol: A:aktív kapuk részaránya C:a kapuk összesített kapacitása V:tápfeszültség f c :órafrekvencia I leak :szivárgási áram Dinamikus Statikus D s =V*I leak
48
6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75. 6. A disszipációs korlát (2)
49
6.2. ábra: Intel processzorok fajlagos disszipációja 6. A disszipációs korlát (3)
50
6.3. ábra: Intel és AMD processzorok 6. A disszipációs korlát (4)
51
6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra) 6. A disszipációs korlát (5)
52
6.5. ábra: A fajlagos disszipáció értékének növekedése (általában) Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., 2005 6. A disszipációs korlát (6)
53
6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75. 6. A disszipációs korlát (7)
54
Kapcsolási sebesség: 120 % Szivárgási áram: 10 % 6. A disszipációs korlát (8) 6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1)
55
Source:[5] 6. A disszipációs korlát (9) 6.7. ábra: A Penryn processzor tranzisztorainak felépítése (2)
56
A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása A disszipációs korlát konzekvenciái: 6. A disszipációs korlát (10)
57
Kiváltó ok: 7.1. ábra: Párhuzamos buszok bitvezetékei közötti futási idő különbségek (skew) 7. Párhuzamos buszok frekvenciakorlátja (1)
58
7.2. ábra: A futási idő különbségek (skew) kiegyenlítése a MSI 915 G Combo alaplap processzor buszánál 7. Párhuzamos buszok frekvenciakorlátja (2)
59
Soros buszok használata 7.3. ábra: Jelátvitel soros buszon 7. Párhuzamos buszok frekvenciakorlátja (3) (lassú buszoknál is, költségokokból) Párhuzamos buszok frekvenciakorlátja által kiváltott trend:
60
Az órafrekvenciák növelésén alapuló fejlődési főirány hatékonysági, disszipációs és skew korlátokba ütközik és tovább már nem követhető A fejlődési korlátok felerősödésének konzekvenciája
61
Az órafrekvencia erőteljes növelése EPIC architektúrák kifejlesztése A fejlődés fővonala (4. – 7. pontok) 8. EPIC architektúrák/processzorok (1) (8. pont)
62
Szuperskalár feldolgozás elve FEFE FEFE FEFE dinamikus függőség kezelés Processzor függő utasítások utasítások VLIW feldolgozás elve FEFE FEFE FEFE VLIW: Very Large Instruction Word független utasítások (statikus függőség kezelés) Processzor 8.1. ábra: VLIW processzorok működési elve 8. EPIC architektúrák/processzorok (2)
63
1994: Intel, HP 2001: IA-64 Itanium 1997:EPIC elnevezés VLIWEPIC EPIC: Explicitly Parallel Instruction Computer Továbbfejlesztett VLIW elágazásbecslés explicit cache utasítások 8. EPIC architektúrák/processzorok (3) (fejlett szuperskalár vonások integrálása)
64
8.2. ábra: Itanium alapú magok áttekintése 8. EPIC architektúrák/processzorok (4)
65
8.3. ábra: Itanium processzorok hatékonysága 8. EPIC architektúrák/processzorok (5)
66
8.4. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, 2000 8. EPIC architektúrák/processzorok (6)
67
8.5. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása 8. EPIC architektúrák/processzorok (7)
68
Általános célú alkalmazásokban az EPIC architektúrák/processzorok kiszorulása 8. EPIC architektúrák/processzorok (8)
69
Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett, ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött Egymagos szuperskalárok - egy korszak alkonya 9. Paradigmaváltás (1)
70
Paradigmaváltás a processzorok fejlesztésében A többmagos (többszálas) processzorok korszakába léptunk 9. Paradigmaváltás (2) A magok várható duplázódási ideje is közelítőleg ~ 24 hónap A rendelkezésre álló hardver komplexitás továbbra is exponenciálisan nő (Moore törvénye) Jelenleg a tranzisztorszám ~ 24 havonta duplázódik
71
9.1. ábra:Többmagos processzorok robbanásszerű elterjedése az Intel processzorok példáján 9. Paradigmaváltás (3)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.