Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Neurális hálózatok Horváth Gábor I S R G
Méréstechnika és Információs Rendszerek Tanszék 2011 Horváth Gábor
2
Tartalomjegyzék Bevezetés Klasszikus neurális hálózatok
elemi neuronok klasszikus neurális architektúrák általános megközelítés a neurális hálózatok számítási képessége Tanulás (paraméter becslés) ellenőrzött tanulás nemellenőrzött tanulás analitikus tanulás Szupport vektor gépek SVM architektúrák statisztikus tanuláselmélet A hálótervezés általános kérdései általánosítás modell választás model validáció Moduláris hálók hálók lineáris kombinációja szakértő együttes (Mixture of Experts, MOE) feladat dekompozíció Hibrid rendszerek szimbolikus-neurális rendszerek KBANN 2011 Horváth Gábor
3
Bevezetés 2011 Horváth Gábor
4
Tanuló és hibrid információs rendszerek
Miért van szükség tanuló rendszerekre? Tudásformák, ismeretreprezentációk Tanulás és tanuló eljárások Tanuló rendszerek Szimbolikus (szabályalapú) rendszerek Hibrid rendszerek 2011 Horváth Gábor
5
Klasszikus neurális hálózatok
2011 Horváth Gábor
6
Klasszikus neurális hálózatok
Elemi neuronok lineáris kombinátor bázisfüggvény-neuron Klasszikus neurális architektúrák előrecsatolt visszacsatolt Általános megközelítés regresszor nemlineáris függvénye bázisfüggvények lineáris kombinációja A neurális hálózatok számítási képessége függvényapproximáció osztályozás 2011 Horváth Gábor
7
Klasszikus neurális hálózatok
A neurális hálók olyan párhuzamos, elosztott információfeldolgozó eszközök, amelyek: · azonos, vagy hasonló típusú, lokális feldolgozást végző műveleti elemek, neuronok (processing element, neuron) általában rendezett topológiájú, nagymértékben összekapcsolt rendszeréből állnak, · rendelkeznek tanulási algoritmussal (learning algorithm), mely általában minta alapján való tanulást jelent, és az információfeldolgozás módját határozza meg, · rendelkeznek a megtanult információ felhasználását lehetővé tevő információ előhívási algoritmussal (recall algorithm). 2011 Horváth Gábor
8
Klasszikus neurális hálózatok
Fő jellemzők komplex nemlineáris input-output leképezés adaptivitás, tanulási képesség elosztott architektúra hibatűrő képesség párhuzamos analóg vagy digitális VLSI megvalósítás lehetősége neurobiológiai analógia 2011 Horváth Gábor
9
Az elemi neuron (1) Lineáris kombinátor nemlineáris activációs függvénnyel =1 x 1 2 N y=f(s) f (s) w s= T S 2011 Horváth Gábor
10
Tipikus nemlinearitások (1)
Aktivációs függvények ugrásfüggvény szakaszonként lineáris függvény 2011 Horváth Gábor
11
Tipikus nemlinearitások (2)
Aktivációs függvények tangens hiperbolikusz függvény logisztikus függvény 2011 Horváth Gábor
12
Elemi neuron (2) Bázis függvény neuron Bázis függvények Pl. Gauss e -
( ) 2 s gi(x) f (.) x 1 2 N 2011 Horváth Gábor
13
Klasszikus neurális hálózatok
statikus hálók (memória nélküli, előrecsatolt) egyrétegű hálók többrétegű hálók MLP RBF CMAC dinamikus hálók (memória vagy visszacsatolás) előrecsatolt (+ tároló elemek) visszacsatolt lokális visszacsatolás globális visszacsatolás 2011 Horváth Gábor
14
Előrecsatolt architektúrák
Egyrétegű hálók: Rosenblatt perceptron =1 x 1 2 N y=sgn(s) w s= T S 2011 Horváth Gábor
15
Előrecsatolt architektúrák
Egyrétegű hálózatok Kimenet Bemenet x y W Tanítható paraméterek (súlyok) N 1 2 3 M 2011 Horváth Gábor
16
Előrecsatolt architektúrák
Többrétegű háló (statikus MLP háló ) y n y = x x (1) (2) x = o S W 1 2 3 N f(.) y1 y2 y(2)=y 2011 Horváth Gábor
17
Előrecsatolt architektúrák
Egy tanítható rétegű hálók (k) 1 2 M x(k) y(k) leképezés X S Lineáris tanítható réteg w +1 Nemlineáris j (Fix vagy ellenőrzött vagy nemellenőrzött tanítású réteg) 2011 Horváth Gábor
18
Radiális bázis függvény (RBF) hálózatok
Egy tanítható rétegű háló s g = x 1 2 N y +1 w c S , ,s M bemeneti réteg rejtett réteg kimeneti réteg j = g = ( ) j Radiális, pl. Gauss bázis függvények 2011 Horváth Gábor
19
CMAC hálózat Egy tanítható rétegű háló S A lehetséges diszkrét
bemeneti vektorok tere x i+ 3 x a a y w i 2 1 C= 4 asszociációs vektor súly vektor (tanítható) 5 j+ j 2011 Horváth Gábor
20
CMAC háló Háló hash-kódolással S Bemeneti tér z y C= 4 x a a z a z w
1 x = M z y -1 -2 2 C= 4 3 w i x a a z a z w asszociációs tömörített súly vektor vektor asszociációs 2011 Horváth Gábor
21
Kvantálási intervallumok
CMAC hálózat A CMAC bázisfüggvényeinek elrendezése (csempézés) Kvantálási intervallumok u1 u2 átlapolódó lefedések A fő diagonális pontok Szubdiagonal pontok Egy lefedéshez tartozó bázis-függvény tartók Bázis függvények: véges (kompakt tartójú) négyszögletes függvények, B-spline-ok 2011 Horváth Gábor
22
CMAC hálózat Adott bemenetekhez tartozó bázisfüggvény definíciós pontok elhelyezkedése u 2 + 1 =[0 3] T =[0 0] =[6 1] 3 Minden fekete pont egy bázisfüggvényt (asszociációs bit, súly a súly memóriában) jelöl A színes tartományok a megfelelő bemenetek által kiválasztott bázisfüggvényeket azonosítják 2011 Horváth Gábor
23
Előrecsatolt architektúrák
Dinamikus többrétegű háló 2011 Horváth Gábor
24
Előrecsatolt architektúrák
Dinamikus többrétegű háló (egy tanítható réteg) FIR szűrő S (k) 1 2 M x(k) z (k) z (k) y(k) Első, nemlineáris réteg (nemlineáris leképezés) j 2011 Horváth Gábor
25
Visszacsatolt architektúrák
Laterális visszacsatolás (egyrétegű háló) kimenet bemenet x előrecsatoló paraméterek y laterális összeköttetések 3 N 2 1 w 2011 Horváth Gábor
26
Visszacsatolt architektúrák
Lokálisan visszacsatolt háló (MLP) a.)önvisszacsatolás , b.) laterális visszacsatolás, c.) rétegek közötti visszacsatolás 2011 Horváth Gábor
27
Visszacsatolt architektúrák
Globálisan visszacsatolt háló (szekvenciális háló) Több-bemenetű egy-kimentű T D L bemenet kimenet statikus háló x(k-1) x(k-N) x(k) y(k) y(k-M) y(k-2) y(k-1) 2011 Horváth Gábor
28
Visszacsatolt architektúrák
Hopfield háló (globális visszacsatolás) 2011 Horváth Gábor
29
Alapvető neurális háló architektúrák
Általános megközelítés Regresszorok pillanatnyi bemenetek (statikus hálók) pillanatnyi és korábbi bemenetek (előrecsatolt dinamikus hálók) Pillanatnyi és korábbi bemenetek, korábbi kimenetek (visszacsatolt dinamikus hálók) Bázis függvények paramétereiben nemlineáris hálók paramétereiben lineáris hálók 2011 Horváth Gábor
30
Általános megközelítés
Regresszorok Hogyan válasszuk meg a φ(k) regresszor-vektort? korábbi bemenetek korábbi bemenetek és kimenetek korábbi bemenetek és rendszer kimenetek korábbi bemenetek, rendszer kimenetek és modell hibák korábbi bemenetek, kimenetek és hibák φ(k) regressor-vectors 2011 Horváth Gábor
31
Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NFIR Több-bemenetű egy-kimentű T D L Bemenet Kimenet statikus háló x(k-1) x(k-N) x(k) y(k) 2011 Horváth Gábor
32
Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NARX rendszer kimenet, d(k) Több-bemenetű egy-kimenetű T D L bemenet kimenet statikus háló x(k-1) x(k-N) x(k) y(k) d(k-M) d(k-2) d(k-1) 2011 Horváth Gábor
33
Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NOE Több-bemenetű egy-kimenetű T D L bemenet Kimenet statikus háló x(k-1) x(k-N) x(k) y(k) y(k-M) y(k-2) y(k-1) 2011 Horváth Gábor
34
Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NARMAX NJB NSS 2011 Horváth Gábor
35
Alapvető neurális háló architektúrák
Regresszor bázis függvénye paramétereiben lineáris modell paramétereiben nemlineáris modell 2011 Horváth Gábor
36
Alapvető neurális háló architektúrák
Bázis függvények MLP (egyetlen szigmoid rejtett réteggel) szigmoid bázis függvény RBF (radiális bázis függvény, pl. Gauss) CMAC (négyszögletes bázis függvény, spline) 2011 Horváth Gábor
37
A hálózatok képessége Függvény approximáció Osztályozás Asszociáció
Optimalizáció 2011 Horváth Gábor
38
A hálózatok képessége Függvényapproximáció
Alapvető eredmény: a neurális hálózatok (egyes típusai) univerzális approximátorok (bizonyos értelemben) Kolmogorov reprezentációs tétel: bármely folytonos valós értékű N-változós függvény, melyet a [0,1]N kompakt intervallumon definiálunk reprezentálható megfelelően megválasztott egyváltozós függvények és az összeadás segítségével. 2011 Horváth Gábor
39
A hálózatok képessége Függvényapproximáció
Tetszőleges folytonos f : RNR függvény RN egy kompakt K részhalmazán tetszőleges pontossággal közelíthető (hiba abszolút érték maximuma) akkor és csak akkor, ha az aktivációs függvény, g(x) is nemkonstans, korlátos, monoton növekvő. (Hornik, Cybenko, Funahashi, Leshno, Kurkova, stb.) 2011 Horváth Gábor
40
A hálózatok képessége Függvényapproximáció
Tetszőleges folytonos f : RNR függvény RN egy kompakt K részhalmazán tetszőleges pontossággal közelíthető (L2 értelemben) akkor és csak akkor, ha az aktivációs függvény nempolinom. (Hornik, Cybenko, Funahashi, Leshno, Kurkova, etc.) 2011 Horváth Gábor
41
A hálózatok képessége Osztályozás Perceptron: lineáris szeparáció
MLP: univerzális osztályozó 2011 Horváth Gábor
42
A hálózatok képessége Adattömörítés, dimenzió redukció lineáris hálók
nemlineáris hálók 2011 Horváth Gábor
43
A hálózatok alkalmazásai
Regresszió: statikus és dinamikus rendszermodellezés, szűrés, (nemlineáris, dinamikus) rendszerek irányítása, stb. függvényapproximáció Minta asszociáció asszociáció autoasszociáció (dimenzió redukció, adattömörítés) heteroasszociáció Mintafelismerés, klaszterezés osztályozás Kombinatorikus optimalizációs feladatok optimalizáció 2011 Horváth Gábor
44
Adattömörítés, PCA hálók
Főkomponens analízis (Karhunen-Loeve transzformáció) 2011 Horváth Gábor
45
Adattömörítés, PCA hálók
Karhunen-Loeve transzformáció 2011 Horváth Gábor
46
MLP mint lineáris adattömörítő háló
Altér transzformáció 2011 Horváth Gábor
47
Nemlineáris adattömörítés
Nemlineáris feladat x 1 y 2 2011 Horváth Gábor
48
MLP mint nemlineáris adattömörítő háló
5-rétegű autoasszociatív háló Bemenet: x Kimenet: z, a második rejtett réteg kimenete Kívánt kimenet a tanítási fázisban 2011 Horváth Gábor
49
Tanulás 2011 Horváth Gábor
50
Tanulás neurális hálózatoknál
Tanulás: paraméter becslés ellenőrzött tanulás, tanítóval történő tanulás nemellenőrzött tanulás, tanító nélküli tanulás analitikus tanulás 2004 Horváth Gábor
51
Ellenőrzött tanulás Modell paraméter becslés: x, y, d n x d C=C(e) y
Rendszer d =f (x,n) Kritérium C=C(e) függvény C ( d, y ) Neurális modell y y=fM (x,w) Paraméter módosító algoritmus 2011 Horváth Gábor
52
Ellenőrzött tanulás Kritérium függvény kvadratikus kritérium függvény:
egyéb kritérium függvények Pl. e - érzéketlenségi sávú kritérium függvény regularizációval: büntető tag (regularizációs tag) hozzáadása e C(e) 2011 Horváth Gábor
53
Ellenőrzött tanulás Kritérium minimalizálás Analitikus megoldás
csak nagyon egyszerű esetekben pl. lineáris hálóknál: Wiener-Hopf egyenlet Iteratív megoldás gradiens eljárások kereső eljárások kimerítő keresés véletlen keresés genetikus keresés 2011 Horváth Gábor
54
Ellenőrzött tanulás Hiba korrekciós eljárások perceptron szabály
gradiens eljárások legmeredekebb lejtő eljárás Newton Levenberg-Marquardt konjugált gradiens eljárás 2011 Horváth Gábor
55
Gradiens eljárások Analitikus megoldás paramétereiben lineáris modell
kvadratikus kritérium függvény Wiener-Hopf egyenlet 2011 Horváth Gábor
56
Gradiens eljárások Iteratív megoldás gradiens a konvergencia feltétele
2011 Horváth Gábor
57
Gradiens eljárások LMS: pillanatnyi hibán alapuló iteratív megoldás
pillanatnyi gradiens súly frissítés a konvergencia feltétele 2011 Horváth Gábor
58
Gradiens eljárások Példa a konvergenciára
a.) kis m b.) nagy m c.) konjugált gradiens legmeredekebb lejtő w 1 w * ( b) w (0) ( a) ( c) (1) w w 2011 Horváth Gábor
59
Gradiens eljárások Egyetlen neuron nemlineáris aktivációs függvénnyel
Több-rétegű hálózat: hibavisszaterjesztés (BP) 2011 Horváth Gábor
60
MLP tanítás: BP S f(.) W y = x f'(.) frissítés 2011 Horváth Gábor x =
d + _ y 1 2 n e x P y = x (1) frissítés (2) m x = o S W 3 N f(.) f'(.) 2011 Horváth Gábor
61
MLP tervezés Fontos kérdések
háló méret (rétegek száma, rejtett neuronok száma) tanulási aránytényező, értéke paraméterek (súlyok) kezdeti értékei validáció, kereszt validáció, tanulási és teszt készlet kiválasztása a tanítás módja, szekvenciális vagy batch tanulás leállási feltétel 2011 Horváth Gábor
62
MLP tervezés Háló méret: rejtett neuronok száma
Elméleti eredmények: felső korlátok Gyakorlati megközelítés: két eltérő stratégia Egyszerűtől összetetthez újabb neuronok beiktatása Összetettből egyszerűsítés kimetszés (pruning) regularizáció (OBD, OBS, stb.) Analytical results: upper limits of the number of hidden units: results of Vera Kurkova, etc. Pruning techniques: Optimal brain demage: Optimal brain surgeon: Train the MLP as usual Compute the sensitivity values of the output against the weights Compute the inverse Hessian recursively Hessian is a matrix formed from the second derivatives of the error Compute the saliency of the i-th weight, find the smallest saliency and if it is smaller that a given value delete the corresponding weight. Saliency~ ratio of the squared value of the given weight and the corresponding element of the inverse Hessian. The saliency represents the increase of the error caused by the deletion of the i-th weight, the measure of importance Update the weights Repeat it until you can find deletable weight without significant increase of the error 2011 Horváth Gábor
63
MLP tervezés C Teszt hiba
Kereszt értékelés a modell komplexitás meghatározására C Modell komplexitás (Hálóméret) Teszt hiba Tanítási hiba Legjobb modell Torzítás (bias, alulilleszkedés) Variancia (túlilleszkedés) 2011 Horváth Gábor
64
MLP tervezés Struktúra választás 2011 Horváth Gábor
65
MLP tervezés Általánosítás,túlilleszkedés Kimenet
Megfelelő illeszkedés a tanítópontokhoz Általánosítás Tanítópontok Túilleszkedés Bemenet 2011 Horváth Gábor
66
MLP tervezés Korai leállítás a túlilleszkedés elkerülésére C
Tanítási ciklusok száma Teszt hiba optimális leállításnál Teszt hiba túltanulásnál Tanítási hiba Optimális leállítás 2011 Horváth Gábor
67
MLP tervezés Regularizáció parametrikus büntetés
nemparametrikus büntetés 2011 Horváth Gábor
68
RBF (Radiális Bázis Függvény) háló
x 1 2 N y +1 w c S , ,s M bemeneti réteg rejtett réteg kimeneti réteg j = g = ( ) j 2011 Horváth Gábor
69
RBF tanítás Paramétereiben lineáris struktúra
analitikus megoldás LMS Középpontok (paramétereiben nemlineáris) K-means klaszterezés nemellenőrzött tanítás SVM 2011 Horváth Gábor
70
Középpont meghatározás
K-közép OLS eljárás 2011 Horváth Gábor
71
RBF tervezése Fontos kérdések háló méret (rejtett neuronok száma)
tanulási aránytényező, értéke paraméterek kezdeti értéke (középpontok, súlyok) validáció, tanító és teszt halmaz választás a tanulás módja: szekvenciális vagy batch tanulás leállási feltételek 2011 Horváth Gábor
72
Dinamikus neurális struktúrák tanítása
Előrecsatolt hálók Időkezelés, temporális BP NFIR: FIR-MLP, FIR-RBF, stb. NARX Visszacsatolt hálók RTRL, BPTT NOE NARMAX 2011 Horváth Gábor
73
Előrecsatolt architektúrák
NFIR: FIR-MLP (a Santa Fe verseny győztese) ( +1) s z y =x FIR szűrő (.) S - edik réteg ( ) 1 y y = x 2 21 l . f ( 1) ( ) w 2004 Horváth Gábor
74
FIR-MLP tervezés FIR-MLP tanítás: temporális backpropagation
kimeneti réteg rejtett réteg 2011 Horváth Gábor
75
Idősor modellezés (Santa Fe verseny)
200 400 600 800 1000 1200 50 100 150 250 300 200 400 600 800 1000 50 100 150 250 2011 Horváth Gábor
76
Idősor modellezés (Santa Fe verseny)
20 40 60 80 100 120 140 160 180 200 50 150 250 300 2011 Horváth Gábor
77
Idősor modellezés (Santa Fe verseny)
NFIR modell válasza (temporális BP-vel tanítva) 2011 Horváth Gábor
78
Rekurzív hálók Architektúra 2011 Horváth Gábor
79
Rekurzív hálók tanítása
Tanítás: valós idejű rekurzív tanítás (RTRL) 2011 Horváth Gábor
80
Rekurzív hálók tanítása
Tanítás: backpropagation through time (BPTT) időbeli kiterítés PE 1 2 w 22 12 21 11 x(k) y(k) k =1 =2 =3 =4 4 3 x( ) y( a. ) b.) 2011 Horváth Gábor
81
Dinamikus neurális struktúrák tanítása
Kombinált lineáris dinamikus és nemlineáris statikus architektúrák előrecsatolt architektúrák 2011 Horváth Gábor
82
Dinamikus neurális struktúrák tanítása
a.) visszacsatolt architektúrák b.) a.) b.) 2011 Horváth Gábor
83
Dinamikus rendszer modellezés
Példa: egy diszkrét idejű rendszer modellezése ahol tanító jel: egyenletes eloszlású véletlen, két eltérő amplitúdóval 2011 Horváth Gábor
84
Dinamikus rendszer modellezés
A gerjesztés szerepe: kis gerjesztőjel 500 1000 1500 2000 -2 2 4 6 Modell kimenet Rendszer kimenet Hiba 2011 Horváth Gábor
85
Dinamikus rendszer modellezés
A gerjesztés szerepe: nagy gerjesztőjel 500 1000 1500 2000 -2 2 4 6 Modell kimenet Rendszer kimenet Hiba 2011 Horváth Gábor
86
Zajos adatok hatása, kezelése
EIV (Errors-in-Variables) ] [ , i k p n Rendszer x m * y + 2011 Horváth Gábor
87
EIV Az LS és az EIV kritérium függvény EIV tanítás 2011 Horváth Gábor
88
EIV Példa 2011 Horváth Gábor
89
EIV Példa 2011 Horváth Gábor
90
Nemellenőrzött tanítás
Hebb tanulás Versengő tanulás w y x Kimenet Bemenet x y W N 1 i* 2 M 2011 Horváth Gábor
91
Nemellenőrzött tanítású hálók
Önszervező hálók Hebb szabály Versengő tanítás klaszterezés hasonlóság detekció adattömörítés (PCA, KLT) 2011 Horváth Gábor
92
Szupport vektor gépek (SVM)
2011 Horváth Gábor
93
Szupport vektor gépek Szupport vektor gépek
SVM osztályozásra SVM regresszióra LS SVM Ridge regression Statisztikus tanuláselmélet alapjai 2011 Horváth Gábor
94
Szupport vektor gépek Új megközelítés
Azon kérdésekre (is) ad választ, melyekre a klasszikus megközelítés nem háló méret általánosító képesség 2011 Horváth Gábor
95
Szupport vektor gépek Osztályozás Tartalék Optimális hipersík
Klasszikus neurális tanulás Szupport Vektor Gép 2011 Horváth Gábor
96
Szupport vektor gépek Lineárisan szeparálható kétosztályos feladat
elválasztó hipersík Optimális hipersík 2011 Horváth Gábor
97
Szupport vektor gépek Geometriai interpretáció x d(x) x2 x1 2011
Horváth Gábor
98
Szupport vektor gépek Kritérium függvény, Lagrange függvény
feltételes optimalizációs feladat feltételek duális feladat szupport vektorok optimális hipersík 2011 Horváth Gábor
99
Szupport vektor gépek Biztonsági sávba eső adatok szeparáló hipersík
kritérium függvény (gyengítő változók) Lagrange függvény szupport vektorok optimális hipersík Optimális hipersík 2011 Horváth Gábor
100
Szupport vektor gépek Nemlineáris szeparálás, jellemző tér
szeparáló hipersík döntési felület magfüggvény (Mercer feltételek) másodlagos (duális) függvény 2011 Horváth Gábor
101
Jellemző tér bemeneti tér jellemző tér 2011 Horváth Gábor
102
Szupport vektor gépek Magfüggvények SVM célra B-splines Polinom RBF
MLP (csak bizonyos βo és β1 mellett) CMAC .... B-splines 2011 Horváth Gábor
103
Szupport vektor gépek Példa: polinom bázis- és magfüggvény
bázis függvények magfüggvény 2011 Horváth Gábor
104
Szupport vektor regresszió (SVR)
C(e) x 2011 Horváth Gábor
105
Szupport vektor regresszió (SVR)
Feltételek: Minimalizálandó: 2011 Horváth Gábor
106
Szupport vektor regresszió (SVR)
Lagrange függvény duális feladat feltételek szupport vektorok megoldás 2011 Horváth Gábor
107
Szupport vektor regresszió (SVR)
2011 Horváth Gábor
108
Szupport vektor regresszió (SVR)
2011 Horváth Gábor
109
Szupport vektor regresszió (SVR)
2011 Horváth Gábor
110
Szupport vektor regresszió (SVR)
2011 Horváth Gábor
111
Szupport vektor gépek Főbb előnyök Főbb hátrányok, nehézségek
felső korlátot ad az általánosítási hibára automatikus modell struktúra meghatározás Főbb hátrányok, nehézségek kvadratikus programozás a duális feladathoz hiperparaméterek megválasztása 2011 Horváth Gábor
112
SVM versions Klasszikus Vapnik SVM LS SVM osztályozás regresszió
egyenlőség feltétel nincs kvadratikus optimalizálásra szükség 2011 Horváth Gábor
113
LS SVM Lagrange egyenlet A deriváltakból származó egyenletek 2011
Horváth Gábor
114
LS SVM Az eredmény lineáris egyenletrendszer Regresszió Osztályozás
ahol a válasz 2011 Horváth Gábor
115
Ridge regression Hasonló az LS-SVM-hez, de nem alkalmaz bias tagot
Az eredményként kapott lineáris egyenletrendszer A ridge regression megfelel a pl. CMAC-nak , ahol a kernel függvények a másodrendű B-splineok. 2011 Horváth Gábor
116
Kernel CMAC (ridge regression)
A klasszikus CMAC analitikus megoldása Kerneles változat kritérium függvény Lagrange függvény a deriválások eredményeként kapott összefüggések 2011 Horváth Gábor
117
Kernel CMAC Az eredmény 2011 Horváth Gábor
118
Statisztikus tanuláselmélet
Cél: kockázatminimalizálást eredményező megoldás keresése Nehézségek: ismeretlen a valószínűségsűrűség függvény Tapasztalati kockázat határozható meg optimális érték Kérdés: aszimptotikus konzisztencia 2011 Horváth Gábor
119
Statisztikus tanuláselmélet
A tapasztalati kockázat aszimptotikus konzisztenciája Min R(w)=R(w0) Valódi kockázat R(w*|L) Tapasztalati kockázat Remp(w*|L) L 2011 Horváth Gábor
120
Statisztikus tanuláselmélet
A konzisztencia és a gyors konvergencia szükséges és elégséges feltétele: véges Vapnik-Cservonenkis (VC) dimenzió VC dimenzió: Egy függvényhalmaz VC dimenziója h, ha létezik legalább egy esetben h olyan minta, mely szeparálható (minden lehetséges módon két osztályba sorolható) a függvényhalmaz elemeivel, de egyetlen esetben sem létezik h+1 minta, mely ugyanezen függvényhalmaz elemeivel szeparálható volna. 2011 Horváth Gábor
121
Modell komplexitás, VC dimenzió
Illusztráció lineáris szeparáció nemlineáris szeparáció 2011 Horváth Gábor
122
Általánosítási hiba Az általánosítási hiba korlátja osztályozás
regresszió 2011 Horváth Gábor
123
Struktúrális kockázat minimalizálása
Általánosítási hiba Kompromisszum az approximáció minősége és az approximáló függvény komplexitása között 2011 Horváth Gábor
124
A hálózattervezés általános kérdései
(összefoglalás) 2011 Horváth Gábor
125
Neurális hálózatok tervezése
Modell választás neurális architektúra választás (pl. bázis függvény választás, regresszor választás) modell fokszám választás (háló méter választás) rétegek száma neuronok száma Modell paraméter becslés analitikus összefüggés tanulás Modell validáció kritériumok kereszt értékelés 2011 Horváth Gábor
126
Modell választás A probléma megfogalmazása Kritériumfüggvény
az optimális pataméterszám meghatározása (a rejtett neuronok optimális számának meghatározása amely ahhoz szükséges, hogy a minták által reprezentált rendszert közelíthessük) Kritériumfüggvény veszteségfüggvény kockázat tapasztalati kockázat 2011 Horváth Gábor
127
Modell választás Statikus vagy dinamikus Dinamikus modell osztályok
regresszor választás bázisfüggvény választás Háló méret rétegek száma rejtett neuronok száma modell fokszám 2011 Horváth Gábor
128
Modell választás Architektúra választás A modell mérete Általánosítás
Modell komplexitás modell fokszám Általánosítás Mit lehet állítani a megtanított háló általánosítási hibájáról? ökölszabály analitikus eredmények a VC dimenzión alapuló felső korlátok Sample size, network size, generalization Given sample size: what is the optimal network size (optimal means: a network with best generalization: minimal prediction error) For given sample size there exists a model of optimal complexity corresponding to the smallest prediction (generalization) error. 2011 Horváth Gábor
129
Modell választás Elméleti eredmények osztályozásra regresszióra
M processzáló elem, P tanító pont, W súly, T teszt pont tanító pontot helyesen osztályoz teszt pontot helyesen osztályoz regresszióra M rejtett neuron, N bemenet dimenziója, P tanító pont, Cf a függvény regularitása 2011 Horváth Gábor
130
Modell választás, validáció
Statisztikus módszerek Kereszt értékelés egykihagyásos k-kihagyásos Kritériumok: hibatag+büntető tag AIC, MDL, NIC, stb. Statisztikus tanuláselmélet VC dimenzió 2011 Horváth Gábor
131
Modell választás, validáció
Kereszt értékelés (újramintavételezés) A mintakészlet (T) felbontása tanító készletre (P) és teszt készletre (Q)? Nagy hálóknál (a háló paramétereinek száma, m nagy) Nagyméretű adathalmazra nincs szükség kereszt kiértékelésre Ha a korai leállítás a kereszt kiértékelés alapján javítja a megoldás általánosító képességét 2011 Horváth Gábor
132
Modell választás, validáció
Kereszt kiértékelés k-kihagyásos (a háló általánosító-képességének meghatározásához az összes tanítópontot felhasználjuk) a kezdeti hálót az összes ponttal tanítjuk a tanító halmazból kiválasztunk k mintát, a hálót újra tanítjuk a maradék mintával az előzetesen megtanított pontból indítva kiértékelés a k-elemű teszt készlettel ismételjük az eljárást, de az előzőtől különböző k minta kihagyása után az értékelések eredményeit átlagoljuk 2011 Horváth Gábor
133
Modell választás, validáció
Neurális modell választás (NIC) Feladat: a paraméterek optimális számának meghatározása (a tejtett elemek optimális számának meghatározása) Veszteségfüggvény: a háló kimenete és a kívánt válasz közötti különbség Ha van additív zaj Kockázat függvény (a veszteség várható értéke), ahol p(x,y) a valódi, de ismeretlen sűrűségfüggvény A tapasztalati sűrűségfüggvény használható: p*(x,y) Three distinct problems: meaningful complexity index (how to measure complexity) e.g. number of free parameters estimate the unknown prediction risk from the known empirical risk (analytical results: asymptotic approach, resampling in practical applications) large variability with finite data finding the global minimum of the empirical risk (it depends on the optimization – learning – algorithm) VC theory: answer for the first two questions - VC dimension measure of complexity (good for linear systems, VC dimension cannot be estimated accurately for nonlinear systems) - analytical bounds on generalization error SVM global minimization in an intermediate (possibly very high dimensional) feature space 2004 Horváth Gábor
134
Modell választás, validáció
Neurális modell választás (NIC) Paraméter becslés gradiens eljárással A paraméterek aszimptotikus tulajdonságai meghatározhatók Az aszimptotikus tulajdonságok alapján az egyes modellek kiértékelhetők Sok parametrikus neurális modell (Mi) konstruálható, ezek hierarchikus rendbe állíthatók, ahol Mi paraméter vektora és m1<m2<m3 … ami azt jelenti, hogy 2011 Horváth Gábor
135
Modell választás, validáció
Neurális modell választás (NIC) Az átlagos kockázat, mely a valódi eloszlás függvénye kifejezhető, mint a tapasztalati kockázat plusz egy büntető tag. 2011 Horváth Gábor
136
Modell választás, validáció
VC elmélet S az approximáló függvények halmaza S elemei, egymásbaágyazott részhalmazok Sk véges VC dimenzióval hk S1 S2 … Sk … Rendezés komplexitás szerint h1 h2 … hk … A priori információ alapján S specifikálható For a given data set the optimal model estimation: selection of an element of the set (model selection) estimating the model from this subset (training the model) there is an upper bound on the prediction risk with a given confidence level 2011 Horváth Gábor
137
Modell választás, validáció
Gyakorlati alkalmazhatóság túl pesszimista eloszlásfüggetlen eredmények túl kevés tanító minta nem reprezentatív minták 2011 Horváth Gábor
138
Modell fokszám (dinamikus feladat)
NARX modell, NOE modell Lipschitz szám, Lipschitz hányados 5 10 15 20 6 8 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 2011 Horváth Gábor
139
Modell fokszám (dinamikus feladat)
Lipschitz hányados általános nemlineáris bemenet - kimenet reláció, f(.) folytonos, síma többváltozós függvény korlátos deriváltak érzékenység analízis 2011 Horváth Gábor
140
Modell fokszám (dinamikus feladat)
Lipschitz szám optimális n mellett 2011 Horváth Gábor
141
Klasszikus neurális hálózatok
Miért alkalmazunk neurális hálózatokat? Egyéb függvényapproximációs eszközök: a dimenzió átka Pl. N-dimenziós feladatnál M-ed rendű polinom mellett a szabad paraméterek száma NM szerint nő. Neurális hálók (MLP) az approximálandó függvénytől függő bázis függvényeket használnak. Az adaptív bázis függvénykészlet lehetővé teszi a szabad paraméterek számának csökkentését. Neuronhálókra az implicit regularizáció jellemző (nem nagy az érzékenységük a túlparametrizálásra) Paraméterek értékének meghatározása minták alapján tanulással 2011 Horváth Gábor
142
Moduláris hálók 2011 Horváth Gábor
143
Moduláris hálók Hálóegyüttes Szakértő keverék (Mixture of experts)
hálók lineáris kombinációja Szakértő keverék (Mixture of experts) azonos elven működő szakértők (pl. neurális hálók) Különböző paradigmák együttese (pl. neurális hálók + szimbólikus megközelítés) Hibrid megoldások szakértő rendszerek neurális hálók matematikai (analitikus) módszerek 2011 Horváth Gábor
144
Együttműködő hálók Háló együttes (osztályozás/regresszió) motivációk
heurisztikus különböző szakértők kiegészítő tudás matematikai pontos és különböző 2011 Horváth Gábor
145
Hálóegyüttes Matematikai igazolás Az eredő kimenet Különbözőség
Egyedi hiba Együttes (eredő) hiba Feltételek 2011 Horváth Gábor
146
Hálóegyüttes Matematikai igazolás Súlyozott hiba
Súlyozott különbözőség Eredő hiba Várhatóérték képzés Megoldás: pontos és különböző hálók együttese 2011 Horváth Gábor
147
Hálóegyüttes Hogyan kaphatunk pontos és különböző hálókat
eltérő struktúrák: pl. MLP, RBF, CCN, stb. eltérő méret, eltérő komplexitás (rejtett rétegek száma, eltérő számú rejtett neuron, különböző nemlineáris függvények, stb.) eltérő tanulási stratégia: batch tanítás, szekvenciális tanítás eltérő tanítási algoritmus (BP, CG, véletlen keresés,stb.), mintasorrend, eltérő tanító készlet különböző tanítási paraméterek különböző kezdeti értékek eltérő leállási feltételek 2011 Horváth Gábor
148
Hálók lineáris kombinációja
Rögzített együtthatók NNM NN1 NN2 α1 α2 αM Σ y1 y2 yM x α 0 y0=1 2011 Horváth Gábor
149
Hálók lineáris kombinációja
Optimális együtthatók számítása egyszerű átlag , bemenettől függően egy háló feltétel optimális értékek feltételek nélkül Wiener-Hopf egyenlet 2011 Horváth Gábor
150
Szakértő együttes Mixture of Experts (MOE)
Kapuzó hálózat μ1 μ g1 g2 x gM Σ M 2. szakértő M. szakértő 2011 Horváth Gábor
151
Mixture of Experts (MOE)
Eredő kimenet: az egyes kimenetek súlyozott összege az i-edik szakértő paramétere Kapuzó háló kimenete: “softmax” függvény a kapuzó háló i-edik paramétere 2011 Horváth Gábor
152
Mixture of Experts (MOE)
Valószínűségi interpretáció a valószínűségi model a valódi paraméterekkel a priori valószínűség 2011 Horváth Gábor
153
Mixture of Experts (MOE)
Tanítás Tanító adatok A kimenet előállításának valószínűsége adott bement mellett A log likelihood függvény (maximum likelihood becslés) 2011 Horváth Gábor
154
Mixture of Experts (MOE)
Tanítás Gradiens eljárás A szakértő paramétervektora A kapuzó hálózat paramétervektora and 2011 Horváth Gábor
155
Mixture of Experts (MOE)
Tanítás A priori valószínűség A posteriori valószínűség 2011 Horváth Gábor
156
Mixture of Experts (MOE)
Tanítás EM (Expectation Maximization) algoritmus Általános iteratív eljárás a maximum likelihood becslési feladat megoldására Rejtett változók bevezetése log likelihood függvény definiálása Két lépés: A rejtett változó szerinti várható érték képzés A log likelihood függvény maximumának keresése 2011 Horváth Gábor
157
EM (Expectation Maximization)
Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése f (y|µ1) f (y|2) Megfigyelés 2011 Horváth Gábor
158
EM algoritmus Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése Az egyes megfigyelésekhez rendelt rejtett változók, (x(l), z(l)1, z(l)2) likelihood függvény Log likelihood függvény Adott a rejtett változók várható értéke 2011 Horváth Gábor
159
Mixture of Experts (MOE)
Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése A log likelihood függvény várható értéke ahol A várható értékek becslői 2011 Horváth Gábor
160
Feladat dekompozíció A dekompozíció és a taniulás viszonya
tanulás előtti dekompozíció (részfeladatokra bontás) dekompozíció a tanulás során (automatikus feladat dekompozíció) Probléma tér dekompozíciója bemeneti tér (bemenet klaszterezés, bemeneti tartományok definiálása) kimeneti tér (kívánt válasz) 2011 Horváth Gábor
161
Feladat dekompozíció Részfeladatokra bontás
K-osztályos osztályozás K két-osztályos feladatra bontás (durva dekompozíció) Komplex két-osztályos feladat egyszerűbb két-osztályos feladatokra bontás (finomabb dekompozíció) Integrálás (modul kombináció) 2011 Horváth Gábor
162
Feladat dekompozíció Példa: egy 3-osztályos feladat 2011 Horváth Gábor
163
Feladat dekompozíció 3 osztály 2 osztály 2 osztály 2011 Horváth Gábor
164
Feladat dekompozíció 3 osztály 2 classes 2 osztály 2 osztály 2011
Horváth Gábor
165
Feladat dekompozíció 3 osztály 2 osztály 2 osztály 2011 Horváth Gábor
166
Feladat dekompozíció M12 M13 M23 MIN C1 C2 C3 INV = Bemenet 2011
Horváth Gábor
167
Feladat dekompozíció Kétosztályos feladat felbontása részfeladatokra
2011 Horváth Gábor
168
Feladat dekompozíció M21 M22 M11 M12 AND AND OR 2011 Horváth Gábor
169
Feladat dekompozíció M11 MIN M12 C1 MAX Bemenet M21 M22 2011
Horváth Gábor
170
Feladat dekompozíció Tanító készlet dekompozíciója:
Eredeti tanító készlet A (K) kétosztályos feladat tanítópontjai A kétosztályos feladat felosztása K-1 egyszerűbb kétosztályos feladatra [(K-1)/2] 2011 Horváth Gábor
171
Feladat dekompozíció Egy gyakorlati példa: irányítószám felismerés
input number 16 x 16 Normalizálás Éldetektálás horizontális diagonális \ diagonális / vertikális Kirsch maszkok 4 16 x 16 Jellemző 4 8 x 8 mátrix bemenet 2011 Horváth Gábor
172
Feladat dekompozíció irányítószám felismerés(kézírásos karakter felismerés) moduláris megoldás 45 (K*K-1)/2 neuron 10 AND kapu (MIN operátor) 256+1 bemenet 2011 Horváth Gábor
173
SVM-ek keveréke A hiperparaméter választás SVM-nél
Különböző SVM-ek eltérő hiperparaméterekkel különböző szigma A bemeneti tér szoft felbontása 2011 Horváth Gábor
174
Egyéb moduláris architektúrák
2011 Horváth Gábor
175
Hibrid hálók 2011 Horváth Gábor
176
Hibrid hálók Magyarázat alapú és megfigyelési mintákon alapuló rendszerek Domain ismeret és mintákban meglévő ismeret együttes felhasználása A két rendszer előnyeinek egyesítése Magyarázat generálás Létező hibrid architektúrák EBNN, KBANN 2011 Horváth Gábor
177
Domain ismeret Előny: Hátrány:
kevés adat szükséges, elmélet mellett néha egyetlenegy példa is elég, Hátrány: teljes és korrekt domain elméletet tételez fel, nem 'tudás szinten' tanul (lényegében csak átfogalmaz, a kiinduló elmélet hibáit nem képes kijavítani), a domain elméletek 'törékenyek' lehetnek, nem jellemző a 'fokozatos romlás‘, a domain elmélet határán a rendszer teljesítő képessége hirtelen romlik, a domain elmélet túl bonyolult lehet gyakorlati célokra (idő/memória korlátok), a domain elméletet valakinek meg kell fogalmazni. 2011 Horváth Gábor
178
Mintákban lévő ismeret
Előnyök ld. neuronhálókról szóló rész Hátrányok álkorrelációk a példákban (pl. Japánban mindenki fekete hajú minden ember fekete hajú), a kivételes eseteket nem, vagy nem kellő mértékben reprezentálják a minták, az osztályozás szempontjából lényeges vonások környezet-függőek akármelyik objektum elvileg végtelen sok különféle attribútummal írható le, a lényegi vonások kiszűréséhez tudás kell, lényegtelen vonások a példák leírásában negatívan befolyásolhatják az osztályozást, tanulás egyszerűbb, ha kezdeti primitív tulajdonságokból bonyolultabb, összetettebb tulajdonságokat képezhetünk. 2011 Horváth Gábor
179
Tanulás mintákból További hátrányok lassú tanulás
a háló kezdeti paramétereinek megválasztása nagyban befolyásolhatja a tanult koncepciókat, háló topológia megválasztásának nehézségei, tanulás után egy háló nem más, mint egy 'fekete doboz‘ nincs magyarázat. 2011 Horváth Gábor
180
Tudásalapú neuronhálók KBANN
A KBANN architektúra 2011 Horváth Gábor
181
Tudásalapú neuronhálók KBANN
Lépések Kiinduló szabályok (Horn klóz) átírása Kezdeti háló struktúra meghatározása Kezdeti súlyok megállapítása Háló bővítése neuronokkal és összeköttetésekkel Tanítás mintákkal (kereszt entrópia alapján) Szabályok kinyerése a megtanított hálóból (Subset, NofM) 2011 Horváth Gábor
182
Tudásalapú neuronhálók KBANN
Szabályok átírása Kiinduló szabályok Átírt szabályok Á t í r á s 2011 Horváth Gábor
183
Tudásalapú neuronhálók KBANN
Szabályok és a háló megfeleltetése Tudásbázis Neurális háló Kapcsolatok: vastag vonalak Háló összeköttetések (súlyok) vastag vonalak 2011 Horváth Gábor
184
Tudásalapú neuronhálók KBANN
Egy egyszerű példa 2011 Horváth Gábor
185
Tudásalapú neuronhálók KBANN
Szabályok hálóvá (neuronná) konvertálása konjunktív szabály diszjunktív szabály 2011 Horváth Gábor
186
Tudásalapú neuronhálók KBANN
Rátanítás mintákkal Kritériumfüggvény: keresztetrópia A gardiens meghatározása vagyis ahol 2011 Horváth Gábor
187
Tudásalapú neuronhálók KBANN
Szabályok kinyerése: Subset eljárás 2011 Horváth Gábor
188
Tudásalapú neuronhálók KBANN
Szabályok kinyerése NofM 2011 Horváth Gábor
189
Tudásalapú neuronhálók KBANN
Módosított változatok TopGen Újabb szabályok beépítésére alkalmas hálókiterjesztés ReGent Genetikus algoritmusok alkalmazásával finomított KBANN A genetikus operátorok a szabályokra működnek Új szabályok létrehozása FsKBANN Végesállapotó rendszerek, rekurzív hálók 2011 Horváth Gábor
190
Irodalom 2011 Horváth Gábor
C. M. Bishop: "Neural Networks for Pattern Recognition", Clarendon Press, Oxford, 1995. C. J. C. Burges: "A Tutorial on Support Vector Machines for Pattern Recognition" Knowledge Discovery and Data Mining, pp V. Cherkassky and F. Mulier: “ Learning from Data” John Wiley & Sons, N.Y J. Van Gorp, J. Schoukens and R. Pintelon: "Learning neural networks with noisy inputs using the errors-in-variables approach" IEEE Trans. on Neural Networks, Vol. 11. No. 2 pp S. Haykin: "Neural Networks, A Comprehensive Foundation" Prentice Hall, New Jersey, 1999. He, X., Asada, H: A New Method for Identifying Orders of Input-Output Models for Nonlinear Dynamic Systems, Proc. of the American Control Conference, San Francisco, CA. USA. pp J. Hertz - A. Krogh and R. G. Palmer:”Introduction to the Theory of Neural Computations” Addison-Wesley Publishing Co G. Horváth (ed.): "Neurális hálózatok és műszaki alkalmazásaik", Műegyetemi Kiadó, Budapest, 1998. Noboru Murata, Shuji Yoshizawa and Shun-Ichi Amari “Network Information Criterion - Determining the Number of Hidden Units for an Artificial neural network Model” IEEE Trans. on Neural Networks, Vol. 5. No. 6. pp J. Rissanen: Modeling by Shortest Data Description, Automatica, Vol. 14. pp , 1978 J. Smola, B. Schölkopf: "A Tutorial on Support Vector Regression" NeuroCOLT2 Technical Report Series, NC2-TR J. Smola, B. Schölkopf: „Learning with KernelsÁ MIT Press, 2002 Mohamad H. Hassoun: “Fundamentals of Artificial Neural Networks” The MIT Press, webcim: J.A.K. Suykens: “Nonlinear Modelling and Support Vector Machines” Proc. of the IEEE Instrumentation and Measurement Technology Conference, Budapest, 2001, Vol. I. pp V. Vapnik: "The Nature of Statistical Learning Theory" Springer, N.Y G.G. Towell és J. W. Shavlik: „Kowledge-Based Artificial Neurla Networks” Artificial Intelligence, Vol 2011 Horváth Gábor
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.