Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Neurális hálózatok Horváth Gábor I S R G

Hasonló előadás


Az előadások a következő témára: "Neurális hálózatok Horváth Gábor I S R G"— Előadás másolata:

1 Neurális hálózatok Horváth Gábor I S R G
Méréstechnika és Információs Rendszerek Tanszék 2011 Horváth Gábor

2 Tartalomjegyzék Bevezetés Klasszikus neurális hálózatok
elemi neuronok klasszikus neurális architektúrák általános megközelítés a neurális hálózatok számítási képessége Tanulás (paraméter becslés) ellenőrzött tanulás nemellenőrzött tanulás analitikus tanulás Szupport vektor gépek SVM architektúrák statisztikus tanuláselmélet A hálótervezés általános kérdései általánosítás modell választás model validáció Moduláris hálók hálók lineáris kombinációja szakértő együttes (Mixture of Experts, MOE) feladat dekompozíció Hibrid rendszerek szimbolikus-neurális rendszerek KBANN 2011 Horváth Gábor

3 Bevezetés 2011 Horváth Gábor

4 Tanuló és hibrid információs rendszerek
Miért van szükség tanuló rendszerekre? Tudásformák, ismeretreprezentációk Tanulás és tanuló eljárások Tanuló rendszerek Szimbolikus (szabályalapú) rendszerek Hibrid rendszerek 2011 Horváth Gábor

5 Klasszikus neurális hálózatok
2011 Horváth Gábor

6 Klasszikus neurális hálózatok
Elemi neuronok lineáris kombinátor bázisfüggvény-neuron Klasszikus neurális architektúrák előrecsatolt visszacsatolt Általános megközelítés regresszor nemlineáris függvénye bázisfüggvények lineáris kombinációja A neurális hálózatok számítási képessége függvényapproximáció osztályozás 2011 Horváth Gábor

7 Klasszikus neurális hálózatok
A neurális hálók olyan párhuzamos, elosztott információfeldolgozó eszközök, amelyek: ·  azonos, vagy hasonló típusú, lokális feldolgozást végző műveleti elemek, neuronok (processing element, neuron) általában rendezett topológiájú, nagymértékben összekapcsolt rendszeréből állnak, · rendelkeznek tanulási algoritmussal (learning algorithm), mely általában minta alapján való tanulást jelent, és az információfeldolgozás módját határozza meg, · rendelkeznek a megtanult információ felhasználását lehetővé tevő információ előhívási algoritmussal (recall algorithm). 2011 Horváth Gábor

8 Klasszikus neurális hálózatok
Fő jellemzők komplex nemlineáris input-output leképezés adaptivitás, tanulási képesség elosztott architektúra hibatűrő képesség párhuzamos analóg vagy digitális VLSI megvalósítás lehetősége neurobiológiai analógia 2011 Horváth Gábor

9 Az elemi neuron (1) Lineáris kombinátor nemlineáris activációs függvénnyel =1 x 1 2 N y=f(s) f (s) w s= T S 2011 Horváth Gábor

10 Tipikus nemlinearitások (1)
Aktivációs függvények ugrásfüggvény szakaszonként lineáris függvény 2011 Horváth Gábor

11 Tipikus nemlinearitások (2)
Aktivációs függvények tangens hiperbolikusz függvény logisztikus függvény 2011 Horváth Gábor

12 Elemi neuron (2) Bázis függvény neuron Bázis függvények Pl. Gauss e -
( ) 2 s gi(x) f (.) x 1 2 N 2011 Horváth Gábor

13 Klasszikus neurális hálózatok
statikus hálók (memória nélküli, előrecsatolt) egyrétegű hálók többrétegű hálók MLP RBF CMAC dinamikus hálók (memória vagy visszacsatolás) előrecsatolt (+ tároló elemek) visszacsatolt lokális visszacsatolás globális visszacsatolás 2011 Horváth Gábor

14 Előrecsatolt architektúrák
Egyrétegű hálók: Rosenblatt perceptron =1 x 1 2 N y=sgn(s) w s= T S 2011 Horváth Gábor

15 Előrecsatolt architektúrák
Egyrétegű hálózatok Kimenet Bemenet x y W Tanítható paraméterek (súlyok) N 1 2 3 M 2011 Horváth Gábor

16 Előrecsatolt architektúrák
Többrétegű háló (statikus MLP háló ) y n y = x x (1) (2) x = o S W 1 2 3 N f(.) y1 y2 y(2)=y 2011 Horváth Gábor

17 Előrecsatolt architektúrák
Egy tanítható rétegű hálók (k) 1 2 M x(k) y(k) leképezés X S Lineáris tanítható réteg w +1 Nemlineáris j (Fix vagy ellenőrzött vagy nemellenőrzött tanítású réteg) 2011 Horváth Gábor

18 Radiális bázis függvény (RBF) hálózatok
Egy tanítható rétegű háló s g = x 1 2 N y +1 w c S , ,s M bemeneti réteg rejtett réteg kimeneti réteg j = g = ( ) j Radiális, pl. Gauss bázis függvények 2011 Horváth Gábor

19 CMAC hálózat Egy tanítható rétegű háló S A lehetséges diszkrét
bemeneti vektorok tere x i+ 3 x a a y w i 2 1 C= 4 asszociációs vektor súly vektor (tanítható) 5 j+ j 2011 Horváth Gábor

20 CMAC háló Háló hash-kódolással S Bemeneti tér z y C= 4 x a a z a z w
1 x = M z y -1 -2 2 C= 4 3 w i x a a z a z w asszociációs tömörített súly vektor vektor asszociációs 2011 Horváth Gábor

21 Kvantálási intervallumok
CMAC hálózat A CMAC bázisfüggvényeinek elrendezése (csempézés) Kvantálási intervallumok u1 u2 átlapolódó lefedések A fő diagonális pontok Szubdiagonal pontok Egy lefedéshez tartozó bázis-függvény tartók Bázis függvények: véges (kompakt tartójú) négyszögletes függvények, B-spline-ok 2011 Horváth Gábor

22 CMAC hálózat Adott bemenetekhez tartozó bázisfüggvény definíciós pontok elhelyezkedése u 2 + 1 =[0 3] T =[0 0] =[6 1] 3 Minden fekete pont egy bázisfüggvényt (asszociációs bit, súly a súly memóriában) jelöl A színes tartományok a megfelelő bemenetek által kiválasztott bázisfüggvényeket azonosítják 2011 Horváth Gábor

23 Előrecsatolt architektúrák
Dinamikus többrétegű háló 2011 Horváth Gábor

24 Előrecsatolt architektúrák
Dinamikus többrétegű háló (egy tanítható réteg) FIR szűrő S (k) 1 2 M x(k) z (k) z (k) y(k) Első, nemlineáris réteg (nemlineáris leképezés) j 2011 Horváth Gábor

25 Visszacsatolt architektúrák
Laterális visszacsatolás (egyrétegű háló) kimenet bemenet x előrecsatoló paraméterek y laterális összeköttetések 3 N 2 1 w 2011 Horváth Gábor

26 Visszacsatolt architektúrák
Lokálisan visszacsatolt háló (MLP) a.)önvisszacsatolás , b.) laterális visszacsatolás, c.) rétegek közötti visszacsatolás 2011 Horváth Gábor

27 Visszacsatolt architektúrák
Globálisan visszacsatolt háló (szekvenciális háló) Több-bemenetű egy-kimentű T D L bemenet kimenet statikus háló x(k-1) x(k-N) x(k) y(k) y(k-M) y(k-2) y(k-1) 2011 Horváth Gábor

28 Visszacsatolt architektúrák
Hopfield háló (globális visszacsatolás) 2011 Horváth Gábor

29 Alapvető neurális háló architektúrák
Általános megközelítés Regresszorok pillanatnyi bemenetek (statikus hálók) pillanatnyi és korábbi bemenetek (előrecsatolt dinamikus hálók) Pillanatnyi és korábbi bemenetek, korábbi kimenetek (visszacsatolt dinamikus hálók) Bázis függvények paramétereiben nemlineáris hálók paramétereiben lineáris hálók 2011 Horváth Gábor

30 Általános megközelítés
Regresszorok Hogyan válasszuk meg a φ(k) regresszor-vektort? korábbi bemenetek korábbi bemenetek és kimenetek korábbi bemenetek és rendszer kimenetek korábbi bemenetek, rendszer kimenetek és modell hibák korábbi bemenetek, kimenetek és hibák φ(k) regressor-vectors 2011 Horváth Gábor

31 Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NFIR Több-bemenetű egy-kimentű T D L Bemenet Kimenet statikus háló x(k-1) x(k-N) x(k) y(k) 2011 Horváth Gábor

32 Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NARX rendszer kimenet, d(k) Több-bemenetű egy-kimenetű T D L bemenet kimenet statikus háló x(k-1) x(k-N) x(k) y(k) d(k-M) d(k-2) d(k-1) 2011 Horváth Gábor

33 Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NOE Több-bemenetű egy-kimenetű T D L bemenet Kimenet statikus háló x(k-1) x(k-N) x(k) y(k) y(k-M) y(k-2) y(k-1) 2011 Horváth Gábor

34 Alapvető neurális háló architektúrák
Nemlineáris dinamikus modell struktúrák NARMAX NJB NSS 2011 Horváth Gábor

35 Alapvető neurális háló architektúrák
Regresszor bázis függvénye paramétereiben lineáris modell paramétereiben nemlineáris modell 2011 Horváth Gábor

36 Alapvető neurális háló architektúrák
Bázis függvények MLP (egyetlen szigmoid rejtett réteggel) szigmoid bázis függvény RBF (radiális bázis függvény, pl. Gauss) CMAC (négyszögletes bázis függvény, spline) 2011 Horváth Gábor

37 A hálózatok képessége Függvény approximáció Osztályozás Asszociáció
Optimalizáció 2011 Horváth Gábor

38 A hálózatok képessége Függvényapproximáció
Alapvető eredmény: a neurális hálózatok (egyes típusai) univerzális approximátorok (bizonyos értelemben) Kolmogorov reprezentációs tétel: bármely folytonos valós értékű N-változós függvény, melyet a [0,1]N kompakt intervallumon definiálunk reprezentálható megfelelően megválasztott egyváltozós függvények és az összeadás segítségével. 2011 Horváth Gábor

39 A hálózatok képessége Függvényapproximáció
Tetszőleges folytonos f : RNR függvény RN egy kompakt K részhalmazán tetszőleges pontossággal közelíthető (hiba abszolút érték maximuma) akkor és csak akkor, ha az aktivációs függvény, g(x) is nemkonstans, korlátos, monoton növekvő. (Hornik, Cybenko, Funahashi, Leshno, Kurkova, stb.) 2011 Horváth Gábor

40 A hálózatok képessége Függvényapproximáció
Tetszőleges folytonos f : RNR függvény RN egy kompakt K részhalmazán tetszőleges pontossággal közelíthető (L2 értelemben) akkor és csak akkor, ha az aktivációs függvény nempolinom. (Hornik, Cybenko, Funahashi, Leshno, Kurkova, etc.) 2011 Horváth Gábor

41 A hálózatok képessége Osztályozás Perceptron: lineáris szeparáció
MLP: univerzális osztályozó 2011 Horváth Gábor

42 A hálózatok képessége Adattömörítés, dimenzió redukció lineáris hálók
nemlineáris hálók 2011 Horváth Gábor

43 A hálózatok alkalmazásai
Regresszió: statikus és dinamikus rendszermodellezés, szűrés, (nemlineáris, dinamikus) rendszerek irányítása, stb. függvényapproximáció Minta asszociáció asszociáció autoasszociáció (dimenzió redukció, adattömörítés) heteroasszociáció Mintafelismerés, klaszterezés osztályozás Kombinatorikus optimalizációs feladatok optimalizáció 2011 Horváth Gábor

44 Adattömörítés, PCA hálók
Főkomponens analízis (Karhunen-Loeve transzformáció) 2011 Horváth Gábor

45 Adattömörítés, PCA hálók
Karhunen-Loeve transzformáció 2011 Horváth Gábor

46 MLP mint lineáris adattömörítő háló
Altér transzformáció 2011 Horváth Gábor

47 Nemlineáris adattömörítés
Nemlineáris feladat x 1 y 2 2011 Horváth Gábor

48 MLP mint nemlineáris adattömörítő háló
5-rétegű autoasszociatív háló Bemenet: x Kimenet: z, a második rejtett réteg kimenete Kívánt kimenet a tanítási fázisban 2011 Horváth Gábor

49 Tanulás 2011 Horváth Gábor

50 Tanulás neurális hálózatoknál
Tanulás: paraméter becslés ellenőrzött tanulás, tanítóval történő tanulás nemellenőrzött tanulás, tanító nélküli tanulás analitikus tanulás 2004 Horváth Gábor

51 Ellenőrzött tanulás Modell paraméter becslés: x, y, d n x d C=C(e) y
Rendszer d =f (x,n) Kritérium C=C(e) függvény C ( d, y ) Neurális modell y y=fM (x,w) Paraméter módosító algoritmus 2011 Horváth Gábor

52 Ellenőrzött tanulás Kritérium függvény kvadratikus kritérium függvény:
egyéb kritérium függvények Pl. e - érzéketlenségi sávú kritérium függvény regularizációval: büntető tag (regularizációs tag) hozzáadása e C(e) 2011 Horváth Gábor

53 Ellenőrzött tanulás Kritérium minimalizálás Analitikus megoldás
csak nagyon egyszerű esetekben pl. lineáris hálóknál: Wiener-Hopf egyenlet Iteratív megoldás gradiens eljárások kereső eljárások kimerítő keresés véletlen keresés genetikus keresés 2011 Horváth Gábor

54 Ellenőrzött tanulás Hiba korrekciós eljárások perceptron szabály
gradiens eljárások legmeredekebb lejtő eljárás Newton Levenberg-Marquardt konjugált gradiens eljárás 2011 Horváth Gábor

55 Gradiens eljárások Analitikus megoldás paramétereiben lineáris modell
kvadratikus kritérium függvény Wiener-Hopf egyenlet 2011 Horváth Gábor

56 Gradiens eljárások Iteratív megoldás gradiens a konvergencia feltétele
2011 Horváth Gábor

57 Gradiens eljárások LMS: pillanatnyi hibán alapuló iteratív megoldás
pillanatnyi gradiens súly frissítés a konvergencia feltétele 2011 Horváth Gábor

58 Gradiens eljárások Példa a konvergenciára
a.) kis m b.) nagy m c.) konjugált gradiens legmeredekebb lejtő w 1 w * ( b) w (0) ( a) ( c) (1) w w 2011 Horváth Gábor

59 Gradiens eljárások Egyetlen neuron nemlineáris aktivációs függvénnyel
Több-rétegű hálózat: hibavisszaterjesztés (BP) 2011 Horváth Gábor

60 MLP tanítás: BP S f(.) W y = x f'(.) frissítés 2011 Horváth Gábor x =
d + _ y 1 2 n e x P y = x (1) frissítés (2) m x = o S W 3 N f(.) f'(.) 2011 Horváth Gábor

61 MLP tervezés Fontos kérdések
háló méret (rétegek száma, rejtett neuronok száma) tanulási aránytényező,  értéke paraméterek (súlyok) kezdeti értékei validáció, kereszt validáció, tanulási és teszt készlet kiválasztása a tanítás módja, szekvenciális vagy batch tanulás leállási feltétel 2011 Horváth Gábor

62 MLP tervezés Háló méret: rejtett neuronok száma
Elméleti eredmények: felső korlátok Gyakorlati megközelítés: két eltérő stratégia Egyszerűtől összetetthez újabb neuronok beiktatása Összetettből egyszerűsítés kimetszés (pruning) regularizáció (OBD, OBS, stb.) Analytical results: upper limits of the number of hidden units: results of Vera Kurkova, etc. Pruning techniques: Optimal brain demage: Optimal brain surgeon: Train the MLP as usual Compute the sensitivity values of the output against the weights Compute the inverse Hessian recursively Hessian is a matrix formed from the second derivatives of the error Compute the saliency of the i-th weight, find the smallest saliency and if it is smaller that a given value delete the corresponding weight. Saliency~ ratio of the squared value of the given weight and the corresponding element of the inverse Hessian. The saliency represents the increase of the error caused by the deletion of the i-th weight, the measure of importance Update the weights Repeat it until you can find deletable weight without significant increase of the error 2011 Horváth Gábor

63 MLP tervezés C Teszt hiba
Kereszt értékelés a modell komplexitás meghatározására C Modell komplexitás (Hálóméret) Teszt hiba Tanítási hiba Legjobb modell Torzítás (bias, alulilleszkedés) Variancia (túlilleszkedés) 2011 Horváth Gábor

64 MLP tervezés Struktúra választás 2011 Horváth Gábor

65 MLP tervezés Általánosítás,túlilleszkedés Kimenet
Megfelelő illeszkedés a tanítópontokhoz Általánosítás Tanítópontok Túilleszkedés Bemenet 2011 Horváth Gábor

66 MLP tervezés Korai leállítás a túlilleszkedés elkerülésére C
Tanítási ciklusok száma Teszt hiba optimális leállításnál Teszt hiba túltanulásnál Tanítási hiba Optimális leállítás 2011 Horváth Gábor

67 MLP tervezés Regularizáció parametrikus büntetés
nemparametrikus büntetés 2011 Horváth Gábor

68 RBF (Radiális Bázis Függvény) háló
x 1 2 N y +1 w c S , ,s M bemeneti réteg rejtett réteg kimeneti réteg j = g = ( ) j 2011 Horváth Gábor

69 RBF tanítás Paramétereiben lineáris struktúra
analitikus megoldás LMS Középpontok (paramétereiben nemlineáris) K-means klaszterezés nemellenőrzött tanítás SVM 2011 Horváth Gábor

70 Középpont meghatározás
K-közép OLS eljárás 2011 Horváth Gábor

71 RBF tervezése Fontos kérdések háló méret (rejtett neuronok száma)
tanulási aránytényező,  értéke paraméterek kezdeti értéke (középpontok, súlyok) validáció, tanító és teszt halmaz választás a tanulás módja: szekvenciális vagy batch tanulás leállási feltételek 2011 Horváth Gábor

72 Dinamikus neurális struktúrák tanítása
Előrecsatolt hálók Időkezelés, temporális BP NFIR: FIR-MLP, FIR-RBF, stb. NARX Visszacsatolt hálók RTRL, BPTT NOE NARMAX 2011 Horváth Gábor

73 Előrecsatolt architektúrák
NFIR: FIR-MLP (a Santa Fe verseny győztese) ( +1) s z y =x FIR szűrő (.) S - edik réteg ( ) 1 y y = x 2 21 l . f ( 1) ( ) w 2004 Horváth Gábor

74 FIR-MLP tervezés FIR-MLP tanítás: temporális backpropagation
kimeneti réteg rejtett réteg 2011 Horváth Gábor

75 Idősor modellezés (Santa Fe verseny)
200 400 600 800 1000 1200 50 100 150 250 300 200 400 600 800 1000 50 100 150 250 2011 Horváth Gábor

76 Idősor modellezés (Santa Fe verseny)
20 40 60 80 100 120 140 160 180 200 50 150 250 300 2011 Horváth Gábor

77 Idősor modellezés (Santa Fe verseny)
NFIR modell válasza (temporális BP-vel tanítva) 2011 Horváth Gábor

78 Rekurzív hálók Architektúra 2011 Horváth Gábor

79 Rekurzív hálók tanítása
Tanítás: valós idejű rekurzív tanítás (RTRL) 2011 Horváth Gábor

80 Rekurzív hálók tanítása
Tanítás: backpropagation through time (BPTT) időbeli kiterítés PE 1 2 w 22 12 21 11 x(k) y(k) k =1 =2 =3 =4 4 3 x( ) y( a. ) b.) 2011 Horváth Gábor

81 Dinamikus neurális struktúrák tanítása
Kombinált lineáris dinamikus és nemlineáris statikus architektúrák előrecsatolt architektúrák 2011 Horváth Gábor

82 Dinamikus neurális struktúrák tanítása
a.) visszacsatolt architektúrák b.) a.) b.) 2011 Horváth Gábor

83 Dinamikus rendszer modellezés
Példa: egy diszkrét idejű rendszer modellezése ahol tanító jel: egyenletes eloszlású véletlen, két eltérő amplitúdóval 2011 Horváth Gábor

84 Dinamikus rendszer modellezés
A gerjesztés szerepe: kis gerjesztőjel 500 1000 1500 2000 -2 2 4 6 Modell kimenet Rendszer kimenet Hiba 2011 Horváth Gábor

85 Dinamikus rendszer modellezés
A gerjesztés szerepe: nagy gerjesztőjel 500 1000 1500 2000 -2 2 4 6 Modell kimenet Rendszer kimenet Hiba 2011 Horváth Gábor

86 Zajos adatok hatása, kezelése
EIV (Errors-in-Variables) ] [ , i k p n Rendszer x m * y + 2011 Horváth Gábor

87 EIV Az LS és az EIV kritérium függvény EIV tanítás 2011 Horváth Gábor

88 EIV Példa 2011 Horváth Gábor

89 EIV Példa 2011 Horváth Gábor

90 Nemellenőrzött tanítás
Hebb tanulás Versengő tanulás w y x Kimenet Bemenet x y W N 1 i* 2 M 2011 Horváth Gábor

91 Nemellenőrzött tanítású hálók
Önszervező hálók Hebb szabály Versengő tanítás klaszterezés hasonlóság detekció adattömörítés (PCA, KLT) 2011 Horváth Gábor

92 Szupport vektor gépek (SVM)
2011 Horváth Gábor

93 Szupport vektor gépek Szupport vektor gépek
SVM osztályozásra SVM regresszióra LS SVM Ridge regression Statisztikus tanuláselmélet alapjai 2011 Horváth Gábor

94 Szupport vektor gépek Új megközelítés
Azon kérdésekre (is) ad választ, melyekre a klasszikus megközelítés nem háló méret általánosító képesség 2011 Horváth Gábor

95 Szupport vektor gépek Osztályozás Tartalék Optimális hipersík
Klasszikus neurális tanulás Szupport Vektor Gép 2011 Horváth Gábor

96 Szupport vektor gépek Lineárisan szeparálható kétosztályos feladat
elválasztó hipersík Optimális hipersík 2011 Horváth Gábor

97 Szupport vektor gépek Geometriai interpretáció x d(x) x2 x1 2011
Horváth Gábor

98 Szupport vektor gépek Kritérium függvény, Lagrange függvény
feltételes optimalizációs feladat feltételek duális feladat szupport vektorok optimális hipersík 2011 Horváth Gábor

99 Szupport vektor gépek Biztonsági sávba eső adatok szeparáló hipersík
kritérium függvény (gyengítő változók) Lagrange függvény szupport vektorok optimális hipersík Optimális hipersík 2011 Horváth Gábor

100 Szupport vektor gépek Nemlineáris szeparálás, jellemző tér
szeparáló hipersík döntési felület magfüggvény (Mercer feltételek) másodlagos (duális) függvény 2011 Horváth Gábor

101 Jellemző tér bemeneti tér jellemző tér 2011 Horváth Gábor

102 Szupport vektor gépek Magfüggvények SVM célra B-splines Polinom RBF
MLP (csak bizonyos βo és β1 mellett) CMAC .... B-splines 2011 Horváth Gábor

103 Szupport vektor gépek Példa: polinom bázis- és magfüggvény
bázis függvények magfüggvény 2011 Horváth Gábor

104 Szupport vektor regresszió (SVR)
C(e) x 2011 Horváth Gábor

105 Szupport vektor regresszió (SVR)
Feltételek: Minimalizálandó: 2011 Horváth Gábor

106 Szupport vektor regresszió (SVR)
Lagrange függvény duális feladat feltételek szupport vektorok megoldás 2011 Horváth Gábor

107 Szupport vektor regresszió (SVR)
2011 Horváth Gábor

108 Szupport vektor regresszió (SVR)
2011 Horváth Gábor

109 Szupport vektor regresszió (SVR)
2011 Horváth Gábor

110 Szupport vektor regresszió (SVR)
2011 Horváth Gábor

111 Szupport vektor gépek Főbb előnyök Főbb hátrányok, nehézségek
felső korlátot ad az általánosítási hibára automatikus modell struktúra meghatározás Főbb hátrányok, nehézségek kvadratikus programozás a duális feladathoz hiperparaméterek megválasztása 2011 Horváth Gábor

112 SVM versions Klasszikus Vapnik SVM LS SVM osztályozás regresszió
egyenlőség feltétel nincs kvadratikus optimalizálásra szükség 2011 Horváth Gábor

113 LS SVM Lagrange egyenlet A deriváltakból származó egyenletek 2011
Horváth Gábor

114 LS SVM Az eredmény lineáris egyenletrendszer Regresszió Osztályozás
ahol a válasz 2011 Horváth Gábor

115 Ridge regression Hasonló az LS-SVM-hez, de nem alkalmaz bias tagot
Az eredményként kapott lineáris egyenletrendszer A ridge regression megfelel a pl. CMAC-nak , ahol a kernel függvények a másodrendű B-splineok. 2011 Horváth Gábor

116 Kernel CMAC (ridge regression)
A klasszikus CMAC analitikus megoldása Kerneles változat kritérium függvény Lagrange függvény a deriválások eredményeként kapott összefüggések 2011 Horváth Gábor

117 Kernel CMAC Az eredmény 2011 Horváth Gábor

118 Statisztikus tanuláselmélet
Cél: kockázatminimalizálást eredményező megoldás keresése Nehézségek: ismeretlen a valószínűségsűrűség függvény Tapasztalati kockázat határozható meg optimális érték Kérdés: aszimptotikus konzisztencia 2011 Horváth Gábor

119 Statisztikus tanuláselmélet
A tapasztalati kockázat aszimptotikus konzisztenciája Min R(w)=R(w0) Valódi kockázat R(w*|L) Tapasztalati kockázat Remp(w*|L) L 2011 Horváth Gábor

120 Statisztikus tanuláselmélet
A konzisztencia és a gyors konvergencia szükséges és elégséges feltétele: véges Vapnik-Cservonenkis (VC) dimenzió VC dimenzió: Egy függvényhalmaz VC dimenziója h, ha létezik legalább egy esetben h olyan minta, mely szeparálható (minden lehetséges módon két osztályba sorolható) a függvényhalmaz elemeivel, de egyetlen esetben sem létezik h+1 minta, mely ugyanezen függvényhalmaz elemeivel szeparálható volna. 2011 Horváth Gábor

121 Modell komplexitás, VC dimenzió
Illusztráció lineáris szeparáció nemlineáris szeparáció 2011 Horváth Gábor

122 Általánosítási hiba Az általánosítási hiba korlátja osztályozás
regresszió 2011 Horváth Gábor

123 Struktúrális kockázat minimalizálása
Általánosítási hiba Kompromisszum az approximáció minősége és az approximáló függvény komplexitása között 2011 Horváth Gábor

124 A hálózattervezés általános kérdései
(összefoglalás) 2011 Horváth Gábor

125 Neurális hálózatok tervezése
Modell választás neurális architektúra választás (pl. bázis függvény választás, regresszor választás) modell fokszám választás (háló méter választás) rétegek száma neuronok száma Modell paraméter becslés analitikus összefüggés tanulás Modell validáció kritériumok kereszt értékelés 2011 Horváth Gábor

126 Modell választás A probléma megfogalmazása Kritériumfüggvény
az optimális pataméterszám meghatározása (a rejtett neuronok optimális számának meghatározása amely ahhoz szükséges, hogy a minták által reprezentált rendszert közelíthessük) Kritériumfüggvény veszteségfüggvény kockázat tapasztalati kockázat 2011 Horváth Gábor

127 Modell választás Statikus vagy dinamikus Dinamikus modell osztályok
regresszor választás bázisfüggvény választás Háló méret rétegek száma rejtett neuronok száma modell fokszám 2011 Horváth Gábor

128 Modell választás Architektúra választás A modell mérete Általánosítás
Modell komplexitás modell fokszám Általánosítás Mit lehet állítani a megtanított háló általánosítási hibájáról? ökölszabály analitikus eredmények a VC dimenzión alapuló felső korlátok Sample size, network size, generalization Given sample size: what is the optimal network size (optimal means: a network with best generalization: minimal prediction error) For given sample size there exists a model of optimal complexity corresponding to the smallest prediction (generalization) error. 2011 Horváth Gábor

129 Modell választás Elméleti eredmények osztályozásra regresszióra
M processzáló elem, P tanító pont, W súly, T teszt pont tanító pontot helyesen osztályoz teszt pontot helyesen osztályoz regresszióra M rejtett neuron, N bemenet dimenziója, P tanító pont, Cf a függvény regularitása 2011 Horváth Gábor

130 Modell választás, validáció
Statisztikus módszerek Kereszt értékelés egykihagyásos k-kihagyásos Kritériumok: hibatag+büntető tag AIC, MDL, NIC, stb. Statisztikus tanuláselmélet VC dimenzió 2011 Horváth Gábor

131 Modell választás, validáció
Kereszt értékelés (újramintavételezés) A mintakészlet (T) felbontása tanító készletre (P) és teszt készletre (Q)? Nagy hálóknál (a háló paramétereinek száma, m nagy) Nagyméretű adathalmazra nincs szükség kereszt kiértékelésre Ha a korai leállítás a kereszt kiértékelés alapján javítja a megoldás általánosító képességét 2011 Horváth Gábor

132 Modell választás, validáció
Kereszt kiértékelés k-kihagyásos (a háló általánosító-képességének meghatározásához az összes tanítópontot felhasználjuk) a kezdeti hálót az összes ponttal tanítjuk a tanító halmazból kiválasztunk k mintát, a hálót újra tanítjuk a maradék mintával az előzetesen megtanított pontból indítva kiértékelés a k-elemű teszt készlettel ismételjük az eljárást, de az előzőtől különböző k minta kihagyása után az értékelések eredményeit átlagoljuk 2011 Horváth Gábor

133 Modell választás, validáció
Neurális modell választás (NIC) Feladat: a paraméterek optimális számának meghatározása (a tejtett elemek optimális számának meghatározása) Veszteségfüggvény: a háló kimenete és a kívánt válasz közötti különbség Ha van additív zaj Kockázat függvény (a veszteség várható értéke), ahol p(x,y) a valódi, de ismeretlen sűrűségfüggvény A tapasztalati sűrűségfüggvény használható: p*(x,y) Three distinct problems: meaningful complexity index (how to measure complexity) e.g. number of free parameters estimate the unknown prediction risk from the known empirical risk (analytical results: asymptotic approach, resampling in practical applications) large variability with finite data finding the global minimum of the empirical risk (it depends on the optimization – learning – algorithm) VC theory: answer for the first two questions - VC dimension measure of complexity (good for linear systems, VC dimension cannot be estimated accurately for nonlinear systems) - analytical bounds on generalization error SVM global minimization in an intermediate (possibly very high dimensional) feature space 2004 Horváth Gábor

134 Modell választás, validáció
Neurális modell választás (NIC) Paraméter becslés gradiens eljárással A paraméterek aszimptotikus tulajdonságai meghatározhatók Az aszimptotikus tulajdonságok alapján az egyes modellek kiértékelhetők Sok parametrikus neurális modell (Mi) konstruálható, ezek hierarchikus rendbe állíthatók, ahol Mi paraméter vektora és m1<m2<m3 … ami azt jelenti, hogy 2011 Horváth Gábor

135 Modell választás, validáció
Neurális modell választás (NIC) Az átlagos kockázat, mely a valódi eloszlás függvénye kifejezhető, mint a tapasztalati kockázat plusz egy büntető tag. 2011 Horváth Gábor

136 Modell választás, validáció
VC elmélet S az approximáló függvények halmaza S elemei, egymásbaágyazott részhalmazok Sk véges VC dimenzióval hk S1  S2  …  Sk  … Rendezés komplexitás szerint h1  h2  …  hk  … A priori információ alapján S specifikálható For a given data set the optimal model estimation: selection of an element of the set (model selection) estimating the model from this subset (training the model) there is an upper bound on the prediction risk with a given confidence level 2011 Horváth Gábor

137 Modell választás, validáció
Gyakorlati alkalmazhatóság túl pesszimista eloszlásfüggetlen eredmények túl kevés tanító minta nem reprezentatív minták 2011 Horváth Gábor

138 Modell fokszám (dinamikus feladat)
NARX modell, NOE modell Lipschitz szám, Lipschitz hányados 5 10 15 20 6 8 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 2011 Horváth Gábor

139 Modell fokszám (dinamikus feladat)
Lipschitz hányados általános nemlineáris bemenet - kimenet reláció, f(.) folytonos, síma többváltozós függvény korlátos deriváltak érzékenység analízis 2011 Horváth Gábor

140 Modell fokszám (dinamikus feladat)
Lipschitz szám optimális n mellett 2011 Horváth Gábor

141 Klasszikus neurális hálózatok
Miért alkalmazunk neurális hálózatokat? Egyéb függvényapproximációs eszközök: a dimenzió átka Pl. N-dimenziós feladatnál M-ed rendű polinom mellett a szabad paraméterek száma NM szerint nő. Neurális hálók (MLP) az approximálandó függvénytől függő bázis függvényeket használnak. Az adaptív bázis függvénykészlet lehetővé teszi a szabad paraméterek számának csökkentését. Neuronhálókra az implicit regularizáció jellemző (nem nagy az érzékenységük a túlparametrizálásra) Paraméterek értékének meghatározása minták alapján tanulással 2011 Horváth Gábor

142 Moduláris hálók 2011 Horváth Gábor

143 Moduláris hálók Hálóegyüttes Szakértő keverék (Mixture of experts)
hálók lineáris kombinációja Szakértő keverék (Mixture of experts) azonos elven működő szakértők (pl. neurális hálók) Különböző paradigmák együttese (pl. neurális hálók + szimbólikus megközelítés) Hibrid megoldások szakértő rendszerek neurális hálók matematikai (analitikus) módszerek 2011 Horváth Gábor

144 Együttműködő hálók Háló együttes (osztályozás/regresszió) motivációk
heurisztikus különböző szakértők kiegészítő tudás matematikai pontos és különböző 2011 Horváth Gábor

145 Hálóegyüttes Matematikai igazolás Az eredő kimenet Különbözőség
Egyedi hiba Együttes (eredő) hiba Feltételek 2011 Horváth Gábor

146 Hálóegyüttes Matematikai igazolás Súlyozott hiba
Súlyozott különbözőség Eredő hiba Várhatóérték képzés Megoldás: pontos és különböző hálók együttese 2011 Horváth Gábor

147 Hálóegyüttes Hogyan kaphatunk pontos és különböző hálókat
eltérő struktúrák: pl. MLP, RBF, CCN, stb. eltérő méret, eltérő komplexitás (rejtett rétegek száma, eltérő számú rejtett neuron, különböző nemlineáris függvények, stb.) eltérő tanulási stratégia: batch tanítás, szekvenciális tanítás eltérő tanítási algoritmus (BP, CG, véletlen keresés,stb.), mintasorrend, eltérő tanító készlet különböző tanítási paraméterek különböző kezdeti értékek eltérő leállási feltételek 2011 Horváth Gábor

148 Hálók lineáris kombinációja
Rögzített együtthatók NNM NN1 NN2 α1 α2 αM Σ y1 y2 yM x α 0 y0=1 2011 Horváth Gábor

149 Hálók lineáris kombinációja
Optimális együtthatók számítása         egyszerű átlag         , bemenettől függően egy háló feltétel optimális értékek feltételek nélkül   Wiener-Hopf egyenlet 2011 Horváth Gábor

150 Szakértő együttes Mixture of Experts (MOE)
Kapuzó hálózat μ1 μ g1 g2 x gM Σ M 2. szakértő M. szakértő 2011 Horváth Gábor

151 Mixture of Experts (MOE)
Eredő kimenet: az egyes kimenetek súlyozott összege az i-edik szakértő paramétere Kapuzó háló kimenete: “softmax” függvény a kapuzó háló i-edik paramétere 2011 Horváth Gábor

152 Mixture of Experts (MOE)
Valószínűségi interpretáció a valószínűségi model a valódi paraméterekkel a priori valószínűség 2011 Horváth Gábor

153 Mixture of Experts (MOE)
Tanítás Tanító adatok A kimenet előállításának valószínűsége adott bement mellett A log likelihood függvény (maximum likelihood becslés) 2011 Horváth Gábor

154 Mixture of Experts (MOE)
Tanítás Gradiens eljárás A szakértő paramétervektora A kapuzó hálózat paramétervektora and 2011 Horváth Gábor

155 Mixture of Experts (MOE)
Tanítás A priori valószínűség A posteriori valószínűség 2011 Horváth Gábor

156 Mixture of Experts (MOE)
Tanítás EM (Expectation Maximization) algoritmus Általános iteratív eljárás a maximum likelihood becslési feladat megoldására Rejtett változók bevezetése log likelihood függvény definiálása Két lépés: A rejtett változó szerinti várható érték képzés A log likelihood függvény maximumának keresése 2011 Horváth Gábor

157 EM (Expectation Maximization)
Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése f (y|µ1) f (y|2) Megfigyelés 2011 Horváth Gábor

158 EM algoritmus Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése Az egyes megfigyelésekhez rendelt rejtett változók, (x(l), z(l)1, z(l)2) likelihood függvény Log likelihood függvény Adott a rejtett változók várható értéke 2011 Horváth Gábor

159 Mixture of Experts (MOE)
Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése A log likelihood függvény várható értéke ahol A várható értékek becslői 2011 Horváth Gábor

160 Feladat dekompozíció A dekompozíció és a taniulás viszonya
tanulás előtti dekompozíció (részfeladatokra bontás) dekompozíció a tanulás során (automatikus feladat dekompozíció) Probléma tér dekompozíciója bemeneti tér (bemenet klaszterezés, bemeneti tartományok definiálása) kimeneti tér (kívánt válasz) 2011 Horváth Gábor

161 Feladat dekompozíció Részfeladatokra bontás
K-osztályos osztályozás K két-osztályos feladatra bontás (durva dekompozíció) Komplex két-osztályos feladat egyszerűbb két-osztályos feladatokra bontás (finomabb dekompozíció) Integrálás (modul kombináció) 2011 Horváth Gábor

162 Feladat dekompozíció Példa: egy 3-osztályos feladat 2011 Horváth Gábor

163 Feladat dekompozíció 3 osztály 2 osztály 2 osztály 2011 Horváth Gábor

164 Feladat dekompozíció 3 osztály 2 classes 2 osztály 2 osztály 2011
Horváth Gábor

165 Feladat dekompozíció 3 osztály 2 osztály 2 osztály 2011 Horváth Gábor

166 Feladat dekompozíció M12 M13 M23 MIN C1 C2 C3 INV = Bemenet 2011
Horváth Gábor

167 Feladat dekompozíció Kétosztályos feladat felbontása részfeladatokra
2011 Horváth Gábor

168 Feladat dekompozíció M21 M22 M11 M12 AND AND OR 2011 Horváth Gábor

169 Feladat dekompozíció M11 MIN M12 C1 MAX Bemenet M21 M22 2011
Horváth Gábor

170 Feladat dekompozíció Tanító készlet dekompozíciója:
Eredeti tanító készlet A (K) kétosztályos feladat tanítópontjai A kétosztályos feladat felosztása K-1 egyszerűbb kétosztályos feladatra [(K-1)/2] 2011 Horváth Gábor

171 Feladat dekompozíció Egy gyakorlati példa: irányítószám felismerés
input number 16 x 16 Normalizálás Éldetektálás horizontális diagonális \ diagonális / vertikális Kirsch maszkok 4 16 x 16 Jellemző 4 8 x 8 mátrix bemenet 2011 Horváth Gábor

172 Feladat dekompozíció irányítószám felismerés(kézírásos karakter felismerés) moduláris megoldás 45 (K*K-1)/2 neuron 10 AND kapu (MIN operátor) 256+1 bemenet 2011 Horváth Gábor

173 SVM-ek keveréke A hiperparaméter választás SVM-nél
Különböző SVM-ek eltérő hiperparaméterekkel különböző szigma A bemeneti tér szoft felbontása 2011 Horváth Gábor

174 Egyéb moduláris architektúrák
2011 Horváth Gábor

175 Hibrid hálók 2011 Horváth Gábor

176 Hibrid hálók Magyarázat alapú és megfigyelési mintákon alapuló rendszerek Domain ismeret és mintákban meglévő ismeret együttes felhasználása A két rendszer előnyeinek egyesítése Magyarázat generálás Létező hibrid architektúrák EBNN, KBANN 2011 Horváth Gábor

177 Domain ismeret Előny: Hátrány:
kevés adat szükséges, elmélet mellett néha egyetlenegy példa is elég,   Hátrány: teljes és korrekt domain elméletet tételez fel, nem 'tudás szinten' tanul (lényegében csak átfogalmaz, a kiinduló elmélet hibáit nem képes kijavítani), a domain elméletek 'törékenyek' lehetnek, nem jellemző a 'fokozatos romlás‘, a domain elmélet határán a rendszer teljesítő képessége hirtelen romlik, a domain elmélet túl bonyolult lehet gyakorlati célokra (idő/memória korlátok), a domain elméletet valakinek meg kell fogalmazni. 2011 Horváth Gábor

178 Mintákban lévő ismeret
Előnyök ld. neuronhálókról szóló rész Hátrányok álkorrelációk a példákban (pl. Japánban mindenki fekete hajú  minden ember fekete hajú), a kivételes eseteket nem, vagy nem kellő mértékben reprezentálják a minták, az osztályozás szempontjából lényeges vonások környezet-függőek akármelyik objektum elvileg végtelen sok különféle attribútummal írható le, a lényegi vonások kiszűréséhez tudás kell, lényegtelen vonások a példák leírásában negatívan befolyásolhatják az osztályozást, tanulás egyszerűbb, ha kezdeti primitív tulajdonságokból bonyolultabb, összetettebb tulajdonságokat képezhetünk. 2011 Horváth Gábor

179 Tanulás mintákból További hátrányok lassú tanulás
a háló kezdeti paramétereinek megválasztása nagyban befolyásolhatja a tanult koncepciókat, háló topológia megválasztásának nehézségei, tanulás után egy háló nem más, mint egy 'fekete doboz‘ nincs magyarázat. 2011 Horváth Gábor

180 Tudásalapú neuronhálók KBANN
A KBANN architektúra 2011 Horváth Gábor

181 Tudásalapú neuronhálók KBANN
Lépések Kiinduló szabályok (Horn klóz) átírása Kezdeti háló struktúra meghatározása Kezdeti súlyok megállapítása Háló bővítése neuronokkal és összeköttetésekkel Tanítás mintákkal (kereszt entrópia alapján) Szabályok kinyerése a megtanított hálóból (Subset, NofM) 2011 Horváth Gábor

182 Tudásalapú neuronhálók KBANN
Szabályok átírása Kiinduló szabályok Átírt szabályok Á t í r á s 2011 Horváth Gábor

183 Tudásalapú neuronhálók KBANN
Szabályok és a háló megfeleltetése Tudásbázis Neurális háló Kapcsolatok: vastag vonalak Háló összeköttetések (súlyok) vastag vonalak 2011 Horváth Gábor

184 Tudásalapú neuronhálók KBANN
Egy egyszerű példa 2011 Horváth Gábor

185 Tudásalapú neuronhálók KBANN
Szabályok hálóvá (neuronná) konvertálása konjunktív szabály diszjunktív szabály 2011 Horváth Gábor

186 Tudásalapú neuronhálók KBANN
Rátanítás mintákkal Kritériumfüggvény: keresztetrópia A gardiens meghatározása vagyis ahol 2011 Horváth Gábor

187 Tudásalapú neuronhálók KBANN
Szabályok kinyerése: Subset eljárás 2011 Horváth Gábor

188 Tudásalapú neuronhálók KBANN
Szabályok kinyerése NofM 2011 Horváth Gábor

189 Tudásalapú neuronhálók KBANN
Módosított változatok TopGen Újabb szabályok beépítésére alkalmas hálókiterjesztés ReGent Genetikus algoritmusok alkalmazásával finomított KBANN A genetikus operátorok a szabályokra működnek Új szabályok létrehozása FsKBANN Végesállapotó rendszerek, rekurzív hálók 2011 Horváth Gábor

190 Irodalom 2011 Horváth Gábor
C. M. Bishop: "Neural Networks for Pattern Recognition", Clarendon Press, Oxford, 1995. C. J. C. Burges: "A Tutorial on Support Vector Machines for Pattern Recognition" Knowledge Discovery and Data Mining, pp V. Cherkassky and F. Mulier: “ Learning from Data” John Wiley & Sons, N.Y J. Van Gorp, J. Schoukens and R. Pintelon: "Learning neural networks with noisy inputs using the errors-in-variables approach" IEEE Trans. on Neural Networks, Vol. 11. No. 2 pp S. Haykin: "Neural Networks, A Comprehensive Foundation" Prentice Hall, New Jersey, 1999. He, X., Asada, H: A New Method for Identifying Orders of Input-Output Models for Nonlinear Dynamic Systems, Proc. of the American Control Conference, San Francisco, CA. USA. pp J. Hertz - A. Krogh and R. G. Palmer:”Introduction to the Theory of Neural Computations” Addison-Wesley Publishing Co G. Horváth (ed.): "Neurális hálózatok és műszaki alkalmazásaik", Műegyetemi Kiadó, Budapest, 1998. Noboru Murata, Shuji Yoshizawa and Shun-Ichi Amari “Network Information Criterion - Determining the Number of Hidden Units for an Artificial neural network Model” IEEE Trans. on Neural Networks, Vol. 5. No. 6. pp J. Rissanen: Modeling by Shortest Data Description, Automatica, Vol. 14. pp , 1978 J. Smola, B. Schölkopf: "A Tutorial on Support Vector Regression" NeuroCOLT2 Technical Report Series, NC2-TR J. Smola, B. Schölkopf: „Learning with KernelsÁ MIT Press, 2002 Mohamad H. Hassoun: “Fundamentals of Artificial Neural Networks” The MIT Press, webcim: J.A.K. Suykens: “Nonlinear Modelling and Support Vector Machines” Proc. of the IEEE Instrumentation and Measurement Technology Conference, Budapest, 2001, Vol. I. pp V. Vapnik: "The Nature of Statistical Learning Theory" Springer, N.Y G.G. Towell és J. W. Shavlik: „Kowledge-Based Artificial Neurla Networks” Artificial Intelligence, Vol 2011 Horváth Gábor


Letölteni ppt "Neurális hálózatok Horváth Gábor I S R G"

Hasonló előadás


Google Hirdetések