Neurális hálózatok Horváth Gábor I S R G Méréstechnika és Információs Rendszerek Tanszék 2011 Horváth Gábor
Tartalomjegyzék Bevezetés Klasszikus neurális hálózatok elemi neuronok klasszikus neurális architektúrák általános megközelítés a neurális hálózatok számítási képessége Tanulás (paraméter becslés) ellenőrzött tanulás nemellenőrzött tanulás analitikus tanulás Szupport vektor gépek SVM architektúrák statisztikus tanuláselmélet A hálótervezés általános kérdései általánosítás modell választás model validáció Moduláris hálók hálók lineáris kombinációja szakértő együttes (Mixture of Experts, MOE) feladat dekompozíció Hibrid rendszerek szimbolikus-neurális rendszerek KBANN 2011 Horváth Gábor
Bevezetés 2011 Horváth Gábor
Tanuló és hibrid információs rendszerek Miért van szükség tanuló rendszerekre? Tudásformák, ismeretreprezentációk Tanulás és tanuló eljárások Tanuló rendszerek Szimbolikus (szabályalapú) rendszerek Hibrid rendszerek 2011 Horváth Gábor
Klasszikus neurális hálózatok 2011 Horváth Gábor
Klasszikus neurális hálózatok Elemi neuronok lineáris kombinátor bázisfüggvény-neuron Klasszikus neurális architektúrák előrecsatolt visszacsatolt Általános megközelítés regresszor nemlineáris függvénye bázisfüggvények lineáris kombinációja A neurális hálózatok számítási képessége függvényapproximáció osztályozás 2011 Horváth Gábor
Klasszikus neurális hálózatok A neurális hálók olyan párhuzamos, elosztott információfeldolgozó eszközök, amelyek: · azonos, vagy hasonló típusú, lokális feldolgozást végző műveleti elemek, neuronok (processing element, neuron) általában rendezett topológiájú, nagymértékben összekapcsolt rendszeréből állnak, · rendelkeznek tanulási algoritmussal (learning algorithm), mely általában minta alapján való tanulást jelent, és az információfeldolgozás módját határozza meg, · rendelkeznek a megtanult információ felhasználását lehetővé tevő információ előhívási algoritmussal (recall algorithm). 2011 Horváth Gábor
Klasszikus neurális hálózatok Fő jellemzők komplex nemlineáris input-output leképezés adaptivitás, tanulási képesség elosztott architektúra hibatűrő képesség párhuzamos analóg vagy digitális VLSI megvalósítás lehetősége neurobiológiai analógia 2011 Horváth Gábor
Az elemi neuron (1) Lineáris kombinátor nemlineáris activációs függvénnyel =1 x 1 2 N y=f(s) f (s) w s= T S 2011 Horváth Gábor
Tipikus nemlinearitások (1) Aktivációs függvények ugrásfüggvény szakaszonként lineáris függvény 2011 Horváth Gábor
Tipikus nemlinearitások (2) Aktivációs függvények tangens hiperbolikusz függvény logisztikus függvény 2011 Horváth Gábor
Elemi neuron (2) Bázis függvény neuron Bázis függvények Pl. Gauss e - ( ) 2 s gi(x) f (.) x 1 2 N 2011 Horváth Gábor
Klasszikus neurális hálózatok statikus hálók (memória nélküli, előrecsatolt) egyrétegű hálók többrétegű hálók MLP RBF CMAC dinamikus hálók (memória vagy visszacsatolás) előrecsatolt (+ tároló elemek) visszacsatolt lokális visszacsatolás globális visszacsatolás 2011 Horváth Gábor
Előrecsatolt architektúrák Egyrétegű hálók: Rosenblatt perceptron =1 x 1 2 N y=sgn(s) w s= T S 2011 Horváth Gábor
Előrecsatolt architektúrák Egyrétegű hálózatok Kimenet Bemenet x y W Tanítható paraméterek (súlyok) N 1 2 3 M 2011 Horváth Gábor
Előrecsatolt architektúrák Többrétegű háló (statikus MLP háló ) y n y = x x (1) (2) x = o S W 1 2 3 N f(.) y1 y2 y(2)=y 2011 Horváth Gábor
Előrecsatolt architektúrák Egy tanítható rétegű hálók (k) 1 2 M x(k) y(k) leképezés X S Lineáris tanítható réteg w +1 Nemlineáris j (Fix vagy ellenőrzött vagy nemellenőrzött tanítású réteg) 2011 Horváth Gábor
Radiális bázis függvény (RBF) hálózatok Egy tanítható rétegű háló s g = x 1 2 N y +1 w c S , ,s M bemeneti réteg rejtett réteg kimeneti réteg j = g = ( ) j Radiális, pl. Gauss bázis függvények 2011 Horváth Gábor
CMAC hálózat Egy tanítható rétegű háló S A lehetséges diszkrét bemeneti vektorok tere x i+ 3 x a a y w i 2 1 C= 4 asszociációs vektor súly vektor (tanítható) 5 j+ j 2011 Horváth Gábor
CMAC háló Háló hash-kódolással S Bemeneti tér z y C= 4 x a a z a z w 1 x = M z y -1 -2 2 C= 4 3 w i x a a z a z w asszociációs tömörített súly vektor vektor asszociációs 2011 Horváth Gábor
Kvantálási intervallumok CMAC hálózat A CMAC bázisfüggvényeinek elrendezése (csempézés) Kvantálási intervallumok u1 u2 átlapolódó lefedések A fő diagonális pontok Szubdiagonal pontok Egy lefedéshez tartozó bázis-függvény tartók Bázis függvények: véges (kompakt tartójú) négyszögletes függvények, B-spline-ok 2011 Horváth Gábor
CMAC hálózat Adott bemenetekhez tartozó bázisfüggvény definíciós pontok elhelyezkedése u 2 + 1 =[0 3] T =[0 0] =[6 1] 3 Minden fekete pont egy bázisfüggvényt (asszociációs bit, súly a súly memóriában) jelöl A színes tartományok a megfelelő bemenetek által kiválasztott bázisfüggvényeket azonosítják 2011 Horváth Gábor
Előrecsatolt architektúrák Dinamikus többrétegű háló 2011 Horváth Gábor
Előrecsatolt architektúrák Dinamikus többrétegű háló (egy tanítható réteg) FIR szűrő S (k) 1 2 M x(k) z (k) z (k) y(k) Első, nemlineáris réteg (nemlineáris leképezés) j 2011 Horváth Gábor
Visszacsatolt architektúrák Laterális visszacsatolás (egyrétegű háló) kimenet bemenet x előrecsatoló paraméterek y laterális összeköttetések 3 N 2 1 w 2011 Horváth Gábor
Visszacsatolt architektúrák Lokálisan visszacsatolt háló (MLP) a.)önvisszacsatolás , b.) laterális visszacsatolás, c.) rétegek közötti visszacsatolás 2011 Horváth Gábor
Visszacsatolt architektúrák Globálisan visszacsatolt háló (szekvenciális háló) Több-bemenetű egy-kimentű T D L bemenet kimenet statikus háló x(k-1) x(k-N) x(k) y(k) y(k-M) y(k-2) y(k-1) 2011 Horváth Gábor
Visszacsatolt architektúrák Hopfield háló (globális visszacsatolás) 2011 Horváth Gábor
Alapvető neurális háló architektúrák Általános megközelítés Regresszorok pillanatnyi bemenetek (statikus hálók) pillanatnyi és korábbi bemenetek (előrecsatolt dinamikus hálók) Pillanatnyi és korábbi bemenetek, korábbi kimenetek (visszacsatolt dinamikus hálók) Bázis függvények paramétereiben nemlineáris hálók paramétereiben lineáris hálók 2011 Horváth Gábor
Általános megközelítés Regresszorok Hogyan válasszuk meg a φ(k) regresszor-vektort? korábbi bemenetek korábbi bemenetek és kimenetek korábbi bemenetek és rendszer kimenetek korábbi bemenetek, rendszer kimenetek és modell hibák korábbi bemenetek, kimenetek és hibák φ(k) regressor-vectors 2011 Horváth Gábor
Alapvető neurális háló architektúrák Nemlineáris dinamikus modell struktúrák NFIR Több-bemenetű egy-kimentű T D L Bemenet Kimenet statikus háló x(k-1) x(k-N) x(k) y(k) 2011 Horváth Gábor
Alapvető neurális háló architektúrák Nemlineáris dinamikus modell struktúrák NARX rendszer kimenet, d(k) Több-bemenetű egy-kimenetű T D L bemenet kimenet statikus háló x(k-1) x(k-N) x(k) y(k) d(k-M) d(k-2) d(k-1) 2011 Horváth Gábor
Alapvető neurális háló architektúrák Nemlineáris dinamikus modell struktúrák NOE Több-bemenetű egy-kimenetű T D L bemenet Kimenet statikus háló x(k-1) x(k-N) x(k) y(k) y(k-M) y(k-2) y(k-1) 2011 Horváth Gábor
Alapvető neurális háló architektúrák Nemlineáris dinamikus modell struktúrák NARMAX NJB NSS 2011 Horváth Gábor
Alapvető neurális háló architektúrák Regresszor bázis függvénye paramétereiben lineáris modell paramétereiben nemlineáris modell 2011 Horváth Gábor
Alapvető neurális háló architektúrák Bázis függvények MLP (egyetlen szigmoid rejtett réteggel) szigmoid bázis függvény RBF (radiális bázis függvény, pl. Gauss) CMAC (négyszögletes bázis függvény, spline) 2011 Horváth Gábor
A hálózatok képessége Függvény approximáció Osztályozás Asszociáció Optimalizáció 2011 Horváth Gábor
A hálózatok képessége Függvényapproximáció Alapvető eredmény: a neurális hálózatok (egyes típusai) univerzális approximátorok (bizonyos értelemben) Kolmogorov reprezentációs tétel: bármely folytonos valós értékű N-változós függvény, melyet a [0,1]N kompakt intervallumon definiálunk reprezentálható megfelelően megválasztott egyváltozós függvények és az összeadás segítségével. 2011 Horváth Gábor
A hálózatok képessége Függvényapproximáció Tetszőleges folytonos f : RNR függvény RN egy kompakt K részhalmazán tetszőleges pontossággal közelíthető (hiba abszolút érték maximuma) akkor és csak akkor, ha az aktivációs függvény, g(x) is nemkonstans, korlátos, monoton növekvő. (Hornik, Cybenko, Funahashi, Leshno, Kurkova, stb.) 2011 Horváth Gábor
A hálózatok képessége Függvényapproximáció Tetszőleges folytonos f : RNR függvény RN egy kompakt K részhalmazán tetszőleges pontossággal közelíthető (L2 értelemben) akkor és csak akkor, ha az aktivációs függvény nempolinom. (Hornik, Cybenko, Funahashi, Leshno, Kurkova, etc.) 2011 Horváth Gábor
A hálózatok képessége Osztályozás Perceptron: lineáris szeparáció MLP: univerzális osztályozó 2011 Horváth Gábor
A hálózatok képessége Adattömörítés, dimenzió redukció lineáris hálók nemlineáris hálók 2011 Horváth Gábor
A hálózatok alkalmazásai Regresszió: statikus és dinamikus rendszermodellezés, szűrés, (nemlineáris, dinamikus) rendszerek irányítása, stb. függvényapproximáció Minta asszociáció asszociáció autoasszociáció (dimenzió redukció, adattömörítés) heteroasszociáció Mintafelismerés, klaszterezés osztályozás Kombinatorikus optimalizációs feladatok optimalizáció 2011 Horváth Gábor
Adattömörítés, PCA hálók Főkomponens analízis (Karhunen-Loeve transzformáció) 2011 Horváth Gábor
Adattömörítés, PCA hálók Karhunen-Loeve transzformáció 2011 Horváth Gábor
MLP mint lineáris adattömörítő háló Altér transzformáció 2011 Horváth Gábor
Nemlineáris adattömörítés Nemlineáris feladat x 1 y 2 2011 Horváth Gábor
MLP mint nemlineáris adattömörítő háló 5-rétegű autoasszociatív háló Bemenet: x Kimenet: z, a második rejtett réteg kimenete Kívánt kimenet a tanítási fázisban 2011 Horváth Gábor
Tanulás 2011 Horváth Gábor
Tanulás neurális hálózatoknál Tanulás: paraméter becslés ellenőrzött tanulás, tanítóval történő tanulás nemellenőrzött tanulás, tanító nélküli tanulás analitikus tanulás 2004 Horváth Gábor
Ellenőrzött tanulás Modell paraméter becslés: x, y, d n x d C=C(e) y Rendszer d =f (x,n) Kritérium C=C(e) függvény C ( d, y ) Neurális modell y y=fM (x,w) Paraméter módosító algoritmus 2011 Horváth Gábor
Ellenőrzött tanulás Kritérium függvény kvadratikus kritérium függvény: egyéb kritérium függvények Pl. e - érzéketlenségi sávú kritérium függvény regularizációval: büntető tag (regularizációs tag) hozzáadása e C(e) 2011 Horváth Gábor
Ellenőrzött tanulás Kritérium minimalizálás Analitikus megoldás csak nagyon egyszerű esetekben pl. lineáris hálóknál: Wiener-Hopf egyenlet Iteratív megoldás gradiens eljárások kereső eljárások kimerítő keresés véletlen keresés genetikus keresés 2011 Horváth Gábor
Ellenőrzött tanulás Hiba korrekciós eljárások perceptron szabály gradiens eljárások legmeredekebb lejtő eljárás Newton Levenberg-Marquardt konjugált gradiens eljárás 2011 Horváth Gábor
Gradiens eljárások Analitikus megoldás paramétereiben lineáris modell kvadratikus kritérium függvény Wiener-Hopf egyenlet 2011 Horváth Gábor
Gradiens eljárások Iteratív megoldás gradiens a konvergencia feltétele 2011 Horváth Gábor
Gradiens eljárások LMS: pillanatnyi hibán alapuló iteratív megoldás pillanatnyi gradiens súly frissítés a konvergencia feltétele 2011 Horváth Gábor
Gradiens eljárások Példa a konvergenciára a.) kis m b.) nagy m c.) konjugált gradiens legmeredekebb lejtő w 1 w * ( b) w (0) ( a) ( c) (1) w w 2011 Horváth Gábor
Gradiens eljárások Egyetlen neuron nemlineáris aktivációs függvénnyel Több-rétegű hálózat: hibavisszaterjesztés (BP) 2011 Horváth Gábor
MLP tanítás: BP S f(.) W y = x f'(.) frissítés 2011 Horváth Gábor x = d + _ y 1 2 n e x P y = x (1) frissítés (2) m x = o S W 3 N f(.) f'(.) 2011 Horváth Gábor
MLP tervezés Fontos kérdések háló méret (rétegek száma, rejtett neuronok száma) tanulási aránytényező, értéke paraméterek (súlyok) kezdeti értékei validáció, kereszt validáció, tanulási és teszt készlet kiválasztása a tanítás módja, szekvenciális vagy batch tanulás leállási feltétel 2011 Horváth Gábor
MLP tervezés Háló méret: rejtett neuronok száma Elméleti eredmények: felső korlátok Gyakorlati megközelítés: két eltérő stratégia Egyszerűtől összetetthez újabb neuronok beiktatása Összetettből egyszerűsítés kimetszés (pruning) regularizáció (OBD, OBS, stb.) Analytical results: upper limits of the number of hidden units: results of Vera Kurkova, etc. Pruning techniques: Optimal brain demage: Optimal brain surgeon: Train the MLP as usual Compute the sensitivity values of the output against the weights Compute the inverse Hessian recursively Hessian is a matrix formed from the second derivatives of the error Compute the saliency of the i-th weight, find the smallest saliency and if it is smaller that a given value delete the corresponding weight. Saliency~ ratio of the squared value of the given weight and the corresponding element of the inverse Hessian. The saliency represents the increase of the error caused by the deletion of the i-th weight, the measure of importance Update the weights Repeat it until you can find deletable weight without significant increase of the error 2011 Horváth Gábor
MLP tervezés C Teszt hiba Kereszt értékelés a modell komplexitás meghatározására C Modell komplexitás (Hálóméret) Teszt hiba Tanítási hiba Legjobb modell Torzítás (bias, alulilleszkedés) Variancia (túlilleszkedés) 2011 Horváth Gábor
MLP tervezés Struktúra választás 2011 Horváth Gábor
MLP tervezés Általánosítás,túlilleszkedés Kimenet Megfelelő illeszkedés a tanítópontokhoz Általánosítás Tanítópontok Túilleszkedés Bemenet 2011 Horváth Gábor
MLP tervezés Korai leállítás a túlilleszkedés elkerülésére C Tanítási ciklusok száma Teszt hiba optimális leállításnál Teszt hiba túltanulásnál Tanítási hiba Optimális leállítás 2011 Horváth Gábor
MLP tervezés Regularizáció parametrikus büntetés nemparametrikus büntetés 2011 Horváth Gábor
RBF (Radiális Bázis Függvény) háló x 1 2 N y +1 w c S , ,s M bemeneti réteg rejtett réteg kimeneti réteg j = g = ( ) j 2011 Horváth Gábor
RBF tanítás Paramétereiben lineáris struktúra analitikus megoldás LMS Középpontok (paramétereiben nemlineáris) K-means klaszterezés nemellenőrzött tanítás SVM 2011 Horváth Gábor
Középpont meghatározás K-közép OLS eljárás 2011 Horváth Gábor
RBF tervezése Fontos kérdések háló méret (rejtett neuronok száma) tanulási aránytényező, értéke paraméterek kezdeti értéke (középpontok, súlyok) validáció, tanító és teszt halmaz választás a tanulás módja: szekvenciális vagy batch tanulás leállási feltételek 2011 Horváth Gábor
Dinamikus neurális struktúrák tanítása Előrecsatolt hálók Időkezelés, temporális BP NFIR: FIR-MLP, FIR-RBF, stb. NARX Visszacsatolt hálók RTRL, BPTT NOE NARMAX 2011 Horváth Gábor
Előrecsatolt architektúrák NFIR: FIR-MLP (a Santa Fe verseny győztese) ( +1) s z y =x FIR szűrő (.) S - edik réteg ( ) 1 y y = x 2 21 l . f ( 1) ( ) w 2004 Horváth Gábor
FIR-MLP tervezés FIR-MLP tanítás: temporális backpropagation kimeneti réteg rejtett réteg 2011 Horváth Gábor
Idősor modellezés (Santa Fe verseny) 200 400 600 800 1000 1200 50 100 150 250 300 200 400 600 800 1000 50 100 150 250 2011 Horváth Gábor
Idősor modellezés (Santa Fe verseny) 20 40 60 80 100 120 140 160 180 200 50 150 250 300 2011 Horváth Gábor
Idősor modellezés (Santa Fe verseny) NFIR modell válasza (temporális BP-vel tanítva) 2011 Horváth Gábor
Rekurzív hálók Architektúra 2011 Horváth Gábor
Rekurzív hálók tanítása Tanítás: valós idejű rekurzív tanítás (RTRL) 2011 Horváth Gábor
Rekurzív hálók tanítása Tanítás: backpropagation through time (BPTT) időbeli kiterítés PE 1 2 w 22 12 21 11 x(k) y(k) k =1 =2 =3 =4 4 3 x( ) y( a. ) b.) 2011 Horváth Gábor
Dinamikus neurális struktúrák tanítása Kombinált lineáris dinamikus és nemlineáris statikus architektúrák előrecsatolt architektúrák 2011 Horváth Gábor
Dinamikus neurális struktúrák tanítása a.) visszacsatolt architektúrák b.) a.) b.) 2011 Horváth Gábor
Dinamikus rendszer modellezés Példa: egy diszkrét idejű rendszer modellezése ahol tanító jel: egyenletes eloszlású véletlen, két eltérő amplitúdóval 2011 Horváth Gábor
Dinamikus rendszer modellezés A gerjesztés szerepe: kis gerjesztőjel 500 1000 1500 2000 -2 2 4 6 Modell kimenet Rendszer kimenet Hiba 2011 Horváth Gábor
Dinamikus rendszer modellezés A gerjesztés szerepe: nagy gerjesztőjel 500 1000 1500 2000 -2 2 4 6 Modell kimenet Rendszer kimenet Hiba 2011 Horváth Gábor
Zajos adatok hatása, kezelése EIV (Errors-in-Variables) ] [ , i k p n Rendszer x m * y + 2011 Horváth Gábor
EIV Az LS és az EIV kritérium függvény EIV tanítás 2011 Horváth Gábor
EIV Példa 2011 Horváth Gábor
EIV Példa 2011 Horváth Gábor
Nemellenőrzött tanítás Hebb tanulás Versengő tanulás w y x Kimenet Bemenet x y W N 1 i* 2 M 2011 Horváth Gábor
Nemellenőrzött tanítású hálók Önszervező hálók Hebb szabály Versengő tanítás klaszterezés hasonlóság detekció adattömörítés (PCA, KLT) 2011 Horváth Gábor
Szupport vektor gépek (SVM) 2011 Horváth Gábor
Szupport vektor gépek Szupport vektor gépek SVM osztályozásra SVM regresszióra LS SVM Ridge regression Statisztikus tanuláselmélet alapjai 2011 Horváth Gábor
Szupport vektor gépek Új megközelítés Azon kérdésekre (is) ad választ, melyekre a klasszikus megközelítés nem háló méret általánosító képesség 2011 Horváth Gábor
Szupport vektor gépek Osztályozás Tartalék Optimális hipersík Klasszikus neurális tanulás Szupport Vektor Gép 2011 Horváth Gábor
Szupport vektor gépek Lineárisan szeparálható kétosztályos feladat elválasztó hipersík Optimális hipersík 2011 Horváth Gábor
Szupport vektor gépek Geometriai interpretáció x d(x) x2 x1 2011 Horváth Gábor
Szupport vektor gépek Kritérium függvény, Lagrange függvény feltételes optimalizációs feladat feltételek duális feladat szupport vektorok optimális hipersík 2011 Horváth Gábor
Szupport vektor gépek Biztonsági sávba eső adatok szeparáló hipersík kritérium függvény (gyengítő változók) Lagrange függvény szupport vektorok optimális hipersík Optimális hipersík 2011 Horváth Gábor
Szupport vektor gépek Nemlineáris szeparálás, jellemző tér szeparáló hipersík döntési felület magfüggvény (Mercer feltételek) másodlagos (duális) függvény 2011 Horváth Gábor
Jellemző tér bemeneti tér jellemző tér 2011 Horváth Gábor
Szupport vektor gépek Magfüggvények SVM célra B-splines Polinom RBF MLP (csak bizonyos βo és β1 mellett) CMAC .... B-splines 2011 Horváth Gábor
Szupport vektor gépek Példa: polinom bázis- és magfüggvény bázis függvények magfüggvény 2011 Horváth Gábor
Szupport vektor regresszió (SVR) C(e) x 2011 Horváth Gábor
Szupport vektor regresszió (SVR) Feltételek: Minimalizálandó: 2011 Horváth Gábor
Szupport vektor regresszió (SVR) Lagrange függvény duális feladat feltételek szupport vektorok megoldás 2011 Horváth Gábor
Szupport vektor regresszió (SVR) 2011 Horváth Gábor
Szupport vektor regresszió (SVR) 2011 Horváth Gábor
Szupport vektor regresszió (SVR) 2011 Horváth Gábor
Szupport vektor regresszió (SVR) 2011 Horváth Gábor
Szupport vektor gépek Főbb előnyök Főbb hátrányok, nehézségek felső korlátot ad az általánosítási hibára automatikus modell struktúra meghatározás Főbb hátrányok, nehézségek kvadratikus programozás a duális feladathoz hiperparaméterek megválasztása 2011 Horváth Gábor
SVM versions Klasszikus Vapnik SVM LS SVM osztályozás regresszió egyenlőség feltétel nincs kvadratikus optimalizálásra szükség 2011 Horváth Gábor
LS SVM Lagrange egyenlet A deriváltakból származó egyenletek 2011 Horváth Gábor
LS SVM Az eredmény lineáris egyenletrendszer Regresszió Osztályozás ahol a válasz 2011 Horváth Gábor
Ridge regression Hasonló az LS-SVM-hez, de nem alkalmaz bias tagot Az eredményként kapott lineáris egyenletrendszer A ridge regression megfelel a pl. CMAC-nak , ahol a kernel függvények a másodrendű B-splineok. 2011 Horváth Gábor
Kernel CMAC (ridge regression) A klasszikus CMAC analitikus megoldása Kerneles változat kritérium függvény Lagrange függvény a deriválások eredményeként kapott összefüggések 2011 Horváth Gábor
Kernel CMAC Az eredmény 2011 Horváth Gábor
Statisztikus tanuláselmélet Cél: kockázatminimalizálást eredményező megoldás keresése Nehézségek: ismeretlen a valószínűségsűrűség függvény Tapasztalati kockázat határozható meg optimális érték Kérdés: aszimptotikus konzisztencia 2011 Horváth Gábor
Statisztikus tanuláselmélet A tapasztalati kockázat aszimptotikus konzisztenciája Min R(w)=R(w0) Valódi kockázat R(w*|L) Tapasztalati kockázat Remp(w*|L) L 2011 Horváth Gábor
Statisztikus tanuláselmélet A konzisztencia és a gyors konvergencia szükséges és elégséges feltétele: véges Vapnik-Cservonenkis (VC) dimenzió VC dimenzió: Egy függvényhalmaz VC dimenziója h, ha létezik legalább egy esetben h olyan minta, mely szeparálható (minden lehetséges módon két osztályba sorolható) a függvényhalmaz elemeivel, de egyetlen esetben sem létezik h+1 minta, mely ugyanezen függvényhalmaz elemeivel szeparálható volna. 2011 Horváth Gábor
Modell komplexitás, VC dimenzió Illusztráció lineáris szeparáció nemlineáris szeparáció 2011 Horváth Gábor
Általánosítási hiba Az általánosítási hiba korlátja osztályozás regresszió 2011 Horváth Gábor
Struktúrális kockázat minimalizálása Általánosítási hiba Kompromisszum az approximáció minősége és az approximáló függvény komplexitása között 2011 Horváth Gábor
A hálózattervezés általános kérdései (összefoglalás) 2011 Horváth Gábor
Neurális hálózatok tervezése Modell választás neurális architektúra választás (pl. bázis függvény választás, regresszor választás) modell fokszám választás (háló méter választás) rétegek száma neuronok száma Modell paraméter becslés analitikus összefüggés tanulás Modell validáció kritériumok kereszt értékelés 2011 Horváth Gábor
Modell választás A probléma megfogalmazása Kritériumfüggvény az optimális pataméterszám meghatározása (a rejtett neuronok optimális számának meghatározása amely ahhoz szükséges, hogy a minták által reprezentált rendszert közelíthessük) Kritériumfüggvény veszteségfüggvény kockázat tapasztalati kockázat 2011 Horváth Gábor
Modell választás Statikus vagy dinamikus Dinamikus modell osztályok regresszor választás bázisfüggvény választás Háló méret rétegek száma rejtett neuronok száma modell fokszám 2011 Horváth Gábor
Modell választás Architektúra választás A modell mérete Általánosítás Modell komplexitás modell fokszám Általánosítás Mit lehet állítani a megtanított háló általánosítási hibájáról? ökölszabály analitikus eredmények a VC dimenzión alapuló felső korlátok Sample size, network size, generalization Given sample size: what is the optimal network size (optimal means: a network with best generalization: minimal prediction error) For given sample size there exists a model of optimal complexity corresponding to the smallest prediction (generalization) error. 2011 Horváth Gábor
Modell választás Elméleti eredmények osztályozásra regresszióra M processzáló elem, P tanító pont, W súly, T teszt pont tanító pontot helyesen osztályoz teszt pontot helyesen osztályoz regresszióra M rejtett neuron, N bemenet dimenziója, P tanító pont, Cf a függvény regularitása 2011 Horváth Gábor
Modell választás, validáció Statisztikus módszerek Kereszt értékelés egykihagyásos k-kihagyásos Kritériumok: hibatag+büntető tag AIC, MDL, NIC, stb. Statisztikus tanuláselmélet VC dimenzió 2011 Horváth Gábor
Modell választás, validáció Kereszt értékelés (újramintavételezés) A mintakészlet (T) felbontása tanító készletre (P) és teszt készletre (Q)? Nagy hálóknál (a háló paramétereinek száma, m nagy) Nagyméretű adathalmazra nincs szükség kereszt kiértékelésre Ha a korai leállítás a kereszt kiértékelés alapján javítja a megoldás általánosító képességét 2011 Horváth Gábor
Modell választás, validáció Kereszt kiértékelés k-kihagyásos (a háló általánosító-képességének meghatározásához az összes tanítópontot felhasználjuk) a kezdeti hálót az összes ponttal tanítjuk a tanító halmazból kiválasztunk k mintát, a hálót újra tanítjuk a maradék mintával az előzetesen megtanított pontból indítva kiértékelés a k-elemű teszt készlettel ismételjük az eljárást, de az előzőtől különböző k minta kihagyása után az értékelések eredményeit átlagoljuk 2011 Horváth Gábor
Modell választás, validáció Neurális modell választás (NIC) Feladat: a paraméterek optimális számának meghatározása (a tejtett elemek optimális számának meghatározása) Veszteségfüggvény: a háló kimenete és a kívánt válasz közötti különbség Ha van additív zaj Kockázat függvény (a veszteség várható értéke), ahol p(x,y) a valódi, de ismeretlen sűrűségfüggvény A tapasztalati sűrűségfüggvény használható: p*(x,y) Three distinct problems: meaningful complexity index (how to measure complexity) e.g. number of free parameters estimate the unknown prediction risk from the known empirical risk (analytical results: asymptotic approach, resampling in practical applications) large variability with finite data finding the global minimum of the empirical risk (it depends on the optimization – learning – algorithm) VC theory: answer for the first two questions - VC dimension measure of complexity (good for linear systems, VC dimension cannot be estimated accurately for nonlinear systems) - analytical bounds on generalization error SVM global minimization in an intermediate (possibly very high dimensional) feature space 2004 Horváth Gábor
Modell választás, validáció Neurális modell választás (NIC) Paraméter becslés gradiens eljárással A paraméterek aszimptotikus tulajdonságai meghatározhatók Az aszimptotikus tulajdonságok alapján az egyes modellek kiértékelhetők Sok parametrikus neurális modell (Mi) konstruálható, ezek hierarchikus rendbe állíthatók, ahol Mi paraméter vektora és m1<m2<m3 … ami azt jelenti, hogy 2011 Horváth Gábor
Modell választás, validáció Neurális modell választás (NIC) Az átlagos kockázat, mely a valódi eloszlás függvénye kifejezhető, mint a tapasztalati kockázat plusz egy büntető tag. 2011 Horváth Gábor
Modell választás, validáció VC elmélet S az approximáló függvények halmaza S elemei, egymásbaágyazott részhalmazok Sk véges VC dimenzióval hk S1 S2 … Sk … Rendezés komplexitás szerint h1 h2 … hk … A priori információ alapján S specifikálható For a given data set the optimal model estimation: selection of an element of the set (model selection) estimating the model from this subset (training the model) there is an upper bound on the prediction risk with a given confidence level 2011 Horváth Gábor
Modell választás, validáció Gyakorlati alkalmazhatóság túl pesszimista eloszlásfüggetlen eredmények túl kevés tanító minta nem reprezentatív minták 2011 Horváth Gábor
Modell fokszám (dinamikus feladat) NARX modell, NOE modell Lipschitz szám, Lipschitz hányados 5 10 15 20 6 8 12 14 16 18 1 2 3 4 5 6 7 8 9 10 11 12 2011 Horváth Gábor
Modell fokszám (dinamikus feladat) Lipschitz hányados általános nemlineáris bemenet - kimenet reláció, f(.) folytonos, síma többváltozós függvény korlátos deriváltak érzékenység analízis 2011 Horváth Gábor
Modell fokszám (dinamikus feladat) Lipschitz szám optimális n mellett 2011 Horváth Gábor
Klasszikus neurális hálózatok Miért alkalmazunk neurális hálózatokat? Egyéb függvényapproximációs eszközök: a dimenzió átka Pl. N-dimenziós feladatnál M-ed rendű polinom mellett a szabad paraméterek száma NM szerint nő. Neurális hálók (MLP) az approximálandó függvénytől függő bázis függvényeket használnak. Az adaptív bázis függvénykészlet lehetővé teszi a szabad paraméterek számának csökkentését. Neuronhálókra az implicit regularizáció jellemző (nem nagy az érzékenységük a túlparametrizálásra) Paraméterek értékének meghatározása minták alapján tanulással 2011 Horváth Gábor
Moduláris hálók 2011 Horváth Gábor
Moduláris hálók Hálóegyüttes Szakértő keverék (Mixture of experts) hálók lineáris kombinációja Szakértő keverék (Mixture of experts) azonos elven működő szakértők (pl. neurális hálók) Különböző paradigmák együttese (pl. neurális hálók + szimbólikus megközelítés) Hibrid megoldások szakértő rendszerek neurális hálók matematikai (analitikus) módszerek 2011 Horváth Gábor
Együttműködő hálók Háló együttes (osztályozás/regresszió) motivációk heurisztikus különböző szakértők kiegészítő tudás matematikai pontos és különböző 2011 Horváth Gábor
Hálóegyüttes Matematikai igazolás Az eredő kimenet Különbözőség Egyedi hiba Együttes (eredő) hiba Feltételek 2011 Horváth Gábor
Hálóegyüttes Matematikai igazolás Súlyozott hiba Súlyozott különbözőség Eredő hiba Várhatóérték képzés Megoldás: pontos és különböző hálók együttese 2011 Horváth Gábor
Hálóegyüttes Hogyan kaphatunk pontos és különböző hálókat eltérő struktúrák: pl. MLP, RBF, CCN, stb. eltérő méret, eltérő komplexitás (rejtett rétegek száma, eltérő számú rejtett neuron, különböző nemlineáris függvények, stb.) eltérő tanulási stratégia: batch tanítás, szekvenciális tanítás eltérő tanítási algoritmus (BP, CG, véletlen keresés,stb.), mintasorrend, eltérő tanító készlet különböző tanítási paraméterek különböző kezdeti értékek eltérő leállási feltételek 2011 Horváth Gábor
Hálók lineáris kombinációja Rögzített együtthatók NNM NN1 NN2 α1 α2 αM Σ y1 y2 yM x α 0 y0=1 2011 Horváth Gábor
Hálók lineáris kombinációja Optimális együtthatók számítása egyszerű átlag , bemenettől függően egy háló feltétel optimális értékek feltételek nélkül Wiener-Hopf egyenlet 2011 Horváth Gábor
Szakértő együttes Mixture of Experts (MOE) Kapuzó hálózat μ1 μ g1 g2 x gM Σ M 2. szakértő M. szakértő 2011 Horváth Gábor
Mixture of Experts (MOE) Eredő kimenet: az egyes kimenetek súlyozott összege az i-edik szakértő paramétere Kapuzó háló kimenete: “softmax” függvény a kapuzó háló i-edik paramétere 2011 Horváth Gábor
Mixture of Experts (MOE) Valószínűségi interpretáció a valószínűségi model a valódi paraméterekkel a priori valószínűség 2011 Horváth Gábor
Mixture of Experts (MOE) Tanítás Tanító adatok A kimenet előállításának valószínűsége adott bement mellett A log likelihood függvény (maximum likelihood becslés) 2011 Horváth Gábor
Mixture of Experts (MOE) Tanítás Gradiens eljárás A szakértő paramétervektora A kapuzó hálózat paramétervektora and 2011 Horváth Gábor
Mixture of Experts (MOE) Tanítás A priori valószínűség A posteriori valószínűség 2011 Horváth Gábor
Mixture of Experts (MOE) Tanítás EM (Expectation Maximization) algoritmus Általános iteratív eljárás a maximum likelihood becslési feladat megoldására Rejtett változók bevezetése log likelihood függvény definiálása Két lépés: A rejtett változó szerinti várható érték képzés A log likelihood függvény maximumának keresése 2011 Horváth Gábor
EM (Expectation Maximization) Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése f (y|µ1) f (y|2) Megfigyelés 2011 Horváth Gábor
EM algoritmus Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése Az egyes megfigyelésekhez rendelt rejtett változók, (x(l), z(l)1, z(l)2) likelihood függvény Log likelihood függvény Adott a rejtett változók várható értéke 2011 Horváth Gábor
Mixture of Experts (MOE) Egyszerű példa: k (2) Gauss eloszlás várható értékének becslése A log likelihood függvény várható értéke ahol A várható értékek becslői 2011 Horváth Gábor
Feladat dekompozíció A dekompozíció és a taniulás viszonya tanulás előtti dekompozíció (részfeladatokra bontás) dekompozíció a tanulás során (automatikus feladat dekompozíció) Probléma tér dekompozíciója bemeneti tér (bemenet klaszterezés, bemeneti tartományok definiálása) kimeneti tér (kívánt válasz) 2011 Horváth Gábor
Feladat dekompozíció Részfeladatokra bontás K-osztályos osztályozás K két-osztályos feladatra bontás (durva dekompozíció) Komplex két-osztályos feladat egyszerűbb két-osztályos feladatokra bontás (finomabb dekompozíció) Integrálás (modul kombináció) 2011 Horváth Gábor
Feladat dekompozíció Példa: egy 3-osztályos feladat 2011 Horváth Gábor
Feladat dekompozíció 3 osztály 2 osztály 2 osztály 2011 Horváth Gábor
Feladat dekompozíció 3 osztály 2 classes 2 osztály 2 osztály 2011 Horváth Gábor
Feladat dekompozíció 3 osztály 2 osztály 2 osztály 2011 Horváth Gábor
Feladat dekompozíció M12 M13 M23 MIN C1 C2 C3 INV = Bemenet 2011 Horváth Gábor
Feladat dekompozíció Kétosztályos feladat felbontása részfeladatokra 2011 Horváth Gábor
Feladat dekompozíció M21 M22 M11 M12 AND AND OR 2011 Horváth Gábor
Feladat dekompozíció M11 MIN M12 C1 MAX Bemenet M21 M22 2011 Horváth Gábor
Feladat dekompozíció Tanító készlet dekompozíciója: Eredeti tanító készlet A (K) kétosztályos feladat tanítópontjai A kétosztályos feladat felosztása K-1 egyszerűbb kétosztályos feladatra [(K-1)/2] 2011 Horváth Gábor
Feladat dekompozíció Egy gyakorlati példa: irányítószám felismerés input number 16 x 16 Normalizálás Éldetektálás horizontális diagonális \ diagonális / vertikális Kirsch maszkok 4 16 x 16 Jellemző 4 8 x 8 mátrix bemenet 2011 Horváth Gábor
Feladat dekompozíció irányítószám felismerés(kézírásos karakter felismerés) moduláris megoldás 45 (K*K-1)/2 neuron 10 AND kapu (MIN operátor) 256+1 bemenet 2011 Horváth Gábor
SVM-ek keveréke A hiperparaméter választás SVM-nél Különböző SVM-ek eltérő hiperparaméterekkel különböző szigma A bemeneti tér szoft felbontása 2011 Horváth Gábor
Egyéb moduláris architektúrák 2011 Horváth Gábor
Hibrid hálók 2011 Horváth Gábor
Hibrid hálók Magyarázat alapú és megfigyelési mintákon alapuló rendszerek Domain ismeret és mintákban meglévő ismeret együttes felhasználása A két rendszer előnyeinek egyesítése Magyarázat generálás Létező hibrid architektúrák EBNN, KBANN 2011 Horváth Gábor
Domain ismeret Előny: Hátrány: kevés adat szükséges, elmélet mellett néha egyetlenegy példa is elég, Hátrány: teljes és korrekt domain elméletet tételez fel, nem 'tudás szinten' tanul (lényegében csak átfogalmaz, a kiinduló elmélet hibáit nem képes kijavítani), a domain elméletek 'törékenyek' lehetnek, nem jellemző a 'fokozatos romlás‘, a domain elmélet határán a rendszer teljesítő képessége hirtelen romlik, a domain elmélet túl bonyolult lehet gyakorlati célokra (idő/memória korlátok), a domain elméletet valakinek meg kell fogalmazni. 2011 Horváth Gábor
Mintákban lévő ismeret Előnyök ld. neuronhálókról szóló rész Hátrányok álkorrelációk a példákban (pl. Japánban mindenki fekete hajú minden ember fekete hajú), a kivételes eseteket nem, vagy nem kellő mértékben reprezentálják a minták, az osztályozás szempontjából lényeges vonások környezet-függőek akármelyik objektum elvileg végtelen sok különféle attribútummal írható le, a lényegi vonások kiszűréséhez tudás kell, lényegtelen vonások a példák leírásában negatívan befolyásolhatják az osztályozást, tanulás egyszerűbb, ha kezdeti primitív tulajdonságokból bonyolultabb, összetettebb tulajdonságokat képezhetünk. 2011 Horváth Gábor
Tanulás mintákból További hátrányok lassú tanulás a háló kezdeti paramétereinek megválasztása nagyban befolyásolhatja a tanult koncepciókat, háló topológia megválasztásának nehézségei, tanulás után egy háló nem más, mint egy 'fekete doboz‘ nincs magyarázat. 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN A KBANN architektúra 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Lépések Kiinduló szabályok (Horn klóz) átírása Kezdeti háló struktúra meghatározása Kezdeti súlyok megállapítása Háló bővítése neuronokkal és összeköttetésekkel Tanítás mintákkal (kereszt entrópia alapján) Szabályok kinyerése a megtanított hálóból (Subset, NofM) 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Szabályok átírása Kiinduló szabályok Átírt szabályok Á t í r á s 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Szabályok és a háló megfeleltetése Tudásbázis Neurális háló Kapcsolatok: vastag vonalak Háló összeköttetések (súlyok) vastag vonalak 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Egy egyszerű példa 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Szabályok hálóvá (neuronná) konvertálása konjunktív szabály diszjunktív szabály 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Rátanítás mintákkal Kritériumfüggvény: keresztetrópia A gardiens meghatározása vagyis ahol 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Szabályok kinyerése: Subset eljárás 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Szabályok kinyerése NofM 2011 Horváth Gábor
Tudásalapú neuronhálók KBANN Módosított változatok TopGen Újabb szabályok beépítésére alkalmas hálókiterjesztés ReGent Genetikus algoritmusok alkalmazásával finomított KBANN A genetikus operátorok a szabályokra működnek Új szabályok létrehozása FsKBANN Végesállapotó rendszerek, rekurzív hálók 2011 Horváth Gábor
Irodalom 2011 Horváth Gábor C. M. Bishop: "Neural Networks for Pattern Recognition", Clarendon Press, Oxford, 1995. C. J. C. Burges: "A Tutorial on Support Vector Machines for Pattern Recognition" Knowledge Discovery and Data Mining, 1998. pp. 121-167. V. Cherkassky and F. Mulier: “ Learning from Data” John Wiley & Sons, N.Y. 1998. J. Van Gorp, J. Schoukens and R. Pintelon: "Learning neural networks with noisy inputs using the errors-in-variables approach" IEEE Trans. on Neural Networks, Vol. 11. No. 2 pp. 402-414. 2000. S. Haykin: "Neural Networks, A Comprehensive Foundation" Prentice Hall, New Jersey, 1999. He, X., Asada, H: A New Method for Identifying Orders of Input-Output Models for Nonlinear Dynamic Systems, Proc. of the American Control Conference, 1993. San Francisco, CA. USA. pp. 2520-2523. J. Hertz - A. Krogh and R. G. Palmer:”Introduction to the Theory of Neural Computations” Addison-Wesley Publishing Co. 1991. G. Horváth (ed.): "Neurális hálózatok és műszaki alkalmazásaik", Műegyetemi Kiadó, Budapest, 1998. Noboru Murata, Shuji Yoshizawa and Shun-Ichi Amari “Network Information Criterion - Determining the Number of Hidden Units for an Artificial neural network Model” IEEE Trans. on Neural Networks, Vol. 5. No. 6. pp. 865-871 J. Rissanen: Modeling by Shortest Data Description, Automatica, Vol. 14. pp. 465-471., 1978 J. Smola, B. Schölkopf: "A Tutorial on Support Vector Regression" NeuroCOLT2 Technical Report Series, NC2-TR-1998-030. http://www.neurocolt.com J. Smola, B. Schölkopf: „Learning with KernelsÁ MIT Press, 2002 Mohamad H. Hassoun: “Fundamentals of Artificial Neural Networks” The MIT Press, 1995 webcim: http://neuron.eng.wayne.edu/tarek/MITbook/t_contents.html J.A.K. Suykens: “Nonlinear Modelling and Support Vector Machines” Proc. of the IEEE Instrumentation and Measurement Technology Conference, Budapest, 2001, Vol. I. pp. 287-294 V. Vapnik: "The Nature of Statistical Learning Theory" Springer, N.Y. 1995. G.G. Towell és J. W. Shavlik: „Kowledge-Based Artificial Neurla Networks” Artificial Intelligence, Vol. 70. 1995. 2011 Horváth Gábor