Gépi tanulási módszerek

Lineáris gépek márc. 20.

Gépi tanulási módszerek
eddig Bayes döntéselmélet Parméteres osztályozók Nem paraméteres osztályozók Fogalom tanulás Döntési fák

Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül

Normális eloszláshoz tartozó döntési felület (i =  esete)

A döntési fa döntési felületei

Lineáris diszkriminancia függvények és döntési felületek
két-kategóriás osztályozó: Válasszuk 1–et, ha g(x) > 0, 2–t, ha g(x) < 0  Válasszuk 1 –et, ha wtx > -w0 és 2 –t különben Ha g(x) = 0  bármelyik osztályhoz rendelhetjük x –et Lineáris diszkriminancia függvény: g(x) = wtx + w0 w súlyvektor w0 konstans (eltolás, bias)

Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík
A g(x) = 0 definiálja azt a döntési felületet, amely elválasztja azokat a pontokat, amelyekhez 1-et rendelünk, azoktól, amelyekhez 2-t Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík Gyakran fontos, hogy az x távolságát a hipersíktól meghatározzuk

H távolsága az origótól:
A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans

Ha több, mint 2 osztályunk van
c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a i osztályhoz rendeljük, ha gi(x) > gj(x)  j  i; ha a legnagyobb értéknél egyenlőség van, határozatlan

Ha több, mint 2 osztályunk van
Ri döntési tartomány: az a térrész ahol gi(x) értéke a legnagyobb A folytonos Ri és Rj döntési tartományokat a Hij hipersík egy része választja el a hipersík definíciója: gi(x) = gj(x) (wi – wj)tx + (wi0 – wj0) = 0 wi – wj merőleges (normál vektor) Hij -re és

Konvexitás Ez rontja az osztályozó flexibilitását és pontosságát…
Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja

Homogén koordináták

Lineáris gépek tanulása
14 Lineáris gépek tanulása

Lineáris gépek tanulása
15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg Pl. tanulási hiba

Két osztály, lineárisan elválasztható eset
16 Normalizáció: ha yi ω2-beli, helyettesítsük yi-t -yi -al Olyan a-t keresünk, hogy atyi>0 (normalizált változat Nem egyértelmű a megoldás!

Iteratív optimalizálás
17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k+1) Keresési irány Tanulási arány a(k)

18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”

19 Gradiens módszer

Tanulási arány? 20

Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása

Newton módszer Hogyan válasszuk a h(k) tanulási arányt? 22
Taylor sorba fejtés Hess mátrix

Gradiens és Newton összehasonlítása
23 Gradiens és Newton összehasonlítása

24 Perceptron szabály

Perceptron szabály Kritérium Függvény:
25 Perceptron szabály Y(a): a által rosszul osztályzott minták halmaza. Ha Y(a) üres, Jp(a)=0; különben, Jp(a)>0 Kritérium Függvény:

Perceptron szabály A Jp(a) gradiense:
26 Perceptron szabály A Jp(a) gradiense: A perceptron szabály gradiens módszerbeli alkalmazásával kapható:

27 Perceptron szabály Az összes rosszul osztályzott minta Online osztályozó: tanító példák hozzáadásával frissül a modell

Perceptron szabály η(k)=1
28 Perceptron szabály η(k)=1 egyesével vegyük a példákat Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad.

29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2 a2 a1 a1

Nem-szeparálható eset
30 Nem-szeparálható eset Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz „jósági” mérték lehet például a döntési felülettől mért előjeles távolság

32 Melyik megoldás jobb?

Ezek a legnehezebben osztályozható minták.
33 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.

SVM (support vector machine)
35 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép A kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal

lineárisan elválasztható eset
SVM lineárisan elválasztható eset

Lineáris SVM: az elválasztható eset
37 Lineáris diszkriminancia Osztálycímkék Normalizált változat: válasszuk ω1 ha g(x) > 0 egyébként ω2

38 Lineáris SVM: az elválasztható eset Tfh a margó mérete b Az xk pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: b||w||=1 Így az előző feltétel:

39 Lineáris SVM: az elválasztható eset A szegély maximalizálása:

40 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: minimalizálás w-ben, max λ-ban Könnyebb a duális probléma megoldása: zkzj=-1 ha különböző előjelűek a k. és j. tanítópéldák

41 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: Megmutatható, hogy ha xk nem támasztóvektor, akkor λk=0. A döntési felület a tanító példák „súlyozott átlaga” csak a támasztóvektorok járulnak a megoldáshoz!!

lineárisan nem elválasztható eset
SVM lineárisan nem elválasztható eset

Lineáris SVM: a nem-elválasztható eset
43 Lineáris SVM: a nem-elválasztható eset A ψk hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”): ψk=0 ha g(xk)=zk (azaz b margón kívül van), egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét

Lineáris SVM: a nem-elválasztható eset
45 Lineáris SVM: a nem-elválasztható eset

SVM nem lineáris eset

Általánosított lineáris diszkriminancia függvények
Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az yi: Rd → R tetszőleges függvények x-ben nem lineáris, de yi-ben g(y) igen (az y-térben g(x) hipersík)

Példa

Kvadratikus felület A használt kvadratikus függvények a következő kvadratikus felülettel írhatók le: g(x) = xTAx + xTb +c ahol az A = (aij) mátrix, a b = (b1, b2, …, bd)T vektor, c konstans

Kvadratikus felület Ha A pozitív definit (xTAx>0 minden nemzéró x-re), akkor a döntési függvény hiperellipszoid, amelynek tengelyei az A sajátvektorainak irányába mutatnak (ha A = In (egységmátrix), akkor a döntési függvény az n-dimenziós hipergömb) Ha A negatív definit (xTAx<0 minden nemzéró x-re), akkor a döntési függvény hiperhiperboloid Lényeg: ebben az esetben az A mátrix határozza meg a döntési függvény alakját és jellemzőit

53 Nemlineáris SVM

54 Nemlineáris SVM Φ legyen (jóval) magasabb dimenzószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben!

Nemlineáris SVM Lineáris SVM a leképzett térben: lineáris gép:
55 Nemlineáris SVM lineáris gép: lineáris SVM-nél: Lineáris SVM a leképzett térben:

56 A magfüggvény trükkje A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei Nem kell ismerni Φ()-t !! A diszkriminancia a következő alakú:

Példa: polinomiális kernel
57 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h= (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…

Egy kernel több leképezésnek is megfelel
58 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:

Megfelelő magfüggvények
59 Megfelelő magfüggvények K-nek eleget kell tenni a „Mercer” feltételeknek A projektált tér nem egyértelmű és nem ad támpontot magfgv tervezéshez…

60 Példa: XOR

61 Példa: XOR

62 Példa:XOR

63 Példa: XOR

Megjegyzések az SVM-hez
64 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysáka a magfüggvény és paramétereinek választásától függ Egy adott problémához a legjobb magfüggvény választása „művészet”

Megjegyzések az SVM-hez
65 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: one-vs-all (legnagyobb g()) one-vs-one (legtöbb győzelem) direkt optimalizáció

Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM
Szeparálható eset Nem szeparálható eset Nem lineáris eset (magfüggvény)

Gépi tanulási módszerek

Hasonló előadás

Az előadások a következő témára: "Gépi tanulási módszerek"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Gépi tanulási módszerek

Hasonló előadás

Az előadások a következő témára: "Gépi tanulási módszerek"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés