Gépi tanulási módszerek

Lineáris gépek márc. 5.

Gépi tanulási módszerek
eddig Bayes döntéselmélet Paraméteres osztályozók Nem paraméteres osztályozók Fogalom tanulás Döntési fák

Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül

Normális eloszláshoz tartozó döntési felület (i =  esete)

A döntési fa döntési felületei

Lineáris diszkriminancia függvények és döntési felületek
két-kategóriás osztályozó: Válasszuk 1–et, ha g(x) > 0, 2–t, ha g(x) < 0  Válasszuk 1 –et, ha wtx > -w0 és 2 –t különben Ha g(x) = 0  bármelyik osztályhoz rendelhetjük x –et Lineáris gép = lineáris diszkriminancia függvény: g(x) = wtx + w0 w súlyvektor w0 konstans (eltolás, bias)

A g(x) = 0 definiálja azt a döntési felületet, amely elválasztja azokat a pontokat, amelyekhez 1-et rendelünk, azoktól, amelyekhez 2-t Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík

döntési felület távolsága az origótól:
A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans

Ha több, mint 2 osztályunk van
c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a i osztályhoz rendeljük, ha gi(x) > gj(x)  j  i; ha a legnagyobb értéknél egyenlőség van, határozatlan

Ha több, mint 2 osztályunk van
Ri döntési tartomány: az a térrész ahol gi(x) értéke a legnagyobb A folytonos Ri és Rj döntési tartományokat a Hij hipersík egy része választja el a hipersík definíciója: gi(x) = gj(x) (wi – wj)tx + (wi0 – wj0) = 0 wi – wj merőleges (normál vektor) Hij -re és

Konvexitás Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja

Homogén koordináták

Lineáris gépek tanulása
14 Lineáris gépek tanulása

Lineáris gépek tanulása
15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg Pl. tanulási hiba

Két osztály, lineárisan elválasztható eset
16 Normalizáció: ha yi ω2-beli, helyettesítsük yi-t -yi -al Olyan a-t keresünk, hogy atyi>0 (normalizált változat) Nem egyértelmű a megoldás!

Iteratív optimalizálás
17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k+1) Keresési irány Tanulási arány a(k)

18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”

19 Gradiens módszer

Tanulási arány? 20

Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása

Newton módszer Hogyan válasszuk a h(k) tanulási arányt?
22 Newton módszer Hogyan válasszuk a h(k) tanulási arányt? J(a) minimális ha Hess mátrix

Gradiens és Newton összehasonlítása
23 Gradiens és Newton összehasonlítása

24 Perceptron szabály

Perceptron szabály Kritérium Függvény:
25 Perceptron szabály Y(a): a által rosszul osztályozott minták halmaza. Ha Y(a) üres, Jp(a)=0; különben, Jp(a)>0 Kritérium Függvény:

Perceptron szabály A Jp(a) gradiense:
26 Perceptron szabály A Jp(a) gradiense: A perceptron szabály gradiens módszerbeli alkalmazásával kapható:

27 Perceptron szabály Az összes rosszul osztályozott minta a(k) szerint Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad.

Perceptron szabály Sztochasztikus gradiens módszer:
28 Perceptron szabály η(k)=1 egyesével vegyük a példákat Sztochasztikus gradiens módszer: gradienst – nem a teljes adatbázison – csak kis részminták sorozatán számolunk, modell gyakran frissül

29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2 a2 a1 a1

Online vs offline tanuló algoritmus
Online tanuló algoritmus: tanító példák hozzáadásával frissül a modell Offline (kötegelt) tanuló algoritmus: tanító adatbázis egészét egyben dolgozza fel a tanuló Online előnye: - nem kell az egész adatbázist tárolni implicit adaptáció Online hátránya: - pontatlanabb tud lenni

Nem-szeparálható eset
31 Nem-szeparálható eset Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz „jósági” mérték lehet például a döntési felülettől mért előjeles távolság

33 Melyik megoldás jobb?

Ezek a legnehezebben osztályozható minták.
34 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.

SVM (support vector machine)
36 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép Az SVM olyan lineáris gép ahol a kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal

lineárisan elválasztható eset
SVM lineárisan elválasztható eset

Lineáris SVM: az elválasztható eset
38 Tanító adatbázis: Keressük w-t, hogy Normalizált változat:

39 Lineáris SVM: az elválasztható eset Tfh a margó mérete ρ Az xk pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: ρ maximalizálása = minimalizálása

40 Lineáris SVM: az elválasztható eset A szegély maximalizálása:

41 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: (konvex kvadratikus optimalizálási feladat)

42 Lineáris SVM: az elválasztható eset Duális feladat (könnyebb megoldani): feltéve

43 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: bármely t-ből Megmutatható, hogy akkor és csak akkor ha xt támasztóvektor A döntési felület a tanító példák „súlyozott átlaga” csak a támasztóvektorok járulnak hozzá a megoldáshoz!!

lineárisan nem elválasztható eset
SVM lineárisan nem elválasztható eset

Lineáris SVM: a nem-elválasztható eset
46 Lineáris SVM: a nem-elválasztható eset A ξ hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”): ξt=0 ha helyes az osztályozás, egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét

Lineáris SVM: a nem-elválasztható eset
48 Lineáris SVM: a nem-elválasztható eset Lagrange paraméterekkel:

SVM nem lineáris eset

Általánosított lineáris diszkriminancia függvények
Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az yi: Rd → R tetszőleges függvények x-ben nem lineáris, de yi-ben g(y) igen (az y-térben g(x) hipersík)

Példa

54 Nemlineáris SVM

55 Nemlineáris SVM Φ legyen (jóval) magasabb k dimenziószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben!

56 Nemlineáris SVM Lineáris SVM a leképzett térben:

57 A kernel trükk A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei Nem kell ismerni Φ()-t !! A diszkriminancia a következő alakú: g(x)=

Példa: polinomiális kernel
58 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h= (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…

Egy kernel több leképezésnek is megfelel
59 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:

Kernelek a gyakorlatban
60 Kernelek a gyakorlatban A projektált tér nem egyértelmű és nem ad támpontot kernel tervezéshez…

61 Példa: XOR

62 Példa: XOR

63 Példa:XOR

64 Példa: XOR

Megjegyzések az SVM-hez
65 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysága a kernel és paramétereinek választásától függ Egy adott problémához a legjobb kernel választása „művészet”

Megjegyzések az SVM-hez
66 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: one-vs-all (legnagyobb g()) one-vs-one (legtöbb győzelem) direkt optimalizáció

Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM
Szeparálható eset Nem szeparálható eset Nem lineáris eset (magfüggvény)

Gépi tanulási módszerek

Hasonló előadás

Az előadások a következő témára: "Gépi tanulási módszerek"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Gépi tanulási módszerek

Hasonló előadás

Az előadások a következő témára: "Gépi tanulási módszerek"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés