Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
0
Lineáris gépek márc. 20.
1
Gépi tanulási módszerek
eddig Bayes döntéselmélet Parméteres osztályozók Nem paraméteres osztályozók Fogalom tanulás Döntési fák
2
Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül
3
Normális eloszláshoz tartozó döntési felület (i = esete)
4
A döntési fa döntési felületei
5
Lineáris diszkriminancia függvények és döntési felületek
két-kategóriás osztályozó: Válasszuk 1–et, ha g(x) > 0, 2–t, ha g(x) < 0 Válasszuk 1 –et, ha wtx > -w0 és 2 –t különben Ha g(x) = 0 bármelyik osztályhoz rendelhetjük x –et Lineáris diszkriminancia függvény: g(x) = wtx + w0 w súlyvektor w0 konstans (eltolás, bias)
6
Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík
A g(x) = 0 definiálja azt a döntési felületet, amely elválasztja azokat a pontokat, amelyekhez 1-et rendelünk, azoktól, amelyekhez 2-t Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík Gyakran fontos, hogy az x távolságát a hipersíktól meghatározzuk
8
H távolsága az origótól:
A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans
9
Ha több, mint 2 osztályunk van
c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a i osztályhoz rendeljük, ha gi(x) > gj(x) j i; ha a legnagyobb értéknél egyenlőség van, határozatlan
11
Ha több, mint 2 osztályunk van
Ri döntési tartomány: az a térrész ahol gi(x) értéke a legnagyobb A folytonos Ri és Rj döntési tartományokat a Hij hipersík egy része választja el a hipersík definíciója: gi(x) = gj(x) (wi – wj)tx + (wi0 – wj0) = 0 wi – wj merőleges (normál vektor) Hij -re és
12
Konvexitás Ez rontja az osztályozó flexibilitását és pontosságát…
Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja
13
Homogén koordináták
14
Lineáris gépek tanulása
14 Lineáris gépek tanulása
15
Lineáris gépek tanulása
15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg Pl. tanulási hiba
16
Két osztály, lineárisan elválasztható eset
16 Normalizáció: ha yi ω2-beli, helyettesítsük yi-t -yi -al Olyan a-t keresünk, hogy atyi>0 (normalizált változat Nem egyértelmű a megoldás!
17
Iteratív optimalizálás
17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k+1) Keresési irány Tanulási arány a(k)
18
18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”
19
19 Gradiens módszer
20
Tanulási arány? 20
21
Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása
22
Newton módszer Hogyan válasszuk a h(k) tanulási arányt? 22
Taylor sorba fejtés Hess mátrix
23
Gradiens és Newton összehasonlítása
23 Gradiens és Newton összehasonlítása
24
24 Perceptron szabály
25
Perceptron szabály Kritérium Függvény:
25 Perceptron szabály Y(a): a által rosszul osztályzott minták halmaza. Ha Y(a) üres, Jp(a)=0; különben, Jp(a)>0 Kritérium Függvény:
26
Perceptron szabály A Jp(a) gradiense:
26 Perceptron szabály A Jp(a) gradiense: A perceptron szabály gradiens módszerbeli alkalmazásával kapható:
27
27 Perceptron szabály Az összes rosszul osztályzott minta Online osztályozó: tanító példák hozzáadásával frissül a modell
28
Perceptron szabály η(k)=1
28 Perceptron szabály η(k)=1 egyesével vegyük a példákat Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad.
29
29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2 a2 a1 a1
30
Nem-szeparálható eset
30 Nem-szeparálható eset Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz „jósági” mérték lehet például a döntési felülettől mért előjeles távolság
31
SVM
32
32 Melyik megoldás jobb?
33
Ezek a legnehezebben osztályozható minták.
33 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.
34
34
35
SVM (support vector machine)
35 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép A kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal
36
lineárisan elválasztható eset
SVM lineárisan elválasztható eset
37
Lineáris SVM: az elválasztható eset
37 Lineáris diszkriminancia Osztálycímkék Normalizált változat: válasszuk ω1 ha g(x) > 0 egyébként ω2
38
Lineáris SVM: az elválasztható eset
38 Lineáris SVM: az elválasztható eset Tfh a margó mérete b Az xk pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: b||w||=1 Így az előző feltétel:
39
Lineáris SVM: az elválasztható eset
39 Lineáris SVM: az elválasztható eset A szegély maximalizálása:
40
Lineáris SVM: az elválasztható eset
40 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: minimalizálás w-ben, max λ-ban Könnyebb a duális probléma megoldása: zkzj=-1 ha különböző előjelűek a k. és j. tanítópéldák
41
Lineáris SVM: az elválasztható eset
41 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: Megmutatható, hogy ha xk nem támasztóvektor, akkor λk=0. A döntési felület a tanító példák „súlyozott átlaga” csak a támasztóvektorok járulnak a megoldáshoz!!
42
lineárisan nem elválasztható eset
SVM lineárisan nem elválasztható eset
43
Lineáris SVM: a nem-elválasztható eset
43 Lineáris SVM: a nem-elválasztható eset A ψk hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”): ψk=0 ha g(xk)=zk (azaz b margón kívül van), egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét
45
Lineáris SVM: a nem-elválasztható eset
45 Lineáris SVM: a nem-elválasztható eset
46
SVM nem lineáris eset
47
Általánosított lineáris diszkriminancia függvények
Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az yi: Rd → R tetszőleges függvények x-ben nem lineáris, de yi-ben g(y) igen (az y-térben g(x) hipersík)
48
Példa
51
Kvadratikus felület A használt kvadratikus függvények a következő kvadratikus felülettel írhatók le: g(x) = xTAx + xTb +c ahol az A = (aij) mátrix, a b = (b1, b2, …, bd)T vektor, c konstans
52
Kvadratikus felület Ha A pozitív definit (xTAx>0 minden nemzéró x-re), akkor a döntési függvény hiperellipszoid, amelynek tengelyei az A sajátvektorainak irányába mutatnak (ha A = In (egységmátrix), akkor a döntési függvény az n-dimenziós hipergömb) Ha A negatív definit (xTAx<0 minden nemzéró x-re), akkor a döntési függvény hiperhiperboloid Lényeg: ebben az esetben az A mátrix határozza meg a döntési függvény alakját és jellemzőit
53
53 Nemlineáris SVM
54
54 Nemlineáris SVM Φ legyen (jóval) magasabb dimenzószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben!
55
Nemlineáris SVM Lineáris SVM a leképzett térben: lineáris gép:
55 Nemlineáris SVM lineáris gép: lineáris SVM-nél: Lineáris SVM a leképzett térben:
56
56 A magfüggvény trükkje A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei Nem kell ismerni Φ()-t !! A diszkriminancia a következő alakú:
57
Példa: polinomiális kernel
57 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h= (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…
58
Egy kernel több leképezésnek is megfelel
58 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:
59
Megfelelő magfüggvények
59 Megfelelő magfüggvények K-nek eleget kell tenni a „Mercer” feltételeknek A projektált tér nem egyértelmű és nem ad támpontot magfgv tervezéshez…
60
60 Példa: XOR
61
61 Példa: XOR
62
62 Példa:XOR
63
63 Példa: XOR
64
Megjegyzések az SVM-hez
64 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysáka a magfüggvény és paramétereinek választásától függ Egy adott problémához a legjobb magfüggvény választása „művészet”
65
Megjegyzések az SVM-hez
65 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: one-vs-all (legnagyobb g()) one-vs-one (legtöbb győzelem) direkt optimalizáció
66
Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM
Szeparálható eset Nem szeparálható eset Nem lineáris eset (magfüggvény)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.