Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Lineáris gépek 2014. márc. 20.. Gépi tanulási módszerek eddig Bayes döntéselmélet –Parméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás.

Hasonló előadás


Az előadások a következő témára: "Lineáris gépek 2014. márc. 20.. Gépi tanulási módszerek eddig Bayes döntéselmélet –Parméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás."— Előadás másolata:

1 Lineáris gépek márc. 20.

2 Gépi tanulási módszerek eddig Bayes döntéselmélet –Parméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás –Döntési fák

3 2 Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül

4 Normális eloszláshoz tartozó döntési felület (  i =  esete)

5 A döntési fa döntési felületei

6 5 Lineáris diszkriminancia függvények és döntési felületek két-kategóriás osztályozó: Válasszuk  1 –et, ha g(x) > 0,  2 –t, ha g(x) < 0  Válasszuk  1 –et, ha w t x > -w 0 és  2 –t különben Ha g(x) = 0  bármelyik osztályhoz rendelhetjük x –et Lineáris diszkriminancia függvény: g(x) = w t x + w 0 w súlyvektor w 0 konstans (eltolás, bias)

7 6 –A g(x) = 0 definiálja azt a d öntési felületet, amely elválasztja azokat a pontokat, amelyekhez  1 -et rendelünk, azoktól, amelyekhez  2 -t –Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík Gyakran fontos, hogy az x távolságát a hipersíktól meghatározzuk

8 7

9 8 H távolsága az origótól: A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans

10 9 c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a  i osztályhoz rendeljük, ha g i (x) > g j (x)  j  i; ha a legnagyobb értéknél egyenlőség van, határozatlan Ha több, mint 2 osztályunk van

11 10

12 R i döntési tartomány: az a térrész ahol g i (x) értéke a legnagyobb A folytonos R i és R j döntési tartományokat a H ij hipersík egy része választja el a hipersík definíciója: g i (x) = g j (x)  (w i – w j ) t x + (w i0 – w j0 ) = 0 w i – w j merőleges (normál vektor) H ij -re és Ha több, mint 2 osztályunk van

13 12 Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja Konvexitás

14 Homogén koordináták

15 14 Lineáris gépek tanulása

16 15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg –Pl. tanulási hiba

17 16 Két osztály, lineárisan elválasztható eset (normalizált változat Normalizáció: ha y i ω 2 -beli, helyettesítsük y i -t -y i -al Olyan a-t keresünk, hogy a t y i >0 Nem egyértelmű a megoldás!

18 17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k) a(k+1) Keresési irány Tanulási arány

19 18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”

20 19 Gradiens módszer

21 20 Tanulási arány?

22 Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása

23 22 Newton módszer Hogyan válasszuk a  (k) tanulási arányt? Taylor sorba fejtés Hess mátrix

24 23 Gradiens és Newton összehasonlítása

25 24 Perceptron szabály

26 25 Perceptron szabály Y(a): a által rosszul osztályzott minták halmaza. Ha Y(a) üres, J p (a)=0; különben, J p (a)>0 Kritérium Függvény:

27 26 Perceptron szabály –A J p (a) gradiense: –A perceptron szabály gradiens módszerbeli alkalmazásával kapható:

28 27 Perceptron szabály Az összes rosszul osztályzott minta Online osztályozó: tanító példák hozzáadásával frissül a modell

29 28 Perceptron szabály Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad. η(k)=1 egyesével vegyük a példákat

30 29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2a2a2a2 a2a2a2a2 a1a1a1a1 a1a1a1a1

31 30 Nem-szeparálható eset –Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz –„jósági” mérték lehet például a döntési felülettől mért előjeles távolság

32 SVM

33 32 Melyik megoldás jobb?

34 33 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.

35 34

36 35 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép A kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal

37 SVM lineárisan elválasztható eset

38 37 Lineáris SVM: az elválasztható eset Lineáris diszkriminancia Osztálycímkék Normalizált változat: válasszuk ω 1 ha g(x) > 0 egyébként ω 2 válasszuk ω 1 ha g(x) > 0 egyébként ω 2

39 38 Lineáris SVM: az elválasztható eset Tfh a margó mérete b Az x k pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: b||w||=1 Így az előző feltétel:

40 39 Lineáris SVM: az elválasztható eset A szegély maximalizálása:

41 40 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: minimalizálás w-ben, max λ-ban Könnyebb a duális probléma megoldása: z k z j =-1 ha különböző előjelűek a k. és j. tanítópéldák

42 41 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: Megmutatható, hogy ha x k nem támasztóvektor, akkor λ k =0. csak a támasztóvektorok csak a támasztóvektorok járulnak a megoldáshoz!! A döntési felület a tanító példák „súlyozott átlaga”

43 SVM lineárisan nem elválasztható eset

44 43 Lineáris SVM: a nem- elválasztható eset A ψ k hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”) : ψ k =0 ha g(x k )=z k (azaz b margón kívül van), egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét

45

46 45 Lineáris SVM: a nem- elválasztható eset

47 SVM nem lineáris eset

48 47 Általánosított lineáris diszkriminancia függvények Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az y i : R d → R tetszőleges függvények x-ben nem lineáris, de y i -ben g(y) igen (az y-térben g(x) hipersík)

49 Példa

50

51

52 51 A használt kvadratikus függvények a következő kvadratikus felülettel írhatók le: g(x) = x T Ax + x T b +c ahol az A = (a ij ) mátrix, a b = (b 1, b 2, …, b d ) T vektor, c konstans Kvadratikus felület

53 52 Ha A pozitív definit ( x T Ax>0 minden nemzéró x-re ), akkor a döntési függvény hiperellipszoid, amelynek tengelyei az A sajátvektorainak irányába mutatnak (ha A = I n (egységmátrix), akkor a döntési függvény az n- dimenziós hipergömb) Ha A negatív definit ( x T Ax<0 minden nemzéró x-re ), akkor a döntési függvény hiperhiperboloid Lényeg: ebben az esetben az A mátrix határozza meg a döntési függvény alakját és jellemzőit Kvadratikus felület

54 53 Nemlineáris SVM

55 Φ legyen (jóval) magasabb dimenzószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben! 54 Nemlineáris SVM

56 55 Nemlineáris SVM Lineáris SVM a leképzett térben: lineáris gép: lineáris SVM-nél:

57 56 A magfüggvény trükkje A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei –Nem kell ismerni Φ()-t !! –A diszkriminancia a következő alakú:

58 57 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h= (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…

59 58 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:

60 59 Megfelelő magfüggvények K-nek eleget kell tenni a „Mercer” feltételeknek A projektált tér nem egyértelmű és nem ad támpontot magfgv tervezéshez…

61 60 Példa: XOR

62 61 Példa: XOR

63 62 Példa:XOR

64 63 Példa: XOR

65 64 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysáka a magfüggvény és paramétereinek választásától függ Egy adott problémához a legjobb magfüggvény választása „művészet”

66 65 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: –one-vs-all (legnagyobb g()) –one-vs-one (legtöbb győzelem) –direkt optimalizáció

67 Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM –Szeparálható eset –Nem szeparálható eset –Nem lineáris eset (magfüggvény)


Letölteni ppt "Lineáris gépek 2014. márc. 20.. Gépi tanulási módszerek eddig Bayes döntéselmélet –Parméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás."

Hasonló előadás


Google Hirdetések