Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Lineáris gépek márc. 5.. Gépi tanulási módszerek eddig Bayes döntéselmélet –Paraméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás –Döntési.

Hasonló előadás


Az előadások a következő témára: "Lineáris gépek márc. 5.. Gépi tanulási módszerek eddig Bayes döntéselmélet –Paraméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás –Döntési."— Előadás másolata:

1 Lineáris gépek márc. 5.

2 Gépi tanulási módszerek eddig Bayes döntéselmélet –Paraméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás –Döntési fák

3 2 Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül

4 Normális eloszláshoz tartozó döntési felület (  i =  esete)

5 A döntési fa döntési felületei

6 5 Lineáris diszkriminancia függvények és döntési felületek két-kategóriás osztályozó: Válasszuk  1 –et, ha g(x) > 0,  2 –t, ha g(x) < 0  Válasszuk  1 –et, ha w t x > -w 0 és  2 –t különben Ha g(x) = 0  bármelyik osztályhoz rendelhetjük x –et Lineáris gép = lineáris diszkriminancia függvény: g(x) = w t x + w 0 w súlyvektor w 0 konstans (eltolás, bias)

7 6 –A g(x) = 0 definiálja azt a d öntési felületet, amely elválasztja azokat a pontokat, amelyekhez  1 -et rendelünk, azoktól, amelyekhez  2 -t –Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík

8 7

9 8 döntési felület távolsága az origótól: A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans

10 9 c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a  i osztályhoz rendeljük, ha g i (x) > g j (x)  j  i; ha a legnagyobb értéknél egyenlőség van, határozatlan Ha több, mint 2 osztályunk van

11 10

12 R i döntési tartomány: az a térrész ahol g i (x) értéke a legnagyobb A folytonos R i és R j döntési tartományokat a H ij hipersík egy része választja el a hipersík definíciója: g i (x) = g j (x)  (w i – w j ) t x + (w i0 – w j0 ) = 0 w i – w j merőleges (normál vektor) H ij -re és Ha több, mint 2 osztályunk van

13 12 Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja Konvexitás

14 Homogén koordináták

15 14 Lineáris gépek tanulása

16 15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg –Pl. tanulási hiba

17 16 Két osztály, lineárisan elválasztható eset (normalizált változat) Normalizáció: ha y i ω 2 -beli, helyettesítsük y i -t -y i -al Olyan a-t keresünk, hogy a t y i >0 Nem egyértelmű a megoldás!

18 17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k) a(k+1) Keresési irány Tanulási arány

19 18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”

20 19 Gradiens módszer

21 20 Tanulási arány?

22 Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása

23 22 Newton módszer Hogyan válasszuk a  (k) tanulási arányt? J(a) minimális ha Hess mátrix

24 23 Gradiens és Newton összehasonlítása

25 24 Perceptron szabály

26 25 Perceptron szabály Y(a): a által rosszul osztályozott minták halmaza. Ha Y(a) üres, J p (a)=0; különben, J p (a)>0 Kritérium Függvény:

27 26 Perceptron szabály –A J p (a) gradiense: –A perceptron szabály gradiens módszerbeli alkalmazásával kapható:

28 27 Perceptron szabály Az összes rosszul osztályozott minta a(k) szerint Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad.

29 28 Perceptron szabály η(k)=1 egyesével vegyük a példákat Sztochasztikus gradiens módszer: gradienst – nem a teljes adatbázison – csak kis részminták sorozatán számolunk, modell gyakran frissül

30 29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2a2a2a2 a2a2a2a2 a1a1a1a1 a1a1a1a1

31 Online tanuló algoritmus: tanító példák hozzáadásával frissül a modell Offline (kötegelt) tanuló algoritmus: tanító adatbázis egészét egyben dolgozza fel a tanuló Online előnye: - nem kell az egész adatbázist tárolni -implicit adaptáció Online hátránya: - pontatlanabb tud lenni Online vs offline tanuló algoritmus

32 31 Nem-szeparálható eset –Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz –„jósági” mérték lehet például a döntési felülettől mért előjeles távolság

33 SVM

34 33 Melyik megoldás jobb?

35 34 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.

36 35

37 36 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép Az SVM olyan lineáris gép ahol a kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal

38 SVM lineárisan elválasztható eset

39 38 Lineáris SVM: az elválasztható eset Tanító adatbázis: Keressük w-t, hogy Normalizált változat:

40 39 Lineáris SVM: az elválasztható eset Tfh a margó mérete ρ Az x k pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: ρ maximalizálása = minimalizálása

41 40 Lineáris SVM: az elválasztható eset A szegély maximalizálása:

42 41 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: (konvex kvadratikus optimalizálási feladat)

43 42 Lineáris SVM: az elválasztható eset Duális feladat (könnyebb megoldani): feltéve

44 43 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: bármely t-ből Megmutatható, hogy akkor és csak akkor ha x t támasztóvektor csak a támasztóvektorok csak a támasztóvektorok járulnak hozzá a megoldáshoz!! A döntési felület a tanító példák „súlyozott átlaga”

45

46 SVM lineárisan nem elválasztható eset

47 46 Lineáris SVM: a nem- elválasztható eset A ξ hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”) : ξ t =0 ha helyes az osztályozás, egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét

48

49 48 Lineáris SVM: a nem- elválasztható eset Lagrange paraméterekkel:

50 SVM nem lineáris eset

51 50 Általánosított lineáris diszkriminancia függvények Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az y i : R d → R tetszőleges függvények x-ben nem lineáris, de y i -ben g(y) igen (az y-térben g(x) hipersík)

52 Példa

53

54

55 54 Nemlineáris SVM

56 Φ legyen (jóval) magasabb k dimenziószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben! 55 Nemlineáris SVM

57 56 Nemlineáris SVM Lineáris SVM a leképzett térben:

58 57 A kernel trükk A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei –Nem kell ismerni Φ()-t !! –A diszkriminancia a következő alakú: g(x)=

59 58 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h= (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…

60 59 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:

61 60 Kernelek a gyakorlatban A projektált tér nem egyértelmű és nem ad támpontot kernel tervezéshez…

62 61 Példa: XOR

63 62 Példa: XOR

64 63 Példa:XOR

65 64 Példa: XOR

66 65 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysága a kernel és paramétereinek választásától függ Egy adott problémához a legjobb kernel választása „művészet”

67 66 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: –one-vs-all (legnagyobb g()) –one-vs-one (legtöbb győzelem) –direkt optimalizáció

68 Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM –Szeparálható eset –Nem szeparálható eset –Nem lineáris eset (magfüggvény)


Letölteni ppt "Lineáris gépek márc. 5.. Gépi tanulási módszerek eddig Bayes döntéselmélet –Paraméteres osztályozók –Nem paraméteres osztályozók Fogalom tanulás –Döntési."

Hasonló előadás


Google Hirdetések