Gépi tanulási módszerek

Slides:



Advertisements
Hasonló előadás

Advertisements

„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
Erőállóképesség mérése Találjanak teszteket az irodalomban
Humánkineziológia szak
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
6) 7) 8) 9) 10) Mennyi az x, y és z értéke? 11) 12) 13) 14) 15)
Műveletek logaritmussal
Koordináta transzformációk
Koordináta transzformációk
3. Folytonos wavelet transzformáció (CWT)
Illés Tibor – Hálózati folyamok
Utófeszített vasbeton lemez statikai számítása Részletes számítás
Euklidészi gyűrűk Definíció.
Csoport részcsoport invariáns faktorcsoport részcsoport
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Operációkutatás szeptember 18 –október 2.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
3(+1) osztályozó a Bayes világból
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Gépi tanulási módszerek febr. 20.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Műszaki ábrázolás alapjai
Védőgázas hegesztések
Lineáris programozás Modellalkotás Grafikus megoldás Feladattípusok
OPERÁCIÓKUTATÁS Kalmár János, 2011 Tartalom Több lineáris célfüggvényes LP Tiszta egészértékű LP.
OPERÁCIÓKUTATÁS Kalmár János, 2012 Tartalom A nulla-egy LP megoldása Hátizsák feladat.
Optimalizálási módszerek 2. Konvex halmazok
T.Gy. Beszedfelism es szint Beszédfelismerés és beszédszintézis Beszédjelek lineáris predikciója Takács György 4. előadás
Vámossy Zoltán 2004 (Mubarak Shah, Gonzales-Woods anyagai alapján)
A TERMÉSZETTUDOMÁNYOK ALAPJAI 1. Matematika
Valós számok Def. Egy algebrai struktúra rendezett test, ha test és rendezett integritási tartomány. Def. Egy (T; +,  ;  ) rendezett test felső határ.
6. SZÁMELMÉLET 6.1. Oszthatóság
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
Lineáris transzformáció sajátértékei és sajátvektorai
MATEMATIKA ÉS INFORMATIKA I.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
dr. Szalkai István Pannon Egyetem, Veszprém
Az Alakfelismerés és gépi tanulás ELEMEI
szakmérnök hallgatók számára
2. A KVANTUMMECHANIKA AXIÓMÁI 1. Erwin Schrödinger: Quantisierung als Eigenwertproblem (1926) 2.
Exponenciális egyenletek
Koordináta-geometria
Textúra elemzés szupport vektor géppel
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Lineáris programozás.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Adatbányászati módszerek a térinformatikában
Két kvantitatív változó kapcsolatának vizsgálata
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Lagrange-interpoláció
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
Határozatlan integrál
2. Koordináta-rendszerek és transzformációk
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Lineáris algebra.
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Készítette: Horváth Viktória
előadások, konzultációk
előadások, konzultációk
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
SVM, kernel módszerek Szabó Zoltán. Tartalomjegyzék Példák, szemlélet Definíciók: –margin, support vektor –pozitív definit, Gram-mtx, kernel –RKHS, feature.
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
Gépi tanulási módszerek
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Gépi tanulási módszerek febr. 18.
Szupportvektor-gépek A diák többsége innen származik: csd
A mesterséges neuronhálók alapjai
Előadás másolata:

Lineáris gépek 2014. márc. 20.

Gépi tanulási módszerek eddig Bayes döntéselmélet Parméteres osztályozók Nem paraméteres osztályozók Fogalom tanulás Döntési fák

Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül

Normális eloszláshoz tartozó döntési felület (i =  esete)

A döntési fa döntési felületei

Lineáris diszkriminancia függvények és döntési felületek két-kategóriás osztályozó: Válasszuk 1–et, ha g(x) > 0, 2–t, ha g(x) < 0  Válasszuk 1 –et, ha wtx > -w0 és 2 –t különben Ha g(x) = 0  bármelyik osztályhoz rendelhetjük x –et Lineáris diszkriminancia függvény: g(x) = wtx + w0 w súlyvektor w0 konstans (eltolás, bias)

Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík A g(x) = 0 definiálja azt a döntési felületet, amely elválasztja azokat a pontokat, amelyekhez 1-et rendelünk, azoktól, amelyekhez 2-t Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík Gyakran fontos, hogy az x távolságát a hipersíktól meghatározzuk

H távolsága az origótól: A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans

Ha több, mint 2 osztályunk van c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a i osztályhoz rendeljük, ha gi(x) > gj(x)  j  i; ha a legnagyobb értéknél egyenlőség van, határozatlan

Ha több, mint 2 osztályunk van Ri döntési tartomány: az a térrész ahol gi(x) értéke a legnagyobb A folytonos Ri és Rj döntési tartományokat a Hij hipersík egy része választja el a hipersík definíciója: gi(x) = gj(x) (wi – wj)tx + (wi0 – wj0) = 0 wi – wj merőleges (normál vektor) Hij -re és

Konvexitás Ez rontja az osztályozó flexibilitását és pontosságát… Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja

Homogén koordináták

Lineáris gépek tanulása 14 Lineáris gépek tanulása

Lineáris gépek tanulása 15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg Pl. tanulási hiba

Két osztály, lineárisan elválasztható eset 16 Normalizáció: ha yi ω2-beli, helyettesítsük yi-t -yi -al Olyan a-t keresünk, hogy atyi>0 (normalizált változat Nem egyértelmű a megoldás!

Iteratív optimalizálás 17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k+1) Keresési irány Tanulási arány a(k)

18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”

19 Gradiens módszer

Tanulási arány? 20

Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása

Newton módszer Hogyan válasszuk a h(k) tanulási arányt? 22 Taylor sorba fejtés Hess mátrix

Gradiens és Newton összehasonlítása 23 Gradiens és Newton összehasonlítása

24 Perceptron szabály

Perceptron szabály Kritérium Függvény: 25 Perceptron szabály Y(a): a által rosszul osztályzott minták halmaza. Ha Y(a) üres, Jp(a)=0; különben, Jp(a)>0 Kritérium Függvény:

Perceptron szabály A Jp(a) gradiense: 26 Perceptron szabály A Jp(a) gradiense: A perceptron szabály gradiens módszerbeli alkalmazásával kapható:

27 Perceptron szabály Az összes rosszul osztályzott minta Online osztályozó: tanító példák hozzáadásával frissül a modell

Perceptron szabály η(k)=1 28 Perceptron szabály η(k)=1 egyesével vegyük a példákat Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad.

29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2 a2 a1 a1

Nem-szeparálható eset 30 Nem-szeparálható eset Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz „jósági” mérték lehet például a döntési felülettől mért előjeles távolság

SVM

32 Melyik megoldás jobb?

Ezek a legnehezebben osztályozható minták. 33 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.

34

SVM (support vector machine) 35 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép A kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal

lineárisan elválasztható eset SVM lineárisan elválasztható eset

Lineáris SVM: az elválasztható eset 37 Lineáris diszkriminancia Osztálycímkék Normalizált változat: válasszuk ω1 ha g(x) > 0 egyébként ω2

Lineáris SVM: az elválasztható eset 38 Lineáris SVM: az elválasztható eset Tfh a margó mérete b Az xk pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: b||w||=1 Így az előző feltétel:

Lineáris SVM: az elválasztható eset 39 Lineáris SVM: az elválasztható eset A szegély maximalizálása:

Lineáris SVM: az elválasztható eset 40 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: minimalizálás w-ben, max λ-ban Könnyebb a duális probléma megoldása: zkzj=-1 ha különböző előjelűek a k. és j. tanítópéldák

Lineáris SVM: az elválasztható eset 41 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: Megmutatható, hogy ha xk nem támasztóvektor, akkor λk=0. A döntési felület a tanító példák „súlyozott átlaga” csak a támasztóvektorok járulnak a megoldáshoz!!

lineárisan nem elválasztható eset SVM lineárisan nem elválasztható eset

Lineáris SVM: a nem-elválasztható eset 43 Lineáris SVM: a nem-elválasztható eset A ψk hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”): ψk=0 ha g(xk)=zk (azaz b margón kívül van), egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét

Lineáris SVM: a nem-elválasztható eset 45 Lineáris SVM: a nem-elválasztható eset

SVM nem lineáris eset

Általánosított lineáris diszkriminancia függvények Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az yi: Rd → R tetszőleges függvények x-ben nem lineáris, de yi-ben g(y) igen (az y-térben g(x) hipersík)

Példa

Kvadratikus felület A használt kvadratikus függvények a következő kvadratikus felülettel írhatók le: g(x) = xTAx + xTb +c ahol az A = (aij) mátrix, a b = (b1, b2, …, bd)T vektor, c konstans

Kvadratikus felület Ha A pozitív definit (xTAx>0 minden nemzéró x-re), akkor a döntési függvény hiperellipszoid, amelynek tengelyei az A sajátvektorainak irányába mutatnak (ha A = In (egységmátrix), akkor a döntési függvény az n-dimenziós hipergömb) Ha A negatív definit (xTAx<0 minden nemzéró x-re), akkor a döntési függvény hiperhiperboloid Lényeg: ebben az esetben az A mátrix határozza meg a döntési függvény alakját és jellemzőit

53 Nemlineáris SVM

54 Nemlineáris SVM Φ legyen (jóval) magasabb dimenzószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben!

Nemlineáris SVM Lineáris SVM a leképzett térben: lineáris gép: 55 Nemlineáris SVM lineáris gép: lineáris SVM-nél: Lineáris SVM a leképzett térben:

56 A magfüggvény trükkje A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei Nem kell ismerni Φ()-t !! A diszkriminancia a következő alakú:

Példa: polinomiális kernel 57 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h=183 181 376 (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…

Egy kernel több leképezésnek is megfelel 58 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:

Megfelelő magfüggvények 59 Megfelelő magfüggvények K-nek eleget kell tenni a „Mercer” feltételeknek A projektált tér nem egyértelmű és nem ad támpontot magfgv tervezéshez…

60 Példa: XOR

61 Példa: XOR

62 Példa:XOR

63 Példa: XOR

Megjegyzések az SVM-hez 64 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysáka a magfüggvény és paramétereinek választásától függ Egy adott problémához a legjobb magfüggvény választása „művészet”

Megjegyzések az SVM-hez 65 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: one-vs-all (legnagyobb g()) one-vs-one (legtöbb győzelem) direkt optimalizáció

Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM Szeparálható eset Nem szeparálható eset Nem lineáris eset (magfüggvény)