Gépi tanulási módszerek

Slides:



Advertisements
Hasonló előadás
Lineáris regressziós MODELLEK
Advertisements

Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
Matematika és Tánc Felkészítő tanár: Komáromi Annamária
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Digitális képanalízis
Egy f  R[x] polinom cS -beli helyettesítési értéke
A lyukas dob hangjai Hagymási Imre Bolyai Kollégium fizikus szakszeminárium november 15.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Modern többosztályos tanulók: Döntési fa, Véletlen erdő, Előrecsatolt többrétegű neuronháló, Support Vector Machine (SVM), Kernel „trükk”.
Lineáris és nemlineáris regressziók, logisztikus regresszió
3(+1) osztályozó a Bayes világból
Gépi tanulási módszerek
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Gépi tanulási módszerek febr. 20.
Rangsorolás tanulása ápr. 24..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Transzformációk kucg.korea.ac.kr.
Lineáris programozás Modellalkotás Grafikus megoldás Feladattípusok
OPERÁCIÓKUTATÁS Kalmár János, 2011 Tartalom Több lineáris célfüggvényes LP Tiszta egészértékű LP.
OPERÁCIÓKUTATÁS Kalmár János, 2012 Tartalom A nulla-egy LP megoldása Hátizsák feladat.
Optimalizálási módszerek 2. Konvex halmazok
Matematikai modellek a termelés tervezésében és irányításában
A digitális számítás elmélete
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Matematika III. előadások MINB083, MILB083 Gépész és Villamosmérnök szak BSc képzés 2007/2008. őszi félév.
Matematika III. előadások MINB083, MILB083
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Játékelméleti alapfogalmak előadás
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Az Alakfelismerés és gépi tanulás ELEMEI
Textúra elemzés szupport vektor géppel
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Lineáris programozás.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Lokális optimalizáció Feladat: f(x) lokális minimumának meghatározása 0.Adott egy kezdeti pont: x 0 1.Jelöljünk ki egy új x i pontot, ahol (lehetőleg)
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
Hőeloszlás háromszögelt síkrészeken Május, 2002 Bálint Miklós Vilmos Zsombori
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Többváltozós adatelemzés
Analitikus geometria gyorstalpaló
Alapsokaság (populáció)
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Lineáris algebra.
Algoritmizálás, adatmodellezés tanítása 8. előadás.
előadások, konzultációk
Valószínűségszámítás II.
Megerősítéses tanulás 8. előadás
Operációkutatás eredete második világháború alatt alakult ki különböző szakmájú emberekből álló team: matematikus, fizikus, közgazdász, mérnök, vegyész,
előadások, konzultációk
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1. Egyetemi konzulens: dr. Dobrowiecki Tadeusz (BME MIT)
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
SVM, kernel módszerek Szabó Zoltán. Tartalomjegyzék Példák, szemlélet Definíciók: –margin, support vektor –pozitív definit, Gram-mtx, kernel –RKHS, feature.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Kontinuum modellek 1.  Bevezetés a kontinuum modellekbe  Numerikus számolás alapjai.
Gépi tanulási módszerek febr. 18.
Szupportvektor-gépek A diák többsége innen származik: csd
A mesterséges neuronhálók alapjai
Absztrakt problémák Q  I  S, az absztrakt probléma kétváltozós reláció az esetek (I) és a megoldások (S) halmazán Példa: legrövidebb út Eset: gráf és.
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Lineáris gépek márc. 5.

Gépi tanulási módszerek eddig Bayes döntéselmélet Paraméteres osztályozók Nem paraméteres osztályozók Fogalom tanulás Döntési fák

Döntési felületek Most a döntési függvények/felületek alakjára teszünk feltevéseket, abból indulunk ki Nem optimális megoldások, de könnyen kezelhető eljárások Lineáris osztályozókat (gépeket) adnak eredményül

Normális eloszláshoz tartozó döntési felület (i =  esete)

A döntési fa döntési felületei

Lineáris diszkriminancia függvények és döntési felületek két-kategóriás osztályozó: Válasszuk 1–et, ha g(x) > 0, 2–t, ha g(x) < 0  Válasszuk 1 –et, ha wtx > -w0 és 2 –t különben Ha g(x) = 0  bármelyik osztályhoz rendelhetjük x –et Lineáris gép = lineáris diszkriminancia függvény: g(x) = wtx + w0 w súlyvektor w0 konstans (eltolás, bias)

A g(x) = 0 definiálja azt a döntési felületet, amely elválasztja azokat a pontokat, amelyekhez 1-et rendelünk, azoktól, amelyekhez 2-t Ha g(x) lineáris függvény, akkor a döntési felület egy hipersík

döntési felület távolsága az origótól: A döntési felület irányát a w normál vektora határozza meg, míg a helyét a konstans

Ha több, mint 2 osztályunk van c darab lineáris diszkriminancia függvényt definiálunk és az x mintát a i osztályhoz rendeljük, ha gi(x) > gj(x)  j  i; ha a legnagyobb értéknél egyenlőség van, határozatlan

Ha több, mint 2 osztályunk van Ri döntési tartomány: az a térrész ahol gi(x) értéke a legnagyobb A folytonos Ri és Rj döntési tartományokat a Hij hipersík egy része választja el a hipersík definíciója: gi(x) = gj(x) (wi – wj)tx + (wi0 – wj0) = 0 wi – wj merőleges (normál vektor) Hij -re és

Konvexitás Könnyű megmutatni, hogy a lineáris géppel definiált döntési tartományok konvexek. Ez rontja az osztályozó flexibilitását és pontosságát… Az osztályokat elválasztó döntési felületek nem feltétlenül lineárisak, a döntési felület bonyolultsága gyakran magasabb rendű (nem lineáris) felületek használatát indokolja

Homogén koordináták

Lineáris gépek tanulása 14 Lineáris gépek tanulása

Lineáris gépek tanulása 15 Lineáris gépek tanulása Határozzuk meg a döntési felület paraméteres alakját Adott tanuló példák segítségével adjuk meg a „legjobb” felületet Ezt általában valamilyen kritériumfüggvény minimalizálásával tesszük meg Pl. tanulási hiba

Két osztály, lineárisan elválasztható eset 16 Normalizáció: ha yi ω2-beli, helyettesítsük yi-t -yi -al Olyan a-t keresünk, hogy atyi>0 (normalizált változat) Nem egyértelmű a megoldás!

Iteratív optimalizálás 17 Iteratív optimalizálás Definiáljunk egy J(a) kritériumfüggvényt, amely minimális, ha a megoldásvektor. Minimalizáljuk J(a) –t iteratív módon a(k+1) Keresési irány Tanulási arány a(k)

18 Gradiens módszer Tanulási arány, k-től függ, pl. „hűtési stratégia”

19 Gradiens módszer

Tanulási arány? 20

Newton módszer Valós függvények zérushelyeinek iteratív, közelítő meghatározása

Newton módszer Hogyan válasszuk a h(k) tanulási arányt? 22 Newton módszer Hogyan válasszuk a h(k) tanulási arányt? J(a) minimális ha Hess mátrix

Gradiens és Newton összehasonlítása 23 Gradiens és Newton összehasonlítása

24 Perceptron szabály

Perceptron szabály Kritérium Függvény: 25 Perceptron szabály Y(a): a által rosszul osztályozott minták halmaza. Ha Y(a) üres, Jp(a)=0; különben, Jp(a)>0 Kritérium Függvény:

Perceptron szabály A Jp(a) gradiense: 26 Perceptron szabály A Jp(a) gradiense: A perceptron szabály gradiens módszerbeli alkalmazásával kapható:

27 Perceptron szabály Az összes rosszul osztályozott minta a(k) szerint Perceptron konvergencia tétel: Ha a mintánk lineárisan szeparálható, akkor a fenti algoritmus súlyvektora véges számú lépésben megoldást ad.

Perceptron szabály Sztochasztikus gradiens módszer: 28 Perceptron szabály η(k)=1 egyesével vegyük a példákat Sztochasztikus gradiens módszer: gradienst – nem a teljes adatbázison – csak kis részminták sorozatán számolunk, modell gyakran frissül

29 Perceptron szabály Mozgassuk a hipersíkot úgy, hogy az összes mintaelem a pozitív oldalán legyen. a2 a2 a1 a1

Online vs offline tanuló algoritmus Online tanuló algoritmus: tanító példák hozzáadásával frissül a modell Offline (kötegelt) tanuló algoritmus: tanító adatbázis egészét egyben dolgozza fel a tanuló Online előnye: - nem kell az egész adatbázist tárolni implicit adaptáció Online hátránya: - pontatlanabb tud lenni

Nem-szeparálható eset 31 Nem-szeparálható eset Alkalmazhatunk más kritériumfüggvényt: a kritériumfüggvény minden mintaelemet figyelembe vesz „jósági” mérték lehet például a döntési felülettől mért előjeles távolság

SVM

33 Melyik megoldás jobb?

Ezek a legnehezebben osztályozható minták. 34 Szegély: a döntési felület körüli üres terület, amelyet a legközelebbi pont(ok) (= támasztó vektor(ok)) segítségével definiálunk Ezek a legnehezebben osztályozható minták.

35

SVM (support vector machine) 36 SVM (support vector machine) támasztó vektorok módszere, szupport vektor gép Az SVM olyan lineáris gép ahol a kritérium függvény legyen az osztályok közötti szegély maximalizálása! Ez jó általánosítást szokott biztosítani A tanítás ekvivalens egy lineáris feltételekkel adott kvadratikus programozási feladattal

lineárisan elválasztható eset SVM lineárisan elválasztható eset

Lineáris SVM: az elválasztható eset 38 Tanító adatbázis: Keressük w-t, hogy Normalizált változat:

Lineáris SVM: az elválasztható eset 39 Lineáris SVM: az elválasztható eset Tfh a margó mérete ρ Az xk pontnak az elválasztó hipersíktól való távolságára teljesülnie kell: Az egyértelműség biztosítására: ρ maximalizálása = minimalizálása

Lineáris SVM: az elválasztható eset 40 Lineáris SVM: az elválasztható eset A szegély maximalizálása:

Lineáris SVM: az elválasztható eset 41 Lineáris SVM: az elválasztható eset Alkalmazzunk Lagrange optimalizálást: (konvex kvadratikus optimalizálási feladat)

Lineáris SVM: az elválasztható eset 42 Lineáris SVM: az elválasztható eset Duális feladat (könnyebb megoldani): feltéve

Lineáris SVM: az elválasztható eset 43 Lineáris SVM: az elválasztható eset A megoldás a következő alakú: bármely t-ből Megmutatható, hogy akkor és csak akkor ha xt támasztóvektor A döntési felület a tanító példák „súlyozott átlaga” csak a támasztóvektorok járulnak hozzá a megoldáshoz!!

lineárisan nem elválasztható eset SVM lineárisan nem elválasztható eset

Lineáris SVM: a nem-elválasztható eset 46 Lineáris SVM: a nem-elválasztható eset A ξ hibaváltozó bevezetésével hibás osztályozást is megenged („puha szegély”): ξt=0 ha helyes az osztályozás, egyébként a margótól mért távolság Szabályozhatjuk a téves osztályozások számát vs. margó méretét

Lineáris SVM: a nem-elválasztható eset 48 Lineáris SVM: a nem-elválasztható eset Lagrange paraméterekkel:

SVM nem lineáris eset

Általánosított lineáris diszkriminancia függvények Kvadratikus döntési függvények: Általános lineáris döntési függvények: ahol az yi: Rd → R tetszőleges függvények x-ben nem lineáris, de yi-ben g(y) igen (az y-térben g(x) hipersík)

Példa

54 Nemlineáris SVM

55 Nemlineáris SVM Φ legyen (jóval) magasabb k dimenziószámú térbe leképezés: Bármilyen adathalmaz, megfelelően nagy dimenzióba történő alkalmas leképezéssel lineárisan elválasztható lesz az új térben!

56 Nemlineáris SVM Lineáris SVM a leképzett térben:

57 A kernel trükk A belső szorzatokat egy magfüggvény (kernel) segítségével számoljuk! A kernel használatának előnyei Nem kell ismerni Φ()-t !! A diszkriminancia a következő alakú: g(x)=

Példa: polinomiális kernel 58 Példa: polinomiális kernel K(x,y)=(x y) p d=256 (eredeti dimenziószám) p=4 h=183 181 376 (új tér dimenziószáma) a kernel ismert (és gyorsan számítható) a leképezés nem…

Egy kernel több leképezésnek is megfelel 59 Egy kernel több leképezésnek is megfelel Ezek is megfelelőek:

Kernelek a gyakorlatban 60 Kernelek a gyakorlatban A projektált tér nem egyértelmű és nem ad támpontot kernel tervezéshez…

61 Példa: XOR

62 Példa: XOR

63 Példa:XOR

64 Példa: XOR

Megjegyzések az SVM-hez 65 Megjegyzések az SVM-hez Globális optimalizálás, nem lokális (pontos optimum, nem közelítés). Az SVM hatékonysága a kernel és paramétereinek választásától függ Egy adott problémához a legjobb kernel választása „művészet”

Megjegyzések az SVM-hez 66 Megjegyzések az SVM-hez A komplexitása a támasztó vektorok számától, és nem a transzformált tér dimenziójától függ A gyakorlatban kis mintánál is jó általánosítási tulajdonságok Többosztályos SVM: one-vs-all (legnagyobb g()) one-vs-one (legtöbb győzelem) direkt optimalizáció

Összefoglalás Lineáris gépek Gradiens és Newton módszer Perceptron SVM Szeparálható eset Nem szeparálható eset Nem lineáris eset (magfüggvény)