Gépi tanulási módszerek febr. 18.

Slides:



Advertisements
Hasonló előadás
Lineáris regressziós MODELLEK
Advertisements

Események formális leírása, műveletek
I. előadás.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Kalman-féle rendszer definíció
Számítógépes algebrai problémák a geodéziában
Bayes hálók október 20. Farkas Richárd
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Gépi tanulási módszerek febr. 13.
Naïve Bayes, HMM.
3(+1) osztályozó a Bayes világból
Gépi tanulási módszerek
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Gépi tanulási módszerek febr. 20.
Rangsorolás tanulása ápr. 24..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Papp Róbert, Blaskovics Viktor, Hantos Norbert
Bayes becslések Boha Roland november 21. PPKE-ITK.
III. előadás.
Regresszióanalízis 10. gyakorlat.
Nem-paraméteres eljárások, több csoport összehasonlítása
Bizonytalanság melletti döntések
Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Statisztikai döntésfüggvények elméletének elemei
$ Információ Következmény Döntés Statisztikai X.  Gyakorlati problémák megoldásának alapja  Elemzéseink célja és eredménye  Központi szerep az egyén.
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Alapfogalmak.
Folytonos eloszlások.
Két kvantitatív változó kapcsolatának vizsgálata
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
I. előadás.
Lineáris algebra.
Dr. Takács Attila – BME Geotechnikai Tanszék
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Gépi tanulási módszerek
Megerősítéses tanulás 2. előadás
I. Előadás bgk. uni-obuda
III. előadás.
Valószínűségszámítás felelevenítő
Gauss-eloszlás illesztése adatokra Maximum Likelihood és Bayes-módszer
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John.
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John.
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Valószínűségi változók együttes eloszlása
Gazdaságinformatikus MSc
A mesterséges neuronhálók alapjai
A Bayes-döntéselmélet alapjai
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Gépi tanulási módszerek febr. 18. Bayes döntéselmélet Gépi tanulási módszerek febr. 18.

Osztályozás Felügyelt (induktív) tanulás: 2 Osztályozás Felügyelt (induktív) tanulás: tanító halmaz alapján olyan modell tanulása ami korábban nem látott példákon is helyesen működik. Osztályozás: előre definiált kategóriákba besorolás.

A posteriori valószínűség 3 A posteriori valószínűség prior P(j | x) = P(x | j ) · P (j ) / P(x) cél: P(j | x) modellezése bizonyíték likelihood Pattern Classification, Chapter 2 (Part 1)

Osztályonkénti likelihoodok 4 Osztályonkénti likelihoodok

Osztályonkénti posteriorik Pattern Classification, Chapter 2 (Part 1)

Bayes döntési szabály Ha x egy megfigyelés, amelyre: 6 Bayes döntési szabály Ha x egy megfigyelés, amelyre: P(1 | x) > P(2 | x) akkor a döntés 1 P(1 | x) < P(2 | x) akkor a döntés 2 P(x | j ) és P (j )-ket modellezük P(x) nem kell a döntéshez, ill.

Bayes döntéselmélet - általánosítások 7 Bayes döntéselmélet - általánosítások Több, mint egy tulajdonság (d-dimenziós tulajdonságvektor) Több, mint két osztály (c osztály) Nemcsak osztályozási döntések, hanem egyéb tevékenységek (akciók) megengedése Veszteségfüggvény (loss function) bevezetése (ez a hibavalószínűségnél általánosabb fogalom lesz) Pattern Classification, Chapter 2 (Part 1)

Bayes döntéselmélet - általános eset 8 Legyenek {1, 2,…, c } a természet lehetséges állapotai egy kísérletnél (kategóriák) Legyenek {1, 2,…, a } a lehetséges cselekvések (akciók, tevékenységek) Jelölje (i | j ) azt a veszteséget, amellyel az i cselekvés jár, amennyiben a természet állapota (osztály) j volt. Pattern Classification, Chapter 2 (Part 1)

Bayes döntéselmélet - Példa Tőzsdei kereskedő algoritmus 1: emelkedni fog az árfolyam (néhány napon belül) 2: csökkeni fog az árfolyam 3: nem változik sokat az árfolyam -t nem ismerjük (rejtett, nem megfigyelhető)! 1: vásárlunk a részvényből 2: nem vásárlunk a részvényből x: jelenlegi és múltbeli árfolyamok x-et meg tudjuk figyelni (ismert) : egy tranzakcióval mennyit veszítünk/keresünk

Bayes kockázat (x) = argmin R(i | x) 10 Bayes kockázat feltételes kockázat (veszteség): R(i | x) (x) = argmin R(i | x) Pattern Classification, Chapter 2 (Part 1)

Két kategóriás osztályozó 11 Két kategóriás osztályozó 1 : válasszuk 1-t 2 : válasszuk 2 -t ij = (i | j ) jelöli azt a veszteséget, amit i választása jelent, ha a természet állapota j Feltételes kockázat: R(1 | x) = 11P(1 | x) + 12P(2 | x) R(2 | x) = 21P(1 | x) + 22P(2 | x) Pattern Classification, Chapter 2 (Part 1)

Két kategóriás osztályozó – döntési szabály 12 ha R(1 | x) < R(2 | x) akkor az 1 cselekvés: “döntés: 1” „döntés 1 ”, ha”: (21- 11 ) P(x | 1 ) P(1 ) > (12- 22 ) P(x | 2 ) P(2 ) különben „döntés 2” Pattern Classification, Chapter 2 (Part 1)

Likelihood hányados akkor akció 1 (döntés: 1), 13 Likelihood hányados Az előző szabály ekvivalens a következővel: akkor akció 1 (döntés: 1), különben akció 2 (döntés: 2) Pattern Classification, Chapter 2 (Part 1)

Nulla-Egy veszteségfüggvény 14 Nulla-Egy veszteségfüggvény Ekkor a feltételes kockázat: Pattern Classification, Chapter 2 (Part 1)

A több osztályos osztályozó – általános eset (nem csak Bayes döntéselmélet!) 15 Diszkriminancia függvények halmaza: gi(x), i = 1,…, c Az osztályozó egy x tulajdonságvektorhoz az i osztályt rendeli, ha: gi(x) = max gk(x) Pattern Classification, Chapter 2 (Part 1)

gi(x) = ln P(x | I ) + ln P(I ) 16 Bayes osztályozó Legyen gi(x) = - R(i | x) (a legnagyobb diszkriminancia érték a minimális kockázatnak felel meg!) Nulla-egy veszteségfüggvénnyel: gi(x) = P(i | x) A legnagyobb diszkriminancia a maximális a posteriori valószínűségnek felel meg: gi(x) = P(x | I ) P(I ) gi(x) = ln P(x | I ) + ln P(I ) Ugyanott van a maximumhelyük! Pattern Classification, Chapter 2 (Part 1)

Két osztályos Bayes osztályozó 17 Két osztályos Bayes osztályozó egyetlen diszkriminancia fgv: döntés: g(x) > 0 Pattern Classification, Chapter 2 (Part 1)

Diszkriminancia-fügvények Bayes osztályozó és normális eloszlás esetén

A normális eloszlás Egyváltozós eset Ahol:  = az X várható értéke 19 A normális eloszlás Egyváltozós eset Kezelhető sűrűségfüggvény Folytonos Nagyon sok valós eloszlás normális Centrális határeloszlás-tétele Ahol:  = az X várható értéke 2 = szórásnégyzet (variancia) Pattern Classification, Chapter 2 (Part 1)

20 Pattern Classification, Chapter 2 (Part 1)

Többváltozós normális eloszlás 21 Többváltozós normális eloszlás sűrűségfüggvénye ahol: x = (x1, x2, …, xd)t  = (1, 2, …, d)t a várható érték vektor  = d*d a kovariancia-mátrix || illetve -1 a determináns illetve az inverz mátrix Pattern Classification, Chapter 2 (Part 1)

A normális eloszláshoz tartozó diszkriminancia függvények 22 gi(x) = ln P(x | I ) + ln P(I ) Többváltozós normális eloszlásnál Pattern Classification, Chapter 2 (Part 1)

i = 2I esete I az egységmátrix 23 Pattern Classification, Chapter 2 (Part 1)

Ri: azon térrész ahol gi(x) maximális 24 Ri: azon térrész ahol gi(x) maximális Döntési felület: Ri-t és Rj-t elválasztó felület Pattern Classification, Chapter 2 (Part 1)

Pattern Classification, Chapter 2 (Part 1)

26 Pattern Classification, Chapter 2 (Part 1)

i =  esete a kovarianciamátrixok azonosak, de tetszőlegesek! Az Ri és Rj közti döntési felület hipersík,de általában nem merőleges a várható értékeket összekötő egyenesre!

28 Pattern Classification, Chapter 2 (Part 1)

29 Pattern Classification, Chapter 2 (Part 1)

30 i tetszőleges A kovarianciamátrixok minden osztálynál különbözőek (Hiperkvadratikusok: hipersíkok, hipersíkok párjai, hipergömbök, hiperellipszoidok, hiperparaboloidok, hiperboloidok) Pattern Classification, Chapter 2 (Part 1)

32 Pattern Classification, Chapter 2 (Part 1)

33 Pattern Classification, Chapter 2 (Part 1)

Eloszlások paramétereinek becslése Maximum-likelihood illetve Bayes-módszerrel

Osztályozó készítése tanítópéldákból 36 Osztályozó készítése tanítópéldákból A Bayes döntési szabály Optimális osztályozót tudnánk készíteni az alábbiak ismeretében: P(i) (a priori valószínűségek) P(x | i) (likelihood) Azonban a gyakorlatban ezek a legritkább esetben ismertek! – Általában csak példáink vannak Az a priori eloszlás becslése nem okoz gondot Az osztályonkénti eloszlás becslése nehéz! (magas dimenziószám, gyakran kevés példa) Pattern Classification, Chapter 3

Paraméteres tanulóalgoritmusok 37 Paraméteres tanulóalgoritmusok A priori feltételezés a tanulandó eloszlásról: Pl. feltételezzük, hogy P(x | i) ~ N( i, i) Így csak a 2 paramétert kell megbecsülni Paraméterbecslési módszerek: Maximum-Likelihood (ML) becslés, illetve Bayes-becslés Hasonló eredményre vezetnek, de más elvi háttéren alapulnak Bármelyiket válasszuk is, a kapott P(x| i) becslést ugyanúgy használjuk osztályozáskor Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 38 Maximum likelihood becslés: Feltételezi, hogy a paraméterek értéke rögzített, csak számunkra ismeretlen Legjobb paraméterértéknek azt az értéket tekinti, ami legjobban magyarázza (max. valószínűséget rendeli) a tanítópéldákat Bayes-becslés: A paramétereket is valószínűségi változóként kezeli, így azok eloszlását keresi Ehhez kiindul egy feltételezett a priori eloszlásból, melyet a tanítópéldák segítségével pontosít Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 39 Tanító adatbázis Tanítópéldák Tfh a D tanító-adatbázis n mintából áll: (x1, 1), (x2, 2),…, (xn, n) „iid” feltevés: az elemek egymástól függetlenek és ugyanabból a megtanulandó eloszlásból származnak Pattern Classification, Chapter 3

A „likelihood” célfüggvény 40 A „likelihood” célfüggvény „maximum-likelihood” becslésén azt az értéket fogjuk érteni, amely maximizálja P(D | )-t “Az a  érték, amely legjobban magyarázza az aktuálisan megfigyelt tanítópéldákat” A „log-likelihood” célfüggvény l() = ln P(D | ) (optimuma ugyanott van, de egyszerűbb kezelni!) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 41 Példa Modellezési feltevések Tfh. c osztályunk van, és mindegyik eloszlását egy-egy normális eloszlással közelítjük: P(x | j) ~ N( j, j) A tanulandó paramétereket egy adott osztály esetén jelölje Pattern Classification, Chapter 3

A (log-)likelihood maximalizálása 42 A (log-)likelihood maximalizálása Keressük azt a -t, amely maximalizálja az l() log-likelihood-ot: jelölje  a gradiens operátort (p az ismeretlen paraméterek száma): l()-ra alkalmazva:

A (log-)likelihood maximalizálása 43 A (log-)likelihood maximalizálása Az optimumhelyhez szükséges feltétel: l = 0 (megj: esetünkben a vizsgált függvények jellege miatt elégséges is lesz) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 44 Példa: egyváltozós Gauss-eloszlás,  és  ismeretlen azaz  = (1, 2) = (, 2) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 45 Az összes példára összegezve: Kombinálva (1)-et és (2)-t, azt kapjuk hogy: Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 46 Bayes becslés -t is valószínűségi változóként kezeli, nem pedig rögzített de ismeretlen paraméterként A P() kezdeti eloszlását a priori tudásként ismertnek tekintjük A D tanítópéldák alapján keressük P( | D)-t Majd ennek segítségével írjuk fel P(x | D)-t Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 47 Bayes becslés P(x | D) becsülhető minden olyan esetben, amikor a sűrűségfüggvényt parametrikus formában keressük Az alapvető feltevések: P(x | ) formája ismert -ra vonatkozó ismereteink P() ismeretének formájában állnak rendelkezésre Összes többi -ra vonatkozó ismeretünket n db P(x) -ből származó D={ x1, x2, …, xn } minta tartalmazza Pattern Classification, Chapter 3

A Bayes becslés két lépése 48 A Bayes becslés két lépése 1. P( | D) levezetése Bayes-szabály, illetve a függetlenségi feltevés kell: 2. P(x | D) levezetése Megj.: ez sokszor nem vezethető le zárt képlettel, ezért közelítjük vagy zárt alakban vagy numerikusan (pl. Gibbs algorithm) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 49 Bayes becslés - Példa P(x|) egyváltozós Gauss-eloszlás,  ismert, csak -t keressük amit keresünk, az ismeretlen paraméter(eloszlás): Tobábbá -nek ismert az a priori eloszlása: Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 50 Értelmezés: - 0 A legjobb a priori becslésünk -re, 0 kifejezi a bizonytalanságunk n képlete súlyozott összegzéssel kombinálja 0-t és az adatok átlagát Ha n ∞, 0 súlya egyre kisebb, σn (a bizonytalanság) egyre csökken Pattern Classification, Chapter 3 50

Pattern Classification, Chapter 3 Példa – P( | D) levezetése 51 feltesszük: … Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 Példa – P(x | D) kiszámítása 52 P( | D) megvan, P(x | D) még kiszámítandó! Levezethető, hogy P(x | D) normális eloszlás az alábbi paraméterekkel: Tehát n lesz a várható érték, σ-hoz pedig hozzáadódik σn, kifejezve a -re vonatkozó bizonytalanságot Többváltozós eset: Pattern Classification, Chapter 3

MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek! 53 MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek! maximum-likelihood becslés egyszerű, gyors(abb) /grádiens keresés vs. multidim. integrálás/ Bayes becslés ha a feltevéseink bizonytalanok bizonytalanságot a P()-val modellezhetjük

Összefoglalás Bayes döntéselmélet Bayes osztályozó Egy nagyon általános keret valószínűségi döntések meghozatalához Bayes osztályozó Az osztályozás egy speciális döntés (1 : válasszuk 1-t) Nulla-Egy veszteségfüggvény figyelmen kívül hagyható Normális eloszlású likelihood esetén a Bayes osztályozó

Összefoglalás Paraméterbecslések Általános módszer paraméteres eloszlások paramétereinek becslésére egy minta alapján (nem csak Bayes!) Gépi tanulás: Bayes döntéselmélet és paraméterbecslések házasítása (valószínűségi eloszlások modellezés majd paraméterek becslése a tanító adatbázis alapján)