Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Bayes döntéselmélet Gépi tanulási módszerek febr. 20.

Hasonló előadás


Az előadások a következő témára: "Bayes döntéselmélet Gépi tanulási módszerek febr. 20."— Előadás másolata:

1 Bayes döntéselmélet Gépi tanulási módszerek febr. 20.

2 2 –Felügyelt (induktív) tanulás: tanító halmaz alapján olyan modell tanulása ami korábban nem látott példákon is helyesen működik. –Osztályozás: előre definiált kategóriákba besorolás. Osztályozás

3 Pattern Classification, Chapter 2 3 A priori ismeretek – előre adott –A természet állapota véletlen változó –A tengeri sügér és a lazac kifogása egyenlően valószínű? –P(  1 ) = P(  2 ) (egyenletes a priori) –P(  1 ) + P(  2 ) = 1 (csak ezeket foghatjuk ki, nincs átfedés)

4 Pattern Classification, Chapter 2 4 Csak az a priori valószínűségeket használva: Válasszuk  1 -et, ha P(  1 ) > P(  2 ) különben  2 -t (mindig ugyanaz a döntés!!!) Osztályozás csak a priori ismeret alapján

5 Pattern Classification, Chapter 2 (Part 1) 5 P(  j | x) = P(x |  j ) · P (  j ) / P(x) cél: P(  j | x) modellezése A posteriori valószínűség bizonyíték prior likelihood

6 6 Osztályonkénti likelihoodok

7 Pattern Classification, Chapter 2 (Part 1) Osztályonkénti posteriorik

8 8 Ha x egy megfigyelés, amelyre: P(  1 | x) > P(  2 | x) akkor a valós állapot =  1 P(  1 | x) < P(  2 | x) akkor a valós állapot =  2 P(x |  j ) és P (  j )-ket modellezük P(x) nem kell a döntéshez, ill. Bayes döntési szabály

9 Hiba valószínűsége Ekkor az x megfigyelés mellett a hiba valószínűsége: P(hiba | x) = P(  1 | x) ha  2 -t választottunk P(hiba | x) = P(  2 | x) ha  1 -t választottunk azaz P(hiba | x) = min [P(  1 | x), P(  2 | x)] A „Bayes döntési szabály” minimalizálja a hiba átlagos valószínűségét. 9

10 Pattern Classification, Chapter 2 (Part 1) 10 Bayes döntéselmélet - általánosítások –Több, mint egy tulajdonság (d-dimenziós tulajdonságvektor) –Több, mint két osztály (c osztály) –Nemcsak döntések, hanem egyéb tevékenységek (akciók) megengedése –Veszteségfüggvény (loss function) bevezetése (ez a hibavalószínűségnél általánosabb fogalom lesz)

11 Pattern Classification, Chapter 2 (Part 1) 11 Legyenek {  1,  2,…,  c } a természet lehetséges állapotai egy kísérletnél (osztályok, kategóriák) Legyenek {  1,  2,…,  a } a lehetséges cselekvések (akciók, tevékenységek) Jelölje (  i |  j ) azt a veszteséget, amellyel az  i cselekvés jár, amennyiben a természet állapota (osztály)  j volt. Bayes döntéselmélet - jelölések

12 Bayes döntéselmélet - Példa Tőzsdei kereskedő algoritmus  1 : emelkedni fog az árfolyam (néhány napon belül)  2 : csökkeni fog az árfolyam  3 : nem változik sokat az árfolyam  -t nem ismerjük!  1: vásárlunk a részvényből  2 : nem vásárlunk a részvényből x: jelenlegi és múltbeli árfolyamok x-et meg tudjuk figyelni (ismert) : egy tranzakcióval mennyit veszítünk/keresünk

13 Pattern Classification, Chapter 2 (Part 1) 13 feltételes kockázat (veszteség):R(  i | x)  (x) = argmin R(  i | x) Bayes kockázat

14 Pattern Classification, Chapter 2 (Part 1) 14  1 : válasszuk  1 -t  2 : válasszuk  2 -t ij = (  i |  j ) jelöli azt a veszteséget, amit  i választása jelent, ha a természet állapota  j Feltételes kockázat: R(  1 | x) =  11 P(  1 | x) + 12 P(  2 | x) R(  2 | x) =  21 P(  1 | x) + 22 P(  2 | x) Két kategóriás osztályozó

15 Pattern Classification, Chapter 2 (Part 1) 15 ha R(  1 | x) < R(  2 | x) akkor az  1 cselekvés: “döntés:  1 ” „döntés  1 ”, ha”: ( ) P(x |  1 ) P(  1 ) > ( ) P(x |  2 ) P(  2 ) különben „döntés  2 ” Két kategóriás osztályozó – döntési szabály

16 Pattern Classification, Chapter 2 (Part 1) 16 Az előző szabály ekvivalens a következővel: akkor akció  1 (döntés:  1 ), különben akció  2 (döntés:  2 ) Likelihood hányados

17 Pattern Classification, Chapter 2 (Part 1) 17 Ekkor a feltételes kockázat: Nulla-Egy veszteségfüggvény

18 Pattern Classification, Chapter 2 (Part 1) 18 A több osztályos osztályozó – általános eset (nem csak Bayes döntéselmélet!) Diszkriminancia függvények halmaza: g i (x), i = 1,…, c –Az osztályozó egy x tulajdonságvektorhoz az  i osztályt rendeli, ha: g i (x) = max g k (x)

19 Pattern Classification, Chapter 2 (Part 1) 19 Legyen g i (x) = - R(  i | x) (a legnagyobb diszkriminancia érték a minimális kockázatnak felel meg!) Nulla-egy veszteségfüggvénnyel: g i (x) = P(  i | x) A legnagyobb diszkriminancia a maximális a posteriori valószínűségnek felel meg: g i (x) = P(x |  I ) P(  I ) g i (x) = ln P(x |  I ) + ln P(  I ) Bayes osztályozó

20 Pattern Classification, Chapter 2 (Part 1) 20 egyetlen diszkriminancia fgv: döntés: g(x) > 0 Két osztályos Bayes osztályozó

21 Diszkriminanciafügvények Bayes osztályozó és normális eloszlás esetén

22 Pattern Classification, Chapter 2 (Part 1) 22 A normális eloszlás Egyváltozós eset –Kezelhető sűrűségfüggvény –Folytonos –Nagyon sok eloszlás aszimptotikusan normális –Centrális határeloszlás-tétele Ahol:  = az X várható értéke  2 = szórásnégyzet (variancia)

23 Pattern Classification, Chapter 2 (Part 1) 23

24 Pattern Classification, Chapter 2 (Part 1) 24 sűrűségfüggvénye ahol: x = (x 1, x 2, …, x d ) t  = (  1,  2, …,  d ) t a várható érték vektor  = d*d a kovariancia-mátrix |  | illetve  -1 a determináns illetve az inverz mátrix Többváltozós normális eloszlás

25 Pattern Classification, Chapter 2 (Part 1) 25 A normális eloszláshoz tartozó diszkriminancia függvények g i (x) = ln P(x |  I ) + ln P(  I ) Többváltozós normális eloszlásnál

26 Pattern Classification, Chapter 2 (Part 1) 26 I az egységmátrix  i =  2 I esete

27 Pattern Classification, Chapter 2 (Part 1) 27 R i : azon térrész ahol g i (x) maximális Döntési felület: R i -t és R j -t elválasztó felület

28 Pattern Classification, Chapter 2 (Part 1)

29 29

30  i =  esete a kovarianciamátrixok azonosak, de tetszőlegesek! Az R i és R j közti döntési felület hipersík,de általában nem merőleges a várható értékeket összekötő egyenesre!

31 Pattern Classification, Chapter 2 (Part 1) 31

32 Pattern Classification, Chapter 2 (Part 1) 32

33 Pattern Classification, Chapter 2 (Part 1) 33 A kovarianciamátrixok minden osztálynál különbözőek (Hiperkvadratikusok: hipersíkok, hipersíkok párjai, hipergömbök, hiperellipszoidok, hiperparaboloidok, hiperboloidok)  i tetszőleges

34

35 Pattern Classification, Chapter 2 (Part 1) 35

36 Pattern Classification, Chapter 2 (Part 1) 36

37

38 Eloszlások paramétereinek becslése Maximum-likelihood illetve Bayes-módszerrel

39 Osztályozó készítése tanítópéldákból – A Bayes döntési szabály Optimális osztályozót tudnánk készíteni az alábbiak ismeretében: –P(  i ) (a priori valószínűségek) –P(x |  i ) (likelihood) Azonban a gyakorlatban ezek a legritkább esetben ismertek! – Általában csak példáink vannak Az a priori eloszlás becslése nem okoz gondot Az osztályonkénti eloszlás becslése nehéz! (magas dimenziószám, gyakran kevés példa) Pattern Classification, Chapter 3 39

40 –A priori feltételezés a tanulandó eloszlásról: Pl. feltételezzük, hogy P(x |  i ) ~ N(  i,  i ) Így csak a 2 paramétert kell megbecsülni –Paraméterbecslési módszerek: Maximum-Likelihood (ML) becslés, illetve Bayes-becslés Hasonló eredményre vezetnek, de más elvi háttéren alapulnak Bármelyiket válasszuk is, a kapott P(x|  i ) becslést ugyanúgy használjuk osztályozáskor Pattern Classification, Chapter 3 40 Paraméteres tanulóalgoritmusok

41 Maximum likelihood becslés: –Feltételezi, hogy a paraméterek értéke rögzített, csak számunkra ismeretlen –Legjobb paraméterértéknek azt az értéket tekinti, ami legjobban magyarázza (max. valószínűséget rendeli) a tanítópéldákat Bayes-becslés: –A paramétereket is valószínűségi változóként kezeli, így azok eloszlását keresi –Ehhez kiindul egy feltételezett a priori eloszlásból, melyet a tanítópéldák segítségével pontosít Pattern Classification, Chapter 3 41

42 –Modellezési feltevések Tfh. c osztályunk van, és mindegyik eloszlását egy-egy normális eloszlással közelítjük: P(x |  j ) ~ N(  j,  j ) A tanulandó paramétereket egy adott osztály esetén jelölje Pattern Classification, Chapter 3 Maximum-likelihood becslés 42

43 Tanítópéldák –Tfh a D tanító-adatbázis n mintából áll: (x 1,  1 ), (x 2,  2 ),…, (x n,  n ) –„iid” feltevés: az elemek egymástól függetlenek és ugyanabból a megtanulandó eloszlásból származnak Pattern Classification, Chapter 3 Tanító adatbázis 43

44  „maximum-likelihood” becslésén azt az értéket fogjuk érteni, amely maximizálja P(D |  )-t “Az a  érték, amely legjobban magyarázza az aktuálisan megfigyelt tanítópéldákat” –A „log-likelihood” célfüggvény l(  ) = ln P(D |  ) (optimuma ugyanott van, de egyszerűbb kezelni!) Pattern Classification, Chapter 3 A „likelihood” célfüggvény 44

45 Pattern Classification, Chapter 3 Tanítópéldák és négy „jelölt” A likelihood-fgv. (  a változó, nem eloszlás!!!) A log-likelihood-fgv. 45

46 Keressük azt a  -t, amely maximalizálja az l(  ) log-likelihood-ot: jelölje   a gradiens operátort (p az ismeretlen paraméterek száma): l(  )-ra alkalmazva: A (log-)likelihood maximalizálása 46

47 Az optimumhelyhez szükséges feltétel:   l = 0 (megj: esetünkben a vizsgált függvények jellege miatt elégséges is lesz) Pattern Classification, Chapter 3 A (log-)likelihood maximalizálása 47

48 Példa: egyváltozós Gauss-eloszlás,  és  ismeretlen azaz  = (  1,  2 ) = ( ,  2 ) Pattern Classification, Chapter 3 48

49 Az összes példára összegezve: Kombinálva (1)-et és (2)-t, azt kapjuk hogy: Pattern Classification, Chapter 3 49

50 –  -t is valószínűségi változóként kezeli, nem pedig rögzített de ismeretlen paraméterként –A P(  ) kezdeti eloszlását a priori tudásként ismertnek tekintjük –A D tanítópéldák alapján keressük P(  | D)-t –Majd ennek segítségével írjuk fel P(x | D)-t Pattern Classification, Chapter 3 Bayes becslés 50

51 –P(x | D) becsülhető minden olyan esetben, amikor a sűrűségfüggvényt parametrikus formában keressük –Az alapvető feltevések: P(x |  ) formája ismert, csak  pontos értéke ismeretlen  -ra vonatkozó ismereteink P(  ) ismeretének formájában állnak rendelkezésre Összes többi  -ra vonatkozó ismeretünket n db P(x) -ből származó D={ x 1, x 2, …, x n } minta tartalmazza Pattern Classification, Chapter 3 Bayes becslés 51

52 1. P(  | D) levezetése Bayes-formula, illetve a függetlenségi feltevés kell: 2. P(x | D) levezetése Megj.: ez sokszor nem vezethető le zárt képlettel, ezért numerikusan (pl. Gibbs algorithm), vagy simán a maximumával közelítik Pattern Classification, Chapter 3 A Bayes becslés két lépése 52

53 P(x|  ) egyváltozós Gauss-eloszlás,  ismert, csak  -t keressük amit keresünk, az ismeretlen paraméter(eloszlás): Tobábbá  -nek ismert az a priori eloszlása: Pattern Classification, Chapter 3 Bayes becslés - Példa 53

54 feltesszük: … Pattern Classification, Chapter 3 54 Példa – P(  | D) levezetése

55 Pattern Classification, Chapter 355 Értelmezés: -  0 A legjobb a priori becslésünk  -re,  0 kifejezi a bizonytalanságunk -  n képlete súlyozott összegzéssel kombinálja  0 -t és az adatok átlagát - Ha n  ∞,  0 súlya egyre kisebb, σ n (a bizonytalanság) egyre csökken 55

56 P(  | D) megvan, P(x | D) még kiszámítandó! Levezethető, hogy P(x | D) normális eloszlás az alábbi paraméterekkel: Tehát  n lesz a várható érték, σ-hoz pedig hozzáadódik σ n, kifejezve a  -re vonatkozó bizonytalanságot Többváltozós eset: Pattern Classification, Chapter 3 Példa – P(x | D) kiszámítása 56

57 MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek! maximum-likelihood becslés –egyszerű, gyors(abb) /grádiens keresés vs. multidim. integrálás/ Bayes becslés –ha a feltevéseink bizonytalanok –bizonytalanságot a P(  )-val modellezhetjük 57

58 Összefoglalás Bayes döntéselmélet Egy nagyon általános keret valószínűségi döntések meghozatalához Bayes osztályozó Az osztályozás egy speciális döntés (  1 : válasszuk  1 -t) Nulla-Egy veszteségfüggvény figyelmen kívül hagyható Normális eloszlású likelihood esetén a Bayes osztályozó

59 Paraméterbecslések –Általános módszer paraméteres eloszlások paramétereinek becslésére egy minta alapján (nem csak Bayes!) –Egy lehetséges módja a Bayes döntéselmélet gyakorlatban történő megvalósításához (gépi tanulás) Összefoglalás


Letölteni ppt "Bayes döntéselmélet Gépi tanulási módszerek febr. 20."

Hasonló előadás


Google Hirdetések