Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

3(+1) osztályozó a Bayes világból

Hasonló előadás


Az előadások a következő témára: "3(+1) osztályozó a Bayes világból"— Előadás másolata:

1 3(+1) osztályozó a Bayes világból
febr. 25.

2 Előző előadás Bayes döntéselmélet Bayes osztályozó
P(j | x) = P(x | j ) · P (j ) / P(x) Ha feltesszük, hogy a posterior ismert normális eloszlást követ Paraméterbecslési módszerek ha paraméteres eloszlást feltételezünk és tanító adatbázis rendelkezésre áll

3 Példa adatbázis ? kor hitelkeret havi bev. elhagy? <21 nincs
igen 21-50 van 50K-200K 50< nem 200K< ?

4 Naϊve Bayes osztályozó

5 Naϊve Bayes osztályozó
A Naive Bayes egy olyan Bayes osztályozó ahol feltesszük, hogy a jellemzők egymástól feltételesen függetlenek egy adott osztály mellett, azaz a likelihood:

6 Naϊve Bayes osztályozó
Legyen két osztály, valamint x = [x1, x2, …, xd ]t ahol minden xi bináris, az alábbi valószínűségekkel: pi = P(xi = 1 | 1) qi = P(xi = 1 | 2)

7 Diszkriminancia-függvény:

8 Naive Bayes tanítása - MLE
pi = P(xi = 1 | 1 ) és qi = P(xi = 1 | 2 ) becslése N darab tanító példából tfh. p és q binomiális eloszlást követ (visszatevéses mintavétel modellezése) Maximum-likelihood módszerrel:

9 Naive Bayes tanítása – Bayes becslés
tfh. a becslési prior Beta eloszlásból jön X ~ Beta(a,b) E [X]=1/(1+b/a)

10 Naive Bayes tanítása – Bayes becslés
az eredeti pi likelihood binomiális eloszlást követ a becslésre egy Beta(a,b)-t használunk … a Bayes becslés 2 lépése …

11 Naive Bayes tanítása – Bayes becslés (m-becslés)
Ugyanez átjelöléssel: (így egyszerűbb a gyakorlatban) 0 likelihood/posteriori elkerülése m és p konstansok (paraméterek) p a priori becslés pi-re m az „ekvivalens mintaszám”

12 Naϊve Bayes osztályozó
a gyakorlatban nem is olyan naív  nagyon gyors, párhuzamosítható kis memóriaigény irreleváns jellemzők „kiátlagolódnak” jó megoldás ha nagyon sok, egyenlően fontos jellemzőnk van

13 Példa ? P() kor hitelkeret havi bev. elhagy <21 nincs < 50K
igen 21-50 van 50K-200K 50< nem 200K< ? P(kor>50|  =igen) = (0+mp) / 2+m P(nincs|  =igen) P(200K<|  =igen)

14 Generatív vs. Diszkriminatív osztályozók
Egy rejtett állapota a rendszernek generálja a megfigyeléseinket Likelihood P(x | j ) és apriori P(j ) becslése Diszkriminatív: Cél az egyes osztályok elkülönítése Közvetlenül az a posteriori P(j | x) valószínűségek becslése x1 x2 x3 x1 x2 x3

15 Logisztikus Regresszió (Maximum Entrópia Osztályozó)
Két osztály esetén:

16 Nem paraméteres osztályozások

17 Nem paraméteres eljárások
17 Nem paraméteres eljárások Nem paraméteres eljárások alkalmazhatók tetszőleges eloszlásnál, anélkül, hogy bármit feltételeznénk a sűrűségfgvek alakjáról Likelihood P(x | j ) becslése vagy közvetlenül az a posteriori P(j | x) valószínűségek becslése

18 Sűrűség becslése 18 Legye p(x) a becsülni kívánt sűrűségfüggvény
Annak valószínűsége, hogy egy pont az R-be esik: n elemű mintánk van, az R–be eső pontok számának várható értékét jelölje k E(k) = nP Pattern Classification, Chapter 2 (Part 1)

19 Sűrűség becslése Maximum likelihood becsléssel:
19 Sűrűség becslése Maximum likelihood becsléssel: p(x) folytonos, és ha R elég kicsi, akkor p nem változik lényegesen R-en: Ahol x R –beli pont, és V az R térfogata.

20 Iteratív becslési folyamat
20 Iteratív becslési folyamat V nullához tart, azaz egyre jobban közelítünk a pontszerű x-hez tartozó p(x)-hez V a gyakorlatban nem lehet nagyon kicsi, mert a minták száma korlátozott A k/n hányadosoknál el kell fogadni egy kis bizonytalanságot…

21 Sűrűség becslés aszimptotikus tulajdonságai
21 Sűrűség becslés aszimptotikus tulajdonságai Három szükséges feltétele van, hogy

22 22

23 Parzen ablakok fix méretű és alakú R régiókkal dolgozunk V állandó p(x)-et egy kérdéses x pontban az R -be eső pontok száma alapján becsüljük (azaz leszámoljuk k-t)

24 Parzen ablakok - hiperkocka
24 Parzen ablakok - hiperkocka R egy d-dimenziós hiperkocka ( (x-xi)/hn ) akkor 1, ha xi az x középpontú V hiperkockába esik, 0 különben. (-t kernelnek nevezzük)

25 Parzen ablakok - hiperkocka
25 Parzen ablakok - hiperkocka minták száma ebben a hiperkockában: behelyettesítve:

26 Általános eset pn(x) úgy becsüli p(x)-et, mint az átlaga valamilyen távolságnak az x pont és az (xi) (i = 1,… ,n) minták közt  tetszőleges fgv-e lehet két pont távolságának

27 Parzen ablakok - példa p(x) ~ N(0,1) esete
27 Parzen ablakok - példa p(x) ~ N(0,1) esete Legyen (u) = (1/(2) exp(-u2/2) és hn = h1/n (n>1) olyan normális sűrűségek átlaga, melyek középpontjai xi-kben vannak.

28 28

29 29

30 Analóg eredmények kaphatók két dimenzióban is:
30 Analóg eredmények kaphatók két dimenzióban is:

31 31

32 32 p(x) ?

33 33 p(x) = 1U(a,b) + 2T(c,d) (egyenletes és háromszög eloszlás keveréke)

34 Osztályozás a Parzen ablakok módszerével
34 Minden osztálynál becsüljük a többdimenziós likelihood sűrűségeket (aprioiri egyszerűen közelítendő), aztán a maximális a posteriori valószínűségnek megfelelően osztályozunk A Parzen-ablakokhoz tartozó döntési tartományok az ablak-függvény választásától függenek

35 35

36 Példa ? P() kor hitelkeret havi bev. elhagy <21 nincs < 50K
igen 21-50 van 50K-200K 50< nem 200K< ? P(kor>50, nincs hitel, 200K<hevi. bev |  =igen) = ? legyen 1 ha x és xi legalább 1 jellemzőnél egyezik legyen 0 egyébként

37 k legközelbbi szomszéd becslés
37 k legközelbbi szomszéd becslés Az ismeretlen “legjobb” ablak függvény problémájának megoldása: Legyen V a mintaelemek számának függvénye Az x legyen középpontja egy cellának, növeljük addig, amíg k mintát (k = f(n)) tartalmaz Az így kapott mintákat nevezzük az x k legközelebbi szomszédjának 2 lehetőség van: Nagy a sűrűség x közelében; ekkor a cella kicsi lesz, és így a felbontás jó lesz Sűrűség kicsi; ekkor a cella nagyra fog nőni, és akkor áll le, amikor nagy sűrűségű tartományt ér el A becslések egy családját kaphatjuk a kn=k1/n választással, a k1 különböző választásai mellett

38 38 © Ethem Alpaydin: Introduction to Machine Learning. 2nd edition (2010)

39 k legközelbbi szomszéd osztályozó
39 k legközelbbi szomszéd osztályozó k nearest neighbour (knn) P(i | x) közvetlen becslése n címkézett minta segítségével Vegyünk egy cellát x körül ami k elemet tartalmaz Ha ki db minta (a k közül) tartozik i –hez: pn(x, i) = ki /(nV)

40 k legközelbbi szomszéd osztályozó
40 k legközelbbi szomszéd osztályozó Itt ki/k azon minták aránya, amelyek címkéje i A minimális hibaarány eléréséhez a cellában kiválasztjuk a leggyakrabban reprezentált kategóriát (osztályt) Ha k nagy akkor a hatékonyság közelíti a lehető legjobbat

41 41

42 Példa ? kor hitelkeret havi bev. elhagy <21 nincs < 50K igen
21-50 van 50K-200K 50< nem 200K< ? k=3 Távolság metrika = hány indexen különböznek a diszkrét értékek

43 Nem paraméteres osztályozók
van paraméterük! Bayes osztályozóból vannak levezetve úgy hogy a valószínűségi becslésekre nem paraméteres eloszlásokat használnak Parzen-ablak osztályozó kernel és h ablakméret likelihood becslésére K-legközelebbi szomszéd osztályozó távolság metrika és k szomszédszám posteriori becslésére

44 Távolság metrikák érzékenysége

45

46 Bayes osztályozó megvalósítások a gyakorlatban
Összefoglalás Bayes osztályozó megvalósítások a gyakorlatban Paraméteres Nem paraméteres Likelihood becslése (generatív) Naive Bayes Parzen ablak osztályozó Posteriori becslése (diszkriminatív) Logisztikus Regresszió k legközelebbi szomszéd osztályozó


Letölteni ppt "3(+1) osztályozó a Bayes világból"

Hasonló előadás


Google Hirdetések