3(+1) osztályozó a Bayes világból febr. 25.
Előző előadás Bayes döntéselmélet Bayes osztályozó P(j | x) = P(x | j ) · P (j ) / P(x) Ha feltesszük, hogy a posterior ismert normális eloszlást követ Paraméterbecslési módszerek ha paraméteres eloszlást feltételezünk és tanító adatbázis rendelkezésre áll
Példa adatbázis ? kor hitelkeret havi bev. elhagy? <21 nincs igen 21-50 van 50K-200K 50< nem 200K< ?
Naϊve Bayes osztályozó
Naϊve Bayes osztályozó A Naive Bayes egy olyan Bayes osztályozó ahol feltesszük, hogy a jellemzők egymástól feltételesen függetlenek egy adott osztály mellett, azaz a likelihood:
Naϊve Bayes osztályozó Legyen két osztály, valamint x = [x1, x2, …, xd ]t ahol minden xi bináris, az alábbi valószínűségekkel: pi = P(xi = 1 | 1) qi = P(xi = 1 | 2)
Diszkriminancia-függvény:
Naive Bayes tanítása - MLE pi = P(xi = 1 | 1 ) és qi = P(xi = 1 | 2 ) becslése N darab tanító példából tfh. p és q binomiális eloszlást követ (visszatevéses mintavétel modellezése) Maximum-likelihood módszerrel:
Naive Bayes tanítása – Bayes becslés tfh. a becslési prior Beta eloszlásból jön X ~ Beta(a,b) E [X]=1/(1+b/a)
Naive Bayes tanítása – Bayes becslés az eredeti pi likelihood binomiális eloszlást követ a becslésre egy Beta(a,b)-t használunk … a Bayes becslés 2 lépése …
Naive Bayes tanítása – Bayes becslés (m-becslés) Ugyanez átjelöléssel: (így egyszerűbb a gyakorlatban) 0 likelihood/posteriori elkerülése m és p konstansok (paraméterek) p a priori becslés pi-re m az „ekvivalens mintaszám”
Naϊve Bayes osztályozó a gyakorlatban nem is olyan naív nagyon gyors, párhuzamosítható kis memóriaigény irreleváns jellemzők „kiátlagolódnak” jó megoldás ha nagyon sok, egyenlően fontos jellemzőnk van
Példa ? P() kor hitelkeret havi bev. elhagy <21 nincs < 50K igen 21-50 van 50K-200K 50< nem 200K< ? P(kor>50| =igen) = (0+mp) / 2+m P(nincs| =igen) P(200K<| =igen)
Generatív vs. Diszkriminatív osztályozók Egy rejtett állapota a rendszernek generálja a megfigyeléseinket Likelihood P(x | j ) és apriori P(j ) becslése Diszkriminatív: Cél az egyes osztályok elkülönítése Közvetlenül az a posteriori P(j | x) valószínűségek becslése x1 x2 x3 x1 x2 x3
Logisztikus Regresszió (Maximum Entrópia Osztályozó) Két osztály esetén:
Nem paraméteres osztályozások
Nem paraméteres eljárások 17 Nem paraméteres eljárások Nem paraméteres eljárások alkalmazhatók tetszőleges eloszlásnál, anélkül, hogy bármit feltételeznénk a sűrűségfgvek alakjáról Likelihood P(x | j ) becslése vagy közvetlenül az a posteriori P(j | x) valószínűségek becslése
Sűrűség becslése 18 Legye p(x) a becsülni kívánt sűrűségfüggvény Annak valószínűsége, hogy egy pont az R-be esik: n elemű mintánk van, az R–be eső pontok számának várható értékét jelölje k E(k) = nP Pattern Classification, Chapter 2 (Part 1)
Sűrűség becslése Maximum likelihood becsléssel: 19 Sűrűség becslése Maximum likelihood becsléssel: p(x) folytonos, és ha R elég kicsi, akkor p nem változik lényegesen R-en: Ahol x R –beli pont, és V az R térfogata.
Iteratív becslési folyamat 20 Iteratív becslési folyamat V nullához tart, azaz egyre jobban közelítünk a pontszerű x-hez tartozó p(x)-hez V a gyakorlatban nem lehet nagyon kicsi, mert a minták száma korlátozott A k/n hányadosoknál el kell fogadni egy kis bizonytalanságot…
Sűrűség becslés aszimptotikus tulajdonságai 21 Sűrűség becslés aszimptotikus tulajdonságai Három szükséges feltétele van, hogy
22
Parzen ablakok fix méretű és alakú R régiókkal dolgozunk V állandó p(x)-et egy kérdéses x pontban az R -be eső pontok száma alapján becsüljük (azaz leszámoljuk k-t)
Parzen ablakok - hiperkocka 24 Parzen ablakok - hiperkocka R egy d-dimenziós hiperkocka ( (x-xi)/hn ) akkor 1, ha xi az x középpontú V hiperkockába esik, 0 különben. (-t kernelnek nevezzük)
Parzen ablakok - hiperkocka 25 Parzen ablakok - hiperkocka minták száma ebben a hiperkockában: behelyettesítve:
Általános eset pn(x) úgy becsüli p(x)-et, mint az átlaga valamilyen távolságnak az x pont és az (xi) (i = 1,… ,n) minták közt tetszőleges fgv-e lehet két pont távolságának
Parzen ablakok - példa p(x) ~ N(0,1) esete 27 Parzen ablakok - példa p(x) ~ N(0,1) esete Legyen (u) = (1/(2) exp(-u2/2) és hn = h1/n (n>1) olyan normális sűrűségek átlaga, melyek középpontjai xi-kben vannak.
28
29
Analóg eredmények kaphatók két dimenzióban is: 30 Analóg eredmények kaphatók két dimenzióban is:
31
32 p(x) ?
33 p(x) = 1U(a,b) + 2T(c,d) (egyenletes és háromszög eloszlás keveréke)
Osztályozás a Parzen ablakok módszerével 34 Minden osztálynál becsüljük a többdimenziós likelihood sűrűségeket (aprioiri egyszerűen közelítendő), aztán a maximális a posteriori valószínűségnek megfelelően osztályozunk A Parzen-ablakokhoz tartozó döntési tartományok az ablak-függvény választásától függenek
35
Példa ? P() kor hitelkeret havi bev. elhagy <21 nincs < 50K igen 21-50 van 50K-200K 50< nem 200K< ? P(kor>50, nincs hitel, 200K<hevi. bev | =igen) = ? legyen 1 ha x és xi legalább 1 jellemzőnél egyezik legyen 0 egyébként
k legközelbbi szomszéd becslés 37 k legközelbbi szomszéd becslés Az ismeretlen “legjobb” ablak függvény problémájának megoldása: Legyen V a mintaelemek számának függvénye Az x legyen középpontja egy cellának, növeljük addig, amíg k mintát (k = f(n)) tartalmaz Az így kapott mintákat nevezzük az x k legközelebbi szomszédjának 2 lehetőség van: Nagy a sűrűség x közelében; ekkor a cella kicsi lesz, és így a felbontás jó lesz Sűrűség kicsi; ekkor a cella nagyra fog nőni, és akkor áll le, amikor nagy sűrűségű tartományt ér el A becslések egy családját kaphatjuk a kn=k1/n választással, a k1 különböző választásai mellett
38 © Ethem Alpaydin: Introduction to Machine Learning. 2nd edition (2010)
k legközelbbi szomszéd osztályozó 39 k legközelbbi szomszéd osztályozó k nearest neighbour (knn) P(i | x) közvetlen becslése n címkézett minta segítségével Vegyünk egy cellát x körül ami k elemet tartalmaz Ha ki db minta (a k közül) tartozik i –hez: pn(x, i) = ki /(nV)
k legközelbbi szomszéd osztályozó 40 k legközelbbi szomszéd osztályozó Itt ki/k azon minták aránya, amelyek címkéje i A minimális hibaarány eléréséhez a cellában kiválasztjuk a leggyakrabban reprezentált kategóriát (osztályt) Ha k nagy akkor a hatékonyság közelíti a lehető legjobbat
41
Példa ? kor hitelkeret havi bev. elhagy <21 nincs < 50K igen 21-50 van 50K-200K 50< nem 200K< ? k=3 Távolság metrika = hány indexen különböznek a diszkrét értékek
Nem paraméteres osztályozók van paraméterük! Bayes osztályozóból vannak levezetve úgy hogy a valószínűségi becslésekre nem paraméteres eloszlásokat használnak Parzen-ablak osztályozó kernel és h ablakméret likelihood becslésére K-legközelebbi szomszéd osztályozó távolság metrika és k szomszédszám posteriori becslésére
Távolság metrikák érzékenysége
Bayes osztályozó megvalósítások a gyakorlatban Összefoglalás Bayes osztályozó megvalósítások a gyakorlatban Paraméteres Nem paraméteres Likelihood becslése (generatív) Naive Bayes Parzen ablak osztályozó Posteriori becslése (diszkriminatív) Logisztikus Regresszió k legközelebbi szomszéd osztályozó