Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

3(+1) osztályozó a Bayes világból febr. 27.. Előző előadás Bayes döntéselmélet Bayes osztályozó P(  j | x) = P(x |  j ) · P (  j ) / P(x) Ha feltesszük,

Hasonló előadás


Az előadások a következő témára: "3(+1) osztályozó a Bayes világból febr. 27.. Előző előadás Bayes döntéselmélet Bayes osztályozó P(  j | x) = P(x |  j ) · P (  j ) / P(x) Ha feltesszük,"— Előadás másolata:

1 3(+1) osztályozó a Bayes világból febr. 27.

2 Előző előadás Bayes döntéselmélet Bayes osztályozó P(  j | x) = P(x |  j ) · P (  j ) / P(x) Ha feltesszük, hogy a posterior ismert normális eloszlást követ Paraméterbecslési módszerek ha paraméteres eloszlást feltételezünk és tanító adatbázis rendelkezésre áll

3 Példa adatbázis korhitelkerethavi bev.elhagy? <21nincs< 50Kigen 21-50van50K-200Kigen 50

4 Naϊve Bayes osztályozó

5 Bayes osztályozó ahol feltesszük, hogy a jellemzők egymástól feltételesen függetlenek egy adott osztály mellett Legyen két osztály, valamint x = [x 1, x 2, …, x d ] t ahol minden x i bináris, az alábbi valószínűségekkel: p i = P(x i = 1 |  1 ) q i = P(x i = 1 |  2 )

6 Diszkriminancia-függvény (modell):

7 p i = P(x i = 1 |  1 ) és q i = P(x i = 1 |  2 ) becslése N darab tanító példából tfh. p és q binomiális eloszlást követ (visszatevéses mintavétel modellezése) Maximum-likelihood módszerrel: Naive Bayes tanítása - MLE

8 tfh. a becslési prior Beta eloszlásból jön Naive Bayes tanítása – Bayes becslés X ~ Beta(a,b) E [X]=1/(1+b/a)

9 az eredeti p i likelihood binomiális eloszlást követ a becslésre egy Beta(a,b)-t használunk … a Bayes becslés 2 lépése … Naive Bayes tanítása – Bayes becslés

10 Ugyanez átjelöléssel: (így egyszerűbb a gyakorlatban) –0 likelihood/posteriori elkerülése –m és p konstansok (paraméterek) –p a priori becslés p i -re –m az „ekvivalens mintaszám” Naive Bayes tanítása – Bayes becslés (m-becslés)

11 nem is olyan naív nagyon gyors, párhuzamosítható kis memóriaigény irreleváns jellemzők „kiátlagolódnak” jó megoldás ha –nagyon sok, –egyenlően fontos jellemzőnk van Naϊve Bayes osztályozó a gyakorlatban

12 Példa korhitelkerethavi bev.elhagy <21nincs< 50Kigen 21-50van50K-200Kigen 5050|  =igen) = (0+mp) / 2+m P(nincs|  =igen) P(200K<|  =igen)

13 Generatív vs. Diszkriminatív osztályozók Generatív: Egy rejtett állapota a rendszernek generálja a megfigyeléseinket Likelihood P(x |  j ) és apriori P(  j ) becslése Diszkriminatív: Cél az egyes osztályok elkülönítése Közvetlenül az a posteriori P(  j | x) valószínűségek becslése  x1x1 x2x2 x3x3  x1x1 x2x2 x3x3

14 Logisztikus Regresszió (Maximum Entrópia Osztályozó) Két osztály esetén:

15 Nem paraméteres osztályozások

16 16 Nem paraméteres eljárások Nem paraméteres eljárások alkalmazhatók tetszőleges eloszlásnál, anélkül, hogy bármit feltételeznénk a sűrűségfgvek alakjáról L ikelihood P(x |  j ) becslése vagy közvetlenül az a posteriori P(  j | x) valószínűségek becslése

17 Pattern Classification, Chapter 2 (Part 1) 17 Sűrűség becslése –Legye p(x) a becsülni kívánt sűrűségfüggvény –Annak valószínűsége, hogy egy pont az R-be esik: –Ha n elemű mintánk van, akkor az R–be eső pontok számának várható értéke k E(k) = nP

18 18 Maximum likelihood becsléssel: p(x) folytonos, és ha R elég kicsi, akkor p nem változik lényegesen R-en: Ahol x R –beli pont, és V az R térfogata. Sűrűség becslése

19 19 A V-nek mindenképpen nullához kell tartania, ha ezt a becslést használni akarjuk a pontszerű x-hez tartozó p(x)-re V a gyakorlatban nem lehet nagyon kicsi, mert a minták száma korlátozott A k/n hányadosoknál el kell fogadni egy kis bizonytalanságot… Iteratív becslési folyamat

20 20 Három szükséges feltétele van, hogy Sűrűség becslés aszimptotikus tulajdonságai

21 21

22 fix méretű és alakú R régiókkal dolgozunk V állandó p(x)-et egy kérdéses x pontban az R-be eső pontok száma alapján becsüljük (azaz leszámoljuk k-t) Parzen ablakok

23 23 Parzen ablakok - hiperkocka R egy d-dimenziós hiperkocka  ( (x-x i )/h n ) akkor 1, ha x i az x középpontú V hiperkockába esik, 0 különben. (  -t kernelnek nevezzük)

24 24 minták száma ebben a hiperkockában: behelyettesítve: Parzen ablakok - hiperkocka

25 Általános eset p n (x) úgy becsüli p(x)-et, mint az átlaga valamilyen távolságnak az x pont és az (x i ) (i = 1,…,n) minták közt  tetszőleges fgv-e lehet két pont távolságának

26 26 p(x) ~ N(0,1) esete Legyen  (u) = (1/  (2  ) exp(-u 2 /2) és h n = h 1 /  n (n>1) olyan normális sűrűségek átlaga, melyek középpontjai x i -kben vannak. Parzen ablakok - példa

27 27

28 28

29 29 Analóg eredmények kaphatók két dimenzióban is:

30 30

31 31 p(x) ?

32 32 p(x) = 1 U(a,b) + 2 T(c,d) (egyenletes és háromszög eloszlás keveréke)

33 33 Minden osztálynál becsüljük a likelihood sűrűségeket (aprioiri egyszerűen közelítendő), aztán a maximális a posteriori valószínűségnek megfelelően osztályozunk A Parzen-ablakokhoz tartozó döntési tartományok az ablak-függvény választásától függenek Osztályozás a Parzen ablakok módszerével

34 34

35 35 Az ismeretlen “legjobb” ablak függvény problémájának megoldása: Legyen V a mintaelemek számának függvénye Az x legyen középpontja egy cellának, növeljük addig, amíg k mintát (k = f(n)) tartalmaz Az így kapott mintákat nevezzük az x k legközelebbi szomszédjának k legközelbbi szomszéd becslés

36 © Ethem Alpaydin: Introduction to Machine Learning. 2nd edition (2010) 36

37 37 k nearest neighbour (knn) P(  i | x) közvetlen becslése n címkézett minta segítségével –Vegyünk egy cellát x körül ami k elemet tartalmaz –Ha k i db minta (a k közül) tartozik  i –hez: p n (x,  i ) = k i /(nV) k legközelbbi szomszéd osztályozó

38 38 Itt k i /k azon minták aránya, amelyek címkéje  i A minimális hibaarány eléréséhez a cellában kiválasztjuk a leggyakrabban reprezentált kategóriát (osztályt) Ha k nagy akkor a hatékonyság közelíti a lehető legjobbat k legközelbbi szomszéd osztályozó

39 39

40 Példa korhitelkerethavi bev.elhagy <21nincs< 50Kigen 21-50van50K-200Kigen 50

41 Nem paraméteres osztályozók van paraméterük! Bayes osztályozóból vannak levezetve úgy hogy a valószínűségi becslésekre nem paraméteres eloszlásokat használnak Parzen-ablak osztályozó –kernel és h ablakméret –likelihood becslésére K-legközelebbi szomszéd osztályozó –távolság metrika és k szomszédszám –Posteriori becslésére

42 Távolság metrikák érzékenysége

43

44 Összefoglalás Bayes osztályozó megvalósítások a gyakorlatban ParaméteresNem paraméteres Likelihood becslése (generatív) Naive BayesParzen ablak osztályozó Posteriori becslése (diszkriminatív) Logisztikus Regressziók legközelebbi szomszéd osztályozó


Letölteni ppt "3(+1) osztályozó a Bayes világból febr. 27.. Előző előadás Bayes döntéselmélet Bayes osztályozó P(  j | x) = P(x |  j ) · P (  j ) / P(x) Ha feltesszük,"

Hasonló előadás


Google Hirdetések