Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors and the publisher
Bevezetés Bayes döntéselmélet – folytonos tulajdonságok
Bevezetés A tengeri sügér / lazac példa A természet állapota, a priori ismeretek A természet állapota véletlen változó A tengeri sügér és a lazac kifogása egyenlően valószínű P(1) = P(2) (egyenletes a priori) P(1) + P( 2) = 1 (csak ezeket foghatjuk ki, nincs átfedés) Pattern Classification, Chapter 2 (Part 1)
Döntési szabály, csak az a priori valószínűségeket használva Válasszuk 1-et, ha P(1) > P(2) különben 2-t Az osztályokhoz tartozó valószínűség-eloszlások használata P(x | 1) és P(x | 2) leírja a különbséget a tengeri sügérek és a lazacok világossága között Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
A pesteriori, valószínűség, előre adottság P(j | x) = P(x | j) . P (j) / P(x) Két osztály esetén A posteriori = valószínűség. A priori = előre adott Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Az a posteriori valószínűségek ismeretében a döntés: Ha X egy megfigyelés, amelyre: P(1 | x) > P(2 | x) akkor a valós állapot = 1 P(1 | x) < P(2 | x) akkor a valós állapot = 2 Ekkor az X megfigyelés mellett a hiba valószínűsége: P(hiba | x) = P(1 | x) ha 2-t választottunk P(hiba | x) = P(2 | x) ha 1-t választottunk Pattern Classification, Chapter 2 (Part 1)
Hiba valószínűségének minimalizálása Döntsünk 1–et, ha P(1 | x) > P(2 | x); egyébként döntsünk (válasszunk) 2 –öt Ilyenkor: P(error | x) = min [P(1 | x), P(2 | x)] (Bayes döntés pont ilyen!) Pattern Classification, Chapter 2 (Part 1)
Bayes döntéselmélet – folytonos tulajdonságok Az előző ötlet általánosításai Több, mint egy tulajdonság Több, mint két osztály Nemcsak döntések, hanem egyéb tevékenységek (akciók) megengedése Veszteségfüggvény bevezetése (ez a hibavalószínűségnél általánosabb fogalom lesz) Pattern Classification, Chapter 2 (Part 1)
Ilyenkor (a rossz esetekben) nem döntünk Az osztályozástól eltérő tevékenységek alapjában véve az elutasítást engedik meg Ilyenkor (a rossz esetekben) nem döntünk A veszteségfüggvény definiálja majd, melyik tevékenységünknek mennyi a költsége Pattern Classification, Chapter 2 (Part 1)
Legyenek {1, 2,…, c} a természet lehetséges állapotai egy kísérletnél (osztályok, kategóriák) Legyenek {1, 2,…, a} a lehetséges cselekvések (akciók, tevékenységek) Jelölje (i | j) azt a veszteséget, amellyel az i cselekvés jár, amennyiben a természet állapota (osztály) j volt. Pattern Classification, Chapter 2 (Part 1)
R minimalizálása R(i | x) minimalizálása i = 1,…, a A teljes kockázat: R = R(i | x)-k összege (i = 1,…,a) R minimalizálása R(i | x) minimalizálása i = 1,…, a i = 1,…,a Feltételes kockázat Pattern Classification, Chapter 2 (Part 1)
Válasszuk azon i cselekvést, amelyre R(i | x) minimális R ekkor minimális és ebben az esetben Bayes kockázatnak nevezzük – ez a legjobb, amit el tudunk érni Pattern Classification, Chapter 2 (Part 1)
Két kategóriás osztályozó 1 : válasszuk 1-t 2 : válasszuk 2 -t ij = (i | j) Jelöli azt a veszteséget, amit i választása jelent, ha a természet állapota j Feltételes kockázat: R(1 | x) = 11P(1 | x) + 12P(2 | x) R(2 | x) = 21P(1 | x) + 22P(2 | x) Pattern Classification, Chapter 2 (Part 1)
Akkor az 1 cselekvés: “döntés: 1” Szabályunk:: ha R(1 | x) < R(2 | x) Akkor az 1 cselekvés: “döntés: 1” Másképpen megfogalmazva: : Döntés: 1,ha: (21- 11) P(x | 1) P(1) > (12- 22) P(x | 2) P(2) Különben döntés: 2 Pattern Classification, Chapter 2 (Part 1)
Valószínűség-hányados: Az előző szabály ekvivalens a következővel: Akkor akció 1 (döntés: 1) Különben akció 2 (döntés: 2) Pattern Classification, Chapter 2 (Part 1)
Optimális döntési tulajdonság “Ha a valószínűségi hányados meghalad egy küszöbértéket (az x bemeneti mintától függetlenül), akkor optimális akciót választhatunk” Pattern Classification, Chapter 2 (Part 1)
Gyakorlat Adjuk meg az optimális döntést, ha: = {1, 2} P(x | 1) N(2, 0.5) (Normális eloszlás) P(x | 2) N(1.5, 0.2) P(1) = 2/3 P(2) = 1/3 Pattern Classification, Chapter 2 (Part 1)
Bayes döntéselmélet Minimális hibaarányú osztályozások Osztályozók, diszkriminancia függvények, döntési felületek A normális eloszlás esete
Minimális hibaarányú osztályozások Tevékenységek: „osztály választása” döntés Ha az i tevékenységet végezzük és a valóság igazi állapota j akkor: a döntés helyes, ha i = j , hibás (hiba), ha i j Olyan döntési szabályt keresünk, amelyik minimalizálja a hiba valószínűségét (ezt nevezzük hibaaránynak) Pattern Classification, Chapter 2 (Part 1)
Nulla-egy veszteségfüggvény: Ekkor a feltételes kockázat: “Az ehhez a veszteségfüggvényhez tartozó kockázat az átlagos hibavalószínűség” Pattern Classification, Chapter 2 (Part 1)
A minimális hibaarányhoz: A kockázat minimalizálásához maximalizálni kell: P(i | x)-t (mivel R(i | x) = 1 – P(i | x)) A minimális hibaarányhoz: Döntés: i ha P (i | x) > P(j | x) j i Pattern Classification, Chapter 2 (Part 1)
Döntési tartományok a nulla-egy veszteségfüggvénynél: Ha nulla-egy veszteségfüggvény, vagyis: Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Osztályozók, diszkriminancia függvények, döntési felületek A több osztályos (kategóriás) eset Diszkriminancia függvények halmaza: gi(x), i = 1,…, c Az osztályozó egy x tulajdonságvektort az i osztályhoz rendel, ha: gi(x) > gj(x) j i Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Legyen gi(x) = - R(i | x) (a legnagyobb diszkriminancia érték a minimális kockázatnak felel meg!) A minimális hibaarányt használva gi(x) = P(i | x) (a legnagyobb diszkriminancia a maximális a posteriori valószínűségnek felel meg) gi(x) P(x | i) P(i) gi(x) = ln P(x | i) + ln P(i) (ln: természetes logaritmus!) Pattern Classification, Chapter 2 (Part 1)
A tulajdonságtet c tartományra osztjuk fel: ha gi(x) > gj(x) j i akkor x Ri (Ri jelentése: ha x Ri , akkor I választása) Két osztályos eset Az osztályozóhoz két diszkriminancia-függvény: g1 és g2 szükséges Legyen g(x) g1(x) – g2(x) Válasszuk 1-et, ha g(x) > 0 ; különben 2-et Pattern Classification, Chapter 2 (Part 1)
g(x) kiszámítása: Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
A normális eloszlás Egyváltozós eset Ahol: = az X várható értéke Kezelhető sűrűségfggvény Folytonos Nagyon sok elsozlás aszimptotikusan normális Kézírásos karakterek, beszédjelek jól jellemezhetők véletlen folyamatonként (centrális határeloszlás-tétel) Ahol: = az X várható értéke 2 = szórásnégyzet (variancia) Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Többváltozós sűrűségfüggvény A többváltozós normális eloszlás sűrűségfüggvénye: ahol: x = (x1, x2, …, xd)t (t a transzponált vektor) = (1, 2, …, d)t a várható érték vektor = d*d a kovariancia-mátric || illetve -1 a determináns illetve az inverz mátrix Pattern Classification, Chapter 2 (Part 1)
Bayes döntéselmélet A normális eloszlásokhoz tartozó diszkriminancia függvények Bayes döntéselmélet – diszkrét tulajdonságok
A normális eloszláshoz tartozó diszkriminancia függvények A minimális hibaarányú osztályozóhoz tartozó diszkriminancia függvények gi(x) = ln P(x | i) + ln P(i) Többváltozós normális eloszlásnál Pattern Classification, Chapter 2 (Part 1)
i = 2.I esete (I az egységmátrix) Pattern Classification, Chapter 2 (Part 1)
A lineáris diszkriminancia függvényeket használó osztályozót “lineáris gépnek” nevezzük A lineáris géphez tartozó döntési felületek az alább hipersíkokkal definiáltak: gi(x) = gj(x) Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
mindig merőleges a várható értékeket összekötő egyenesre! Az Ri és Rj elválasztó hipersíkja, mindig merőleges a várható értékeket összekötő egyenesre! Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
i = esete (a kovarianciamátrixok azonosak (de tetszőlegesek!) Az Ri és Rj elválasztó hipersíkja (az Ri és Rj elválasztó hipersíkja általában nem merőleges a várható értékeket összekötő egyenesre!) Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
i = tetszőleges A kovarianciamátrixok minden osztálynál különbözőek (Hiperkvadratikusok: hipersíkok, hipersíkok párjai, hipergömbök, hiperellipszoidok, hiperparaboloidok, hiperboloidok) Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Pattern Classification, Chapter 2 (Part 1)
Bayes Döntéselmélet – diszkrét tulajdonságok Az x komponensei bináris vagy egesz értékűek lehetnek, legfeljebb m diszkrét értéket vehetnek fel: v1, v2, …, vm Független bináris változók, két osztályos probléma. Legyen x = [x1, x2, …, xd ]t ahol minden xi 0 vagy 1, az alábbi valószínűségekkel: pi = P(xi = 1 | 1) qi = P(xi = 1 | 2) Pattern Classification, Chapter 2 (Part 1)
Ekkor a diszkriminancia-függvények: Pattern Classification, Chapter 2 (Part 1)