Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John.

Hasonló előadás


Az előadások a következő témára: "Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John."— Előadás másolata:

1 Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, with the permission of the authors and the publisher

2 Eloszlások paramétereinek becslése Maximum-likelihood illetve Bayes-módszerrel
Emlékeztető: A Bayes-szabály optimális döntést ad… …Viszont feltételezi az eloszlások ismeretét Mai téma: az eloszlások paramétereinek becslése tanítóadatok alapján

3 Bevezetés A Bayes döntési szabály Osztályozó készítése tanítópéldákból
Optimális osztályozót tudnánk készíteni az alábbiak ismeretében: P(i) (a priori valószínűségek) P(x | i) (a jellemzők osztályonkénti eloszlása) Azonban a gyakorlatban ezek a legritkább esetben ismertek! – Általában csak példáink vannak Osztályozó készítése tanítópéldákból Az a priori eloszlás becslése nem okoz gondot Az osztályonkénti eloszlás becslése nehezebb (magas dimenziószám, gyakran kevés példa) Pattern Classification, Chapter 3 1

4 A priori információ (feltételezés) a tanulandó eloszlásról:
Feltételezzük, hogy P(x | i) normális eloszlás: P(x | i) ~ N( i, i) Így csak a 2 parameterét kell megbecsülni Paraméterbecslési módszerek: Maximum-Likelihood (ML) becslés, illetve Bayes-becslés Hasonló eredményre vezetnek, de más elvi háttéren alapulnak Bármelyiket válasszuk is, a kapott P(x| i) becslést ugyanúgy használjuk osztályozáskor Pattern Classification, Chapter 3 1

5 Maximum likelihood becslés:
Feltételezi, hogy a paraméterek értéke rögzített, csak számunkra ismeretlen Legjobb paraméterértéknek azt az értéket tekinti, ami legjobban magyarázza (max. valószínűséget rendel) a tanítópéldákhoz Bayes-becslés: A paramétereket is valószínűségi változóként kezeli, így azok eloszlását keresi Ehhez kiindul egy feltételezett egy a priori eloszlásból, melyet a tanítópéldák segítségével pontosít Pattern Classification, Chapter 3 1

6 Maximum-likelihood becslés
A lehető legegyszerűbb megoldás Jól konvergál a tanító-adatbázis méretének növekedésével Modellezési feltevések Tfh. c osztályunk van, és mindegyik eloszlását egy-egy normális eloszlással közelítjük: P(x | j) ~ N( j, j) A tanulandó paramétereket egy adott osztály esetén jelölje Pattern Classification, Chapter 3 2

7 A „likelihood” célfüggvény
Tanítópéldák Tfh a D tanító-adatbázis n mintából áll: x1, x2,…, xn A minták egymástól függetlenek és ugyanabból a megtanulandó eloszlásból származnak („iid” feltevés) A „likelihood” célfüggvény  „maximum-likelihood” becslésén azt az értéket fogjuk érteni, amely maximizálja P(D | )-t “Az a  érték, amely legjobban magyarázza az aktuálisan megfigyelt tanítópéldákat” A „log-likelihood” célfüggvény l() = ln P(D | ) Optimuma ugyanott van, de egyszerűbb kezelni! Pattern Classification, Chapter 3 2

8 Szemléltetés: Gauss-eloszlás, szórás ismert, a várható értéket keressük
Tanítópéldák és négy „jelölt” A likelihood-fgv. ( a változó, nem szabályos eloszlás!) A log-likelihood-fgv. (itt is  a változó) Pattern Classification, Chapter 3 2

9 A log-likelihood maximalizálása
Keressük azt a -t, amely maximalizálja az l() log-likelihood-ot: jelölje  a gradiens operátort: l()-ra alkalmazva: Pattern Classification, Chapter 3 2

10 l = 0 Az optimumhelyhez szükséges feltétel:
(megj: esetünkben a vizsgált függvények jellege miatt elégséges is lesz) Pattern Classification, Chapter 3 2

11 Példa: többváltozós normális eloszlás,  az ismeretlen
 =  , így a kielégítendő feltétel: átrendezve: Azaz az ML-becslés tkp. a tanítópéldák átlagaként kapható meg! Pattern Classification, Chapter 3 2

12 2. példa: egyváltozós Gauss-eloszlás,  és  is ismeretlen
azaz  = (1, 2) = (, 2) Pattern Classification, Chapter 3 2

13 Az összes példára összegezve:
Kombinálva (1)-et és (2)-t, azt kapjuk hogy: Pattern Classification, Chapter 3 2

14 3. példa: többváltozós eset (levezetés nélkül)
Pattern Classification, Chapter 3 2

15 Megj: a 2 -re (illetve Σ-ra) kapott becslés torzít
ugyanis n-elemű mintákon vizsgálva a várható értékét: Ezért használhatjuk helyette a minta kovarianciamátrixát: De általában n olyan nagy, hogy az (n-1)/n tényezőnek nincs gyakorlati jelentősége Pattern Classification, Chapter 3 2

16 Bayes-paraméterbecslés
-t is valószínűségi változóként kezeli, nem pedig rögzített de ismeretlen paraméterként A P() eloszlást a priori tudásként ismertnek tekintjük A D tanítópéldák alapján keressük P( | D)-t Majd ennek segítségével írjuk fel P(x | D)-t (ezt használjuk majd az osztályozás során P(x | j)-ként, minden osztály Dj példáira külön-külön becsülve) Pattern Classification, Chapter 3 3

17 (mint mondtuk, P() azaz 0 és 0 is ismert!)
Mint korábban, az eloszlásokat ismert alakúnak (normális eloszlás) tekintjük, és csak a paramétereiket keressük Jelölések: Példa: P(x|) egyváltozós Gauss-eloszlás  ismert, csak -t keressük, azaz az ismeretlen paraméter-eloszlás P( | D)= P( | D) (mint mondtuk, P() azaz 0 és 0 is ismert!)  ismert a priori eloszlása  n adatból becsült posterior eloszlása adatok eloszlása adott  esetén Pattern Classification, Chapter 3 4

18 (mivel a nevező nem függ -től)
Felhasználva a P( | D) alakjára tett feltevést: (1)-(2)-ből hosszas levezetéssel kapjuk: ( a példák átlaga) Pattern Classification, Chapter 3 4

19 Értelmezés: - 0 A legjobb a priori becslésünk -re, 0 kifejezi a bizonytalanságunk n képlete súlyozott összegzéssel kombinálja 0-t és az adatok átlagát Ha n ∞, 0 súlya egyre kisebb, σn (a bizonytalanság) egyre csökken (ld. ábra!) érdekes spec. esetek: 0=0, ill. 0>>  Pattern Classification, Chapter 3 4

20 P(x | D) kiszámítása P( | D) megvan, P(x | D) még kiszámítandó!
Levezethető, hogy P(x | D) normális eloszlás az alábbi paraméterekkel: Tehát n lesz a várható érték, σ-hoz pedig hozzáadódik σn, kifejezve a -re vonatkozó bizonytalanságot Többváltozós eset (ismert , ismeretlen Σ): hasonló eredmény Pattern Classification, Chapter 3 4

21 Bayes-paraméterbecslés: általános eset
P(x | D) becsülhető minden olyan esetben, amikor a sűrűségfüggvényt parametrikus formában keressük; az alapvető feltevések: P(x | ) formája ismert, csak  pontos értéke ismeretlen -ra vonatkozó ismereteink P() ismeretének formájában állnak rendelkezésre Összes többi -ra vonatkozó ismeretünket n db P(x) -ből származó D={ x1, x2, …, xn } minta tartalmazza Pattern Classification, Chapter 3 5

22 P( | D) levezetése P(x | D) levezetése Megoldás két lépésben:
Előbbihez a Bayes-formula, illetve a függetlenségi feltevés kell: Utóbbihoz: Megj.: ez sokszor nem vezethető le zárt képlettel, ezért numerikusan (pl. Gibbs algorithm), vagy simán a maximumával közelítik Pattern Classification, Chapter 3 5

23 A dimenziószám hatása a pontosságra
A gyakorlatban a jellemzők száma ig felmehet Az osztályozás pontossága erősen függ a jellemzők számától és a rendelkezésre álló tanítópéldák mennyiségétől Egyszerű, formálisan vizsgálható eset: 2 osztály, normális eloszlás, azonos kovarianciamátrix Pattern Classification, Chapter 3 7

24 Független jellemzők esetén:
Ez alapján a leghasznosabb jellemzők azok, amelyeknél az osztályonkénti várható értékek különbsége nagy a szóráshoz viszonyítva A gyakorlatban gyakran tapasztaljuk, hogy a jellemzőszám növelésével romlik az eredmény: rossz modellt választottunk, illetve egyre nehezebb pontosan becsülni a paramétereket a véges számú példából  “Curse of dimensionality” Pattern Classification, Chapter 3 7

25 Egy példa, ahol az új jellemzők segítenek: 1-2-3 jellemző esetén egyre kisebb az átfedés
7 7 Pattern Classification, Chapter 3 7

26 Az ML-becslés számítási komplexitása
A c osztály mindegyikére normális eloszlást illesztünk, d dimenzióban n tanítópélda alapján A diszkriminanciafüggvény és a számításához szükséges paraméterek:  és Σ becslése: O(dn) ill. O(d2n) mátrixinverzió, determináns: O(d3) ill. O(d2), de n>>d Totál = O(d2.n); c osztályra O(cd2n)  O(d2n) konklúzió: a költség nő, ha d és n nagy! Pattern Classification, Chapter 3 7

27 Jellemzőtranszformációs módszerek
Jellemzők kombinálása egy alacsonyabb dimenziószámú reprezentáció érdekében Matematikailag legegyszerűbb és legkönnyebben számíható a lineáris kombináció Tkp. levetítjük a sokdimenziós adatokat egy alacsonyabb dimenziójú térbe Két klasszikus megoldás „optimális” lineáris transzformációra: PCA (Principal Component Analysis) “Olyan projekció, amely legjobban leírja az adatokat a legkisebb-négyzetes hiba szerint” MDA (Multiple Discriminant Analysis) “Olyan projekció, amely a legjobban szeparálja az osztályokat a legkisebb-négyzetes hiba szerint” Pattern Classification, Chapter 3 8

28 Rejtett Markov-Modellek Cél: időbeli sorozatok modellezése
Folyamatok kezelése, ahol a t. esemény a korábbi események függvényében felírható Alkalmazások: beszédfelismerés, szófaji azonosítás, DNS-szekvenálás, … A rendszer egy T-lépéses T = {(1), (2), (3), …, (T)} állapotsorozaton megy végig pl: 6 = {1, 4, 2, 2, 1, 4} Többször is mehet ugyanabba az állapotba, és nem kötelező minden állapotba eljutnia Pattern Classification, Chapter 3 10

29 Markov-láncok (ez még nem rejtett!!) Elsőrendű Markov-modell
A következő állapot csak az aktuális állapottól függ A két állapothoz átmeneti valószínűséget rendelünk: P(j(t + 1) | i (t)) = aij Pattern Classification, Chapter 3 10

30 Magasabb rendű Markov-láncok
A rendszer paraméterei:  = (aij) A korábbi példa-sorozat valószínűsége: P(T | ) = P((1) = 1) *a14 * a42 * a22 * a21 * a14 Magasabb rendű Markov-láncok függés az előző k állapottól P( (t+1))≈ P(t+1 | t , t-1 ,…, t-k ) alkalmazás pl: természetes nyelvi szósorozatok valószínűségének modellezése, becslése Pattern Classification, Chapter 3 10

31 Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, with the permission of the authors and the publisher

32 A rejtett Markov-modell
Az állapotsorozat közvetlenül nem megfigyelhető („rejtett”), csak az általa kibocsátott „megfigyelések” sorozata Pl: beszédfelismerés állapotok: beszédhangok megfigyelések: akusztikus mérések állapotok megfigyelések

33 A rejtett Markov-modell
Az elsőrendű Markov modellt kiegészítjük egy „kibocsátási” komponenssel: bjk=P(Vk(t) | j(t)) - annak a val.sége, hogy a t-edik pillanatban a Vk megfigyelést bocsátja ki a rendszer (láthatóan csak az aktuális állapottól függ) A modellhez kapcsolódó 3 fő kérdés: A kiértékelési probléma A dekódolási probléma A tanítás problémája Pattern Classification, Chapter 3

34 A kiértékelési probléma
Keressük annak a valószínűségét, hogy a modell egy adott VT megfigyelési sorozatot bocsát ki. Ehhez át kellett mennie egy r T-lépéses állapotsorozaton eközben ki kellett bocsátania a VT –t Az ezekhez tartozó valószínűségek: Mivel az áll.sorozat ismeretlen: Pattern Classification, Chapter 3

35 (1)-et és (2)-t beépítve:
Értelmezés: Egy T hosszú VT megfigyeléssorozat valószínűségéhez összegezni kell az összes lehetséges rmax állapotsorozatra annak a valószínűségét, hogy a rendszer bejárta az adott útvonalat, szorozva annak a valószínűségével, hogy eközben pont a kérdéses megfigyeléssorozatot bocsátotta ki. Példa: Legyenek 1, 2, 3 a rejtett áll.; v1, v2, v3 a leh. megfigyelések és V3 = {v1, v2, v3} a ténylegesen megfigyelt sorozat P({v1, v2, v3}) = P(1)*P(v1 | 1)*P(2 | 1)*P(v2 | 2)*P(3 | 2)*P(v3 | 3) +…+ (összesen (33= 27) tag a szummában !) Pattern Classification, Chapter 3

36 v1 v2 v3 Első tag: Második tag: És így tovább, 27 tagra… Fontos gyakorlati megjegyzés: a szumma dinamikus programozással is számolható T-ben exponenciális helyett lineáris időigénnyel!!! 1 (t = 1) 2 (t = 2) 3 (t = 3) v1 v2 v3 2 (t = 1) 3 (t = 2) 1 (t = 3) Pattern Classification, Chapter 3

37 A dekódolási probléma Adott VT megfigyeléssorozathoz keressük a legvalószínűbb rejtett állapotsorozatot (pl. beszédf.: akusztikus sorozat  hangsorozat) Matematikailag: ugyanaz, mint korábban, csak szumma helyett argmax (a legnagyobb taghoz tartozó áll.sorozatot keressük az összeg helyett) Ez is hatékonyan számítható dinamikus programozással (ún. Viterbi-algoritmus) Pattern Classification, Chapter 3

38 A tanítás (paraméterbecslés) problémája
Úgy szereténk beállítani a modell  paramétereit, hogy optimalizáljon egy bizonyos célfüggvényt az adott VT tanítópélda esetén. Ez általában a maximum likelihood célfüggvény: Általában az Expectation-maximization spec. esetét, a Baum-Welch algoritmust használják e célra: iteratív lokális optimumot talál de más, pl. gradiens-alapú módszerek is használhatók Pattern Classification, Chapter 3


Letölteni ppt "Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John."

Hasonló előadás


Google Hirdetések