Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaPiroska Barna Megváltozta több, mint 5 éve
1
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, with the permission of the authors and the publisher
2
Eloszlások paramétereinek becslése Maximum-likelihood illetve Bayes-módszerrel
Emlékeztető: A Bayes-szabály optimális döntést ad… …Viszont feltételezi az eloszlások ismeretét Mai téma: az eloszlások paramétereinek becslése tanítóadatok alapján
3
Bevezetés A Bayes döntési szabály Osztályozó készítése tanítópéldákból
Optimális osztályozót tudnánk készíteni az alábbiak ismeretében: P(i) (a priori valószínűségek) P(x | i) (a jellemzők osztályonkénti eloszlása) Azonban a gyakorlatban ezek a legritkább esetben ismertek! – Általában csak példáink vannak Osztályozó készítése tanítópéldákból Az a priori eloszlás becslése nem okoz gondot Az osztályonkénti eloszlás becslése nehezebb (magas dimenziószám, gyakran kevés példa) Pattern Classification, Chapter 3 1
4
A priori információ (feltételezés) a tanulandó eloszlásról:
Feltételezzük, hogy P(x | i) normális eloszlás: P(x | i) ~ N( i, i) Így csak a 2 parameterét kell megbecsülni Paraméterbecslési módszerek: Maximum-Likelihood (ML) becslés, illetve Bayes-becslés Hasonló eredményre vezetnek, de más elvi háttéren alapulnak Bármelyiket válasszuk is, a kapott P(x| i) becslést ugyanúgy használjuk osztályozáskor Pattern Classification, Chapter 3 1
5
Maximum likelihood becslés:
Feltételezi, hogy a paraméterek értéke rögzített, csak számunkra ismeretlen Legjobb paraméterértéknek azt az értéket tekinti, ami legjobban magyarázza (max. valószínűséget rendel) a tanítópéldákhoz Bayes-becslés: A paramétereket is valószínűségi változóként kezeli, így azok eloszlását keresi Ehhez kiindul egy feltételezett egy a priori eloszlásból, melyet a tanítópéldák segítségével pontosít Pattern Classification, Chapter 3 1
6
Maximum-likelihood becslés
A lehető legegyszerűbb megoldás Jól konvergál a tanító-adatbázis méretének növekedésével Modellezési feltevések Tfh. c osztályunk van, és mindegyik eloszlását egy-egy normális eloszlással közelítjük: P(x | j) ~ N( j, j) A tanulandó paramétereket egy adott osztály esetén jelölje Pattern Classification, Chapter 3 2
7
A „likelihood” célfüggvény
Tanítópéldák Tfh a D tanító-adatbázis n mintából áll: x1, x2,…, xn A minták egymástól függetlenek és ugyanabból a megtanulandó eloszlásból származnak („iid” feltevés) A „likelihood” célfüggvény „maximum-likelihood” becslésén azt az értéket fogjuk érteni, amely maximizálja P(D | )-t “Az a érték, amely legjobban magyarázza az aktuálisan megfigyelt tanítópéldákat” A „log-likelihood” célfüggvény l() = ln P(D | ) Optimuma ugyanott van, de egyszerűbb kezelni! Pattern Classification, Chapter 3 2
8
Szemléltetés: Gauss-eloszlás, szórás ismert, a várható értéket keressük
Tanítópéldák és négy „jelölt” A likelihood-fgv. ( a változó, nem szabályos eloszlás!) A log-likelihood-fgv. (itt is a változó) Pattern Classification, Chapter 3 2
9
A log-likelihood maximalizálása
Keressük azt a -t, amely maximalizálja az l() log-likelihood-ot: jelölje a gradiens operátort: l()-ra alkalmazva: Pattern Classification, Chapter 3 2
10
l = 0 Az optimumhelyhez szükséges feltétel:
(megj: esetünkben a vizsgált függvények jellege miatt elégséges is lesz) Pattern Classification, Chapter 3 2
11
Példa: többváltozós normális eloszlás, az ismeretlen
= , így a kielégítendő feltétel: átrendezve: Azaz az ML-becslés tkp. a tanítópéldák átlagaként kapható meg! Pattern Classification, Chapter 3 2
12
2. példa: egyváltozós Gauss-eloszlás, és is ismeretlen
azaz = (1, 2) = (, 2) Pattern Classification, Chapter 3 2
13
Az összes példára összegezve:
Kombinálva (1)-et és (2)-t, azt kapjuk hogy: Pattern Classification, Chapter 3 2
14
3. példa: többváltozós eset (levezetés nélkül)
Pattern Classification, Chapter 3 2
15
Megj: a 2 -re (illetve Σ-ra) kapott becslés torzít
ugyanis n-elemű mintákon vizsgálva a várható értékét: Ezért használhatjuk helyette a minta kovarianciamátrixát: De általában n olyan nagy, hogy az (n-1)/n tényezőnek nincs gyakorlati jelentősége Pattern Classification, Chapter 3 2
16
Bayes-paraméterbecslés
-t is valószínűségi változóként kezeli, nem pedig rögzített de ismeretlen paraméterként A P() eloszlást a priori tudásként ismertnek tekintjük A D tanítópéldák alapján keressük P( | D)-t Majd ennek segítségével írjuk fel P(x | D)-t (ezt használjuk majd az osztályozás során P(x | j)-ként, minden osztály Dj példáira külön-külön becsülve) Pattern Classification, Chapter 3 3
17
(mint mondtuk, P() azaz 0 és 0 is ismert!)
Mint korábban, az eloszlásokat ismert alakúnak (normális eloszlás) tekintjük, és csak a paramétereiket keressük Jelölések: Példa: P(x|) egyváltozós Gauss-eloszlás ismert, csak -t keressük, azaz az ismeretlen paraméter-eloszlás P( | D)= P( | D) (mint mondtuk, P() azaz 0 és 0 is ismert!) ismert a priori eloszlása n adatból becsült posterior eloszlása adatok eloszlása adott esetén Pattern Classification, Chapter 3 4
18
(mivel a nevező nem függ -től)
Felhasználva a P( | D) alakjára tett feltevést: (1)-(2)-ből hosszas levezetéssel kapjuk: ( a példák átlaga) Pattern Classification, Chapter 3 4
19
Értelmezés: - 0 A legjobb a priori becslésünk -re, 0 kifejezi a bizonytalanságunk n képlete súlyozott összegzéssel kombinálja 0-t és az adatok átlagát Ha n ∞, 0 súlya egyre kisebb, σn (a bizonytalanság) egyre csökken (ld. ábra!) érdekes spec. esetek: 0=0, ill. 0>> Pattern Classification, Chapter 3 4
20
P(x | D) kiszámítása P( | D) megvan, P(x | D) még kiszámítandó!
Levezethető, hogy P(x | D) normális eloszlás az alábbi paraméterekkel: Tehát n lesz a várható érték, σ-hoz pedig hozzáadódik σn, kifejezve a -re vonatkozó bizonytalanságot Többváltozós eset (ismert , ismeretlen Σ): hasonló eredmény Pattern Classification, Chapter 3 4
21
Bayes-paraméterbecslés: általános eset
P(x | D) becsülhető minden olyan esetben, amikor a sűrűségfüggvényt parametrikus formában keressük; az alapvető feltevések: P(x | ) formája ismert, csak pontos értéke ismeretlen -ra vonatkozó ismereteink P() ismeretének formájában állnak rendelkezésre Összes többi -ra vonatkozó ismeretünket n db P(x) -ből származó D={ x1, x2, …, xn } minta tartalmazza Pattern Classification, Chapter 3 5
22
P( | D) levezetése P(x | D) levezetése Megoldás két lépésben:
Előbbihez a Bayes-formula, illetve a függetlenségi feltevés kell: Utóbbihoz: Megj.: ez sokszor nem vezethető le zárt képlettel, ezért numerikusan (pl. Gibbs algorithm), vagy simán a maximumával közelítik Pattern Classification, Chapter 3 5
23
A dimenziószám hatása a pontosságra
A gyakorlatban a jellemzők száma ig felmehet Az osztályozás pontossága erősen függ a jellemzők számától és a rendelkezésre álló tanítópéldák mennyiségétől Egyszerű, formálisan vizsgálható eset: 2 osztály, normális eloszlás, azonos kovarianciamátrix Pattern Classification, Chapter 3 7
24
Független jellemzők esetén:
Ez alapján a leghasznosabb jellemzők azok, amelyeknél az osztályonkénti várható értékek különbsége nagy a szóráshoz viszonyítva A gyakorlatban gyakran tapasztaljuk, hogy a jellemzőszám növelésével romlik az eredmény: rossz modellt választottunk, illetve egyre nehezebb pontosan becsülni a paramétereket a véges számú példából “Curse of dimensionality” Pattern Classification, Chapter 3 7
25
Egy példa, ahol az új jellemzők segítenek: 1-2-3 jellemző esetén egyre kisebb az átfedés
7 7 Pattern Classification, Chapter 3 7
26
Az ML-becslés számítási komplexitása
A c osztály mindegyikére normális eloszlást illesztünk, d dimenzióban n tanítópélda alapján A diszkriminanciafüggvény és a számításához szükséges paraméterek: és Σ becslése: O(dn) ill. O(d2n) mátrixinverzió, determináns: O(d3) ill. O(d2), de n>>d Totál = O(d2.n); c osztályra O(cd2n) O(d2n) konklúzió: a költség nő, ha d és n nagy! Pattern Classification, Chapter 3 7
27
Jellemzőtranszformációs módszerek
Jellemzők kombinálása egy alacsonyabb dimenziószámú reprezentáció érdekében Matematikailag legegyszerűbb és legkönnyebben számíható a lineáris kombináció Tkp. levetítjük a sokdimenziós adatokat egy alacsonyabb dimenziójú térbe Két klasszikus megoldás „optimális” lineáris transzformációra: PCA (Principal Component Analysis) “Olyan projekció, amely legjobban leírja az adatokat a legkisebb-négyzetes hiba szerint” MDA (Multiple Discriminant Analysis) “Olyan projekció, amely a legjobban szeparálja az osztályokat a legkisebb-négyzetes hiba szerint” Pattern Classification, Chapter 3 8
28
Rejtett Markov-Modellek Cél: időbeli sorozatok modellezése
Folyamatok kezelése, ahol a t. esemény a korábbi események függvényében felírható Alkalmazások: beszédfelismerés, szófaji azonosítás, DNS-szekvenálás, … A rendszer egy T-lépéses T = {(1), (2), (3), …, (T)} állapotsorozaton megy végig pl: 6 = {1, 4, 2, 2, 1, 4} Többször is mehet ugyanabba az állapotba, és nem kötelező minden állapotba eljutnia Pattern Classification, Chapter 3 10
29
Markov-láncok (ez még nem rejtett!!) Elsőrendű Markov-modell
A következő állapot csak az aktuális állapottól függ A két állapothoz átmeneti valószínűséget rendelünk: P(j(t + 1) | i (t)) = aij Pattern Classification, Chapter 3 10
30
Magasabb rendű Markov-láncok
A rendszer paraméterei: = (aij) A korábbi példa-sorozat valószínűsége: P(T | ) = P((1) = 1) *a14 * a42 * a22 * a21 * a14 Magasabb rendű Markov-láncok függés az előző k állapottól P( (t+1))≈ P(t+1 | t , t-1 ,…, t-k ) alkalmazás pl: természetes nyelvi szósorozatok valószínűségének modellezése, becslése Pattern Classification, Chapter 3 10
31
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, with the permission of the authors and the publisher
32
A rejtett Markov-modell
Az állapotsorozat közvetlenül nem megfigyelhető („rejtett”), csak az általa kibocsátott „megfigyelések” sorozata Pl: beszédfelismerés állapotok: beszédhangok megfigyelések: akusztikus mérések állapotok megfigyelések
33
A rejtett Markov-modell
Az elsőrendű Markov modellt kiegészítjük egy „kibocsátási” komponenssel: bjk=P(Vk(t) | j(t)) - annak a val.sége, hogy a t-edik pillanatban a Vk megfigyelést bocsátja ki a rendszer (láthatóan csak az aktuális állapottól függ) A modellhez kapcsolódó 3 fő kérdés: A kiértékelési probléma A dekódolási probléma A tanítás problémája Pattern Classification, Chapter 3
34
A kiértékelési probléma
Keressük annak a valószínűségét, hogy a modell egy adott VT megfigyelési sorozatot bocsát ki. Ehhez át kellett mennie egy r T-lépéses állapotsorozaton eközben ki kellett bocsátania a VT –t Az ezekhez tartozó valószínűségek: Mivel az áll.sorozat ismeretlen: Pattern Classification, Chapter 3
35
(1)-et és (2)-t beépítve:
Értelmezés: Egy T hosszú VT megfigyeléssorozat valószínűségéhez összegezni kell az összes lehetséges rmax állapotsorozatra annak a valószínűségét, hogy a rendszer bejárta az adott útvonalat, szorozva annak a valószínűségével, hogy eközben pont a kérdéses megfigyeléssorozatot bocsátotta ki. Példa: Legyenek 1, 2, 3 a rejtett áll.; v1, v2, v3 a leh. megfigyelések és V3 = {v1, v2, v3} a ténylegesen megfigyelt sorozat P({v1, v2, v3}) = P(1)*P(v1 | 1)*P(2 | 1)*P(v2 | 2)*P(3 | 2)*P(v3 | 3) +…+ (összesen (33= 27) tag a szummában !) Pattern Classification, Chapter 3
36
v1 v2 v3 Első tag: Második tag: És így tovább, 27 tagra… Fontos gyakorlati megjegyzés: a szumma dinamikus programozással is számolható T-ben exponenciális helyett lineáris időigénnyel!!! 1 (t = 1) 2 (t = 2) 3 (t = 3) v1 v2 v3 2 (t = 1) 3 (t = 2) 1 (t = 3) Pattern Classification, Chapter 3
37
A dekódolási probléma Adott VT megfigyeléssorozathoz keressük a legvalószínűbb rejtett állapotsorozatot (pl. beszédf.: akusztikus sorozat hangsorozat) Matematikailag: ugyanaz, mint korábban, csak szumma helyett argmax (a legnagyobb taghoz tartozó áll.sorozatot keressük az összeg helyett) Ez is hatékonyan számítható dinamikus programozással (ún. Viterbi-algoritmus) Pattern Classification, Chapter 3
38
A tanítás (paraméterbecslés) problémája
Úgy szereténk beállítani a modell paramétereit, hogy optimalizáljon egy bizonyos célfüggvényt az adott VT tanítópélda esetén. Ez általában a maximum likelihood célfüggvény: Általában az Expectation-maximization spec. esetét, a Baum-Welch algoritmust használják e célra: iteratív lokális optimumot talál de más, pl. gradiens-alapú módszerek is használhatók Pattern Classification, Chapter 3
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.