Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Valószínűségszámítás felelevenítő
márc. 9.
2
Valószínűségszámítás alapjai
Eseménytér (), (elemi) események Axiómák: - 0 ≤ P(A) ≤ 1 - P()=1 - Ha A1, A2, … egymást páronként kizáró események (Ai ∩Aj = , ha i j), akkor P(k Ak) = k P(Ak) 2
3
Tételek - P(Ø) = 0 - P(¬A)=1-P(A) - P(A B)=P(A)+P(B) – P(A∩B)
- P(A) = P(A ∩ B)+P(A ∩¬B) Ha A B, akkor P(A) ≤ P(B) és P(B-A) = P(B) – P(A) 3
4
Feltételes valószínűség
Amennyiben B igaz, mekkora részben lesz A is igaz. P(A|B) = P(A∩B)/P(B) Következmény (láncszabály): P(A∩B) = P(A|B)·P(B) Egyszerű példa: A: fejfájás, B: influenza P(A) = 1/10, P(B) = 1/40, P(A|B)=? 4
5
Feltételes valószínűség
6
Események függetlensége
Az A esemény független a B eseménytől akkor és csak akkor ha P(A|B) = P(A) Ez ekvivalens P(AB) = P(A)P(B) illetve P(B|A) = P(B) 6
7
Általános szorzási szabály
A1, A2, …, An tetszőleges események, P(A1A2…An) = P(An|A1…An-1) P(An-1|A1…An-2)…P(A2| A1)P(A1) Teljes valószínűség tétele: ha A1, A2, …, An események teljes eseményrendszert alkotnak, továbbá P(Ai) > 0 minden i-re, akkor P(B) = ∑j=1n P(B | Ai)P(Ai) 7
8
Bayes szabály P(A|B) = P(A∩B)/P(B) = P(B|A)P(A)/P(B) 8
9
Valószínűségi változó
ξ: → R Valószínűségi vektorváltozók… Sztochasztikus folyamat: t 9
10
Eloszlásfüggvény F(x) = P( < x) F(x1) ≤ F(x2), ha x1 < x2
limx→-∞ F(x) = 0, limx→∞ F(x) = 1 F(x) minden x pontban balról folytonos 10
11
Diszkrét vs folytonos val. változók
ha lehetséges értékei egy véges vagy végtelen x1, x2… sorozatot alkotnak 11
12
Sűrűségfüggvény Folytonos: ha van olyan f(x) függvény, hogy a számegyenes minden (a, b) intervalluma esetén F(b) - F(a) = P(a < < b) = a∫b f(x)dx Ekkor az f(x) függvényt a valószínűségi változó sűrűségfüggvényének nevezzük. Teljesül: f(x) = F ’(x) és F(x) = .-∞∫x f(t)dt
13
Hisztogram sűrűségfüggvény empirikus közelítése 13
14
Valószínűségi változók függetlensége
és függetlenek, ha tetszőleges a ≤ b, c ≤ d számok esetén P(a ≤ ≤ b, c ≤ ≤ d) = P(a ≤ ≤ b) P(c ≤ ≤ d). 14
15
Eloszlások kompozíciója
Diszkrét eloszlások kompozíciója = + ahol és függetlenek. Ekkor: rn = P( = n) = k=- P( = n - k, = k) Folytonos függvények kompozíciója hasonló elven, a sűrűségfüggvények megfelelő szorzatának kettős integráljával kapható meg. 15
16
Várható érték ha lehetséges értékei x1, x2, …, és ezeket rendre p1, p2, … valószínűségekkel veszi fel, akkor várható értéke: M() = i xi pi Folytonos esetben: M() = -∞∫ xf(x)dx 16
17
Várható érték - Ha várható értéke létezik, és c tetszőleges valós szám, akkor c várható értéke is létezik, és M(c) = cM() - Ha létezik és várható értéke, akkor létezik = + várható értéke is, és M( + ) = M() + M() 17
18
Várható érték Ha és független valószínűségi változók, várható értékeik léteznek, akkor létezik a = várható értéke is, és M() = M()M() Egy valószínűségi változó A eseményre vonatkoztatott M(|A) feltételes várható értéke a -nek az A eseményre vonatkoztatott feltételes eloszlásának a várható értéke 18
19
Szórás Egy valószínűségi változó szórása a - M() valószínűségi változó négyzetének várható értékéből vont pozitív négyzetgyök: D() = (M[( - M())2])1/2 Másképpen: D2() = M(2) – M2() 19
20
Szórás Ha szórása létezik, továbbá a és b tetszőleges valós számok, akkor D2(a + b) = a2D2() Ha 1, 2, …, n független valószínűségi változók, szórásaik léteznek, akkor létezik összegük szórása is és D2(1 + 2 + … + n) = D2(1) + D2(2) + … + D2(n) 20
21
Korreláció A és valószínűségi változók kovarianciáján a
c = M[( - M())( - M())] értéket értjük (0, ha függetlenek), ha = , akkor a kovariancia a D2() szórásnégyzettel egyezik meg. A és valószínűségi változók korrelációs együtthatója: r = c / ((D()D()), értéke -1 és 1 között van. 21
22
Nevezetes eloszlások Normális eloszlás Binomiális eloszlás: ~ B(n,p)
M() = np D() = np(1-p) 22
23
Bayes döntéselmélet
24
Osztályozás Felügyelt (induktív) tanulás:
24 Osztályozás Felügyelt (induktív) tanulás: tanító halmaz alapján olyan modell tanulása ami korábban nem látott példákon is helyesen működik. Osztályozás: előre definiált kategóriákba besorolás.
25
A posteriori valószínűség
25 A posteriori valószínűség prior P(j | x) = P(x | j ) · P (j ) / P(x) cél: P(j | x) modellezése bizonyíték likelihood Pattern Classification, Chapter 2 (Part 1)
26
Osztályonkénti likelihoodok
26 Osztályonkénti likelihoodok
27
Osztályonkénti posteriorik
Pattern Classification, Chapter 2 (Part 1)
28
Bayes osztályozó Ha x egy megfigyelés, amelyre:
28 Bayes osztályozó Ha x egy megfigyelés, amelyre: P(1 | x) > P(2 | x) akkor a döntés 1 P(1 | x) < P(2 | x) akkor a döntés 2 P(x | j ) és P (j )-ket modellezük P(x) nem kell a döntéshez, ill.
29
A több osztályos osztályozó – általános eset (nem csak Bayes döntéselmélet!)
29 Diszkriminancia függvények halmaza: gi(x), i = 1,…, c Az osztályozó egy x tulajdonságvektorhoz az i osztályt rendeli, ha: gi(x) = max gk(x) Pattern Classification, Chapter 2 (Part 1)
30
Két osztályos Bayes osztályozó
30 Két osztályos Bayes osztályozó egyetlen diszkriminancia fgv: döntés: g(x) > 0 Pattern Classification, Chapter 2 (Part 1)
31
Diszkriminancia-fügvények Bayes osztályozó és normális eloszlás esetén
32
A normális eloszlás Egyváltozós eset Ahol: = az X várható értéke
32 A normális eloszlás Egyváltozós eset Kezelhető sűrűségfüggvény Folytonos Nagyon sok valós eloszlás normális Centrális határeloszlás-tétele Ahol: = az X várható értéke 2 = szórásnégyzet (variancia) Pattern Classification, Chapter 2 (Part 1)
33
33 Pattern Classification, Chapter 2 (Part 1)
34
Többváltozós normális eloszlás
34 Többváltozós normális eloszlás sűrűségfüggvénye ahol: x = (x1, x2, …, xd)t = (1, 2, …, d)t a várható érték vektor = d*d a kovariancia-mátrix || illetve -1 a determináns illetve az inverz mátrix Pattern Classification, Chapter 2 (Part 1)
35
A normális eloszláshoz tartozó diszkriminancia függvények
35 gi(x) = ln P(x | I ) + ln P(I ) Többváltozós normális eloszlásnál Pattern Classification, Chapter 2 (Part 1)
36
i = 2I esete I az egységmátrix 36
Pattern Classification, Chapter 2 (Part 1)
37
Ri: azon térrész ahol gi(x) maximális
37 Ri: azon térrész ahol gi(x) maximális Döntési felület: Ri-t és Rj-t elválasztó felület Pattern Classification, Chapter 2 (Part 1)
38
Pattern Classification, Chapter 2 (Part 1)
39
39 Pattern Classification, Chapter 2 (Part 1)
40
i = esete a kovarianciamátrixok azonosak, de tetszőlegesek!
Az Ri és Rj közti döntési felület hipersík,de általában nem merőleges a várható értékeket összekötő egyenesre!
41
41 Pattern Classification, Chapter 2 (Part 1)
42
42 Pattern Classification, Chapter 2 (Part 1)
43
43 i tetszőleges A kovarianciamátrixok minden osztálynál különbözőek (Hiperkvadratikusok: hipersíkok, hipersíkok párjai, hipergömbök, hiperellipszoidok, hiperparaboloidok, hiperboloidok) Pattern Classification, Chapter 2 (Part 1)
45
45 Pattern Classification, Chapter 2 (Part 1)
46
46 Pattern Classification, Chapter 2 (Part 1)
48
Eloszlások paramétereinek becslése Maximum-likelihood illetve Bayes-módszerrel
49
Osztályozó készítése tanítópéldákból
49 Osztályozó készítése tanítópéldákból A Bayes döntési szabály Optimális osztályozót tudnánk készíteni az alábbiak ismeretében: P(i) (a priori valószínűségek) P(x | i) (likelihood) Azonban a gyakorlatban ezek a legritkább esetben ismertek! – Általában csak példáink vannak Az a priori eloszlás becslése nem okoz gondot Az osztályonkénti eloszlás becslése nehéz! (magas dimenziószám, gyakran kevés példa) Pattern Classification, Chapter 3
50
Paraméteres tanulóalgoritmusok
50 Paraméteres tanulóalgoritmusok A priori feltételezés a tanulandó eloszlásról: Pl. feltételezzük, hogy P(x | i) ~ N( i, i) Így csak a 2 paramétert kell megbecsülni Paraméterbecslési módszerek: Maximum-Likelihood (ML) becslés, illetve Bayes-becslés Hasonló eredményre vezetnek, de más elvi háttéren alapulnak Bármelyiket válasszuk is, a kapott P(x| i) becslést ugyanúgy használjuk osztályozáskor Pattern Classification, Chapter 3
51
Pattern Classification, Chapter 3
51 Maximum likelihood becslés: Feltételezi, hogy a paraméterek értéke rögzített, csak számunkra ismeretlen Legjobb paraméterértéknek azt az értéket tekinti, ami legjobban magyarázza (max. valószínűséget rendeli) a tanítópéldákat Bayes-becslés: A paramétereket is valószínűségi változóként kezeli, így azok eloszlását keresi Ehhez kiindul egy feltételezett a priori eloszlásból, melyet a tanítópéldák segítségével pontosít Pattern Classification, Chapter 3
52
Pattern Classification, Chapter 3
52 Tanító adatbázis Tanítópéldák Tfh a D tanító-adatbázis n mintából áll: (x1, 1), (x2, 2),…, (xn, n) „iid” feltevés: az elemek egymástól függetlenek és ugyanabból a megtanulandó eloszlásból származnak Pattern Classification, Chapter 3
53
A „likelihood” célfüggvény
53 A „likelihood” célfüggvény „maximum-likelihood” becslésén azt az értéket fogjuk érteni, amely maximizálja P(D | )-t “Az a érték, amely legjobban magyarázza az aktuálisan megfigyelt tanítópéldákat” A „log-likelihood” célfüggvény l() = ln P(D | ) (optimuma ugyanott van, de egyszerűbb kezelni!) Pattern Classification, Chapter 3
54
Pattern Classification, Chapter 3
54 Példa Modellezési feltevések Tfh. c osztályunk van, és mindegyik eloszlását egy-egy normális eloszlással közelítjük: P(x | j) ~ N( j, j) A tanulandó paramétereket egy adott osztály esetén jelölje Pattern Classification, Chapter 3
55
A (log-)likelihood maximalizálása
55 A (log-)likelihood maximalizálása Keressük azt a -t, amely maximalizálja az l() log-likelihood-ot:
56
A (log-)likelihood maximalizálása
56 A (log-)likelihood maximalizálása Az optimumhelyhez szükséges feltétel: (p az ismeretlen paraméterek száma) l = 0 (megj: esetünkben a vizsgált függvények jellege miatt elégséges is lesz) Pattern Classification, Chapter 3
57
Pattern Classification, Chapter 3
57 Példa: egyváltozós Gauss-eloszlás, és ismeretlen azaz = (1, 2) = (, 2) Pattern Classification, Chapter 3
58
Pattern Classification, Chapter 3
58 Az összes példára összegezve: Kombinálva (1)-et és (2)-t, azt kapjuk hogy: Pattern Classification, Chapter 3
59
Pattern Classification, Chapter 3
59 Bayes becslés -t is valószínűségi változóként kezeli, nem pedig rögzített de ismeretlen paraméterként A P() kezdeti eloszlását a priori tudásként ismertnek tekintjük A D tanítópéldák alapján keressük P( | D)-t Majd ennek segítségével írjuk fel P(x | D)-t Pattern Classification, Chapter 3
60
Pattern Classification, Chapter 3
60 Bayes becslés Az alapvető feltevések: P(x | ) formája ismert -ra vonatkozó ismereteink P() ismeretének formájában állnak rendelkezésre Összes többi -ra vonatkozó ismeretünket n db P(x) -ből származó D={ x1, x2, …, xn } minta tartalmazza Pattern Classification, Chapter 3
61
A Bayes becslés két lépése
61 A Bayes becslés két lépése 1. P( | D) levezetése Bayes-szabály, illetve a függetlenségi feltevés kell: 2. P(x | D) levezetése Megj.: ez sokszor nem vezethető le zárt képlettel, ezért közelítjük vagy zárt alakban vagy numerikusan (pl. Gibbs algorithm) Pattern Classification, Chapter 3
62
Pattern Classification, Chapter 3
62 Bayes becslés - Példa P(x|) egyváltozós Gauss-eloszlás, ismert, csak -t keressük amit keresünk, az ismeretlen paraméter(eloszlás): Tobábbá -nek ismert az a priori eloszlása: Pattern Classification, Chapter 3
63
Pattern Classification, Chapter 3
63 Értelmezés: - 0 A legjobb a priori becslésünk -re, 0 kifejezi a bizonytalanságunk n képlete súlyozott összegzéssel kombinálja 0-t és az adatok átlagát Ha n ∞, 0 súlya egyre kisebb, σn (a bizonytalanság) egyre csökken Pattern Classification, Chapter 3 63
64
Pattern Classification, Chapter 3
Példa – P( | D) levezetése 64 feltesszük: … Pattern Classification, Chapter 3
65
Pattern Classification, Chapter 3
Példa – P(x | D) kiszámítása 65 P( | D) megvan, P(x | D) még kiszámítandó! Levezethető, hogy P(x | D) normális eloszlás az alábbi paraméterekkel: Tehát n lesz a várható érték, σ-hoz pedig hozzáadódik σn, kifejezve a -re vonatkozó bizonytalanságot Többváltozós eset: Pattern Classification, Chapter 3
66
MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek!
66 MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek! maximum-likelihood becslés egyszerű, gyors(abb) /grádiens keresés vs. multidim. integrálás/ Bayes becslés ha a feltevéseink bizonytalanok bizonytalanságot a P()-val modellezhetjük
67
Összefoglalás Bayes osztályozó
Bayes osztályozó ismert (normális) eloszlások mellett Paraméterbecslések Általános módszer paraméteres eloszlások paramétereinek becslésére egy minta alapján (nem csak Bayes!)
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.