Valószínűségszámítás felelevenítő

Slides:



Advertisements
Hasonló előadás
Beruházási és finanszírozási döntések kölcsönhatásai 1.
Advertisements

Kvantitatív módszerek Becsléselmélet október 7. és 9.
Kockázat és megbízhatóság
Valószínűségi kísérletek
1Transzplantációs Alapítvány
Leíró statisztika Becslés
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
Végeselemes modellezés matematikai alapjai
A tökéletes számok keresési algoritmusa
A szórás típusú egyenlőtlenségi mutatók
Egy üzemben sok gyártósoron gyártanak egy bizonyos elektronikai alkatrészt. Az alkatrészek ellenállását időnként ellenőrzik úgy, hogy egy munkás odamegy.
Becsléselmélet - Konzultáció
Kockázat és megbízhatóság
Technológiai folyamatok optimalizálása
Technológiai folyamatok optimalizálása
Struktúra predikció ápr. 6.
Kockázat és megbízhatóság
Rendszerező összefoglalás
Végeselemes modellezés matematikai alapjai
Monte Carlo integrálás
Rangsorolás tanulása ápr. 13..
Kvantitatív módszerek
Hipotézisvizsgálat.
Kvantitatív módszerek
Mintavételes eljárások
V. Optimális portfóliók
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Kijelentéslogikai igazság (tautológia):
Tartalékolás 1.
Adatbázis-kezelés (PL/SQL)
INFOÉRA 2006 Véletlenszámok
A PDCA elv alkalmazása az információvédelmi irányítási rendszerekben 1
Gépi tanulási módszerek febr. 11.
Varianciaanalízis- ANOVA (Analyze Of VAriance)
2. Bevezetés A programozásba
Kvantitatív módszerek
Kvantitatív módszerek
Business Mathematics
Algoritmusok és Adatszerkezetek I.
Regressziós modellek Regressziószámítás.
STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság
Sztochasztikus kapcsolatok I. Asszociáció
Tilk Bence Konzulens: Dr. Horváth Gábor
Gépi tanulási módszerek febr. 18.
Környezeti Kontrolling
Matematikai statisztika előadó: Ketskeméty László
3. előadás.
Gauss-eloszlás illesztése adatokra Maximum Likelihood és Bayes-módszer
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John.
Matematikai Analízis elemei
3(+1) osztályozó a Bayes világból
A szállítási probléma.
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
Dr. Varga Beatrix egyetemi docens
Matematika 11.évf. 1-2.alkalom
Binomiális fák elmélete
Paraméteres próbák Adatelemzés.
Fizikai kémia 2 – Reakciókinetika
Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus
Kísérlettervezés 2018/19.
Tájékoztató az EPER pályázati folyamatáról
3. előadás.
Vektorok © Vidra Gábor,
Költségfüggvények Minden kibocsátáshoz a minimális költséget rendelik hozzá A termelési függvények inverzei (dualitás) A költségfüggvények a termelési.
A geometriai transzformációk
Mesterséges intelligencia
Várhatóérték, szórás
Algoritmusok.
Hipotéziselmélet Adatelemzés.
Előadás másolata:

Valószínűségszámítás felelevenítő márc. 9.

Valószínűségszámítás alapjai Eseménytér (), (elemi) események Axiómák: - 0 ≤ P(A) ≤ 1 - P()=1 - Ha A1, A2, … egymást páronként kizáró események (Ai ∩Aj = , ha i  j), akkor P(k Ak) =  k P(Ak) 2

Tételek - P(Ø) = 0 - P(¬A)=1-P(A) - P(A  B)=P(A)+P(B) – P(A∩B) - P(A) = P(A ∩ B)+P(A ∩¬B) Ha A  B, akkor P(A) ≤ P(B) és P(B-A) = P(B) – P(A) 3

Feltételes valószínűség Amennyiben B igaz, mekkora részben lesz A is igaz. P(A|B) = P(A∩B)/P(B) Következmény (láncszabály): P(A∩B) = P(A|B)·P(B) Egyszerű példa: A: fejfájás, B: influenza P(A) = 1/10, P(B) = 1/40, P(A|B)=? 4

Feltételes valószínűség

Események függetlensége Az A esemény független a B eseménytől akkor és csak akkor ha P(A|B) = P(A) Ez ekvivalens P(AB) = P(A)P(B) illetve P(B|A) = P(B) 6

Általános szorzási szabály A1, A2, …, An tetszőleges események, P(A1A2…An) = P(An|A1…An-1) P(An-1|A1…An-2)…P(A2| A1)P(A1) Teljes valószínűség tétele: ha A1, A2, …, An események teljes eseményrendszert alkotnak, továbbá P(Ai) > 0 minden i-re, akkor P(B) = ∑j=1n P(B | Ai)P(Ai) 7

Bayes szabály P(A|B) = P(A∩B)/P(B) = P(B|A)P(A)/P(B) 8

Valószínűségi változó ξ:  → R Valószínűségi vektorváltozók… Sztochasztikus folyamat: t 9

Eloszlásfüggvény F(x) = P( < x) F(x1) ≤ F(x2), ha x1 < x2 limx→-∞ F(x) = 0, limx→∞ F(x) = 1 F(x) minden x pontban balról folytonos 10

Diszkrét vs folytonos val. változók ha lehetséges értékei egy véges vagy végtelen x1, x2… sorozatot alkotnak 11

Sűrűségfüggvény Folytonos: ha van olyan f(x) függvény, hogy a számegyenes minden (a, b) intervalluma esetén F(b) - F(a) = P(a <  < b) = a∫b f(x)dx Ekkor az f(x) függvényt a  valószínűségi változó sűrűségfüggvényének nevezzük. Teljesül: f(x) = F ’(x) és F(x) = .-∞∫x f(t)dt

Hisztogram sűrűségfüggvény empirikus közelítése 13

Valószínűségi változók függetlensége  és  függetlenek, ha tetszőleges a ≤ b, c ≤ d számok esetén P(a ≤  ≤ b, c ≤  ≤ d) = P(a ≤  ≤ b) P(c ≤  ≤ d). 14

Eloszlások kompozíciója Diszkrét eloszlások kompozíciója  =  +  ahol  és  függetlenek. Ekkor: rn = P( = n) = k=- P( = n - k,  = k) Folytonos függvények kompozíciója hasonló elven, a sűrűségfüggvények megfelelő szorzatának kettős integráljával kapható meg. 15

Várható érték ha  lehetséges értékei x1, x2, …, és ezeket rendre p1, p2, … valószínűségekkel veszi fel, akkor várható értéke: M() = i xi pi Folytonos esetben: M() = -∞∫ xf(x)dx 16

Várható érték - Ha  várható értéke létezik, és c tetszőleges valós szám, akkor c várható értéke is létezik, és M(c) = cM() - Ha létezik  és  várható értéke, akkor létezik  =  +  várható értéke is, és M( + ) = M() + M() 17

Várható érték Ha  és  független valószínűségi változók, várható értékeik léteznek, akkor létezik a  =  várható értéke is, és M() = M()M() Egy  valószínűségi változó A eseményre vonatkoztatott M(|A) feltételes várható értéke a -nek az A eseményre vonatkoztatott feltételes eloszlásának a várható értéke 18

Szórás Egy  valószínűségi változó szórása a  - M() valószínűségi változó négyzetének várható értékéből vont pozitív négyzetgyök: D() = (M[( - M())2])1/2 Másképpen: D2() = M(2) – M2() 19

Szórás Ha  szórása létezik, továbbá a és b tetszőleges valós számok, akkor D2(a + b) = a2D2() Ha 1, 2, …, n független valószínűségi változók, szórásaik léteznek, akkor létezik összegük szórása is és D2(1 + 2 + … + n) = D2(1) + D2(2) + … + D2(n) 20

Korreláció A  és  valószínűségi változók kovarianciáján a c = M[( - M())( - M())] értéket értjük (0, ha függetlenek), ha  = , akkor a kovariancia a D2() szórásnégyzettel egyezik meg. A  és  valószínűségi változók korrelációs együtthatója: r = c / ((D()D()), értéke -1 és 1 között van. 21

Nevezetes eloszlások Normális eloszlás Binomiális eloszlás:  ~ B(n,p) M() = np D() = np(1-p) 22

Bayes döntéselmélet

Osztályozás Felügyelt (induktív) tanulás: 24 Osztályozás Felügyelt (induktív) tanulás: tanító halmaz alapján olyan modell tanulása ami korábban nem látott példákon is helyesen működik. Osztályozás: előre definiált kategóriákba besorolás.

A posteriori valószínűség 25 A posteriori valószínűség prior P(j | x) = P(x | j ) · P (j ) / P(x) cél: P(j | x) modellezése bizonyíték likelihood Pattern Classification, Chapter 2 (Part 1)

Osztályonkénti likelihoodok 26 Osztályonkénti likelihoodok

Osztályonkénti posteriorik Pattern Classification, Chapter 2 (Part 1)

Bayes osztályozó Ha x egy megfigyelés, amelyre: 28 Bayes osztályozó Ha x egy megfigyelés, amelyre: P(1 | x) > P(2 | x) akkor a döntés 1 P(1 | x) < P(2 | x) akkor a döntés 2 P(x | j ) és P (j )-ket modellezük P(x) nem kell a döntéshez, ill.

A több osztályos osztályozó – általános eset (nem csak Bayes döntéselmélet!) 29 Diszkriminancia függvények halmaza: gi(x), i = 1,…, c Az osztályozó egy x tulajdonságvektorhoz az i osztályt rendeli, ha: gi(x) = max gk(x) Pattern Classification, Chapter 2 (Part 1)

Két osztályos Bayes osztályozó 30 Két osztályos Bayes osztályozó egyetlen diszkriminancia fgv: döntés: g(x) > 0 Pattern Classification, Chapter 2 (Part 1)

Diszkriminancia-fügvények Bayes osztályozó és normális eloszlás esetén

A normális eloszlás Egyváltozós eset Ahol:  = az X várható értéke 32 A normális eloszlás Egyváltozós eset Kezelhető sűrűségfüggvény Folytonos Nagyon sok valós eloszlás normális Centrális határeloszlás-tétele Ahol:  = az X várható értéke 2 = szórásnégyzet (variancia) Pattern Classification, Chapter 2 (Part 1)

33 Pattern Classification, Chapter 2 (Part 1)

Többváltozós normális eloszlás 34 Többváltozós normális eloszlás sűrűségfüggvénye ahol: x = (x1, x2, …, xd)t  = (1, 2, …, d)t a várható érték vektor  = d*d a kovariancia-mátrix || illetve -1 a determináns illetve az inverz mátrix Pattern Classification, Chapter 2 (Part 1)

A normális eloszláshoz tartozó diszkriminancia függvények 35 gi(x) = ln P(x | I ) + ln P(I ) Többváltozós normális eloszlásnál Pattern Classification, Chapter 2 (Part 1)

i = 2I esete I az egységmátrix 36 Pattern Classification, Chapter 2 (Part 1)

Ri: azon térrész ahol gi(x) maximális 37 Ri: azon térrész ahol gi(x) maximális Döntési felület: Ri-t és Rj-t elválasztó felület Pattern Classification, Chapter 2 (Part 1)

Pattern Classification, Chapter 2 (Part 1)

39 Pattern Classification, Chapter 2 (Part 1)

i =  esete a kovarianciamátrixok azonosak, de tetszőlegesek! Az Ri és Rj közti döntési felület hipersík,de általában nem merőleges a várható értékeket összekötő egyenesre!

41 Pattern Classification, Chapter 2 (Part 1)

42 Pattern Classification, Chapter 2 (Part 1)

43 i tetszőleges A kovarianciamátrixok minden osztálynál különbözőek (Hiperkvadratikusok: hipersíkok, hipersíkok párjai, hipergömbök, hiperellipszoidok, hiperparaboloidok, hiperboloidok) Pattern Classification, Chapter 2 (Part 1)

45 Pattern Classification, Chapter 2 (Part 1)

46 Pattern Classification, Chapter 2 (Part 1)

Eloszlások paramétereinek becslése Maximum-likelihood illetve Bayes-módszerrel

Osztályozó készítése tanítópéldákból 49 Osztályozó készítése tanítópéldákból A Bayes döntési szabály Optimális osztályozót tudnánk készíteni az alábbiak ismeretében: P(i) (a priori valószínűségek) P(x | i) (likelihood) Azonban a gyakorlatban ezek a legritkább esetben ismertek! – Általában csak példáink vannak Az a priori eloszlás becslése nem okoz gondot Az osztályonkénti eloszlás becslése nehéz! (magas dimenziószám, gyakran kevés példa) Pattern Classification, Chapter 3

Paraméteres tanulóalgoritmusok 50 Paraméteres tanulóalgoritmusok A priori feltételezés a tanulandó eloszlásról: Pl. feltételezzük, hogy P(x | i) ~ N( i, i) Így csak a 2 paramétert kell megbecsülni Paraméterbecslési módszerek: Maximum-Likelihood (ML) becslés, illetve Bayes-becslés Hasonló eredményre vezetnek, de más elvi háttéren alapulnak Bármelyiket válasszuk is, a kapott P(x| i) becslést ugyanúgy használjuk osztályozáskor Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 51 Maximum likelihood becslés: Feltételezi, hogy a paraméterek értéke rögzített, csak számunkra ismeretlen Legjobb paraméterértéknek azt az értéket tekinti, ami legjobban magyarázza (max. valószínűséget rendeli) a tanítópéldákat Bayes-becslés: A paramétereket is valószínűségi változóként kezeli, így azok eloszlását keresi Ehhez kiindul egy feltételezett a priori eloszlásból, melyet a tanítópéldák segítségével pontosít Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 52 Tanító adatbázis Tanítópéldák Tfh a D tanító-adatbázis n mintából áll: (x1, 1), (x2, 2),…, (xn, n) „iid” feltevés: az elemek egymástól függetlenek és ugyanabból a megtanulandó eloszlásból származnak Pattern Classification, Chapter 3

A „likelihood” célfüggvény 53 A „likelihood” célfüggvény „maximum-likelihood” becslésén azt az értéket fogjuk érteni, amely maximizálja P(D | )-t “Az a  érték, amely legjobban magyarázza az aktuálisan megfigyelt tanítópéldákat” A „log-likelihood” célfüggvény l() = ln P(D | ) (optimuma ugyanott van, de egyszerűbb kezelni!) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 54 Példa Modellezési feltevések Tfh. c osztályunk van, és mindegyik eloszlását egy-egy normális eloszlással közelítjük: P(x | j) ~ N( j, j) A tanulandó paramétereket egy adott osztály esetén jelölje Pattern Classification, Chapter 3

A (log-)likelihood maximalizálása 55 A (log-)likelihood maximalizálása Keressük azt a -t, amely maximalizálja az l() log-likelihood-ot:

A (log-)likelihood maximalizálása 56 A (log-)likelihood maximalizálása Az optimumhelyhez szükséges feltétel: (p az ismeretlen paraméterek száma) l = 0 (megj: esetünkben a vizsgált függvények jellege miatt elégséges is lesz) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 57 Példa: egyváltozós Gauss-eloszlás,  és  ismeretlen azaz  = (1, 2) = (, 2) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 58 Az összes példára összegezve: Kombinálva (1)-et és (2)-t, azt kapjuk hogy: Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 59 Bayes becslés -t is valószínűségi változóként kezeli, nem pedig rögzített de ismeretlen paraméterként A P() kezdeti eloszlását a priori tudásként ismertnek tekintjük A D tanítópéldák alapján keressük P( | D)-t Majd ennek segítségével írjuk fel P(x | D)-t Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 60 Bayes becslés Az alapvető feltevések: P(x | ) formája ismert -ra vonatkozó ismereteink P() ismeretének formájában állnak rendelkezésre Összes többi -ra vonatkozó ismeretünket n db P(x) -ből származó D={ x1, x2, …, xn } minta tartalmazza Pattern Classification, Chapter 3

A Bayes becslés két lépése 61 A Bayes becslés két lépése 1. P( | D) levezetése Bayes-szabály, illetve a függetlenségi feltevés kell: 2. P(x | D) levezetése Megj.: ez sokszor nem vezethető le zárt képlettel, ezért közelítjük vagy zárt alakban vagy numerikusan (pl. Gibbs algorithm) Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 62 Bayes becslés - Példa P(x|) egyváltozós Gauss-eloszlás,  ismert, csak -t keressük amit keresünk, az ismeretlen paraméter(eloszlás): Tobábbá -nek ismert az a priori eloszlása: Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 63 Értelmezés: - 0 A legjobb a priori becslésünk -re, 0 kifejezi a bizonytalanságunk n képlete súlyozott összegzéssel kombinálja 0-t és az adatok átlagát Ha n ∞, 0 súlya egyre kisebb, σn (a bizonytalanság) egyre csökken Pattern Classification, Chapter 3 63

Pattern Classification, Chapter 3 Példa – P( | D) levezetése 64 feltesszük: … Pattern Classification, Chapter 3

Pattern Classification, Chapter 3 Példa – P(x | D) kiszámítása 65 P( | D) megvan, P(x | D) még kiszámítandó! Levezethető, hogy P(x | D) normális eloszlás az alábbi paraméterekkel: Tehát n lesz a várható érték, σ-hoz pedig hozzáadódik σn, kifejezve a -re vonatkozó bizonytalanságot Többváltozós eset: Pattern Classification, Chapter 3

MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek! 66 MLE vs. Bayes becslés Ha n→∞ akkor megegyeznek! maximum-likelihood becslés egyszerű, gyors(abb) /grádiens keresés vs. multidim. integrálás/ Bayes becslés ha a feltevéseink bizonytalanok bizonytalanságot a P()-val modellezhetjük

Összefoglalás Bayes osztályozó Bayes osztályozó ismert (normális) eloszlások mellett Paraméterbecslések Általános módszer paraméteres eloszlások paramétereinek becslésére egy minta alapján (nem csak Bayes!)