Bayes becslések Boha Roland november 21. PPKE-ITK
Miről lesz szó? Bevezetés Ismétlés A becslés elve A becslés eredménye (valószínűségi sűrűségfüggvényként) Elméleti tulajdonságok Maximum a posteriori becslés
I. Bevezetés Thomas Bayes ( ): angol matematikus, teológus Bayes tétele: Ha egy,,kétfázisú'' kísérletben a második fázis eredményeiből akarunk visszakövetkeztetni az első fázis eredményére, akkor a Bayes-tétel hasznos segédeszköz. Legyen A és B két, pozitív valószínűségű esemény. A feltételes valószínűség definíciójából: P(B|A) = P(A|B)P(B)/P(A) (Bayes-formula).
Bayes becslések: fontosak, mert nemlineáris és korrelált mérési hibával terhelt rendszerek esetén is alkalmazhatók. Alkalmazott Bayes: irányításelmélet, paraméterbecslés, spamszűrés, stb.
Véletlen: Klasszikus vs. Bayes Identifikációs probléma Bayes-i megközelítésben „Klasszikus” véletlen fogalma: az értékére vonatkozó mérések/kísérletek nem minden esetben ugyanolyanok, hanem ingadozást mutatnak. (Így egy rendszer paramétereinek értéke invariáns esetben konstans, azaz (nem véletlen) determinisztikus változó.) Klasszikus felhasználás: véletlen természetű folyamatok (pl. radioaktív bomlás) && sok kicsi, egymástól fgtlen, de külön nem modellezett folyamat jelenléte
Véletlen Bayes-féle értelmezése: a megfigyelést végző személy tudása szerint osztályozza a változókat; Bayes értelemben véletlen változó minden változó és paraméter is akár, ami előttünk, mint megfigyelő előtt nem ismert. Így az ismeretlen rendszerparaméterek valószínűségi változónak tekintendők A Bayes megközelítés képes egy jónak tűnő alapot adni különböző döntésekhez, például egy irányítási probléma esetében.
II. Ismétlés, elméleti alapok Mindennek az alapja: Bayes formula és láncszabály (később) Véletlen változó egy valós értéket vehet fel. Általában a várható érték: x, véletlen változó valós, de ismeretlen értékkel, amit x-vel jelölünk. Az összes lehetséges, x által felvehető érték: S x. Ha S x egy intervallum a valós tengelyen, vagy egy általános vektor, akkor folyamatos típusú véletlen változóról beszélünk Így S x = (x 1, x 2, …, x n ), ami egy véges halmaz.
Szubjektív valószínűség: egy egység (pl.: 100%), ami S x –en eloszlik, és megmutatja, hogy melyik értékek bekövetkezése lehetséges: x = x i, ha Pr [x = x i ] = P(x i ), és P(x) egy S x -en értelmezett, valós nem negatív függvény. Innen következik az, hogy Pr [x = x i vagy x = x j ] = P(x i ) + P(x j ), és Továbbá: Nem csak számok elhetnek ezek, például érmefeldobás: P(fej)+P(írás) = 1 Sűrűség fgv:, ahol részhalmaza Sx-nek, és a függvénynek teljesítenie kell a relációt
Megjegyzés: P(.) és p(.) semmilyen jelentéssel nem bír, ha nem adjuk meg, hogy milyen véletlen változóról beszélünk. Pl.: p(x) = f(x) fgv, p(y) = f(y), p(2)-re nem jelenthetjük ki, hogy f(2), vagy g(2) lenne. Együttes eloszlás: (2 vagy több változóra) pl.: ha x= (a, b) és S x = S a * S b rendezett párok halmaza, ahol a eleme S a és b eleme S b, ott p(x) = p(a, b) az együttes eloszlása a két véletlen változónak. Pl: a folytonos az S a =(a 1, a 2 ) intervallumon, b pedig diszkrét: S b = (b 1, b 2, b 3 ). Ekkor p(a, b) meghatározható 3 fügvénnyel: {p(a, b i )= f i (a), i = 1, 2, 3} és fel is rajzólhatók úgy, hogy teljesítik a
Bayes-i értelemben a statisztikai beavatkozás nem más, mint a megelőző egyéni valószínűségi eloszlások korrekciója az elvárásoknak megfelelő (valós) adatokkal. Ez azt jelenti, hogy az feltételes valószínűségi eloszlások adják egy-egy döntés alapját.
Bayes formula klasszikus esetben Adottak B i események és P(B i ) valószínűségeik B 1, B 2,…,B m elemei B eseményalgebrának, ahol: B 1, B 2,…,B n teljes eseményrendszer: Továbbá P(Bi)>0 i=1,2,…,N A más sokat emlegetett Bayes tétel.
II/b. Alapvető műveletek: Adott egy együttes valségi eloszlás 2 véletlen változóra: a és b meghatározza b valségi eloszlását, anélkül, hogy a-ról bármit is tudnánk. Matematikailag: Adot p(a, b), a eleme S a b eleme S b. p(b) így határozható meg:
a eleme S a bizonyos esetekben igaz: Egyezményesen, ha a diszkrét, az integrált szummázással lehet helyettesíteni. Ha p(b) összefügg p(a,b)-val, akkor marginálisról beszélünk.
Tekintsük azt az esetet, hogy a és b nem ismert, de valahogy meghatározható a szubjektív valségi eloszlásuk, p(a,b). Ezután valahogy (pl. méréssel) megszerezzük b valódi értékét: Így már csak a értéke ismeretlen, amihez a következőképpen juthatunk el: Adott p(a,b), meghatározzuk a feltételes eloszlást: p(a|b=ß), b≠ß esetben p(a,b)-nak nincs jelentősége, de mégsem változtatunk. Így meghatározni p(a|b=ß)-t, megfelel annak az esetnek, mikor p(a,b), b=ß. Tehát: p(a|b=ß) =κ* p(a,b)| b=ß, ahol κ az arányossági együttható. Így minden a-ra: p(a,b)| b=ß =O, tehát p(a|b=ß) = O.
Κ-t így kaphatjuk meg: Tudjuk, hogy:
Továbbá átírhatjuk a p(a|b=b) alakot egyszerűen p(a|b)-vé, és az előzőek alapján kimondhatjuk, hogy p(a|b)=p(a,b)/p(b). Ezt tovább alakítva kapjuk a p(a,b)= p(a|b) p(b) formulát. Így kaphatunk együttes valségi eloszlást olyan esetekben, amikor feltételes (p(a|b)) és marginális (p(b)) eloszlások állnak rendelkezésünkre.
II/c. Független bizonytalan mennyiségek: Két mennyiség akkor független, ha az egyik valódi értéke nem hordoz semmiféle információt a másikról, tehát: p(a|b)=p(a) Ha b ismeretlen p(b) valségi eloszlással, akkor p(a,b)= p(a|b) p(b) és p(a|b)=p(a) formulákból következik, hogy p(a,b) = p(a)p(b) Emellett p(a,b)= p(a|b)p(a), ha p(b|a)=p(b) Ez azt jelenti, hogy ha egy bizonytalan mennyiség nem függ egy másik bizonytalan mennyiségtől, akkor kölcsönösen függetlenek.
Hasznos lehet definiálni a feltételes függetlenséget: ha egy bizonytalan mennyiség valódi értéke: c, és b szintén bizonytalan mennyiség valódi értéke nem hordoz információt a bizonytalan mennyiségről, tehát a és b feltételesen függetlenek c tükrében, ha c ismert. Formálisan: p(a|b,c)=p(a|c) ebből következően: p(b|a,c) = p(b,c), viszont nem következik belőle p(a|b,c)=p(a|b)!
II/d. Származtatott relációk és a és b felcserélése itt: Bayes formula:
N db együttes valségi eloszlás: x 1, x 2,…, x n és alkalmazzuk: p(a,b)= p(a|b)p(b) –t: p(x N,x N-1,…,x 1 )=p(x N |x N-1,…,x 1 )* p(x N-1,x N-2 …,x 1 )= p(x N |x N-1,…,x 1 )* p(x N-1,x N-2 …,x 1 )* p(x N-2,…,x 1 ) és N lépés után a láncszabályból következik: p(x N-1,x N-2 …,x 1 )= A láncszabály tehát a feltételes és együttes sűrűségfüggvényekre vonatkozó összefüggés általánosítása több (N) valószínűségi változóra.
II/e. Kiegészítések A rendszer identifikációs probléma csak része egy sokkal összetettebb döntési problémának. (pl.: előrejelzés, irányítás, stb.) „A megfigyelés változtat egy véletlen változót valós számmá.” (Lindley, 1974) Egyesek szerint a Bayes-i statisztikai módszerek nem másak, mint valószínűségi elméletek statisztikai problémákon alkalmazva. Ez igaz is, egy bizonyos fokig, de a valségi elméletek a valségi eloszlásokat csak alakítani tudják egymásba, teljes biztonsággal létrehozni őket lehetetlen. A bayes-i módszerekkel dolgozóknak is szüksége van az elsődleges eloszlásokra, és ezt felhasználva ismeretlen/bizonytalan mennyiségekről/eseményekről használható állításokat készíteni.
III. A becslés elve A rendszer ezentúl a világ egy részét jelenti, amin egy identifikációs problémát szeretnénk megoldani. Ennek elvégzésére egy idősorozat szerű megfigyelést végzünk a rendszeren, az egyes megfigyelések: D (1),…,D (t),…, ezek az adatok. Általában két adatfajta figyelhető meg: bementi (u (t) ) és kimeneti (y (t) ) adatok. Így tehát: D(t)= {u(t), y(t)} Kimenetek passzívan figyelhetők meg, ha D(t)={y(t)}, akkor a rendszert autonómnak hívjuk. Az első megfigyelési pár általában a D(1)={u(1), y(1)}.
Rövidített jelölés: x. Helyettesíti u-t, y-t, D-t is: x (j) (i) = {x (i), x (i+j),…,x (j) }. Ha j<i, akkor üres halmaz. Tehát: x (j) (i) ={x (j), x (j-1) (i) } és D (j) (i) ={y (j),u (j), D (j-1) (i) }, (i) kihagyható, ha 1-et jelent. Az összes adat D (t) ={D (1),…,D (t-1), D (t) } Mit kell ahhoz tudni, hogy képesek legyünk megoldani ezt a problémát? Ha van egy ismert állapot: D(to), amihez tervezni kell egy irányítási stratégiát a következő N (tetszőleges, de véges) lépésre: D (to+N) (to+1) megad minden szükséges információt Ahhoz, hogy optimális műveletsort találjunk, képesnek kell lennünk arra, hogy előrejelezzünk, mielőtt alkalmazzuk az u(t o +1) bemenetet. Így: p(D (to+N) (to+1) | D (to) ) feltételes valségi eloszlásra van szükségünk.
Alkalmazva a láncszabályt: p(D (to+N) (to+1) | D (to) )= Alapvető egyenlőségeket felhasználva: p(D(t)|D (t-1) ) = p(y(t), u(t)|D (t-1) )=p(y(t)|u(t), D (t- 1) )p(u(t)|D (t-1) ), ahonnan megkapható: Ahol a feltételes valségi eloszlás p(u(t)|D (t-1) ) leírja a transzformációt. Így a rendszer előző állapotai és t=to+1,…,t0+N segítségével egy irányítása megadható.
Ha az irányítási stratégia determinisztikus, pl.: u(t)= f(t) (D (t-1) ), akkor p(u(t)|D (t-1) )= δ(u(t)- f(t) (D (t- 1) )), ahol δ Lehet Dirac (ha u(t) folyamatos) és Kronecker δ (δ(δ(0)=1) és δ(x)=0, ha x ≠ 0) is, ha u(t) diszkrét. Amit nem ír le, pl.: a feltételes valségi eloszlást p(y(t)|u(t), D (t-1) ) leírja minden t-re y(t) függvényében. Egy rendszermodellen olyan matematikai modellt értünk, ami leírja a feltételes valségi eloszlásokat egy időintervallumra, véges számú paraméterbeállítás mellet. (Paraméter itt: időinvariáns mennyiség, egy konstans.)
Abban az esetben, amikor néhány, vagy az összes paraméter halmaza véges, azt mondjuk Θ ismeretlen vagy bizonytalan: p(y(t)|u(t), D (t-1), Θ) definiálja a feltételes eloszlásokat. Amikor nem ismerjük Θ valódi értékét, akkor ez a formula addig használhatatlan, amíg nem ejtjük ki a modell ismeretlen paramétereit: p(y(t)|u(t), D (t-1) ) = Ahol az integrál első fele az előbb látott eloszlás, a második pedig a valségi eloszlás, ami leírja a paraméterek bizonytalanságát egy adott időpillanatban.
Így a rendszer identifikációs problémája két részre bontható: a.) a modellstruktúra olyan megválasztására, ami leírja a feltételes valségi eloszlásokat b.) a modell paraméterek értékelése (pl.: feltételes valségi eloszlás meghatározása)
III/b.:1. Példa Tekintsünk egy autonóm rendszert, nem megfigyelhető bemenetekkel, és egy olyan kimenettel, ami véletlen események sorozatának a kimenete 2 lehetséges kimenettel: A és Ā. Így y(t) ≡ A, vagy y(t) ≡ Ā, de azt nem tudjuk, hogy melyik fog megvalósulni. Világos, hogy a kimeneti halmaz kételemű: S y = {A, Ā}, és p(y(t))=f(t)(y(t)), aminek teljesítenie kell a következő relációt: f(t)(A)+f(t)(Ā) = 1. Ez jól leírható egy számmal: f(t)(A) = α és f(t)(Ā) = 1-α. A modell megalkotásához néhány feltétellel kell élnünk:
Ha a rendszerről rendelkezésre álló alapvető információk alapján meghatároztuk a rendszermodellt, a valségi eloszlása p(y(t)), azaz α(t) szám is a priori információkon alapul. Emellett a rendszer előző állapotai egyéb információval nem szolgálnak y(t)-ről. Emellett a rendszerről feltételezhetjük a priori információk alapján, hogy α(t) mindenhol ugyanaz. Így a modellünk: p(y(t)|y (t-1) ) = α, minden y(t) ≡ A- ra, és p(y(t)|y (t-1) ) = 1-α minden y(t) ≡ Ā-ra. És ezt jól leírja egy Θ= α paraméter. Minden valségi eloszlás feltételes, gyakran nehéz egyszerűen kifejezni őket.
Van olyan eset, amikor az első feltevésünk alapján nem határozható meg α paraméter. Ekkor átfogalmazhatjuk a következőképpen: Ha többet tudunk a rendszerről és meg tudjuk határozni α paramétert, akkor a rendszer „előéletéről” több információt is kaphatunk a folyamat várható kimeneteléről. (y(t)) Így a függetlenséget feltételes függetlenségre cseréltük így: p(y(t)|y (t-1 ), α)= p(y(t)| α). Így az ismeretlen paraméter egy folyamatos véletlen változóként figyelhető meg (α), ami 0 és 1 közötti valós értékű. S α =. A modell az előzőek helyett így definiálható: p(y(t)|y (t-1 ), α) = α, minden y(t) ≡ A-ra, és p(y(t)|y (t-1 ), α) = 1-α minden y(t) ≡ Ā-ra. Ahol α változó és nem konstans.
A kimenetek előrejelzéséhez a formula itt így használható: y(t) ≡ A-ra: y(t) ≡ Ā-ra:
III/c.: Diszkrét fehér zaj Ha a kimenet egy véletlen változó, akkor érdemes bevezetni egy függő valváltozót, ami megadja a y(t) és a korábbi ki és bemeneti adatok feltételes középértéke közti kapcsolatot. (e(t)) Ha y(t) kimenet egy v oszlopvektor, akkor e(t)-t így definiálhatom:
e(t) (t=1,2,…) sorozat tulajdonságai: E[e(t)]=0 (1) E[e(t) e T (t-i)]=0; i ≠ 0, i<t (2) E[e(t) y T (t-i)]=0; 0<i<t (3) E[e(t) u T (t-i)] = 0; 0≤i<t (4) Ha létezik véletlen változók egy sorozata, (1) alapján nulla értékkel, ha kölcsönösen korrelálatlanok (2), akkor diszkrét fehér zajról beszélünk.
i>0 estetben: i<0-ra időeltolás: τ=t-1 g() időinvariáns, a kovariancia mátrix konstans: Adott u(t) és D(t-1), akkor y(t) és e(t) az előzőek alapján:
A műveleti modell megadható egy sztochasztikus egyenlet formájában: (láttuk már ezt az előbb is…) g(e(t))~N(O,R), ahol a modell jól le van írva, ha R kovariancia mátrixszal y^(t) kifejezett a ki- és bemenetekből.
III/d.: Lineáris regressziós modell Tekintsünk egy rendszert, aminek bemenetei:μ kimenetei: v, mindkettő folytonos a megfelelő u(t) є R μ és y(t) є R v intervallumon. y (t) függ az u(t) és a megelőző n ki- és bemeneti állapottól, D (t-1) (t-n) megadható. Ha n elég nagy, akkor lehetnek olyan korábbi állapotok, amik nem hordoznak elég információt y(t)-ről. Matematikailag: p(y(t)|u(t),D (t-1) )=p(y(t)|u(t),D (t-1) (t-n) ) és y^(t)(u(t), D (t-1) )=y^(t)(u(t), D (t-1) (t-n) )
N-ed rendű lineáris regressziós modell Ahol {e(t)} diszkrét fehér zaj konstans R kovariancia mátrixszal. T>n esetben a modell jól leírható a paraméterekkel: Θ={A i (i=1,…,n), Bi (i=0,1,…,n), c, R}
III/e.: Inkrementális regressziós modell Gyakran a valódi feladatok nem stacionáriusak A c konstansból egy elég nehezen előrejelezhető változó lesz, ilyenkor ez a legmegfelelőbb eljárás:
A modell a következő formára írható át: y(t-1): az utolsó ismert állapot.,ahol {c(t)} egy független növekedésű sztochasztikus folyamat. c(t)= c(t-1)+ e(t), azaz egy összeadott fehér zaj. {e(t)}
III/f.: ARMA modell y^(t)-ről feltesszük, hogy a megelőző ki és bemenetek függvénye. Ez azt jelenti, hogy egy determinisztikus függvény lesz az egész eddigi ki és bemenetek alapján. Emellett feltesszük, hogy rekurzívan így definiálható: A homogén rész stabil, mert minden gyök kívül van az egységkörön.
Ha az y^(t)=y(t)-e(t) helyettesítéssel élünk, akkor egy közismertebb formát kapunk: Ahol A i =C i -G i, és általában a modell a konstans c nélkül használatos, ugyanis ehy helyes átskálázással (u(t) és/vagy y(t)) kiiktatható, de ismerni kell hozzá a mátrix-együtthatókat.
Az ilyen modelleket ARMA modelleknek hívjuk, és közvetlenül függnek a valségi eloszlásoktól: p(y(t)|u(t), D (t-1) ) A diff. egyenletek felírásához szükséges: Θ={G i (i=1,2,…,n), B i (i=0,1,…,n), C i (1,2,…,n), c, R y^(i) (1,2,…,n)}, ahol y^(i) a kezdeti állapotok. Ha a rendszer „előélete” elég hosszan ismert, akkor y^(i) elhagyható: 0-nak és ismertnek tekinthető. Az ARMA modell sajnos csak akkor használható jól, ha C i rögzített, mint ismert információ.
III/g: Állapottér modell A rendszermodellel kapcsolatban felvetődik a probléma, hogy hogyan paraméterezzünk egy feltételes valségi eloszlást t>t0 esetben. Általában t-től különböző dimenziójú skalárfüggvény lesz Emellett s(t-1) véges dimenziós halmazzal is leírható, ami elegendő statisztikát tartalmaz y(t)- ről, így: p(y(t)|u(t), D (t-1 )) = Ψ(y(t),u(t),s(t-1)) és legyen igaz: s(t)=Φ(s(t-1),u(t),y(t)). Így a modellezési probléma lecsökkenthető s(t) dimenziómegválasztására és Ψ skalár fgv parametrizálására.
Összeadva néhány előző egyenlettel: p(e(t)|u(t),s(t-1))=p(e(t))~N(O,R) Együtt az előzővel definiálja Ψ függvényt. s(t)=A s(t-1)+B u(t)+ H e(t), ahol A=H+GC B=GD+F y(t)-t és a másodi s(t)-t megadó egyenletet innovációs formulának hívják dekompozíció y^(t) és Φ(t) linearitásá ból
III/h.: Mérhető külső zajok adatgyűjtés modellezés előtt, vannak priori információk, amik mindig elérhetőek Ilyen, és a legfontosabb a kimenet: y(t) Két részhalamzra osztható: y(t)={v(t), y s (t)}, Ahol v(t) a mérhető külső zaj, ami függ a múltjától, de a jelentől nem. A múltbeli értékek megfigyelhetők: p(v(t)|y s (t), u(t), D (t-1) )=p(v(t)|v (t- 1) ). Tekinthetőek egy önálló irányíthatatlan környezetnek. y s (t): pedig a „külső világ” irányított részének kimenete
Felírhatjuk továbbá: p(y(t)|u(t), D (t-1) )= p(v(t), y s (t)|u(t), D (t-1) )=p(v(t)|y s (t),u(t), D (t-1) ) * p(y s (t)|u(t),D (t-1) ) és a külső zajok definiálása szerint: p(y(t)|u(t), D (t-1) )= p(v(t)|v (t-1) ) p(y s (t)|u(t), D (t- 1) ), így a modell felbontható két részre, ahol az első rész a külső, mérhető zajokat a második pedig a rendszert magát írja le. A valségi eloszlás pedig egy általános leírást ad az irányításról, magában foglalva a mérhető zajokat: p(u(t)|D (t-1) )=p(u(t)|u (t-1), y s (t-1),v (t-1) )
IV. Paraméter értékelés és kimenet becslés Tegyük fel, hogy egy rendszermodellt ismerünk Θ paramétereiből. Így egy bizonyos τ időintervallumon (τ= t 0 +1, t 0 +2,…,t) a feltételes valségi eloszlás a következőképpen alakul: p(y(τ)|u(τ), D (τ-1), Θ) Ezzel kapcsolatban felmerülő kérdések: Hogyan nyerhetők ki azok a paraméterek, amik a ki- és bemeneti adatokat tartalmazzák? (Bayes-i feltevésben: Hogyan számolható aposteriori valségi eloszlás? p(Θ|D (t) ) ) Hogyan jelezhető előre egy adott bemenetre egy kimenet, ha csak az előző kimenetek ismertek? (Bayes-i feltevésben: Hogyan számítható y(t+1) feltételes valségi eloszlása u(t+1) és D (t) feltételével, (Θ, mint feltétel itt nem szerepel) )
Ahol az első rész a feltételes valségi eloszlás, amit a modell szerkezete határoz meg. A fenti kérdések közül második megoldódik, ha az első megválaszolható, és megadható a kapcsolat aposzteriori valsédi eloszlás és az integrál második fele között. Valós idejű esetben az új ki- és bemeneti párokkal is frissítik a valségi eloszlást.
Valós időben és egy pillanatnyiban is következőképpen fogalmazhatjuk meg a problémát: Adott p(Θ|D (t-1) ) és az adatok D (t) (t1+1) t1<t,határozzuk meg p(Θ|D (t) ). Ha boldogulunk vele T1=0 esetben, akkor az egy pillanat esetét megoldottuk, innen már csak t1=t-1 beállítást kell használnunk egy rekurzív formulához. Alkalmazva a Bayes formulát a=Θ, b= D (t) (t1+1) és c= D (t1) -re azt kapjuk, hogy: A használat ához ki kell fejezni a feltételes valségi eloszlást
IV/b: Bemenetgenerálás Autonóm rendszer – nincs megfigyelhető bemenete: D(τ)=y(τ) és a feltételes eloszlás itt p(y(τ)|y (τ-1), Θ), amik a modellben adottak. A bemenet determinisztikus: minden u(k) (k= 1,2,…, τ) minden τ konstans paraméternek tekinthető és elhagyhatóak p(y(τ)|u(τ), D (τ-1), Θ)- ből. Ez az eset az előzőre vezethető vissza. Sztochasztikus bemeneti sorozat: pl.: a kimenettől/ismeretlen (Θ) paraméterektől függetlenül jöttek létre: p(u(τ), D (τ-1), Θ)= p(u(τ)|u (τ-1) ) Zárt rendszer (pl. adaptív szabályozó) által generált bemenetek: függnek az előző kimenetektől és az ismeretlen (Θ) paraméterektől is. Mindegyik ugyanúgy megoldható…
V. A Bayes paraméterbecslés tulajdonságai A becslési eljárás eredménye a p(Θ|D N ) feltételes valségi sűrűségfgv, tehát nem valamely pontbecslés, hanem a teljes becsült függvény. Ez a módszer elméleti ereje és alkalmazási gyengesége is. Elméletileg a becsült Θ paraméterekre vonatkozó teljes statisztika rendelkezésre áll, nemcsak aszimptotikusan, hanem véges esetben is, ehhez azonban egy függvényt kell(ene) minden lépésben kihasználni.
A becslés maga, a Bayes formulából adódóan természetében rekurzív, végrehajtásához a p(y(k)|D k-1, Θ)parametrizált rendszermodellen kívül a p 0 (Θ) prior, vagy kezdeti becslés is szükséges. A priori becsléssel a paraméterekről rendelkezésünkre álló technológiai, fizikai, vagy üzemeltetői tudás építhető be a paraméterbecslésbe elméletileg tiszta és jól követhető módon. Ritka az az eset, amikor valóban semmit nem tudunk a paraméterek értékéről, ilyenkor általában megadható valamely lehetséges értéktartomány amely felett egyenletes, vagy igen nagy szórású normális eloszlásfgv-t adhatunk meg prior becslésként.
Belátható, hogy autoregressziós bemenet- kimenet modell és normális eloszlású becslési hiba, valamint normális eloszlású prior becslés mellett a Bayes becslés a standard rekurzív legkisebb négyzetes (LKN) becslésre vezet, tehát ilyen esetben jól számítható.
Maximum a posteriori becslés A bayes becslésből származtatható úgy, hogy a becslés eredményeként kapott teljes valségi sűrűségfüggvény (p(Θ|D N ) ) helyett annak egy pontbecslését, méghozzá a maximum likelihood (legnagyobb valség elve) alapján képzett pontbecslést használjuk. Miután a teljes D N mért adat rekordban csak az y(k) (k=1,2,…,N) kimenetek tekinthetők valóban függő változónak (a bemeneteket paraméterbecslési célra elvileg tetszőlegesen megválaszthatjuk), ezért a Bayes paraméterbecslés (1) nem rekurzív alakja a következő formában is felírható, (2) alapján (3):
(1): (2): (3): Ez utóbbi a maximum likelihood elven képzett becslés maximuma a Maximum A Posteriori (MAP) becslés. Fontos, mert kapcsolatot jelent a ML es a Bayes becslés között, emellett belátható, hogy mindkettőhöz teljes valószínűségi modell kell.
Források Hangos Katalin – Szederkényi Gábor: Dinamikus Rendszerek Paramétereinek becslése, Veszprémi Egyetemi Kiadó, Veszprém V. Peterka - Bayesian Approach To System Identification
Köszönöm a figyelmet!