Megerősítéses tanulás 5. előadás

Megerősítéses tanulás 5. előadás
Szita István, Lőrincz András

Emlékeztető: Markov döntési folyamat
S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta

Ismétlés: Bellman egyenletek

Ismétlés: stratégia kiértékelése
„kiértékelő” dinamikus programozás-operátor: Vk ! V  gond: szükség van a modellre: kell P, R

Stratégia kiértékelése modell nélkül
mit is jelent V(s)? R(s): „nyereség s-ből”, valószínűségi változó várható értéke: V(s)

V(s) becslése R(s) modell nélkül számítható, szimulációval
tapasztalati átlag: veszünk N darab s-ből induló utat, a nyereségek: „Monte Carlo” módszer

a Monte Carlo becslés tulajdonságai
konvergencia a becslés tart a valódi átlaghoz a szórás tart 0-hoz ritkán lesz nagy az eltérés lehet kényelmesebben is! iteratív becslés nem kell minden s-re kükön

Matematikai kitérő: nagy számok törvénye
X valószínűségi változó, véges a várhatóértéke, véges a szórása, veszünk N független mintát X-ből: x1, x2, …, xN xk-k függetlenek

biz: trivi

biz: ha ij, a függetlenség miatt

Iteratív átlagolás nem akarjuk mind az N mintát eltárolni mindig
később megengedünk általánosabb k-t is

Monte Carlo stratégiaértékelés
minden s állapotból N trajektóriát indítunk lemérjük a kapott nyereségeket: nagy számok törvénye miatt csinálhatjuk iteratív átlagolással pazarló!

Monte Carlo, okosabban egyetlen trajektóriából egy csomó R-et megtudhatunk! ha si  sj, akkor a becslések függetlenek mi van, ha si = sj ? (a) csak az egyiket vesszük figyelembe – megmarad a függetlenség (b) mindkettőt felhasználjuk – nem foglalkozunk a lehetséges problémával s1 ! s2 s3 … sT r1 r2 r3 rT-1 R(s1) R(s2) R(s3)

Optimális stratégia tanulása Monte Carlo-val
Q-t számolunk, nem V-t stratégiaiteráció kiértékelés MC-vel stratégiajavítás a szokásos módon ha a kiértékelést nem csináljuk végtelen sok lépésen át: használható módszer, de konvergenciatétel nincs Q közvetlen felhasználása mint az értékiteráció: Q szerint mohó akciót választom muszáj „lágy stratégiát” használni: nem-mohó akciókat is választani néha a kiértékelt stratégia állandóan változik – nincs konvergenciatétel

Még mindig a Monte Carlo-ról
nagy előny: nem kell modell csak az ügynök tapasztalatait használja működik akkor is, ha nem teljesül a Markov-feltevés! konvergenciához minden állapotot sokszor meg kell látogatni „exploratív kezdés”: minden epizódot másik állapotban kezdünk speciális stratégia, ami minden állapotba eljut hátrány: lassú ha tizedére akarjuk csökkenteni a bizonytalanságot, 100-szorozni kell a kísérletek számát! nem használjuk ki az állapotok közti összefüggéseket

Időbeli differenciák módszere
Temporal Differences, TD kiküszöböli a MC módszer hibáit vannak változatai, amik gyorsan tanulnak bizonyítunk konvergenciát tud modell nélkül tanulni az első igazi megerősítéses tanulás-módszer az órán! történetileg is az első

Levezetés a Monte Carlo módszerből
V MC becslése: a k. iterációban st-ből az össznyereség Rk kulcs: Rk a V(st)-nek a becslése más becslés:

Az időbeli differenciák módszere
az időbeli differencia: előnyök nem kell modell (szemben a DP-vel) nem kell megvárni az epizód végét (szemben az MC-vel) MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk ez akár gond is lehetne – de látni fogjuk, hogy nem az ugyanazt a becslést használjuk a javításhoz, csak egy lépéssel később

Egy példa: hazaút autóval
hivatalnok megy haza az irodából, becsülgeti a hátralevő időt iroda ! garázs ! autópálya ! főút ! kis utca ! otthon Állapot eltelt idő becsült hátralevő idő becsült összidő indulás az irodából 0 30 autóban ül. esik. 5 (25!) 35 40 autópálya végén 20 (20!) 15 35 főút, kamion mögött (5!) 10 kis utca elején (0!) 3 43 otthon

Hazaút autóval: TD becslés

Hazaút autóval: MC becslés

Még egy példa: véletlen bolyongás

Véletlen bolyongás: MC vs. TD

Összehasonlítás: DP, MC, TD
mindegyik valamilyen becslést használ V-re: DP: a Bellman-fixpontegyenletből származik a várható értéket a modell alapján pontosan számoljuk TD: a várható értéket mintavételezzük a mintavétel zajos, ezért csak -nyi mértékben vesszük figyelembe MC:

Az MDP mint döntési fa fehér pötty: állapot fekete pötty: akció
T: terminális állapot T

a Monte Carlo módszer diagramja

az időbeli differencia-módszer diagramja
T

a dinamikus programozás diagramja
T

Megerősítéses tanulás 5. előadás

Hasonló előadás

Az előadások a következő témára: "Megerősítéses tanulás 5. előadás"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Megerősítéses tanulás 5. előadás

Hasonló előadás

Az előadások a következő témára: "Megerősítéses tanulás 5. előadás"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés