Megerősítéses tanulás 5. előadás Szita István, Lőrincz András
Emlékeztető: Markov döntési folyamat S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta
Ismétlés: Bellman egyenletek
Ismétlés: stratégia kiértékelése „kiértékelő” dinamikus programozás-operátor: Vk ! V gond: szükség van a modellre: kell P, R
Stratégia kiértékelése modell nélkül mit is jelent V(s)? R(s): „nyereség s-ből”, valószínűségi változó várható értéke: V(s)
V(s) becslése R(s) modell nélkül számítható, szimulációval tapasztalati átlag: veszünk N darab s-ből induló utat, a nyereségek: „Monte Carlo” módszer
a Monte Carlo becslés tulajdonságai konvergencia a becslés tart a valódi átlaghoz a szórás tart 0-hoz ritkán lesz nagy az eltérés lehet kényelmesebben is! iteratív becslés nem kell minden s-re kükön
Matematikai kitérő: nagy számok törvénye X valószínűségi változó, véges a várhatóértéke, véges a szórása, veszünk N független mintát X-ből: x1, x2, …, xN xk-k függetlenek
Matematikai kitérő: nagy számok törvénye biz: trivi
Matematikai kitérő: nagy számok törvénye biz: ha ij, a függetlenség miatt
Iteratív átlagolás nem akarjuk mind az N mintát eltárolni mindig később megengedünk általánosabb k-t is
Monte Carlo stratégiaértékelés minden s állapotból N trajektóriát indítunk lemérjük a kapott nyereségeket: nagy számok törvénye miatt csinálhatjuk iteratív átlagolással pazarló!
Monte Carlo, okosabban egyetlen trajektóriából egy csomó R-et megtudhatunk! ha si sj, akkor a becslések függetlenek mi van, ha si = sj ? (a) csak az egyiket vesszük figyelembe – megmarad a függetlenség (b) mindkettőt felhasználjuk – nem foglalkozunk a lehetséges problémával s1 ! s2 s3 … sT r1 r2 r3 rT-1 R(s1) R(s2) R(s3)
Optimális stratégia tanulása Monte Carlo-val Q-t számolunk, nem V-t stratégiaiteráció kiértékelés MC-vel stratégiajavítás a szokásos módon ha a kiértékelést nem csináljuk végtelen sok lépésen át: használható módszer, de konvergenciatétel nincs Q közvetlen felhasználása mint az értékiteráció: Q szerint mohó akciót választom muszáj „lágy stratégiát” használni: nem-mohó akciókat is választani néha a kiértékelt stratégia állandóan változik – nincs konvergenciatétel
Még mindig a Monte Carlo-ról nagy előny: nem kell modell csak az ügynök tapasztalatait használja működik akkor is, ha nem teljesül a Markov-feltevés! konvergenciához minden állapotot sokszor meg kell látogatni „exploratív kezdés”: minden epizódot másik állapotban kezdünk speciális stratégia, ami minden állapotba eljut hátrány: lassú ha tizedére akarjuk csökkenteni a bizonytalanságot, 100-szorozni kell a kísérletek számát! nem használjuk ki az állapotok közti összefüggéseket
Időbeli differenciák módszere Temporal Differences, TD kiküszöböli a MC módszer hibáit vannak változatai, amik gyorsan tanulnak bizonyítunk konvergenciát tud modell nélkül tanulni az első igazi megerősítéses tanulás-módszer az órán! történetileg is az első
Levezetés a Monte Carlo módszerből V MC becslése: a k. iterációban st-ből az össznyereség Rk kulcs: Rk a V(st)-nek a becslése más becslés:
Az időbeli differenciák módszere az időbeli differencia: előnyök nem kell modell (szemben a DP-vel) nem kell megvárni az epizód végét (szemben az MC-vel) MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk ez akár gond is lehetne – de látni fogjuk, hogy nem az ugyanazt a becslést használjuk a javításhoz, csak egy lépéssel később
Egy példa: hazaút autóval hivatalnok megy haza az irodából, becsülgeti a hátralevő időt iroda ! garázs ! autópálya ! főút ! kis utca ! otthon Állapot eltelt idő becsült hátralevő idő becsült összidő indulás az irodából 0 30 autóban ül. esik. 5 (25!) 35 40 autópálya végén 20 (20!) 15 35 főút, kamion mögött (5!) 10 kis utca elején (0!) 3 43 otthon
Hazaút autóval: TD becslés
Hazaút autóval: MC becslés
Még egy példa: véletlen bolyongás
Véletlen bolyongás: MC vs. TD
Összehasonlítás: DP, MC, TD mindegyik valamilyen becslést használ V-re: DP: a Bellman-fixpontegyenletből származik a várható értéket a modell alapján pontosan számoljuk TD: a várható értéket mintavételezzük a mintavétel zajos, ezért csak -nyi mértékben vesszük figyelembe MC:
Az MDP mint döntési fa fehér pötty: állapot fekete pötty: akció T: terminális állapot T
a Monte Carlo módszer diagramja
az időbeli differencia-módszer diagramja T
a dinamikus programozás diagramja T