Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Megerősítéses tanulás 5. előadás
Szita István, Lőrincz András
2
Emlékeztető: Markov döntési folyamat
S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta
3
Ismétlés: Bellman egyenletek
4
Ismétlés: stratégia kiértékelése
„kiértékelő” dinamikus programozás-operátor: Vk ! V gond: szükség van a modellre: kell P, R
5
Stratégia kiértékelése modell nélkül
mit is jelent V(s)? R(s): „nyereség s-ből”, valószínűségi változó várható értéke: V(s)
6
V(s) becslése R(s) modell nélkül számítható, szimulációval
tapasztalati átlag: veszünk N darab s-ből induló utat, a nyereségek: „Monte Carlo” módszer
7
a Monte Carlo becslés tulajdonságai
konvergencia a becslés tart a valódi átlaghoz a szórás tart 0-hoz ritkán lesz nagy az eltérés lehet kényelmesebben is! iteratív becslés nem kell minden s-re kükön
8
Matematikai kitérő: nagy számok törvénye
X valószínűségi változó, véges a várhatóértéke, véges a szórása, veszünk N független mintát X-ből: x1, x2, …, xN xk-k függetlenek
9
Matematikai kitérő: nagy számok törvénye
biz: trivi
10
Matematikai kitérő: nagy számok törvénye
biz: ha ij, a függetlenség miatt
11
Iteratív átlagolás nem akarjuk mind az N mintát eltárolni mindig
később megengedünk általánosabb k-t is
12
Monte Carlo stratégiaértékelés
minden s állapotból N trajektóriát indítunk lemérjük a kapott nyereségeket: nagy számok törvénye miatt csinálhatjuk iteratív átlagolással pazarló!
13
Monte Carlo, okosabban egyetlen trajektóriából egy csomó R-et megtudhatunk! ha si sj, akkor a becslések függetlenek mi van, ha si = sj ? (a) csak az egyiket vesszük figyelembe – megmarad a függetlenség (b) mindkettőt felhasználjuk – nem foglalkozunk a lehetséges problémával s1 ! s2 s3 … sT r1 r2 r3 rT-1 R(s1) R(s2) R(s3)
14
Optimális stratégia tanulása Monte Carlo-val
Q-t számolunk, nem V-t stratégiaiteráció kiértékelés MC-vel stratégiajavítás a szokásos módon ha a kiértékelést nem csináljuk végtelen sok lépésen át: használható módszer, de konvergenciatétel nincs Q közvetlen felhasználása mint az értékiteráció: Q szerint mohó akciót választom muszáj „lágy stratégiát” használni: nem-mohó akciókat is választani néha a kiértékelt stratégia állandóan változik – nincs konvergenciatétel
15
Még mindig a Monte Carlo-ról
nagy előny: nem kell modell csak az ügynök tapasztalatait használja működik akkor is, ha nem teljesül a Markov-feltevés! konvergenciához minden állapotot sokszor meg kell látogatni „exploratív kezdés”: minden epizódot másik állapotban kezdünk speciális stratégia, ami minden állapotba eljut hátrány: lassú ha tizedére akarjuk csökkenteni a bizonytalanságot, 100-szorozni kell a kísérletek számát! nem használjuk ki az állapotok közti összefüggéseket
16
Időbeli differenciák módszere
Temporal Differences, TD kiküszöböli a MC módszer hibáit vannak változatai, amik gyorsan tanulnak bizonyítunk konvergenciát tud modell nélkül tanulni az első igazi megerősítéses tanulás-módszer az órán! történetileg is az első
17
Levezetés a Monte Carlo módszerből
V MC becslése: a k. iterációban st-ből az össznyereség Rk kulcs: Rk a V(st)-nek a becslése más becslés:
18
Az időbeli differenciák módszere
az időbeli differencia: előnyök nem kell modell (szemben a DP-vel) nem kell megvárni az epizód végét (szemben az MC-vel) MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk ez akár gond is lehetne – de látni fogjuk, hogy nem az ugyanazt a becslést használjuk a javításhoz, csak egy lépéssel később
19
Egy példa: hazaút autóval
hivatalnok megy haza az irodából, becsülgeti a hátralevő időt iroda ! garázs ! autópálya ! főút ! kis utca ! otthon Állapot eltelt idő becsült hátralevő idő becsült összidő indulás az irodából 0 30 autóban ül. esik. 5 (25!) 35 40 autópálya végén 20 (20!) 15 35 főút, kamion mögött (5!) 10 kis utca elején (0!) 3 43 otthon
20
Hazaút autóval: TD becslés
21
Hazaút autóval: MC becslés
22
Még egy példa: véletlen bolyongás
23
Véletlen bolyongás: MC vs. TD
24
Összehasonlítás: DP, MC, TD
mindegyik valamilyen becslést használ V-re: DP: a Bellman-fixpontegyenletből származik a várható értéket a modell alapján pontosan számoljuk TD: a várható értéket mintavételezzük a mintavétel zajos, ezért csak -nyi mértékben vesszük figyelembe MC:
25
Az MDP mint döntési fa fehér pötty: állapot fekete pötty: akció
T: terminális állapot T
26
a Monte Carlo módszer diagramja
27
az időbeli differencia-módszer diagramja
T
28
a dinamikus programozás diagramja
T
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.