Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Megerősítéses tanulás 5. előadás

Hasonló előadás


Az előadások a következő témára: "Megerősítéses tanulás 5. előadás"— Előadás másolata:

1 Megerősítéses tanulás 5. előadás
Szita István, Lőrincz András

2 Emlékeztető: Markov döntési folyamat
S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta

3 Ismétlés: Bellman egyenletek

4 Ismétlés: stratégia kiértékelése
„kiértékelő” dinamikus programozás-operátor: Vk ! V  gond: szükség van a modellre: kell P, R

5 Stratégia kiértékelése modell nélkül
mit is jelent V(s)? R(s): „nyereség s-ből”, valószínűségi változó várható értéke: V(s)

6 V(s) becslése R(s) modell nélkül számítható, szimulációval
tapasztalati átlag: veszünk N darab s-ből induló utat, a nyereségek: „Monte Carlo” módszer

7 a Monte Carlo becslés tulajdonságai
konvergencia a becslés tart a valódi átlaghoz a szórás tart 0-hoz ritkán lesz nagy az eltérés lehet kényelmesebben is! iteratív becslés nem kell minden s-re kükön

8 Matematikai kitérő: nagy számok törvénye
X valószínűségi változó, véges a várhatóértéke, véges a szórása, veszünk N független mintát X-ből: x1, x2, …, xN xk-k függetlenek

9 Matematikai kitérő: nagy számok törvénye
biz: trivi

10 Matematikai kitérő: nagy számok törvénye
biz: ha ij, a függetlenség miatt

11 Iteratív átlagolás nem akarjuk mind az N mintát eltárolni mindig
később megengedünk általánosabb k-t is

12 Monte Carlo stratégiaértékelés
minden s állapotból N trajektóriát indítunk lemérjük a kapott nyereségeket: nagy számok törvénye miatt csinálhatjuk iteratív átlagolással pazarló!

13 Monte Carlo, okosabban egyetlen trajektóriából egy csomó R-et megtudhatunk! ha si  sj, akkor a becslések függetlenek mi van, ha si = sj ? (a) csak az egyiket vesszük figyelembe – megmarad a függetlenség (b) mindkettőt felhasználjuk – nem foglalkozunk a lehetséges problémával s1 ! s2 s3 sT r1 r2 r3 rT-1 R(s1) R(s2) R(s3)

14 Optimális stratégia tanulása Monte Carlo-val
Q-t számolunk, nem V-t stratégiaiteráció kiértékelés MC-vel stratégiajavítás a szokásos módon ha a kiértékelést nem csináljuk végtelen sok lépésen át: használható módszer, de konvergenciatétel nincs Q közvetlen felhasználása mint az értékiteráció: Q szerint mohó akciót választom muszáj „lágy stratégiát” használni: nem-mohó akciókat is választani néha a kiértékelt stratégia állandóan változik – nincs konvergenciatétel

15 Még mindig a Monte Carlo-ról
nagy előny: nem kell modell csak az ügynök tapasztalatait használja működik akkor is, ha nem teljesül a Markov-feltevés! konvergenciához minden állapotot sokszor meg kell látogatni „exploratív kezdés”: minden epizódot másik állapotban kezdünk speciális stratégia, ami minden állapotba eljut hátrány: lassú ha tizedére akarjuk csökkenteni a bizonytalanságot, 100-szorozni kell a kísérletek számát! nem használjuk ki az állapotok közti összefüggéseket

16 Időbeli differenciák módszere
Temporal Differences, TD kiküszöböli a MC módszer hibáit vannak változatai, amik gyorsan tanulnak bizonyítunk konvergenciát tud modell nélkül tanulni az első igazi megerősítéses tanulás-módszer az órán! történetileg is az első

17 Levezetés a Monte Carlo módszerből
V MC becslése: a k. iterációban st-ből az össznyereség Rk kulcs: Rk a V(st)-nek a becslése más becslés:

18 Az időbeli differenciák módszere
az időbeli differencia: előnyök nem kell modell (szemben a DP-vel) nem kell megvárni az epizód végét (szemben az MC-vel) MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk ez akár gond is lehetne – de látni fogjuk, hogy nem az ugyanazt a becslést használjuk a javításhoz, csak egy lépéssel később

19 Egy példa: hazaút autóval
hivatalnok megy haza az irodából, becsülgeti a hátralevő időt iroda ! garázs ! autópálya ! főút ! kis utca ! otthon  Állapot eltelt idő becsült hátralevő idő becsült összidő indulás az irodából  0 30 autóban ül. esik.  5 (25!) 35 40 autópálya végén 20 (20!) 15 35 főút, kamion mögött (5!) 10 kis utca elején   (0!) 3 43 otthon

20 Hazaút autóval: TD becslés

21 Hazaút autóval: MC becslés

22 Még egy példa: véletlen bolyongás

23 Véletlen bolyongás: MC vs. TD

24 Összehasonlítás: DP, MC, TD
mindegyik valamilyen becslést használ V-re: DP: a Bellman-fixpontegyenletből származik a várható értéket a modell alapján pontosan számoljuk TD: a várható értéket mintavételezzük a mintavétel zajos, ezért csak -nyi mértékben vesszük figyelembe MC:

25 Az MDP mint döntési fa fehér pötty: állapot fekete pötty: akció
T: terminális állapot T

26 a Monte Carlo módszer diagramja

27 az időbeli differencia-módszer diagramja
T

28 a dinamikus programozás diagramja
T


Letölteni ppt "Megerősítéses tanulás 5. előadás"

Hasonló előadás


Google Hirdetések