Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

1 Megerősítéses tanulás 5. előadás Szita István, Lőrincz András.

Hasonló előadás


Az előadások a következő témára: "1 Megerősítéses tanulás 5. előadás Szita István, Lőrincz András."— Előadás másolata:

1 1 Megerősítéses tanulás 5. előadás Szita István, Lőrincz András

2 2 Emlékeztető: Markov döntési folyamat  S : állapottér  A : akciótér  átmeneti valószínűségek  közvetlen jutalmak  s 0 : kiindulási állapot   : diszkontálási ráta

3 3 Ismétlés: Bellman egyenletek

4 4 Ismétlés: stratégia kiértékelése „kiértékelő” dinamikus programozás-operátor: V k ! V  gond: szükség van a modellre: kell P, R

5 5 Stratégia kiértékelése modell nélkül mit is jelent V  (s) ? R(s) : „nyereség s -ből”, valószínűségi változó várható értéke: V  (s)

6 6 V  (s) becslése R(s) modell nélkül számítható, szimulációval tapasztalati átlag: veszünk N darab s -ből induló utat, a nyereségek: „Monte Carlo” módszer

7 7 a Monte Carlo becslés tulajdonságai konvergencia  a becslés tart a valódi átlaghoz  a szórás tart 0-hoz  ritkán lesz nagy az eltérés lehet kényelmesebben is!  iteratív becslés  nem kell minden s -re kükön

8 8 Matematikai kitérő: nagy számok törvénye X valószínűségi változó,  véges a várhatóértéke,  véges a szórása, veszünk N független mintát X -ből:  x 1, x 2, …, x N  x k -k függetlenek 

9 9 Matematikai kitérő: nagy számok törvénye biz: trivi

10 10 Matematikai kitérő: nagy számok törvénye biz:  ha i  j, a függetlenség miatt

11 11 Iteratív átlagolás nem akarjuk mind az N mintát eltárolni mindig később megengedünk általánosabb  k -t is

12 12 Monte Carlo stratégiaértékelés minden s állapotból N trajektóriát indítunk lemérjük a kapott nyereségeket: nagy számok törvénye miatt csinálhatjuk iteratív átlagolással pazarló!

13 13 Monte Carlo, okosabban egyetlen trajektóriából egy csomó R -et megtudhatunk! ha s i  s j, akkor a becslések függetlenek mi van, ha s i = s j ?  (a) csak az egyiket vesszük figyelembe – megmarad a függetlenség  (b) mindkettőt felhasználjuk – nem foglalkozunk a lehetséges problémával s1s1 ! s2s2 ! s3s3 ! … ! sTsT r1r1 r2r2 r3r3 rT-1rT-1 R(s1)R(s1) R(s2)R(s2) R(s3)R(s3)

14 14 Optimális stratégia tanulása Monte Carlo-val Q -t számolunk, nem V -t stratégiaiteráció  kiértékelés MC-vel  stratégiajavítás a szokásos módon  ha a kiértékelést nem csináljuk végtelen sok lépésen át: használható módszer, de konvergenciatétel nincs Q közvetlen felhasználása  mint az értékiteráció: Q szerint mohó akciót választom  muszáj „lágy stratégiát” használni: nem-mohó akciókat is választani néha  a kiértékelt stratégia állandóan változik – nincs konvergenciatétel

15 15 Még mindig a Monte Carlo-ról nagy előny: nem kell modell  csak az ügynök tapasztalatait használja  működik akkor is, ha nem teljesül a Markov-feltevés! konvergenciához minden állapotot sokszor meg kell látogatni  „exploratív kezdés”: minden epizódot másik állapotban kezdünk  speciális stratégia, ami minden állapotba eljut hátrány: lassú  ha tizedére akarjuk csökkenteni a bizonytalanságot, 100-szorozni kell a kísérletek számát!  nem használjuk ki az állapotok közti összefüggéseket

16 16 Időbeli differenciák módszere Temporal Differences, TD kiküszöböli a MC módszer hibáit  vannak változatai, amik gyorsan tanulnak  bizonyítunk konvergenciát tud modell nélkül tanulni az első igazi megerősítéses tanulás-módszer az órán! történetileg is az első

17 17 Levezetés a Monte Carlo módszerből V  MC becslése:  a k. iterációban s t -ből az össznyereség R k  kulcs: R k a V  ( s t )-nek a becslése   más becslés:

18 18 Az időbeli differenciák módszere az időbeli differencia: előnyök  nem kell modell (szemben a DP-vel)  nem kell megvárni az epizód végét (szemben az MC-vel)  MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk  ez akár gond is lehetne – de látni fogjuk, hogy nem az ugyanazt a becslést használjuk a javításhoz, csak egy lépéssel később

19 19 Egy példa: hazaút autóval hivatalnok megy haza az irodából, becsülgeti a hátralevő időt iroda ! garázs ! autópálya ! főút ! kis utca ! otthon Állapoteltelt idő becsült hátralevő idő becsült összidő indulás az irodából 030 autóban ül. esik. 5(25 ! ) 3540 autópálya végén20(20 ! ) 1535 főút, kamion mögött30(5 ! ) 1040 kis utca elején40 (0 ! ) 343 otthon43 0

20 20 Hazaút autóval: TD becslés

21 21 Hazaút autóval: MC becslés

22 22 Még egy példa: véletlen bolyongás

23 23 Véletlen bolyongás: MC vs. TD

24 24 Összehasonlítás: DP, MC, TD mindegyik valamilyen becslést használ V  -re: DP:  a Bellman-fixpontegyenletből származik  a várható értéket a modell alapján pontosan számoljuk TD:  a várható értéket mintavételezzük  a mintavétel zajos, ezért csak  -nyi mértékben vesszük figyelembe MC:  a várható értéket mintavételezzük  a mintavétel zajos, ezért csak  -nyi mértékben vesszük figyelembe

25 25 Az MDP mint döntési fa fehér pötty: állapot fekete pötty: akció T: terminális állapot TT T TT T T TTT T T TT TT T TTT

26 26 a Monte Carlo módszer diagramja TT T TT T T TTT T T TT TT T TTT

27 27 az időbeli differencia-módszer diagramja TT T TT T T TTT T T T T T T T TT T

28 28 a dinamikus programozás diagramja


Letölteni ppt "1 Megerősítéses tanulás 5. előadás Szita István, Lőrincz András."

Hasonló előadás


Google Hirdetések