Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.

Hasonló előadás


Az előadások a következő témára: "1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András."— Előadás másolata:

1 1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András

2 2 Ismétlés: TD becslés s t -ben  stratégia szerint lépek ! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük:

3 3 Akcióértékelő függvény számolása TD-vel még mindig fix stratégia kiértékelése az egyszerűség kedvéért V -t számoltunk: ugyanígy megy Q -ra is:

4 4 Optimális stratégia kiszámítása TD-vel ugyanúgy, mint az értékiterációnál vagy a Monte Carlonál modell nélkül akarjuk használni – muszáj Q -t számolni  Q szerint mohó akció s -ben:  V szerint mohó akció s -ben: kiindulási pont: Bellman-egyenlet Q * -ra

5 5 Optimális stratégia kiszámítása TD-vel Bellman-egyenlet: DP iteráció: TD iteráció:

6 6 A kapott algoritmus: Q-learning Q ( s, a ) tetszőleges ciklus (epizódokra)  s:=s 0 ; t:=0  ciklus (lépésekre) t:=t+1 választunk a akciót vamilyen  stratégia alapján végrehajtjuk a -t megfigyeljük az r jutalmat és s ’ következő állapotot s:=s ’  ciklus vége ciklus vége

7 7 Q-learning – elemzés ugyanaz az alapelv, mint fix stratégia értékelésénél közben még lépkedünk is valamilyen stratégia szerint nem azt a stratégiát értékeljük ki, ami szerint lépkedünk, hanem a mohót! online algoritmus:  csak az aktuális tapasztalatokat használjuk fel  nem használunk régebbi tapasztalatokat  nem használunk modellt egyetlen fennmaradó kérdés: mi legyen  ?  majdnem mindegy  mindjárt visszatérünk rá

8 8 Q-learning konvergenciája a sztochasztikus becslés tételt alkalmazzuk kotnraktív operátor: mohó Bellman-operátor Q -ra szükséges feltételek  tanulási ráta megfelelő ütemben csökken:  t  t = 1,  t  t 2 < 1  a jutalmak korlátosak  minden ( s, a ) párt végtelen sokszor látogatunk utolsó feltételt megfelelő  -vel tudjuk elérni  pl. minden akciót választ valamilyen valószínűséggel

9 9 Q-learning:  választása a módszer online, azaz a gyűjtött jutalom a követett stratégiától függ (a) lehetőség: tanulás közben nem törődünk a gyűjtött jutalommal, csak Q tanulásával, pl. véletlenszerűen választjuk az akciókat. Aztán a végén átkapcsolunk a mohó stratégiára  nem mindig van rá lehetőség (b) lehetőség: már tanulás közben is próbáljuk a lehető legtöbb jutalmat gyűjteni: mindig a mohó akciót választjuk  nem teljesül a konvergenciafeltétel kompromisszum:  legtöbbször a mohó akciót választjuk (járt út)  de néha új akciót is kipróbálunk (járatlan út) mi a jó arány? – nehéz kérdés legegyszerűbb:  -mohó stratégia:  1-  vszséggel a Q szerint mohó akció   vszséggel véletlen akció

10 10 Q-learning  -mohó stratégiával Q ( s, a ) tetszőleges ciklus (epizódokra)  s:=s 0 ; t:=0  ciklus (lépésekre) t:=t+1 1-  vszséggel a:=a mohó  vszséggel a:= véletlen akció végrehajtjuk a -t megfigyeljük az r jutalmat és s ’ következő állapotot s:=s ’  ciklus vége ciklus vége

11 11 egy kis módosítás: SARSA Q-learning: s -ben a -t léptem (  szerint), r a jutalom, s ’ a köv. állapot ehelyett: s -ben a -t léptem (  szerint), r a jutalom, s ’ a köv. állapot, a ’ a köv. akció (  szerint) név: SARSA ha a ’ a mohó akció, akkor a két képlet ugyanaz különbség a „felfedező” akciók esetében mindig azt a stratégiát követem, amit épp kiértékelek éppen ezért általában gyorsabb picit nehezebb megmutatni a konvergenciát

12 12 SARSA – konvergencia ez is kijön a sztochasztikus becslés-tételből szokásos feltevések (jutalom korlátos, tanulási ráta „szépen” csökken) minden (s,a) párt végtelen sokszor frissítünk (szükség van felfedező akciókra) a felfedező akciók nem optimálisak! ha az optimális értékelőfv-t szeretnénk megkapni, előbb-utóbb abba kell hagyni őket! kompromisszum: végtelen sok exploráció, de egyre kisebb vszínűséggel példa:  t -mohó stratégia,  t = 1/ t

13 13 Q-learning összefoglaló a legelső RL-algoritmus nem túl jól működik, de rengeteg továbbfejlesztése létezik konvergál  de ez exponenciálisan lassú is lehet  inkább elméleti, mint gyakorlati jelentősége van fő problémák:  nem hatékony az exploráció  nem hatékony a TD-hibák visszaterjesztése  minden ( s, a ) pár értékét külön kell becsülni

14 14 Az explorációs stratégia javítása az  -mohó stratégia nagyon rossz!  a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok  jutalom, ha ritkán látogatott állapotba jut az ügynök  jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: optimista kezdőértékek  Q 0 > Q *  eleinte minden akciót végigpróbál, mert sok jutalmat remél  lehet úgy csinálni, hogy polinomiális időben közel optimális Q -hoz konvergáljon

15 15 TD-hibák hatékonyabb visszaterjesztése felelősségnyomok  Q-learning-hez nehéz korrektül definiálni, de SARSA-hoz könnyű  részletek a könyvben… „tapasztalat-visszajátszás”  a tapasztalt trajektóriákat többször is lejátsszuk, mintha sokszor történt volna meg ugyanaz modell-építés  Q-learningnek nem kell modell  ha mégis van (pl. tanuljuk a tapasztalatokból), használhatjuk  az „igazi” tapasztalatok mellé a modell alapján gyártunk „szimulált” tapasztalatot is – itt a környezetet a (közelítő) modellje helyettesíti

16 16 Minden ( s, a ) pár értékét külön kell becsülni az állapotok száma exponenciálisan sok lehet! pl. folytonos feladatok diszkretizálása: k változó, mindegyiket n részre osztjuk – n k állapot.  ha kétszeres pontosságot szeretnénk, az állapotok száma 2 k -szorosára nő új változó bevezetése: 2 lehetséges érték ! kétszeresére nő az állapottér  akkor is, ha az új változó teljesen irreleváns (pl. világos van-e) Q-learning kb. 10000 állapotig bírja… kellene: általánosítás  ha egy s állapot értékét módosítjuk, akkor a hozzá „hasonló” állapotokét is  módszer: függvényapproximátorok, függvényillesztés

17 17 Függvényillesztés esetünkben:  pontok: állapotok  fv-értékek: az értékelőfüggvény becslései egyes állapotokban  keressük a legjobban illeszkedő közelítő értékelőfv-t függvényérték néhány pontban a lehető legjobban közelítő függvény


Letölteni ppt "1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András."

Hasonló előadás


Google Hirdetések