1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András
2 Ismétlés: TD becslés s t -ben stratégia szerint lépek ! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük:
3 Akcióértékelő függvény számolása TD-vel még mindig fix stratégia kiértékelése az egyszerűség kedvéért V -t számoltunk: ugyanígy megy Q -ra is:
4 Optimális stratégia kiszámítása TD-vel ugyanúgy, mint az értékiterációnál vagy a Monte Carlonál modell nélkül akarjuk használni – muszáj Q -t számolni Q szerint mohó akció s -ben: V szerint mohó akció s -ben: kiindulási pont: Bellman-egyenlet Q * -ra
5 Optimális stratégia kiszámítása TD-vel Bellman-egyenlet: DP iteráció: TD iteráció:
6 A kapott algoritmus: Q-learning Q ( s, a ) tetszőleges ciklus (epizódokra) s:=s 0 ; t:=0 ciklus (lépésekre) t:=t+1 választunk a akciót vamilyen stratégia alapján végrehajtjuk a -t megfigyeljük az r jutalmat és s ’ következő állapotot s:=s ’ ciklus vége ciklus vége
7 Q-learning – elemzés ugyanaz az alapelv, mint fix stratégia értékelésénél közben még lépkedünk is valamilyen stratégia szerint nem azt a stratégiát értékeljük ki, ami szerint lépkedünk, hanem a mohót! online algoritmus: csak az aktuális tapasztalatokat használjuk fel nem használunk régebbi tapasztalatokat nem használunk modellt egyetlen fennmaradó kérdés: mi legyen ? majdnem mindegy mindjárt visszatérünk rá
8 Q-learning konvergenciája a sztochasztikus becslés tételt alkalmazzuk kotnraktív operátor: mohó Bellman-operátor Q -ra szükséges feltételek tanulási ráta megfelelő ütemben csökken: t t = 1, t t 2 < 1 a jutalmak korlátosak minden ( s, a ) párt végtelen sokszor látogatunk utolsó feltételt megfelelő -vel tudjuk elérni pl. minden akciót választ valamilyen valószínűséggel
9 Q-learning: választása a módszer online, azaz a gyűjtött jutalom a követett stratégiától függ (a) lehetőség: tanulás közben nem törődünk a gyűjtött jutalommal, csak Q tanulásával, pl. véletlenszerűen választjuk az akciókat. Aztán a végén átkapcsolunk a mohó stratégiára nem mindig van rá lehetőség (b) lehetőség: már tanulás közben is próbáljuk a lehető legtöbb jutalmat gyűjteni: mindig a mohó akciót választjuk nem teljesül a konvergenciafeltétel kompromisszum: legtöbbször a mohó akciót választjuk (járt út) de néha új akciót is kipróbálunk (járatlan út) mi a jó arány? – nehéz kérdés legegyszerűbb: -mohó stratégia: 1- vszséggel a Q szerint mohó akció vszséggel véletlen akció
10 Q-learning -mohó stratégiával Q ( s, a ) tetszőleges ciklus (epizódokra) s:=s 0 ; t:=0 ciklus (lépésekre) t:=t+1 1- vszséggel a:=a mohó vszséggel a:= véletlen akció végrehajtjuk a -t megfigyeljük az r jutalmat és s ’ következő állapotot s:=s ’ ciklus vége ciklus vége
11 egy kis módosítás: SARSA Q-learning: s -ben a -t léptem ( szerint), r a jutalom, s ’ a köv. állapot ehelyett: s -ben a -t léptem ( szerint), r a jutalom, s ’ a köv. állapot, a ’ a köv. akció ( szerint) név: SARSA ha a ’ a mohó akció, akkor a két képlet ugyanaz különbség a „felfedező” akciók esetében mindig azt a stratégiát követem, amit épp kiértékelek éppen ezért általában gyorsabb picit nehezebb megmutatni a konvergenciát
12 SARSA – konvergencia ez is kijön a sztochasztikus becslés-tételből szokásos feltevések (jutalom korlátos, tanulási ráta „szépen” csökken) minden (s,a) párt végtelen sokszor frissítünk (szükség van felfedező akciókra) a felfedező akciók nem optimálisak! ha az optimális értékelőfv-t szeretnénk megkapni, előbb-utóbb abba kell hagyni őket! kompromisszum: végtelen sok exploráció, de egyre kisebb vszínűséggel példa: t -mohó stratégia, t = 1/ t
13 Q-learning összefoglaló a legelső RL-algoritmus nem túl jól működik, de rengeteg továbbfejlesztése létezik konvergál de ez exponenciálisan lassú is lehet inkább elméleti, mint gyakorlati jelentősége van fő problémák: nem hatékony az exploráció nem hatékony a TD-hibák visszaterjesztése minden ( s, a ) pár értékét külön kell becsülni
14 Az explorációs stratégia javítása az -mohó stratégia nagyon rossz! a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok jutalom, ha ritkán látogatott állapotba jut az ügynök jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: optimista kezdőértékek Q 0 > Q * eleinte minden akciót végigpróbál, mert sok jutalmat remél lehet úgy csinálni, hogy polinomiális időben közel optimális Q -hoz konvergáljon
15 TD-hibák hatékonyabb visszaterjesztése felelősségnyomok Q-learning-hez nehéz korrektül definiálni, de SARSA-hoz könnyű részletek a könyvben… „tapasztalat-visszajátszás” a tapasztalt trajektóriákat többször is lejátsszuk, mintha sokszor történt volna meg ugyanaz modell-építés Q-learningnek nem kell modell ha mégis van (pl. tanuljuk a tapasztalatokból), használhatjuk az „igazi” tapasztalatok mellé a modell alapján gyártunk „szimulált” tapasztalatot is – itt a környezetet a (közelítő) modellje helyettesíti
16 Minden ( s, a ) pár értékét külön kell becsülni az állapotok száma exponenciálisan sok lehet! pl. folytonos feladatok diszkretizálása: k változó, mindegyiket n részre osztjuk – n k állapot. ha kétszeres pontosságot szeretnénk, az állapotok száma 2 k -szorosára nő új változó bevezetése: 2 lehetséges érték ! kétszeresére nő az állapottér akkor is, ha az új változó teljesen irreleváns (pl. világos van-e) Q-learning kb állapotig bírja… kellene: általánosítás ha egy s állapot értékét módosítjuk, akkor a hozzá „hasonló” állapotokét is módszer: függvényapproximátorok, függvényillesztés
17 Függvényillesztés esetünkben: pontok: állapotok fv-értékek: az értékelőfüggvény becslései egyes állapotokban keressük a legjobban illeszkedő közelítő értékelőfv-t függvényérték néhány pontban a lehető legjobban közelítő függvény