1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.

Slides:



Advertisements
Hasonló előadás
Optimalizálás célérték kereséssel
Advertisements

PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Programozási tételek, és „négyzetes” rendezések
Kvantitatív Módszerek
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Operációkutatás szeptember 18 –október 2.
Csoportosítás megadása: Δx – csoport szélesség
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Becsléselméleti ismétlés
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Előadó: Prof. Dr. Besenyei Lajos
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
III. előadás.
KÖZMŰ INFORMATIKA NUMERIKUS MÓDSZEREK I.
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Nem-paraméteres eljárások, több csoport összehasonlítása
Dinamikai rendszerek kaotikus viselkedése
Egytényezős variancia-analízis
Aszexuális, szimpatrikus speciáció
A Lean és az emberi tényező kapcsolata
Készítette: Gergó Márton Konzulens: Engedy István 2009/2010 tavasz.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemen ő adatokon a legjobban.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
Gazdaságstatisztika 11. előadás.
VÉGES AUTOMATA ALAPÚ TERVEZÉSI MODELL
Alapsokaság (populáció)
Többtényezős ANOVA.
Nem más csak egyszerü logika!
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Valószínűségszámítás III.
ProgramozásProgramozás célja hosszabb számítások elvégzése ill. kiíratása akkor érdemes programot írni, ha sok számolni való van illetve ha ugyanazt az.
Mikroökonómia gyakorlat
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
A folytonosság Digitális tananyag.
Valószínűségszámítás II.
Megerősítéses tanulás 8. előadás
Az eredő szakasz GE(s) átmeneti függvénye alapján
Döntsön a kard! Mesterséges intelligencia a játékokban Szita István Eötvös Collegium.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
Bevezetés a méréskiértékelésbe (BMETE80ME19)
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás GY
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
Kinetikus Monte Carlo  Bevezetés  Véletlen bolyongás  Residence time algoritmus.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Kontinuum modellek 1.  Bevezetés a kontinuum modellekbe  Numerikus számolás alapjai.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Programozás alapjai Készítette: Csiszár Nóra Anita
Megerősítéses tanulás
Sudoku.
Mesterséges intelligencia
Válogatott fejezetek a közlekedésgazdaságtanból
Kockázat és megbízhatóság
Kereszt vagy beágyazott? Rögzített vagy véletlen?
Sakk algoritmus.
III. előadás.
Mesterséges intelligencia
Nem módosítható keresések
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András

2 Ismétlés: TD becslés s t -ben  stratégia szerint lépek ! a t, r t, s t+1 TD becslés: tulajdonképpen ezt mintavételezzük:

3 Akcióértékelő függvény számolása TD-vel még mindig fix stratégia kiértékelése az egyszerűség kedvéért V -t számoltunk: ugyanígy megy Q -ra is:

4 Optimális stratégia kiszámítása TD-vel ugyanúgy, mint az értékiterációnál vagy a Monte Carlonál modell nélkül akarjuk használni – muszáj Q -t számolni  Q szerint mohó akció s -ben:  V szerint mohó akció s -ben: kiindulási pont: Bellman-egyenlet Q * -ra

5 Optimális stratégia kiszámítása TD-vel Bellman-egyenlet: DP iteráció: TD iteráció:

6 A kapott algoritmus: Q-learning Q ( s, a ) tetszőleges ciklus (epizódokra)  s:=s 0 ; t:=0  ciklus (lépésekre) t:=t+1 választunk a akciót vamilyen  stratégia alapján végrehajtjuk a -t megfigyeljük az r jutalmat és s ’ következő állapotot s:=s ’  ciklus vége ciklus vége

7 Q-learning – elemzés ugyanaz az alapelv, mint fix stratégia értékelésénél közben még lépkedünk is valamilyen stratégia szerint nem azt a stratégiát értékeljük ki, ami szerint lépkedünk, hanem a mohót! online algoritmus:  csak az aktuális tapasztalatokat használjuk fel  nem használunk régebbi tapasztalatokat  nem használunk modellt egyetlen fennmaradó kérdés: mi legyen  ?  majdnem mindegy  mindjárt visszatérünk rá

8 Q-learning konvergenciája a sztochasztikus becslés tételt alkalmazzuk kotnraktív operátor: mohó Bellman-operátor Q -ra szükséges feltételek  tanulási ráta megfelelő ütemben csökken:  t  t = 1,  t  t 2 < 1  a jutalmak korlátosak  minden ( s, a ) párt végtelen sokszor látogatunk utolsó feltételt megfelelő  -vel tudjuk elérni  pl. minden akciót választ valamilyen valószínűséggel

9 Q-learning:  választása a módszer online, azaz a gyűjtött jutalom a követett stratégiától függ (a) lehetőség: tanulás közben nem törődünk a gyűjtött jutalommal, csak Q tanulásával, pl. véletlenszerűen választjuk az akciókat. Aztán a végén átkapcsolunk a mohó stratégiára  nem mindig van rá lehetőség (b) lehetőség: már tanulás közben is próbáljuk a lehető legtöbb jutalmat gyűjteni: mindig a mohó akciót választjuk  nem teljesül a konvergenciafeltétel kompromisszum:  legtöbbször a mohó akciót választjuk (járt út)  de néha új akciót is kipróbálunk (járatlan út) mi a jó arány? – nehéz kérdés legegyszerűbb:  -mohó stratégia:  1-  vszséggel a Q szerint mohó akció   vszséggel véletlen akció

10 Q-learning  -mohó stratégiával Q ( s, a ) tetszőleges ciklus (epizódokra)  s:=s 0 ; t:=0  ciklus (lépésekre) t:=t+1 1-  vszséggel a:=a mohó  vszséggel a:= véletlen akció végrehajtjuk a -t megfigyeljük az r jutalmat és s ’ következő állapotot s:=s ’  ciklus vége ciklus vége

11 egy kis módosítás: SARSA Q-learning: s -ben a -t léptem (  szerint), r a jutalom, s ’ a köv. állapot ehelyett: s -ben a -t léptem (  szerint), r a jutalom, s ’ a köv. állapot, a ’ a köv. akció (  szerint) név: SARSA ha a ’ a mohó akció, akkor a két képlet ugyanaz különbség a „felfedező” akciók esetében mindig azt a stratégiát követem, amit épp kiértékelek éppen ezért általában gyorsabb picit nehezebb megmutatni a konvergenciát

12 SARSA – konvergencia ez is kijön a sztochasztikus becslés-tételből szokásos feltevések (jutalom korlátos, tanulási ráta „szépen” csökken) minden (s,a) párt végtelen sokszor frissítünk (szükség van felfedező akciókra) a felfedező akciók nem optimálisak! ha az optimális értékelőfv-t szeretnénk megkapni, előbb-utóbb abba kell hagyni őket! kompromisszum: végtelen sok exploráció, de egyre kisebb vszínűséggel példa:  t -mohó stratégia,  t = 1/ t

13 Q-learning összefoglaló a legelső RL-algoritmus nem túl jól működik, de rengeteg továbbfejlesztése létezik konvergál  de ez exponenciálisan lassú is lehet  inkább elméleti, mint gyakorlati jelentősége van fő problémák:  nem hatékony az exploráció  nem hatékony a TD-hibák visszaterjesztése  minden ( s, a ) pár értékét külön kell becsülni

14 Az explorációs stratégia javítása az  -mohó stratégia nagyon rossz!  a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok  jutalom, ha ritkán látogatott állapotba jut az ügynök  jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: optimista kezdőértékek  Q 0 > Q *  eleinte minden akciót végigpróbál, mert sok jutalmat remél  lehet úgy csinálni, hogy polinomiális időben közel optimális Q -hoz konvergáljon

15 TD-hibák hatékonyabb visszaterjesztése felelősségnyomok  Q-learning-hez nehéz korrektül definiálni, de SARSA-hoz könnyű  részletek a könyvben… „tapasztalat-visszajátszás”  a tapasztalt trajektóriákat többször is lejátsszuk, mintha sokszor történt volna meg ugyanaz modell-építés  Q-learningnek nem kell modell  ha mégis van (pl. tanuljuk a tapasztalatokból), használhatjuk  az „igazi” tapasztalatok mellé a modell alapján gyártunk „szimulált” tapasztalatot is – itt a környezetet a (közelítő) modellje helyettesíti

16 Minden ( s, a ) pár értékét külön kell becsülni az állapotok száma exponenciálisan sok lehet! pl. folytonos feladatok diszkretizálása: k változó, mindegyiket n részre osztjuk – n k állapot.  ha kétszeres pontosságot szeretnénk, az állapotok száma 2 k -szorosára nő új változó bevezetése: 2 lehetséges érték ! kétszeresére nő az állapottér  akkor is, ha az új változó teljesen irreleváns (pl. világos van-e) Q-learning kb állapotig bírja… kellene: általánosítás  ha egy s állapot értékét módosítjuk, akkor a hozzá „hasonló” állapotokét is  módszer: függvényapproximátorok, függvényillesztés

17 Függvényillesztés esetünkben:  pontok: állapotok  fv-értékek: az értékelőfüggvény becslései egyes állapotokban  keressük a legjobban illeszkedő közelítő értékelőfv-t függvényérték néhány pontban a lehető legjobban közelítő függvény