Megerősítéses tanulás 2. előadás Szita István, Lőrincz András
Technikai dolgok Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Jegyzet Vizsga
Mi a megerősítéses tanulás? mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra
Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci
az RL nehéz… a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan?
az RL nehéz… a helyes döntésért járó jutalom késhet rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet … de kezelhető
A félév tervezett menete az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk… elemzés (hatékonyság, konvergencia) korlátok
A félév tervezett menete néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések
Jöjjenek a részletek!
Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell
Az RL feladat részei környezet: fekete doboz tanulóügynök állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot ! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja
Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot mindegyik gyengíthető – de nehezíti a feladatot némelyikre még visszatérünk…
Feltevések a jutalom egyetlen számmal leírható az idő diszkrét ( t = 1, 2, 3, …) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések?
Formalizáljuk a feladatot idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép
Formalizáljuk a feladatot interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:
A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:
Mi van a végén? epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat gond: rt végtelen lehet! megoldás: diszkontálás. rt helyett t rt , <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!
Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP) S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta
Markov döntési folyamat megoldása környezet lépked P és R szerint: ügynök lépked szerint: optimális stratégia: olyan , amelyre maximális.
Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon póker
Optimális stratégia keresése két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum!
Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva
A Bellman-egyenlet
A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik
Akcióértékelő függvény várható összjutalom s, a után Bellman-egyenlet: