WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.

Slides:



Advertisements
Hasonló előadás
MINŐSÉGMENEDZSMENT 6. előadás
Advertisements

Matematika és módszertana
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
E-learning és a multimédia
Híranyagok tömörítése
Mágneses lebegtetés: érzékelés és irányítás
Programozási alapismeretek 9. előadás. ELTE Horváth-Papné-Szlávi-Zsakó: Programozási alapismeretek 9. előadás2/
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Matematikai modellek a termelés tervezésében és irányításában
Persa György Témavezető: Szabó Csanád Pázmány Péter Katolikus Egyetem Információs Technológiai Kar 1.
Mérnöki objektumok leírása és elemzése virtuális terekben c. tantárgy Budapesti Műszaki Főiskola Neumann János Informatikai Kar Intelligens Mérnöki Rendszerek.
A virtuális technológia alapjai Dr. Horv á th L á szl ó Budapesti Műszaki Főiskola Neumann János Informatikai Kar, Intelligens Mérnöki Rendszerek.
Fuzzy rendszerek mérnöki megközelítésben I
Mesterséges intelligencia
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Operációkutatás eredete
ISMERETALAPÚ RENDSZEREK SZAKÉRTŐ RENDSZEREK
Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
Margitay Tihamér Filozófia és Tudománytörténet Tanszék 1111 Budapest, Egry J. u. 1. E610. Telefon: Kritikai áttekintés.
Mesterséges Intelligencia Alapjai II. beadandó Orosz György – Vörös Gyula – Zsiák Gergő Pál.
Budapesti Műszaki Főiskola Neumann János Informatikai Főiskolai Kar A Műszaki Tervezés Rendszerei 2000/2001 tanév, I. félév 1. előadás Bevezető a számítógépen.
Közlekedésmodellezés Készítette: Láng Péter Konzulens: Mészáros Tamás.
Kovács Dániel László Kovács Dániel László BME-VIK, Méréstechnika és Információs Rendszerek Tanszék Önálló laboratórium.
Intelligens Felderítő Robotok
Készítette: Gergó Márton Konzulens: Engedy István 2009/2010 tavasz.
Pókerágens fejlesztése játékelméleti alapokon
Mobilis robot (e-puck) robot és a Webots szimulációs rendszer megismerése szimulációs rendszer robot közepesen nehéz feladat megoldása például: vonalkövetés.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
A KTI az EU és a hazai közlekedéspolitika irányelveit követve a fenntartható fejlődés szempontjait figyelembe véve folyamatosan fejlődő,
Matematika II. 1. előadás Geodézia szakmérnöki szak 2010/2011. tanév Kataszteri ágazat tavaszi félév.
Matematika I. 1. heti előadás Műszaki Térinformatika 2013/2014. tanév szakirányú továbbképzés tavaszi félév Deák Ottó mestertanár.
Kötvényárazási hibák intelligens javítóalgoritmusának tervezése és fejlesztése GELLÉN ÁGNES IUFQ58.
A lyukas dob hangjai Hagymási Imre II. évfolyamos fizikus hallgató Témavezető: Cserti József ELTE Komplex Rendszerek Fizikája Tanszék.
Petri-hálón alapuló modellek analízise és alkalmazásai a reakciókinetikában Papp Dávid június 22. Konzulensek: Varró-Gyapay Szilvia, Dr. Tóth János.
Valós idejű adaptív útvonalkeresés
Geotechnikai feladatok véges elemes
Algoritmikus gondolkodás és fejlesztésének lehetőségei
KORSZERŰ TERVEZÉSI MÓDSZERTAN A LOGISZTIKA TERÜLETÉN
Szabályozási Rendszerek
Metodika és minőségbiztosítás a képesítések OKKR besorolása során: a elv alkalmazása Metodika és minőségbiztosítás a képesítések OKKR besorolása során:
Címlap Bevezetés az információelméletbe Keszei Ernő ELTE Fizikai Kémiai Tanszék
Megerősítéses tanulás 8. előadás
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
Döntsön a kard! Mesterséges intelligencia a játékokban Szita István Eötvös Collegium.
Menetrend optimalizálása genetikus algoritmussal
Szimuláció.
Intelligens Mérnöki Rendszerek Laboratórium Alkalmazott Matematikai Intézet, Neumann János Informatikai Kar, Óbudai Egyetem Mielőtt a virtuális térbe lépnénk.
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Hága Péter ELTE, Komplex Rendszerek Fizikája Tanszék Statisztikus Fizikai Nap Budapest.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
PÁRHUZAMOS ARCHITEKTÚRÁK – 13 INFORMÁCIÓFELDOLGOZÓ HÁLÓZATOK TUDÁS ALAPÚ MODELLEZÉSE Németh Gábor.
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
Üzleti igények avagy Mit kellene megbeszélnem az informatikai vezetőmmel? Bőgel György CEU Business School.
Mi a logisztikai szimuláció? Egy logisztikai rendszer szereplői... Gyártás Raktározás Rendelés.
Dr. Varga István ÚJ KUTATÁSI IRÁNYOK A KÖZLEKEDÉS TERÜLETÉN.
Szimuláció. Mi a szimuláció? A szimuláció a legáltalánosabb értelemben a megismerés egyik fajtája A megismerés a tudás megszerzése vagy annak folyamata.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Operációkutatás I. 1. előadás
Megerősítéses tanulás
Mesterséges intelligencia
Mesterséges intelligencia
Nagy Roland | Robotika PMB2530, PMB2530L Nagy Roland |
Előadás másolata:

WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs Rendszerek Tanszék

Megerősítéses tanulás (RL) Ügynök egy környezetben Ügynök egy környezetben akciók akciók jutalom jutalom észlelés észlelés cél: max. jutalom cél: max. jutalom optimális viselkedés keresése optimális viselkedés keresése

Megerősítéses tanulás – hogyan? Markov döntési folyamatok, értékelőfüggvény Markov döntési folyamatok, értékelőfüggvény Az ügynök tapasztalatokat gyűjt (állapot, akció, hatásai) Az ügynök tapasztalatokat gyűjt (állapot, akció, hatásai) modellt tanul (átmeneti valószínűségek) modellt tanul (átmeneti valószínűségek) értékelőfüggvényt tanul értékelőfüggvényt tanul értékelőfüggvény alapján lép értékelőfüggvény alapján lép optimális viselkedéshez konvergál (pl. értékiteráció, politikaiteráció, SARSA, Q- learning) optimális viselkedéshez konvergál (pl. értékiteráció, politikaiteráció, SARSA, Q- learning)

Megerősítéses tanulás – előnyök Általános formalizmus Általános formalizmus Elméletileg megalapozott Elméletileg megalapozott hatékony tanulási módszer hatékony tanulási módszer játékok játékok optimalizálás, szabályozás optimalizálás, szabályozás intelligens web-barangoló intelligens web-barangoló kép-, hangfelismerés kép-, hangfelismerés

Megerősítéses tanulás – problémák ha nő a feladat mérete -> nagyon lassú a tanulás ha nő a feladat mérete -> nagyon lassú a tanulás sokféle módon próbálják javítani sokféle módon próbálják javítani „emlékező nyomok” „emlékező nyomok” tervezés tervezés makrók makrók hierarchikus módszerek hierarchikus módszerek faktorizált feladatreprezentáció faktorizált feladatreprezentáció

Megerősítéses tanulás – új megközelítésmód fő probléma: az általánosság fő probléma: az általánosság minden teljesen sztochasztikus lehet  ritkán használjuk ki minden teljesen sztochasztikus lehet  ritkán használjuk ki ötlet: determinisztikus közelítő modell ötlet: determinisztikus közelítő modell okosan: csak ott, ahol már amúgy is majdnem determinisztikus okosan: csak ott, ahol már amúgy is majdnem determinisztikus „jól-tervezhető” (well-plannable) tartományok – WP modell „jól-tervezhető” (well-plannable) tartományok – WP modell

Hogyan segít a WP modell? megoldás: a Dyna általánosítása megoldás: a Dyna általánosítása az RL ügynök gyűjti a tapasztalatokat az RL ügynök gyűjti a tapasztalatokat tanulja a modellt tanulja a modellt pontosítja az értékelőfüggvényt pontosítja az értékelőfüggvényt a (pontatlan) modell alapján fiktív tapasztalatot gyűjt a (pontatlan) modell alapján fiktív tapasztalatot gyűjt ez alapján pontosítja az értékelőfüggvényt (tervez) ez alapján pontosítja az értékelőfüggvényt (tervez) Önmagában túl pontatlan Önmagában túl pontatlan

a WP-Dyna algoritmus két értékelőfüggvény két értékelőfüggvény „alap”: valódi tapasztalatok valódi tapasztalatok az alap RL alg. tanulja az alap RL alg. tanulja lassan konvergál lassan konvergál aszimpt. optimális aszimpt. optimális„tervező”: fiktív tapasztalatok fiktív tapasztalatok WP modell alapján tanuljuk WP modell alapján tanuljuk gyorsan konvergál gyorsan konvergál nem optimális nem optimális azt használjuk, amelyik „többet ígér” azt használjuk, amelyik „többet ígér”

WP-Dyna - tulajdonságok elvárás: elvárás: a „tervező” értékelőfüggvény gyorsan jó közelítést ad a „tervező” értékelőfüggvény gyorsan jó közelítést ad az „alap” értékelőfüggvény irányít hosszútávon az „alap” értékelőfüggvény irányít hosszútávon igazoltuk: a WP-Dyna valóban igazoltuk: a WP-Dyna valóban aszimptotikusan optimális aszimptotikusan optimális gyors gyors

a WP-Dyna optimális bebizonyítottuk: ha az alap RL optimális viselkedéshez konvergál -> a WP-Dyna majdnem-optimálishoz konvergál bebizonyítottuk: ha az alap RL optimális viselkedéshez konvergál -> a WP-Dyna majdnem-optimálishoz konvergál korlátot adtunk a hibára korlátot adtunk a hibára módosítás: módosítás: bebizonyítottuk: a diszkontált WP-Dyna optimális viselkedéshez konvergál bebizonyítottuk: a diszkontált WP-Dyna optimális viselkedéshez konvergál

matematikai apparátus Markov döntési folyamatok elmélete Markov döntési folyamatok elmélete Robbins-Monro iterált átlagolási tétele Robbins-Monro iterált átlagolási tétele dinamikus programozás dinamikus programozás kontrakciós fixponttételek kontrakciós fixponttételek  -MDP-k elmélete  -MDP-k elmélete

a WP-Dyna gyors: számítógépes szimuláció egyszerű tesztprobléma: „labirintus” egyszerű tesztprobléma: „labirintus”

Futtatási eredmények  =0.95  =0.9

A  modellparaméter hatása

a WP modell jelentősége releváns-e az előző példánk? releváns-e az előző példánk? inkább szabály, mint kivétel inkább szabály, mint kivétel „mérnöki” irányítási problémák „mérnöki” irányítási problémák determinisztikusak determinisztikusak zajos megfigyelés / irányítás zajos megfigyelés / irányítás itt a WP modell jó közelítés -> a WP- Dyna hatékony itt a WP modell jó közelítés -> a WP- Dyna hatékony

WP-Dyna – Összefoglalás gyakorlatilag bármilyen RL algoritmust kiegészíthet gyakorlatilag bármilyen RL algoritmust kiegészíthet kihasználja a feladatban rejlő determinisztikus struktúrát kihasználja a feladatban rejlő determinisztikus struktúrát más algoritmus nem használja ezt ki más algoritmus nem használja ezt ki szinte minden releváns feladatban jelen van szinte minden releváns feladatban jelen van jelentős gyorsítást ér el – az optimalitás megőrzésével jelentős gyorsítást ér el – az optimalitás megőrzésével

Köszönöm a figyelmet!

További kutatási irányok faktorizált reprezentációjú feladatok faktorizált reprezentációjú feladatok alkalmazás változó környezetekben alkalmazás változó környezetekben együttműködés robusztus kontrollerekkel együttműködés robusztus kontrollerekkel