1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.

Slides:



Advertisements
Hasonló előadás
Forrás: Educatio folyóirat 2003/III szám, - E-LEARNING / Buda András: Virtuális oktatás című cikke Előadó: Burai István György cím:
Advertisements

Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Adatelemzés számítógéppel
MEH - MAKK konferencia és fórum 1 Egy hazai fejlesztésű terhelésbecslő és szélerőmű termelésbecslő szoftver Bessenyei Tamás
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
A digitális számítás elmélete Előadás:kedd 10:10-11:40, 0/13. terem előadó: Dr. Ruszinkó Miklós Gyakorlat: Kedd 14:15-16:00,
Mi látszik egy jéghegyből?
MINŐSÉGMENEDZSMENT 3. előadás
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Híranyagok tömörítése
Számítógépes algebrai problémák a geodéziában
SAS Enterprise Miner 2. gyakorlat
A lyukas dob hangjai Hagymási Imre Bolyai Kollégium fizikus szakszeminárium november 15.
Bayes hálók október 20. Farkas Richárd
Rangsorolás tanulása ápr. 24..
Becsléselméleti ismétlés
DÖNTÉSELMÉLET A DÖNTÉS = VÁLASZTÁS A döntéshozatal feltételei:
Játékelmélet Nash, dominancia.
Turbo pascal feladatok 2
Java programozási nyelv 2. rész – Vezérlő szerkezetek
KÖZMŰ INFORMATIKA NUMERIKUS MÓDSZEREK I.
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Evolúciósan stabil stratégiák előadás
Játékelméleti alapfogalmak előadás
1 Bevezetés a funkcionális programozásba 2009.
Dinamikai rendszerek kaotikus viselkedése
Az ASP.NET programozási modell Ez az előadó neve beosztása vállalata.
Partners Hungary Alapítvány A Partners for Democratic Change International tagja Civil stratégia előkészítő kerekasztal január 14. Szolnok.
Mobilis robot (e-puck) robot és a Webots szimulációs rendszer megismerése szimulációs rendszer robot közepesen nehéz feladat megoldása például: vonalkövetés.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
1. feladat Makó és Veszprém között a távolság 270 km. Reggel 8-kor elindult egy vonat Makóról 60 km/h sebességgel. 9-kor Veszprémből indult egy gyorsvonat.
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
1 AAO folytatás ++ Csink László. 2 Rekurzív bináris keresés (rendezett tömbben) public static int binker(int[] tomb, int value, int low, int high) public.
Alapsokaság (populáció)
Petri-hálón alapuló modellek analízise és alkalmazásai a reakciókinetikában Papp Dávid június 22. Konzulensek: Varró-Gyapay Szilvia, Dr. Tóth János.
Spindinamika felületi klaszterekben Balogh L., Udvardi L., Szunyogh L. BME Elméleti Fizika Tanszék, Budapest Lazarovits B. MTA Szilárdtestfizikai és Optikai.
Torlódás (Jamming) Kritikus pont-e a J pont? Szilva Attila 5. éves mérnök-fizikus hallgató.
A Van der Waals-gáz molekuláris dinamikai modellezése Készítette: Kómár Péter Témavezető: Dr. Tichy Géza TDK konferencia
UML modellezés 3. előadás
Megerősítéses tanulás 8. előadás
Döntsön a kard! Mesterséges intelligencia a játékokban Szita István Eötvös Collegium.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Gépi tanulási módszerek
Adalékok egy véges összegzési feladathoz
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Mesterséges Neurális Hálózatok 3. előadás
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Tanulás az idegrendszerben Structure – Dynamics – Implementation – Algorithm – Computation - Function.
Technológiai folyamatok optimalizálása Dinamikus programozás Ráduly Botond Mészáros Sándor.
Kontinuum modellek 1.  Bevezetés a kontinuum modellekbe  Numerikus számolás alapjai.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Megerősítéses tanulás
Mesterséges intelligencia
Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.
Kockázat és megbízhatóság
Egyenletek.
Numerikus differenciálás és integrálás
Bevezetés a programozásba Algoritmikus gondolkodás
Mesterséges intelligencia
Nem módosítható keresések
Sugármetszés implicit szintfelülettel
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
A mesterséges neuronhálók alapjai
Bevezetés a mély tanulásba
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András

2 Összefoglaló: megerősítéses tanulás a tanulóügynöknek meg kell oldania valamilyen feladatot cselekvéssort (stratégiát) kell kidolgoznia nem (feltétlenül) ismeri a feladatot nem (feltétlenül) ismeri a környezetét mindezt próba-szerencse alapon kell megtanulnia a feladat iszonyú nehéz! de léteznek ügyes megerősítéses tanulás-algoritmusok  olyan feladatokat képesek megoldani, amit máshogy nem lehet … ehhez legtöbbször sokat kell ügyeskedni néhány alapmódszert néztünk meg

3 Összefoglaló: megerősítéses tanulás egyszerűsítő feltevéseket kell tennünk véges sok állapot, véges sok akció számszerűsíthető (skalár) jutalom, amit maximalizálni kell a környezet Markov-tulajdonságú  azaz nem függ a jövő a régmúlttól  azaz a memória bennefogllaltatik az állapotleírásban  azaz az optimális stratégiának nincs szüksége memóriára az állapotok teljesen megfigyelhetők a megoldandó feladat egy Markov döntési folyamat

4 Összefoglaló: Markov döntési folyamat megoldása döntéshozatalhoz ismerni kellene a döntés hosszútávú hatásait (a hosszútávon gyűjtött jutalmat)  de csak a közvetlen hatást tapasztaljuk! trükk: állapotértékelő függvények: V(s), Q(s, a)  ők összefoglalják a hosszútávú hatást  értékelőfüggvény birtokában könnyű döntést hozni  rekurzív egyenlet írható fel rájuk (Bellman-egyenletek)  a felírt egyenletrendszer meg is oldható!

5 Összefoglaló: Bellman-egyenletek megoldása ha ismert a modell, közvetlenül megoldható (dinamikus programozás)  értékiteráció  stratégiaiteráció  általánosított stratégiaiteráció néhány lépésnyi kiértékelés-iteráció után stratégiajavítás ha nem ismert a modell  a tapasztalatok alapján becsülhető ( ! közelítő dinamikus programozás)  az értékelőfüggvények tanulhatók közvetlenül, modell nélkül is

6 Összefoglaló: RL modell nélkül Monte Carlo  fix  stratégia kiértékelése: sokszor elindulunk az adott állapotból  -t követve, a gyűjtött jutalmak átlaga az állapot értéke lesz  optimális stratégia meghatározása: stratégiaiteráció, kiértékelés Monte Carloval, javítás hagyományosan időbeli differenciák (TD)  fix  stratégia kiértékelése: csak a legelső közvetlen jutalmat mérem, a többi összegét az értékelőfüggvénnyel közelítem  optimális stratégia meghatározása: dilemma, mivel csak közvetlen kölcsönhatásból szerezhetünk információt új akciókat kell kipróbálni, hogy információt szerezhessünk az értékükről az eddigi legjobb akciókat célszerű követni, hogy sok jutalmat gyűjtsünk kompromisszum:  -mohó stratégia

7 Összefoglaló: TD optimális stratégia számolása: kétféle módszer  Q-learning:  -mohó stratégiát követünk, de a mohó stratégiát értékeljük ki („off-policy”)  Sarsa:  -mohó stratégiát követünk, és azt is értékeljük ki („on-policy”) kell:  ! 0 továbbfejlesztés: felelősségnyomok módszere  átmenet TD és MC között (mindkettőnél jobb)  optimális stratégia számolására csak „on-policy” megy egyszerűen az eddigi módszerek elméletileg mind konvergálnak az optimális stratégiához  (ha a megfelelő feltételek teljesülnek)

8 Összefoglaló: RL nagy állapottereken nem lehet minden állapot értékét eltárolni az értékelőfüggvényeket csak közelítjük valamilyen függvényapproximátorral  a tapasztalatok alapján általánosítunk az egész állapottérre „igazi” problémákon muszáj használni de nincsenek elméleti konvergenciaeredmények

9 Összefoglaló: direkt stratégiakeresés nem használunk értékelőfüggvényt ehelyett néhány paraméterrel leírjuk a stratégiát, és direkt módon felírjuk az összjutalom függését a paraméterektől keressük azt a paramétert, ami maximalizálja az összjutalmat maximumkeresés: gradiensmódszerrel  kiszámoljuk a gradienst (összjutalom deriváltja a stratégia szerint)  valahogyan becsüljük a gradienst az ügynök tapasztalataiból konvergens – de csak lokális maximumot kapunk! jól használható „nagy” feladatokon de sok hangolást igényel

10 Néhány alkalmazás packet routing  channel allocation  papers/barbados/sb-channel.pdf papers/barbados/sb-channel.pdf sok egyéb link 

11 Néhány alkalmazás – játékok Tetris  ( course/student_proj/livnat/tetris.html) course/student_proj/livnat/tetris.html  Black and White  (a játék)  (leírás) Warcraft  Neverwinter Nights  (a játék)  ! Game AI

12 Néhány alkalmazás - robotok egyensúlyozás devilsticking járás helikopter robotfoci

13 Példa: Neverwinter Nights

14 szabályalapú viselkedés if healthpercentage < 50 then drink( "Potion of Healing" ); if roundnumber < 1 then cast( "Mirror Image" ); if distance( closestenemy( "Wizard" ), furthestenemy( "Wizard" ) ) < 200 then cast( "Fireball", centreenemy( "Wizard" ) ); if distance( closestenemy( "Fighter" ), furthestenemy( "Fighter" ) ) < 200 then cast( "Stinking Cloud", centreenemy( "Wizard" ) ); cast( strongoffensive, closestenemy ); cast( randomoffensive, randomenemy ); if distance( closestenemy ) > 200 then rangedattack( defaultenemy ); meleeattack( closestenemy );

15 Fehérek adaptív viselkedés kezdetben véletlen Feketék fix viselkedés „gyárilag” programozott