1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.

Slides:

Advertisements

Hasonló előadás

Forrás: Educatio folyóirat 2003/III szám, - E-LEARNING / Buda András: Virtuális oktatás című cikke Előadó: Burai István György cím:

Advertisements

Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.

Adatelemzés számítógéppel

MEH - MAKK konferencia és fórum 1 Egy hazai fejlesztésű terhelésbecslő és szélerőmű termelésbecslő szoftver Bessenyei Tamás

Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.

A digitális számítás elmélete Előadás:kedd 10:10-11:40, 0/13. terem előadó: Dr. Ruszinkó Miklós Gyakorlat: Kedd 14:15-16:00,

Mi látszik egy jéghegyből?

MINŐSÉGMENEDZSMENT 3. előadás

MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:

Híranyagok tömörítése

Számítógépes algebrai problémák a geodéziában

SAS Enterprise Miner 2. gyakorlat

A lyukas dob hangjai Hagymási Imre Bolyai Kollégium fizikus szakszeminárium november 15.

Bayes hálók október 20. Farkas Richárd

Rangsorolás tanulása ápr. 24..

Becsléselméleti ismétlés

DÖNTÉSELMÉLET A DÖNTÉS = VÁLASZTÁS A döntéshozatal feltételei:

Játékelmélet Nash, dominancia.

Turbo pascal feladatok 2

Java programozási nyelv 2. rész – Vezérlő szerkezetek

KÖZMŰ INFORMATIKA NUMERIKUS MÓDSZEREK I.

Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.

Evolúciósan stabil stratégiák előadás

Játékelméleti alapfogalmak előadás

1 Bevezetés a funkcionális programozásba 2009.

Dinamikai rendszerek kaotikus viselkedése

Az ASP.NET programozási modell Ez az előadó neve beosztása vállalata.

Partners Hungary Alapítvány A Partners for Democratic Change International tagja Civil stratégia előkészítő kerekasztal január 14. Szolnok.

Mobilis robot (e-puck) robot és a Webots szimulációs rendszer megismerése szimulációs rendszer robot közepesen nehéz feladat megoldása például: vonalkövetés.

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.

1. feladat Makó és Veszprém között a távolság 270 km. Reggel 8-kor elindult egy vonat Makóról 60 km/h sebességgel. 9-kor Veszprémből indult egy gyorsvonat.

Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.

1 AAO folytatás ++ Csink László. 2 Rekurzív bináris keresés (rendezett tömbben) public static int binker(int[] tomb, int value, int low, int high) public.

Alapsokaság (populáció)

Petri-hálón alapuló modellek analízise és alkalmazásai a reakciókinetikában Papp Dávid június 22. Konzulensek: Varró-Gyapay Szilvia, Dr. Tóth János.

Spindinamika felületi klaszterekben Balogh L., Udvardi L., Szunyogh L. BME Elméleti Fizika Tanszék, Budapest Lazarovits B. MTA Szilárdtestfizikai és Optikai.

Torlódás (Jamming) Kritikus pont-e a J pont? Szilva Attila 5. éves mérnök-fizikus hallgató.

A Van der Waals-gáz molekuláris dinamikai modellezése Készítette: Kómár Péter Témavezető: Dr. Tichy Géza TDK konferencia

UML modellezés 3. előadás

Megerősítéses tanulás 8. előadás

Döntsön a kard! Mesterséges intelligencia a játékokban Szita István Eötvös Collegium.

WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.

1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.

Struktúra predikció Struktúra lehet Felügyelt tanulási probléma

Gépi tanulási módszerek

Adalékok egy véges összegzési feladathoz

1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.

Megerősítéses tanulás 5. előadás

Mesterséges Neurális Hálózatok 3. előadás

Megerősítéses tanulás 2. előadás

1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.

1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.

Tanulás az idegrendszerben Structure – Dynamics – Implementation – Algorithm – Computation - Function.

Technológiai folyamatok optimalizálása Dinamikus programozás Ráduly Botond Mészáros Sándor.

Kontinuum modellek 1.  Bevezetés a kontinuum modellekbe  Numerikus számolás alapjai.

Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.

Megerősítéses tanulás

Mesterséges intelligencia

Lineáris egyenletrendszerek megoldása Gauss elimináció, Cramer-szabály Dr. Kovács Sándor DE GVK Gazdaságelemzési és Statiszikai Tanszék.

Kockázat és megbízhatóság

Numerikus differenciálás és integrálás

Bevezetés a programozásba Algoritmikus gondolkodás

Mesterséges intelligencia

Nem módosítható keresések

Sugármetszés implicit szintfelülettel

Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.

A mesterséges neuronhálók alapjai

Bevezetés a mély tanulásba

Algoritmusok és Adatszerkezetek I.

Előadás másolata:

1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András

2 Összefoglaló: megerősítéses tanulás a tanulóügynöknek meg kell oldania valamilyen feladatot cselekvéssort (stratégiát) kell kidolgoznia nem (feltétlenül) ismeri a feladatot nem (feltétlenül) ismeri a környezetét mindezt próba-szerencse alapon kell megtanulnia a feladat iszonyú nehéz! de léteznek ügyes megerősítéses tanulás-algoritmusok  olyan feladatokat képesek megoldani, amit máshogy nem lehet … ehhez legtöbbször sokat kell ügyeskedni néhány alapmódszert néztünk meg

3 Összefoglaló: megerősítéses tanulás egyszerűsítő feltevéseket kell tennünk véges sok állapot, véges sok akció számszerűsíthető (skalár) jutalom, amit maximalizálni kell a környezet Markov-tulajdonságú  azaz nem függ a jövő a régmúlttól  azaz a memória bennefogllaltatik az állapotleírásban  azaz az optimális stratégiának nincs szüksége memóriára az állapotok teljesen megfigyelhetők a megoldandó feladat egy Markov döntési folyamat

4 Összefoglaló: Markov döntési folyamat megoldása döntéshozatalhoz ismerni kellene a döntés hosszútávú hatásait (a hosszútávon gyűjtött jutalmat)  de csak a közvetlen hatást tapasztaljuk! trükk: állapotértékelő függvények: V(s), Q(s, a)  ők összefoglalják a hosszútávú hatást  értékelőfüggvény birtokában könnyű döntést hozni  rekurzív egyenlet írható fel rájuk (Bellman-egyenletek)  a felírt egyenletrendszer meg is oldható!

5 Összefoglaló: Bellman-egyenletek megoldása ha ismert a modell, közvetlenül megoldható (dinamikus programozás)  értékiteráció  stratégiaiteráció  általánosított stratégiaiteráció néhány lépésnyi kiértékelés-iteráció után stratégiajavítás ha nem ismert a modell  a tapasztalatok alapján becsülhető ( ! közelítő dinamikus programozás)  az értékelőfüggvények tanulhatók közvetlenül, modell nélkül is

6 Összefoglaló: RL modell nélkül Monte Carlo  fix  stratégia kiértékelése: sokszor elindulunk az adott állapotból  -t követve, a gyűjtött jutalmak átlaga az állapot értéke lesz  optimális stratégia meghatározása: stratégiaiteráció, kiértékelés Monte Carloval, javítás hagyományosan időbeli differenciák (TD)  fix  stratégia kiértékelése: csak a legelső közvetlen jutalmat mérem, a többi összegét az értékelőfüggvénnyel közelítem  optimális stratégia meghatározása: dilemma, mivel csak közvetlen kölcsönhatásból szerezhetünk információt új akciókat kell kipróbálni, hogy információt szerezhessünk az értékükről az eddigi legjobb akciókat célszerű követni, hogy sok jutalmat gyűjtsünk kompromisszum:  -mohó stratégia

7 Összefoglaló: TD optimális stratégia számolása: kétféle módszer  Q-learning:  -mohó stratégiát követünk, de a mohó stratégiát értékeljük ki („off-policy”)  Sarsa:  -mohó stratégiát követünk, és azt is értékeljük ki („on-policy”) kell:  ! 0 továbbfejlesztés: felelősségnyomok módszere  átmenet TD és MC között (mindkettőnél jobb)  optimális stratégia számolására csak „on-policy” megy egyszerűen az eddigi módszerek elméletileg mind konvergálnak az optimális stratégiához  (ha a megfelelő feltételek teljesülnek)

8 Összefoglaló: RL nagy állapottereken nem lehet minden állapot értékét eltárolni az értékelőfüggvényeket csak közelítjük valamilyen függvényapproximátorral  a tapasztalatok alapján általánosítunk az egész állapottérre „igazi” problémákon muszáj használni de nincsenek elméleti konvergenciaeredmények

9 Összefoglaló: direkt stratégiakeresés nem használunk értékelőfüggvényt ehelyett néhány paraméterrel leírjuk a stratégiát, és direkt módon felírjuk az összjutalom függését a paraméterektől keressük azt a paramétert, ami maximalizálja az összjutalmat maximumkeresés: gradiensmódszerrel  kiszámoljuk a gradienst (összjutalom deriváltja a stratégia szerint)  valahogyan becsüljük a gradienst az ügynök tapasztalataiból konvergens – de csak lokális maximumot kapunk! jól használható „nagy” feladatokon de sok hangolást igényel

10 Néhány alkalmazás packet routing  channel allocation  papers/barbados/sb-channel.pdf papers/barbados/sb-channel.pdf sok egyéb link 

11 Néhány alkalmazás – játékok Tetris  ( course/student_proj/livnat/tetris.html) course/student_proj/livnat/tetris.html  Black and White  (a játék)  (leírás) Warcraft  Neverwinter Nights  (a játék)  ! Game AI

12 Néhány alkalmazás - robotok egyensúlyozás devilsticking járás helikopter robotfoci

13 Példa: Neverwinter Nights

14 szabályalapú viselkedés if healthpercentage < 50 then drink( "Potion of Healing" ); if roundnumber < 1 then cast( "Mirror Image" ); if distance( closestenemy( "Wizard" ), furthestenemy( "Wizard" ) ) < 200 then cast( "Fireball", centreenemy( "Wizard" ) ); if distance( closestenemy( "Fighter" ), furthestenemy( "Fighter" ) ) < 200 then cast( "Stinking Cloud", centreenemy( "Wizard" ) ); cast( strongoffensive, closestenemy ); cast( randomoffensive, randomenemy ); if distance( closestenemy ) > 200 then rangedattack( defaultenemy ); meleeattack( closestenemy );

15 Fehérek adaptív viselkedés kezdetben véletlen Feketék fix viselkedés „gyárilag” programozott