Megerősítéses tanulás máj. 15. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.

Slides:



Advertisements
Hasonló előadás
A kártyanyomtatás fortélyai Csákvári Krisztián Kártya és címke gyártás
Advertisements

A képzett szakemberekért SZMBK KERETRENDSZER 2.1. előadás.
ISKOLAKÉSZÜLTSÉG – AZ ADAPTÍV VISELKEDÉS FEJLETTSÉGE dr. Torda Ágnes gyógypedagógus, klinikai gyermek-szakpszichológus Vizsgálóeljárás az iskolába lépéshez.
A MINŐSÉGFEJLESZTÉSI TERÜLET 2007 Menner Ákos. A minőségfejlesztés intézményi ritmusa Önértékelés 2006 Önértékelésből származó fejlesztési célkitűzések.
AZ ELEKTRONIKUS KÉPZÉS MINŐSÉGBIZTOSÍTÁSA INFORMATIKA A FELSŐOKTATÁSBAN DEBRECEN DR. ZÁRDA SAROLTA GÁBOR DÉNES FŐISKOLA.
Informatikai rendszerek általános jellemzői 1.Hierarchikus felépítés Rendszer → alrendszer->... → egyedi komponens 2.Az elemi komponensek halmaza absztrakciófüggő.
Paraméteres próbák- konzultáció október 21..
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
vizuális megismerés – vizuális „nyelv” vizuális kultúra
Megerősítéses tanulás
Az „első lépés” TÁMOP
Hogyan lehet sikeresen publikálni?
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
Folyamatmanagement eszközök hódítása Teremts rendet a káoszból PPM-el
Scilab programozás alapjai
ESETTANULMÁNY Készítette: Fenyvesi Petra
A közigazgatással foglalkozó tudományok
Kockázat és megbízhatóság
Észlelés és egyéni döntéshozatal, tanulás
Kockázat és megbízhatóság
Mesterséges intelligencia
Nagyméretű kópiaszám változás (CNV) detekciója teljes genom asszociációs vizsgálatokban Az ábrán egy kromoszómán (alsó sáv) mért intenzitások aránya (B.
Technológiai folyamatok optimalizálása
Algoritmusok és Adatszerkezetek I.
Struktúra predikció ápr. 6.
Monte Carlo integrálás
Szervezetfejlesztés II. előadás
Mintavételes eljárások
Rangsorolás tanulása ápr. 13..
Kockázat és megbízhatóság
Newcomb-paradoxon Előttünk van két doboz, A és B. Ezekbe egy nagyon megbízható jövendőmondó helyezett el pénzt, amihez úgy juthatunk, ha mind a két dobozt.
A naptevékenységi ciklus vizsgálata a zöld koronavonal alapján
Mintavételes eljárások
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Tartalékolás 1.
A PDCA elv alkalmazása az információvédelmi irányítási rendszerekben 1
Varianciaanalízis- ANOVA (Analyze Of VAriance)
dr. Jeney László egyetemi adjunktus Európa regionális földrajza
Szerkezetek Dinamikája
Számítógépek felépítése 6. előadás virtuális tárkezelés
Hogyan lehet sikeresen publikálni?
Business Mathematics
Algoritmusok és Adatszerkezetek I.
Regressziós modellek Regressziószámítás.
Algoritmusok és Adatszerkezetek I.
CONTROLLING ÉS TELJESÍTMÉNYMENEDZSMENT DEBRECENI EGYETEM
Munkagazdaságtani feladatok
Környezeti Kontrolling
Készült a HEFOP P /1.0 projekt keretében
A csoportok tanulása, mint a szervezeti tanulás alapja
Megerősítéses tanulás Mély Q-hálók
Készletek transzformációja
SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8
További rendező és kereső algoritmusok
A szállítási probléma.
Dr. Varga Beatrix egyetemi docens
Binomiális fák elmélete
U8 – U10 célok a szezonra.
Kísérlettervezés 2018/19.
Megerősítéses tanulás Mély Q-hálók
Munkagazdaságtani feladatok
Mesterséges neuronhálók és alkalmazásaik
Megerősítéses tanulás Mély Q-hálók
Mesterséges intelligencia
Háttértárak Merevlemezek.
Háttértárak Merevlemezek.
Hipotéziselmélet Adatelemzés.
Megerősítéses tanulás, mély Q-hálók
Reizer Balázs: Wage structure, Employment and Efficiency
Előadás másolata:

Megerősítéses tanulás máj. 15. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction (1998)

Megerősítéses tanulás (reinforcement learning)

Megerősítéses tanulás (reinforcement learning) Póker Célok: mesterszintű játék játék aspektusok ellenfél modellezés Autóverseny-szimulátor Célok: Emberi teljesítmény mesteri reprodukciója Autóvezetés forgalomban

Megerősítéses tanulás (reinforcement learning)

Robot navigációs feladat Pavlov: Nomad 200 robot Nomad 200 simulator Sridhar Mahadevan UMass

Megerősítéses tanulás Interakcióból tanul –büntetés/jutalom alapján megfigyelések a környezetről (állapotok) Célorientált! A jutalom egy függvényét maximalizáljuk. s9s9 s5s5 s4s4 s2s2 …… … s3s r9r9 r5r5 r4r4 r1r1 s1s1 a9a9 a5a5 a4a4 a2a2 … a3a3 a1a1

Megerősítéses tanulás idő: állapot: akció: jutalom: eljárásmód (policy, stratégia): –determinisztikus: –szochasztikus: –  ( s, a ) annak a valószínűsége, hogy s -ben a -t lép (végtelen horizont)

interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:

A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:

Markov Döntési Folyamatok Markov Decision Processes (MDPs) Állapotok, véletlentől függő átmenetekkel Átmenetvalószínűségek aktuális állapottól függnek r = r = 0 a1a1 a2a2

A felderítés-kiaknázás dilemma (exploration – exploitation) A k-karú bandita probléma Ágens Akciók Átlagos kifizetés (jutalom) , 0, 5, 10, 35 5, 10, -15, -15, , 0, 50 Ahhoz, hogy sok jutalmat kapjunk tudnunk kell milyen akciókkal szerezhetjük meg, azaz meg kell ismerni a környezetet (felderítés), majd a tudás alapján összegyűjteni a jutalmat (kiaknázás).

Célfüggvény epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat –gond:  r t végtelen lehet! –megoldás: diszkontálás.  r t helyett  t r t,  <1 –garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!

Markov döntési folyamat megoldása környezet lépked P és R szerint: ágens lépked  szerint: optimális eljárásmód: olyan , amelyre maximális.

Hosszútávú jutalom Ágens politikája rögzített:  Az R t kifizetés a t pillanat utáni össz- jutalom r9r9 r5r5 r4r4 r1r1

Érték = Hasznosság = Várható kifizetés R t valószínűségi változó Vehetjük a várható értékét! Politikától függ R t ! Feladat: találjuk meg azt a    politikát amelyik a várható értéket maximalizálja, minden állapotban

16 Az eddigi sztori.. –Több lépéses döntési feladatok –Cél  *-ot megtalálni –Kritérium: Rövid távú Hosszú távú r t+1 r t+2 r t+3 atat a t+1 a t+2 stst s t+1 s t+2 s t+3

A Bellman egyenletek A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető: s  (s)

Eljárásmódok összehasonlítása  1 ≥  2, ha részbenrendezés  * optimális, ha  * ≥  minden eljárásmódra létezik ilyen?

Példa: egy nagyon egyszerű MDP 4 állapot, 2 akció 10% eséllyel rossz irányba megy -10 A D C B cél

Példa: eljárásmódok értéke A D C B cél  (A,1) = 1  (A,2) = 0  (B,1) = 1  (B,2) = 0  (C,1) = 1  (C,2) = 0  (D,1) = 1  (D,2) = 0

Példa: eljárásmódok értéke

Példa: eljárásmód értéke megoldás:  2 stratégia: mindig 2-t lép

Példa: egy 3. eljárásmód értéke   (A,1) = 0,4   (A,2) = 0,6  3 (B,1) = 1  3 (B,2) = 0  3 (C,1) = 0  3 (C,2) = 1  3 (D,1) = 1  3 (D,2) = 0 A D C B cél

Példa: egy 3. eljárásmód értéke

megoldás:

Összehasonlítás  1 ≤  3 és  2 ≤  3  3 optimális eljárásmód sok optimális eljárásmód van! az optimális értékelőfüggvény (V) egyértelmű 11 22 33 A B C D100

Az optimális értékelőfüggvény Bellman-egyenlete Optimális értékelő függvény Mohó eljárásmód: mindig a Q* szerinti legjobb akciót választja: argmax a Q*(s,a) Ez optimális eljárásmód!!!

Az optimális értékelőfüggvény Bellman-egyenlete nemlineáris! van egyértelmű megoldása megoldja a hosszútávú tervezés problémáját

MDP megoldása dinamikus programozással Tfh. P és R ismer-t Kerssük  -t Eljárásmód iteráció Értékiteráció

Eljárásmód iteráció

Jack's Car Rental Problem: Jack manages two locations for a nationwide car rental company. Each day, some number of customers arrive at each location to rent cars. If Jack has a car available, he rents it out and is credited $10 by the national company. If he is out of cars at that location, then the business is lost. Cars become available for renting the day after they are returned. To help ensure that cars are available where they are needed, Jack can move them between the two locations overnight, at a cost of $2 per car moved. We assume that the number of cars requested and returned at each location are Poisson random variables with parameter λ. Suppose λ is 3 and 4 for rental requests at the first and second locations and 3 and 2 for returns. To simplify the problem slightly, we assume that there can be no more than 20 cars at each location (any additional cars are returned to the nationwide company, and thus disappear from the problem) and a maximum of five cars can be moved from one location to the other in one night. We take the discount rate to be 0.9 and formulate this as a continuing finite MDP, where the time steps are days, the state is the number of cars at each location at the end of the day, and the actions are the net numbers of cars moved between the two locations overnight.

Értékiteráció

Eljárásmóditeráció vs. értékiteráció melyik jobb? –eljárásmóditerációnak kevesebb lépés elég –de azok a lépések sokáig tartanak Értékiteráció polinom időben  -optimális értékelőfüggvényhez konvergál Eljárásmóditeráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő

Eljárásmód kiértékelése modell (P és R) nélkül keressük V  -t R(s) : „nyereség s -ből”, valószínűségi változó várható értéke: V  (s)

V  (s) becslése Monte Carlo módszer, MC R(s) modell nélkül számítható, szimulációval tapasztalati átlag: veszünk N darab s - ből induló utat, a nyereségek:

Monte Carlo értékelőbecslés

Az időbeli differenciák módszere (Temporal Differences, TD) az időbeli differencia: előnyök –nem kell modell (szemben a DP-vel) –nem kell megvárni az epizód végét (szemben az MC-vel) –MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk

Az időbeli differenciák módszere értékelőbecslésre

Összehasonlítás: DP, MC, TD 3 módszer V  becslésére: DP: –a Bellman-egyenletből származik –a várható értéket a modell alapján pontosan számoljuk MC: –az epizód végén a várható értéket mintavételezzük –a mintavétel zajos, ezért csak  -nyi mértékben vesszük figyelembe TD: –1 lépés alapján a várható értéket mintavételezzük –a mintavétel zajos, ezért csak  -nyi mértékben vesszük figyelembe

TD tanulás – Sarsa Mohó akció  valószínűséggel Véletlen akció 1-  valószínűséggel

Az explorációs stratégia javítása az  -mohó stratégia nagyon rossz! –a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok –jutalom, ha ritkán látogatott állapotba jut az ügynök –jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: –optimista kezdőértékek –eleinte minden akciót végigpróbál, mert sok jutalmat remél

Regresszió alapú RL Ha az állapotok és akciók száma túl nagy kezelhetetlen lesz a probléma –túl sok epizód kell a jó becsléshez Eddig csak diszkrét állapot és akcióterekről beszétünk (folytonos esetek?)

Egy különösen sikeres példa: TD-gammon TD( ) tanulás, 1 rejtett rétegű neuronháló, Backprop 1,500,000 játék (saját magával) A legjobb játékosokkal azonos képességek (világbajnok) Backgammon állapottere: ~10 20, DP nem megy!!