Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Winnie the pooh & friends
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Számold meg a fekete pontokat!
Módszerek sebességi állandók becslésére Kovács Benedek, Budapesti Műszaki és Gazdaségtudományi Egyetem.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Bayes hálók október 20. Farkas Richárd
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Lineáris és nemlineáris regressziók, logisztikus regresszió
Rangsorolás tanulása ápr. 24..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Véletlen logikai hálózatok. Bevezető Logikai változó: Bináris változó. Két lehetséges értéke van: 0 és 1, néha ±1 {σ 1, σ 2,..., σ N }, σ i : {0,1}, i.
Játékelmélet Nash, dominancia.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Előadó: Prof. Dr. Besenyei Lajos
ADATBÁZISOK
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Regresszióanalízis 10. gyakorlat.
Evolúciósan stabil stratégiák előadás
Játékelméleti alapfogalmak előadás
1 Ismételt fogolydilemma játék sztochasztikus reaktív stratégiákkal 4. előadás Axelrod számítógépes versenyének megismétlése A nyereménymátrix és a stratégiák:
Ismételt fogolydilemma játék sztochasztikus reaktív stratégiákkal. 4
Az Alakfelismerés és gépi tanulás ELEMEI
Minőségügy a mindennapokban
Megerősítéses Tanulás = Reinforcement Learning (RL)
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Alapsokaság (populáció)
Alapfogalmak.
Többtényezős ANOVA.
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
Geotechnikai feladatok véges elemes
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
PPKE ITK 2008/09 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Megerősítéses tanulás 8. előadás
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
Csoportkeresési eljárások Vassy Zsolt. Tematika Girvan Newman klaszterezés Diszkrét Markov lánc: CpG szigetek Rejtett Markov lánc ADIOS.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Beginner Dialogues - In a motel / hotel Getting a room for the night - Good evening. Can I help you? - Yes, please. I'd like a room for the night. - Would.
Winnie the pooh & friends
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
A világon elsőként: NEMZETKÖZI VIRTUÁLIS SAKKISKOLA (  Világszerte elfogadott tény, melyet számos kutatási eredmény is.
„Tisztább kép” – együttműködési program Az új szintetikus drogok feltérképezéséért 2 nd European Workshop – ’Breaking the Drug Cycle’ project Budapest,
Megerősítéses tanulás máj. 15. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Kinetikus Monte Carlo  Bevezetés  Véletlen bolyongás  Residence time algoritmus.
Technológiai folyamatok optimalizálása Dinamikus programozás Ráduly Botond Mészáros Sándor.
Megerősítéses tanulás
Simon Péter főtitkár Bolyai János Matematikai Társulat
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Mesterséges intelligencia
Kockázat és megbízhatóság
FAZEKAS ANDRÁS ISTVÁN PhD c. egyetemi docens
A sas törénete… A bemutatót készítette: Mike
Szalai Sándor UNCCD CST, HUCID
Polymer Theory Why are we looking at polymer theory?
Trendelemzés előadó: Ketskeméty László
A évi kompetenciamérés FIT-jelentéseinek új elemei
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Bunkóczi László, Dr.Pitlik László, Pető István, Szűcs Imre
A mesterséges neuronhálók alapjai
Dijkstra algoritmusa: legrövidebb utak
Számold meg a fekete pontokat!
This table is avarage! Read instructions below!
Előadás másolata:

Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard S. Sutton and Andrew G. Barto: Reinforcement Learning: An Introduction (1998)

Megerősítéses tanulás (reinforcement learning)

Megerősítéses tanulás (reinforcement learning)

Robot navigációs feladat Pavlov: Nomad 200 robot Nomad 200 simulator Sridhar Mahadevan UMass

Megerősítéses tanulás Interakcióból tanul és nem tanító adatbázisból A megerősítés ( büntetés/jutalom ) általában nem azonnali megfigyelések a környezetről (állapotok) Célorientált! A jutalom egy függvényét maximalizáljuk. s9s9 s5s5 s4s4 s2s2 …… … s3s r9r9 r5r5 r4r4 r1r1 s1s1 a9a9 a5a5 a4a4 a2a2 … a3a3 a1a1

Megerősítéses tanulás idő: állapot: akció: jutalom: eljárásmód (policy, stratégia): –determinisztikus: –szochasztikus: –  ( s, a ) annak a valószínűsége, hogy s -ben a -t lép (végtelen horizont)

interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:

A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:

Markov Döntési Folyamatok Markov Decision Processes (MDPs) Állapotok, véletlentől függő átmenetekkel Átmenetvalószínűségek aktuális állapottól függnek r = r = 0 a1a1 a2a2

A felderítés-kiaknázás dilemma (exploration – exploitation) A k-karú bandita probléma Ágens Akciók Átlagos kifizetés (jutalom) , 0, 5, 10, 35 5, 10, -15, -15, , 0, 50 Ahhoz, hogy sok jutalmat kapjunk tudnunk kell milyen akciókkal szerezhetjük meg, azaz meg kell ismerni a környezetet (felderítés), majd a tudás alapján összegyűjteni a jutalmat (kiaknázás).

Célfüggvény folytonos (végtelen) feladat –gond:  r t végtelen lehet! –megoldás: diszkontálás.  r t helyett  t r t,  <1 –garantáltan véges diszkontálás kényelmes

Markov döntési folyamat megoldása környezet lépked P és R szerint: ágens lépked  szerint: optimális eljárásmód: olyan , amelyre maximális.

Hosszútávú jutalom Ágens politikája rögzített:  Az R t kifizetés a t pillanat utáni össz- jutalom  alapján r9r9 r5r5 r4r4 r1r1

Állapot hasznossága (értéke) = Várható kifizetés R t valószínűségi változó Vehetjük a várható értékét! Politikától függ R t ! V()-t értékelőfüggvénynek hívjuk Feladat: találjuk meg azt a    politikát amelyik a várható értéket maximalizálja, minden állapotban

16 Az eddigi sztori.. –Több lépéses döntési feladatok –Cél  *-ot megtalálni –Kritérium: Rövid távú Hosszú távú r t+1 r t+2 r t+3 atat a t+1 a t+2 stst s t+1 s t+2 s t+3

A Bellman egyenletek A Markov tulajdonság miatt a várható összjutalom egy rekurzív egyenlettel is kifejezhető: s  (s)

Eljárásmódok összehasonlítása  1 ≥  2, ha részbenrendezés  * optimális, ha  * ≥  minden eljárásmódra mindig létezik ilyen

Példa: egy nagyon egyszerű MDP 4 állapot, 2 akció 10% eséllyel rossz irányba megy -10 A D C B cél

Példa A D C B cél  (A,1) = 1  (A,2) = 0  (B,1) = 1  (B,2) = 0  (C,1) = 1  (C,2) = 0  (D,1) = 1  (D,2) = 0

Példa

megoldás:  2 stratégia: mindig 2-t lép

Példa: egy 3. eljárásmód   (A,1) = 0,4   (A,2) = 0,6  3 (B,1) = 1  3 (B,2) = 0  3 (C,1) = 0  3 (C,2) = 1  3 (D,1) = 1  3 (D,2) = 0 A D C B cél

Példa: egy 3. eljárásmód

megoldás:

Példa: összehasonlítás  1 ≤  3 és  2 ≤  3  3 optimális eljárásmód sok optimális eljárásmód van! az optimális értékelőfüggvény (V) egyértelmű 11 22 33 A B C D100

Az optimális értékelőfüggvény Bellman-egyenlete Optimális értékelő függvény Mohó eljárásmód: mindig a Q* szerinti legjobb akciót választja: argmax a Q*(s,a) Ez optimális eljárásmód!!!

Az optimális értékelőfüggvény Bellman-egyenlete nemlineáris! van egyértelmű megoldása megoldja a hosszútávú tervezés problémáját

MDP megoldása dinamikus programozással Tfh. P és R ismert Kerssük  -t Eljárásmód iteráció Értékiteráció

Eljárásmód iteráció

Jack's Car Rental Problem: Jack manages two locations for a nationwide car rental company. Each day, some number of customers arrive at each location to rent cars. If Jack has a car available, he rents it out and is credited $10 by the national company. If he is out of cars at that location, then the business is lost. Cars become available for renting the day after they are returned. To help ensure that cars are available where they are needed, Jack can move them between the two locations overnight, at a cost of $2 per car moved. We assume that the number of cars requested and returned at each location are Poisson random variables with parameter λ. Suppose λ is 3 and 4 for rental requests at the first and second locations and 3 and 2 for returns. To simplify the problem slightly, we assume that there can be no more than 20 cars at each location (any additional cars are returned to the nationwide company, and thus disappear from the problem) and a maximum of five cars can be moved from one location to the other in one night. We take the discount rate to be 0.9 and formulate this as a continuing finite MDP, where the time steps are days, the state is the number of cars at each location at the end of the day, and the actions are the net numbers of cars moved between the two locations overnight.

Értékiteráció

Eljárásmóditeráció vs. értékiteráció melyik jobb? –eljárásmóditerációnak kevesebb lépés elég –de azok a lépések sokáig tartanak Értékiteráció polinom időben  -optimális értékelőfüggvényhez konvergál Eljárásmóditeráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő

Általános eljárásmód iteráció

Eljárásmód kiértékelése modell (P és R) nélkül keressük V  -t R(s) : „nyereség s -ből”, valószínűségi változó várható értéke: V  (s)

V  (s) becslése Monte Carlo módszer, MC R(s) modell nélkül számítható, szimulációval tapasztalati átlag: veszünk N darab s - ből induló utat (epizód), a nyereségek:

Monte Carlo értékelőbecslés

Az időbeli differenciák módszere (Temporal Differences, TD) becslésünk hibája: Előnye: –nem kell megvárni az epizód végét (szemben az MC-vel) a becsléshez egy másik becslést használunk

Az időbeli differenciák módszere értékelőbecslésre

Összehasonlítás: DP, MC, TD 3 módszer V  becslésére: DP: –a környezet modellje (P és R) ismert –A várható értéket pontosan számoljuk MC: –közelítő megoldás, szimulálunk epizódokat –frissítés csak az epizód végén TD: –frissítés a szimuláció egyetlen lépése alapján –a mintavétel zajos, ezért csak  -nyi mértékben vesszük figyelembe

TD tanulás – Sarsa Mohó akció 1-  valószínűséggel Véletlen akció  valószínűséggel

Az explorációs stratégia javítása az  -mohó stratégia nagyon rossz! –a felfedező lépések véletlen bolyongások példa jobb módszerre: explorációs bónuszok –jutalom, ha ritkán látogatott állapotba jut az ügynök –jutalom pl. legutóbbi látogatás ideje, TD hiba nagysága, stb. egyszerű módszer a felderítés bátorítására: –optimista kezdőértékek –eleinte minden akciót végigpróbál, mert sok jutalmat remél

Regresszió alapú RL Ha az állapotok és akciók száma túl nagy kezelhetetlen lesz a probléma –túl sok epizód kell a jó becsléshez Eddig csak diszkrét állapot és akcióterekről beszétünk (folytonos esetek?)

Egy különösen sikeres példa: TD-gammon TD( ) tanulás, 1 rejtett rétegű neuronháló, Backprop 1,500,000 játék (saját magával) A legjobb játékosokkal azonos képességek (világbajnok) Backgammon állapottere: ~10 20, DP nem megy!!