Megerősítéses Tanulás = Reinforcement Learning (RL)

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Tamás Kincső, OSZK, Analitikus Feldolgozó Osztály, osztályvezető A részdokumentumok szolgáltatása az ELDORADO-ban ELDORADO konferencia a partnerkönyvtárakkal.

Kamarai prezentáció sablon
„Esélyteremtés és értékalakulás” Konferencia Megyeháza Kaposvár, 2009
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Erőállóképesség mérése Találjanak teszteket az irodalomban
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
Humánkineziológia szak
Mellár János 5. óra Március 12. v
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Műveletek logaritmussal
Elektromos mennyiségek mérése
Koordináta transzformációk
Utófeszített vasbeton lemez statikai számítása Részletes számítás
A tételek eljuttatása az iskolákba
Gépi tanulási módszerek
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
Elektronikai Áramkörök Tervezése és Megvalósítása
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
A diákat jészítette: Matthew Will
Ember László XUBUNTU Linux (ami majdnem UBUNTU) Ötödik nekifutás 192 MB RAM és 3 GB HDD erőforrásokkal.
Védőgázas hegesztések
55 kodosszeg FIZETÉS felvitel JUTALOM felvitel 11-es dolgozó kap 200-at 11-es dolgozó kap 50-et SELECT osszeg INTO x FROM d.
PPKE ITK 2008/09 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Szerkezeti elemek teherbírásvizsgálata összetett terhelés esetén:
NOVÁK TAMÁS Nemzetközi Gazdaságtan
DRAGON BALL GT dbzgtlink féle változat! Illesztett, ráégetett, sárga felirattal! Japan és Angol Navigáláshoz használd a bal oldali léptető elemeket ! Verzio.
Lineáris egyenletrendszerek (Az evolúciótól a megoldáshalmaz szerkezetéig) dr. Szalkai István Pannon Egyetem, Veszprém /' /
dr. Szalkai István Pannon Egyetem, Veszprém
szakmérnök hallgatók számára
2. A KVANTUMMECHANIKA AXIÓMÁI 1. Erwin Schrödinger: Quantisierung als Eigenwertproblem (1926) 2.
Exponenciális egyenletek
Logikai szita Izsó Tímea 9.B.
9.1. ábra. A 135Xe abszorpciós hatáskeresztmetszetének energiafüggése.
2007. május 22. Debrecen Digitalizálás és elektronikus hozzáférés 1 DEA: a Debreceni Egyetem elektronikus Archívuma Karácsony Gyöngyi DE Egyetemi és Nemzeti.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
A pneumatika alapjai A pneumatikában alkalmazott építőelemek és működésük vezérlő elemek (szelepek)
IV. Terjeszkedés.
Csurik Magda Országos Tisztifőorvosi Hivatal
A klinikai transzfúziós tevékenység Ápolás szakmai ellenőrzése
2006. Peer-to-Peer (P2P) hálózatok Távközlési és Médiainformatikai Tanszék.
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
QualcoDuna interkalibráció Talaj- és levegövizsgálati körmérések évi értékelése (2007.) Dr. Biliczkiné Gaál Piroska VITUKI Kht. Minőségbiztosítási és Ellenőrzési.
1 Gyarapodó Köztársaság Növekvő gazdaság – csökkenő adók február 2.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Mérés és adatgyűjtés laboratóriumi gyakorlat - levelező Sub-VI és grafikonok 1 Mingesz Róbert V
IKT az informatikus könyvtáros képzésben az egri főiskolán Dr. Tóvári Judit főiskolai tanár Dr. Tóvári Judit főiskolai tanár.
Mikroökonómia gyakorlat
> aspnet_regiis -i 8 9 TIPP: Az „Alap” telepítés gyors, nem kérdez, de később korlátozhat.
1 Szervetlen és Analitikai Kémia Tanszék, Kémiai Informatika Csoport Számítástechnika Kari rendszergazda: Rippel Endre (Ch C2)
Megerősítéses tanulás 8. előadás
A KÖVETKEZŐKBEN SZÁMOZOTT KÉRDÉSEKET VAGY KÉPEKET LÁT SZÁMOZOTT KÉPLETEKKEL. ÍRJA A SZÁMOZOTT KÉRDÉSRE ADOTT VÁLASZT, VAGY A SZÁMOZOTT KÉPLET NEVÉT A VÁLASZÍV.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
1 Az igazság ideát van? Montskó Éva, mtv. 2 Célcsoport Az alábbi célcsoportokra vonatkozóan mutatjuk be az adatokat: 4-12 évesek,1.
A termelés költségei.
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Megerősítéses tanulás
Mesterséges intelligencia
Előadás másolata:

Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI szcsaba@sztaki.hu www.sztaki.hu/~szcsaba

Gépi tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI, 2004- Megerősítéses tanulás Klasszifikáció Jellegzetesség kivonás Alkalmazási területek Kontroll, játékok Beszéd Természetes nyelv (NKFP projekt: NYELVBÁNYÁSZ) Pénzügyi mat. (portfólió opt.) Kocsis Levente, PhD Szepesvári Csaba, PhD Szamonek Zoltán, PhD hallg. „your name”?

MA: Megerősítéses Tanulás Tartalom: Motiváció Algoritmusok, módszerek, eszközök Alkalmazások

AI - „a nagy kép” Intelligencia: Tanulás „Programozói” lustaság + a feladatok komplexitásának kezelése: Minél önállóbb tanulás

Hol tartunk? (MLHCI Csoport) Póker Célok: mesterszintű játék játék aspektusok ellenfél modellezés Autóverseny-szimulátor Célok: Emberi teljesítmény mesteri reprodukciója Autóvezetés forgalomban

Mi a megerősítéses tanulás (RL) ? Nagyfokú önállóság a tanulásban Információk: büntetés/jutalom alapján megfigyelések a környezetről (állapotok) Cél: a jutalom egy függvényét maximalizálni! +50 -1 +3 r9 r5 r4 r1 … … s1 s2 s3 s4 s5 … s9 a1 a2 a3 a4 a5 … a9

A k-karú bandita probléma Átlagos kifizetés (jutalom) Akciók 10 0, 0, 5, 10, 35 5, 10, -15, -15, -10 -5 Ágens 100

Markov Döntési Folyamatok ~ Markov Decision Processes (MDPs) Állapotok, véletlentől függő átmenetekkel Átmenetvalószínűségek aktuális állapottól függnek Transition matrix P, and reward function R a1 r = 0 1 1 2 r = 2 a2

Hosszútávú jutalom Ágens politikája rögzített: p Az Rt kifizetés a t pillanat utáni össz-jutalom +50 -1 +3 r9 r5 r4 r1

Érték = Hasznosság = Várható kifizetés Rt valószínűségi változó Vehetjük a várható értékét! Politikától függ Rt ! Feladat: találjuk meg azt a p* politikát amelyik a várható értéket maximalizálja, minden állapotban

Az eddigi sztori.. RL feladatok részei: Több lépéses döntési feladatok Cél p*-ot megtalálni Kritérium: Rövid távú Hosszú távú at at+1 at+2 st st+1 st+2 st+3 rt+1 rt+2 rt+3

A Bellman egyenletek V = TV vagy BV = 0 A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető: ahol és Másképp: s 4 3 5 p(s) V = TV vagy BV = 0

Bellman egyenletek - optimális értékelő függvény Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a) Ez optimális!!! Politika javítás algoritmus: (kiértékel, javít)*

„Bootstrapping” módszerek P és R ismeretét feltételezve; Dinamikus Programozás Nem ismerjük P-t és R-et, mintavételezés; „Temporal Difference learning” s 4 3 5 p(s) st st+1 rt+1 at = p(st)

TD(0) tanulás: Politikák kiértékelése p is the policy to be evaluated Initialise arbitrarily for all Repeat select an action at from p(st) observe the transition update according to t:=t+1 st st+1 rt+1 at

„On-” és „Off-” politika tanulás „On politika”: az éppen követett politikát értékeljük pl. TD tanulással „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk Pl. Q-tanulás: st st+1 rt+1 at st+1 at st rt+1

„Off-politika” tanulás A Q-tanulás előnyei Az optimális politika p* értékét becsli miközben tetszőleges (felfedező) akciókat lehet végrehatjani e-mohó felfedezés: Mohó akció e valószínűséggel Véletlen akció 1-e valószínűséggel Garantált konvergencia, ha kellően bejárjuk az MDP-t Meg lehet-e találni p* -ot „on-politika” algoritmussal?

„On politika” tanulás: Sarsa Töröljük a „max” operátort! Értékeljük a követett politikát: Fokozatosan, lassan változtassuk a politikát Konvergál! (Jaakkola,Singh,Littman,Szepesvári) at st+1 st at+1 rt+1

„On politika” tanulás: Sarsa Initialise arbitrarily for all select an action at from explore( ) Repeat observe the transition select an action at+1 from explore( ) update according to t:=t+1 at st+1 st rt+1

Összefoglalás: TD, Q-learning, Sarsa TD learning One step Q-learning Sarsa learning at st st+1 rt+1 st+1 at st rt+1 at st+1 st at+1 rt+1

2-es fokozat: „Eligibility traces”, TD(l) A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk: at-2 at-1 at rt-1 rt rt+1 st-2 st-1 st st+1 Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”: ahol Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:

„Eligibility trace” a Q-tanulásban: Q(l) Sokféleképpen lehet csinálni Pl. minden s,a párra: Nem-mohó akciónál is van információ visszaterjesztés Elvész a konvergencia garancia! Watkin’s megoldási javaslata: nem-mohó után e:=0 Probléma: hatásfokot csökkenti “Bias variance” dilemma rt+1 st+1 rt at-1 at at+1 st-1 st agreedy

Sarsa(l) Másik megoldás: használjuk a Sarsa algoritmust! Minden s,a párra: Konvergencia tulajdonság megmarad(?) at at+1 at+2 rt+1 rt+2 st st+1 st+2

„Közelítő” RL Miért? Idő és tárkorlátok! (Bellman: dimenzionalítás átka) Általánosítás új szituációkra (elégtelen mintavételezés) Megoldások Érték-függvény közelítése Politika térbeli keresés Közelítő modellek + tervezés

Lineáris approximáció Egyszerű és hasznos! Vannak konvergencia eredmények Most: lineáris TD(l) Súlyvektor a t. időpillanatban: „Feature” vektor az s állapotra: Becslés Cél: minimalizálni..

Értékfüggvény közelítés: approximátorok Választások: pl. CMAC, RBF népszerűek CMAC: n db. cserépdarab „Features” Tulajdonságok „Coarse coding” Szabályos fedés _ jó hatásfok Véletlen hash: memóriaigény csökkenti

Lineáris közelítések Gradiens módszer -re TD(l) egyenlet új alakja: Most az E.T. n-dimenziós vektor, amit így módosítunk: Konvergál -hoz

Újabb önreklám William D. Smart, Cs. Szepesvári, ICML’2004: Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva. Nem gradiens módszer. A megfelelő gradiens módszer konvergenciája nem ismert. Sejtés: .... Konvergens?

Egy különösen sikeres példa: TD-gammon TD(l) tanulás, 1 rejtett rétegű neuronháló, Backprop 1,500,000 játék (saját magával) A legjobb játékosokkal azonos képességek (világbajnok) Backgammon állapottere: ~1020 , DP nem megy!!

Modell alapú RL: struktúrált modellek Dinamikus Bayes háló a P állapotátmenetek reprezentációjára (másképp: faktorizált MDP) V: fa Backup: „goal regression” Hasonlít a tervezési feladatokra

RL: rejtett állapotok POMDP, k-Markov POMDP-ben a tervezés nem(sem) kivihető (intractable) Faktorizált POMDP-k: igéretes Politika keresés előnyös at at+1 at+2 rt+1 rt+2 st st+1 st+2 ot ot+1 ot+2

Politika keresés (direkt módszer) Módszerek Gradiens Evolúciós (egyéb local/global search)

Alkalmazások

Robot navigációs feladat Sridhar Mahadevan UMass Pavlov: Nomad 200 robot Nomad 200 simulator

Hierarchikus modellek – térbeli modellezésre Sridhar Mahadevan UMass Entire environment 575 states Corridor state 1385 states Production state

Hierarchikus modellek vertical transitions entry states exit states abstract states horizontal transitions product states, which generate observations

Internet forgalom-szabályozás “Multi-protocol label switching” (Yong Liu, Singapore) Internet forgalom-szabályozás “Multi-protocol label switching” Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolás valószínűségét minimalizáljuk Ingress router ingress router egress router

Robot foci: szimulációs liga Jeremy Wyatt Yoshiyuki Matsumura Matthew Todd University of Birmingham School of Computer Science Robot foci: szimulációs liga Situation (s) Action (a) Utility Q(s,a) Ball kickable, goal near shoot 0.6 Ball kickable, goal far 0.33 pass 0.4 …

A k-lábú robot

Egyidejű (konkurrens) akciók Example: driving Look in the mirror Look at the road Check the speed Press brakes Accelerate Put on high gear Steer the wheel Right arm Decision epochs Head & eyes Legs

Alkalmazások (A-tól N-ig) M.L.Puterman, 2002 Alkalmazások (A-tól N-ig) Airline Meal Planning Behaviourial Ecology Capacity Expansion Decision Analysis Equipment Replacement Fisheries Management Gambling Systems Highway Pavement Repair Inventory Control Job Seeking Strategies Knapsack Problems Learning Medical Treatment Network Control

Alkalmazások (O-tól Z-ig) M.L.Puterman, 2002 Alkalmazások (O-tól Z-ig) Option Pricing Project Selection Queueing System Control Robotic Motion Scheduling Tetris User Modeling Vision (Computer) Water Resources X-Ray Dosage Yield Management Zebra Hunting

Néhány további RL alkalmazás Liftek vezérlése (Barto & Crites) Ütemezési feladatok, űrsikló pakolása (Zhang & Dietterich) Dinamikus csatorna kiosztás mobil hálózatokban (Singh & Bertsekas) Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni tanulás, zsonglőrködés Ragadozó-préda (PacMan) Portfólió optimalizálás

Aktív területek Optimális felfedező stratégiák Struktúrált modellek Relációs modellek Folytonos állapot és akció-terek Hierarchikus RL Állapotok és akciók absztrakciói (options, macros,..) Rejtett állapotok (eg. POMDPs) Prediktív állapot-reprezentáció Politika keresés Szignifikancia tesztek

Reinforcement Learning: key papers Overviews R. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press, 1998. J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity and Learning. Springer Verlag, 2003. L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 4:237-285, 1996. Value Function Approximation D. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998. Eligibility Traces S.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces. Machine Learning, 22:123-158, 1996.

Reinforcement Learning: key papers Structured Models and Planning C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000. B. Sallans. Reinforcement Learning for Factored Markov Decision Processes Ph.D. Thesis, Dept. of Computer Science, University of Toronto, 2001. K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

Reinforcement Learning: key papers Policy Search R. Williams. Simple statistical gradient algorithms for connectionist reinforcement learning. Machine Learning, 8:229-256. R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation. NIPS 12, 2000. Hierarchical Reinforcement Learning R. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112:181-211. R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998. A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

Reinforcement Learning: key papers Exploration N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35:117-154, 1999. J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001. POMDPs L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.