Megerősítéses Tanulás = Reinforcement Learning (RL)

Megerősítéses Tanulás = Reinforcement Learning (RL)
Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI

Gépi tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI, 2004-
Megerősítéses tanulás Klasszifikáció Jellegzetesség kivonás Alkalmazási területek Kontroll, játékok Beszéd Természetes nyelv (NKFP projekt: NYELVBÁNYÁSZ) Pénzügyi mat. (portfólió opt.) Kocsis Levente, PhD Szepesvári Csaba, PhD Szamonek Zoltán, PhD hallg. „your name”?

MA: Megerősítéses Tanulás
Tartalom: Motiváció Algoritmusok, módszerek, eszközök Alkalmazások

AI - „a nagy kép” Intelligencia: Tanulás „Programozói” lustaság +
a feladatok komplexitásának kezelése: Minél önállóbb tanulás

Hol tartunk? (MLHCI Csoport)
Póker Célok: mesterszintű játék játék aspektusok ellenfél modellezés Autóverseny-szimulátor Célok: Emberi teljesítmény mesteri reprodukciója Autóvezetés forgalomban

Mi a megerősítéses tanulás (RL) ?
Nagyfokú önállóság a tanulásban Információk: büntetés/jutalom alapján megfigyelések a környezetről (állapotok) Cél: a jutalom egy függvényét maximalizálni! +50 -1 +3 r9 r5 r4 r1 … … s1 s2 s3 s4 s5 … s9 a1 a2 a3 a4 a5 … a9

A k-karú bandita probléma
Átlagos kifizetés (jutalom) Akciók 10 0, 0, 5, 10, 35 5, 10, -15, -15, -10 -5 Ágens 100

Markov Döntési Folyamatok ~ Markov Decision Processes (MDPs)
Állapotok, véletlentől függő átmenetekkel Átmenetvalószínűségek aktuális állapottól függnek Transition matrix P, and reward function R a1 r = 0 1 1 2 r = 2 a2

Hosszútávú jutalom Ágens politikája rögzített: p
Az Rt kifizetés a t pillanat utáni össz-jutalom +50 -1 +3 r9 r5 r4 r1

Érték = Hasznosság = Várható kifizetés
Rt valószínűségi változó Vehetjük a várható értékét! Politikától függ Rt ! Feladat: találjuk meg azt a p* politikát amelyik a várható értéket maximalizálja, minden állapotban

Az eddigi sztori.. RL feladatok részei: Több lépéses döntési feladatok
Cél p*-ot megtalálni Kritérium: Rövid távú Hosszú távú at at+1 at+2 st st+1 st+2 st+3 rt+1 rt+2 rt+3

A Bellman egyenletek V = TV vagy BV = 0
A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető: ahol és Másképp: s 4 3 5 p(s) V = TV vagy BV = 0

Bellman egyenletek - optimális értékelő függvény
Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a) Ez optimális!!! Politika javítás algoritmus: (kiértékel, javít)*

„Bootstrapping” módszerek
P és R ismeretét feltételezve; Dinamikus Programozás Nem ismerjük P-t és R-et, mintavételezés; „Temporal Difference learning” s 4 3 5 p(s) st st+1 rt+1 at = p(st)

TD(0) tanulás: Politikák kiértékelése
p is the policy to be evaluated Initialise arbitrarily for all Repeat select an action at from p(st) observe the transition update according to t:=t+1 st st+1 rt+1 at

„On-” és „Off-” politika tanulás
„On politika”: az éppen követett politikát értékeljük pl. TD tanulással „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk Pl. Q-tanulás: st st+1 rt+1 at st+1 at st rt+1

„Off-politika” tanulás
A Q-tanulás előnyei Az optimális politika p* értékét becsli miközben tetszőleges (felfedező) akciókat lehet végrehatjani e-mohó felfedezés: Mohó akció e valószínűséggel Véletlen akció 1-e valószínűséggel Garantált konvergencia, ha kellően bejárjuk az MDP-t Meg lehet-e találni p* -ot „on-politika” algoritmussal?

„On politika” tanulás: Sarsa
Töröljük a „max” operátort! Értékeljük a követett politikát: Fokozatosan, lassan változtassuk a politikát Konvergál! (Jaakkola,Singh,Littman,Szepesvári) at st+1 st at+1 rt+1

„On politika” tanulás: Sarsa
Initialise arbitrarily for all select an action at from explore( ) Repeat observe the transition select an action at+1 from explore( ) update according to t:=t+1 at st+1 st rt+1

Összefoglalás: TD, Q-learning, Sarsa
TD learning One step Q-learning Sarsa learning at st st+1 rt+1 st+1 at st rt+1 at st+1 st at+1 rt+1

2-es fokozat: „Eligibility traces”, TD(l)
A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk: at-2 at-1 at rt-1 rt rt+1 st-2 st-1 st st+1 Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”: ahol Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan:

„Eligibility trace” a Q-tanulásban: Q(l)
Sokféleképpen lehet csinálni Pl. minden s,a párra: Nem-mohó akciónál is van információ visszaterjesztés Elvész a konvergencia garancia! Watkin’s megoldási javaslata: nem-mohó után e:=0 Probléma: hatásfokot csökkenti “Bias variance” dilemma rt+1 st+1 rt at-1 at at+1 st-1 st agreedy

Sarsa(l) Másik megoldás: használjuk a Sarsa algoritmust!
Minden s,a párra: Konvergencia tulajdonság megmarad(?) at at+1 at+2 rt+1 rt+2 st st+1 st+2

„Közelítő” RL Miért? Idő és tárkorlátok!
(Bellman: dimenzionalítás átka) Általánosítás új szituációkra (elégtelen mintavételezés) Megoldások Érték-függvény közelítése Politika térbeli keresés Közelítő modellek + tervezés

Lineáris approximáció
Egyszerű és hasznos! Vannak konvergencia eredmények Most: lineáris TD(l) Súlyvektor a t. időpillanatban: „Feature” vektor az s állapotra: Becslés Cél: minimalizálni..

Értékfüggvény közelítés: approximátorok
Választások: pl. CMAC, RBF népszerűek CMAC: n db. cserépdarab „Features” Tulajdonságok „Coarse coding” Szabályos fedés _ jó hatásfok Véletlen hash: memóriaigény csökkenti

Lineáris közelítések Gradiens módszer -re TD(l) egyenlet új alakja:
Most az E.T. n-dimenziós vektor, amit így módosítunk: Konvergál -hoz

Újabb önreklám William D. Smart, Cs. Szepesvári, ICML’2004:
Q-learning egy formája konvergál egy megfelelő függvény-approximátorral együtt használva. Nem gradiens módszer. A megfelelő gradiens módszer konvergenciája nem ismert. Sejtés: .... Konvergens?

Egy különösen sikeres példa: TD-gammon
TD(l) tanulás, 1 rejtett rétegű neuronháló, Backprop 1,500,000 játék (saját magával) A legjobb játékosokkal azonos képességek (világbajnok) Backgammon állapottere: ~1020 , DP nem megy!!

Modell alapú RL: struktúrált modellek
Dinamikus Bayes háló a P állapotátmenetek reprezentációjára (másképp: faktorizált MDP) V: fa Backup: „goal regression” Hasonlít a tervezési feladatokra

RL: rejtett állapotok POMDP, k-Markov
POMDP-ben a tervezés nem(sem) kivihető (intractable) Faktorizált POMDP-k: igéretes Politika keresés előnyös at at+1 at+2 rt+1 rt+2 st st+1 st+2 ot ot+1 ot+2

Politika keresés (direkt módszer)
Módszerek Gradiens Evolúciós (egyéb local/global search)

Alkalmazások

Robot navigációs feladat
Sridhar Mahadevan UMass Pavlov: Nomad 200 robot Nomad 200 simulator

Hierarchikus modellek – térbeli modellezésre
Sridhar Mahadevan UMass Entire environment 575 states Corridor state 1385 states Production state

Hierarchikus modellek
vertical transitions entry states exit states abstract states horizontal transitions product states, which generate observations

Internet forgalom-szabályozás “Multi-protocol label switching”
(Yong Liu, Singapore) Internet forgalom-szabályozás “Multi-protocol label switching” Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolás valószínűségét minimalizáljuk Ingress router ingress router egress router

Robot foci: szimulációs liga
Jeremy Wyatt Yoshiyuki Matsumura Matthew Todd University of Birmingham School of Computer Science Robot foci: szimulációs liga Situation (s) Action (a) Utility Q(s,a) Ball kickable, goal near shoot 0.6 Ball kickable, goal far 0.33 pass 0.4 …

A k-lábú robot

Egyidejű (konkurrens) akciók
Example: driving Look in the mirror Look at the road Check the speed Press brakes Accelerate Put on high gear Steer the wheel Right arm Decision epochs Head & eyes Legs

Alkalmazások (A-tól N-ig)
M.L.Puterman, 2002 Alkalmazások (A-tól N-ig) Airline Meal Planning Behaviourial Ecology Capacity Expansion Decision Analysis Equipment Replacement Fisheries Management Gambling Systems Highway Pavement Repair Inventory Control Job Seeking Strategies Knapsack Problems Learning Medical Treatment Network Control

Alkalmazások (O-tól Z-ig)
M.L.Puterman, 2002 Alkalmazások (O-tól Z-ig) Option Pricing Project Selection Queueing System Control Robotic Motion Scheduling Tetris User Modeling Vision (Computer) Water Resources X-Ray Dosage Yield Management Zebra Hunting

Néhány további RL alkalmazás
Liftek vezérlése (Barto & Crites) Ütemezési feladatok, űrsikló pakolása (Zhang & Dietterich) Dinamikus csatorna kiosztás mobil hálózatokban (Singh & Bertsekas) Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni tanulás, zsonglőrködés Ragadozó-préda (PacMan) Portfólió optimalizálás

Aktív területek Optimális felfedező stratégiák Struktúrált modellek
Relációs modellek Folytonos állapot és akció-terek Hierarchikus RL Állapotok és akciók absztrakciói (options, macros,..) Rejtett állapotok (eg. POMDPs) Prediktív állapot-reprezentáció Politika keresés Szignifikancia tesztek

Reinforcement Learning: key papers
Overviews R. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press, 1998. J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity and Learning. Springer Verlag, 2003. L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 4: , 1996. Value Function Approximation D. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, 1998. Eligibility Traces S.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces. Machine Learning, 22: , 1996.

Structured Models and Planning C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, 2000. B. Sallans. Reinforcement Learning for Factored Markov Decision Processes Ph.D. Thesis, Dept. of Computer Science, University of Toronto, 2001. K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

Policy Search R. Williams. Simple statistical gradient algorithms for connectionist reinforcement learning. Machine Learning, 8: R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation. NIPS 12, 2000. Hierarchical Reinforcement Learning R. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112: R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, 1998. A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

Exploration N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35: , 1999. J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18th International Conference on Machine Learning, 2001. POMDPs L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.

Megerősítéses Tanulás = Reinforcement Learning (RL)

Hasonló előadás

Az előadások a következő témára: "Megerősítéses Tanulás = Reinforcement Learning (RL)"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Megerősítéses Tanulás = Reinforcement Learning (RL)

Hasonló előadás

Az előadások a következő témára: "Megerősítéses Tanulás = Reinforcement Learning (RL)"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés