Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI

Hasonló előadás


Az előadások a következő témára: "Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI"— Előadás másolata:

1 Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI

2 2 Gépi tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI, Tanulás –Megerősítéses tanulás –Klasszifikáció –Jellegzetesség kivonás Alkalmazási területek –Kontroll, játékok –Beszéd –Természetes nyelv (NKFP projekt: NYELVBÁNYÁSZ) –Pénzügyi mat. (portfólió opt.) Kocsis Levente, PhD Szepesvári Csaba, PhD Szamonek Zoltán, PhD hallg. „your name”?

3 MA: Megerősítéses Tanulás Tartalom: Motiváció Algoritmusok, módszerek, eszközök Alkalmazások

4 4 AI - „a nagy kép” Intelligencia: -Tanulás „Programozói” lustaság + a feladatok komplexitásának kezelése: -Minél önállóbb tanulás

5 5 Póker Célok: mesterszintű játék játék aspektusok ellenfél modellezés Hol tartunk? (MLHCI Csoport) Autóverseny-szimulátor Célok: Emberi teljesítmény mesteri reprodukciója Autóvezetés forgalomban

6 6 Mi a megerősítéses tanulás (RL) ? Nagyfokú önállóság a tanulásban Információk: –büntetés/jutalom alapján –megfigyelések a környezetről (állapotok) Cél: a jutalom egy függvényét maximalizálni! s9s9 s5s5 s4s4 s2s2 …… … s3s r9r9 r5r5 r4r4 r1r1 s1s1 a9a9 a5a5 a4a4 a2a2 … a3a3 a1a1

7 7 A k-karú bandita probléma Ágens Akciók Átlagos kifizetés (jutalom) , 0, 5, 10, 35 5, 10, -15, -15, -10

8 8 Markov Döntési Folyamatok ~ Markov Decision Processes (MDPs) Állapotok, véletlentől függő átmenetekkel Átmenetvalószínűségek aktuális állapottól függnek Transition matrix P, and reward function R r = r = 0 a1a1 a2a2

9 9 Hosszútávú jutalom Ágens politikája rögzített:  Az R t kifizetés a t pillanat utáni össz-jutalom r9r9 r5r5 r4r4 r1r1

10 10 Érték = Hasznosság = Várható kifizetés R t valószínűségi változó Vehetjük a várható értékét! Politikától függ R t ! Feladat: találjuk meg azt a    politikát amelyik a várható értéket maximalizálja, minden állapotban

11 11 Az eddigi sztori.. RL feladatok részei: –Több lépéses döntési feladatok –Cél  *-ot megtalálni –Kritérium: Rövid távú Hosszú távú r t+1 r t+2 r t+3 atat a t+1 a t+2 stst s t+1 s t+2 s t+3

12 12 A Bellman egyenletek A Markov tulajdonság miatt a várható összjutalmat egy rekurzív egyenlettel is kifejezhető: ahol és Másképp: s  (s) V = TV vagy BV = 0

13 13 Bellman egyenletek - optimális értékelő függvény Optimális értékelő függvény Mohó politka: mindig a Q* szerinti legjobb akciót választja: argmax_a Q*(s,a) Ez optimális!!! Politika javítás algoritmus: (kiértékel, javít)*

14 14 „Bootstrapping” módszerek P és R ismeretét feltételezve; Dinamikus Programozás Nem ismerjük P-t és R-et, mintavételezés; „Temporal Difference learning” s  (s) stst s t+1 r t+1 a t =  (s t )

15 15 TD(0) tanulás: Politikák kiértékelése t:=0  is the policy to be evaluated Initialise arbitrarily for all Repeat select an action a t from  (s t ) observe the transition update according to t:=t+1 stst s t+1 r t+1 a t

16 16 „On-” és „Off-” politika tanulás „On politika”: az éppen követett politikát értékeljük pl. TD tanulással „Off-politika”: más politikát követünk, mint aminek az értékét számoljuk Pl. Q-tanulás: stst s t+1 r t+1 a t s t+1 atat stst r t+1

17 17 „Off-politika” tanulás A Q-tanulás előnyei –Az optimális politika   értékét becsli –miközben tetszőleges (felfedező) akciókat lehet végrehatjani  -mohó felfedezés: Mohó akció  valószínűséggel Véletlen akció 1-  valószínűséggel Garantált konvergencia, ha kellően bejárjuk az MDP-t Meg lehet-e találni   -ot „on-politika” algoritmussal?

18 18 „On politika” tanulás: Sarsa Töröljük a „max” operátort! Értékeljük a követett politikát: Fokozatosan, lassan változtassuk a politikát Konvergál! (Jaakkola,Singh,Littman,Szepesvári) atat s t+1 stst a t+1 r t+1

19 19 „On politika” tanulás: Sarsa t:=0 Initialise arbitrarily for all select an action a t from explore( ) Repeat observe the transition select an action a t+1 from explore( ) update according to t:=t+1 atat s t+1 stst r t+1

20 20 Összefoglalás: TD, Q-learning, Sarsa TD learning One step Q-learning Sarsa learning stst r t+1 a t s t+1 atat stst r t+1 s t+1 atat stst a t+1 r t+1

21 21 Minden állapotra meghatározunk egy „alkalmazhatósági mértéket”: ahol Módosítsuk minden állapot értékét az „alkalmazhatósági mértékkel” arányosan: 2-es fokozat: „Eligibility traces”, TD(  A TD hibával a TD tanulásban csak egy állapot értékét módosítjuk: a t-2 a t-1 atat r t-1 rtrt r t+1 s t-2 s t-1 stst s t+1

22 22 „Eligibility trace” a Q-tanulásban: Q( ) Sokféleképpen lehet csinálni Pl. minden s,a párra: Nem-mohó akciónál is van információ visszaterjesztés Elvész a konvergencia garancia! Watkin’s megoldási javaslata: nem-mohó után e:=0 Probléma: hatásfokot csökkenti “Bias variance” dilemma r t+1 s t+1 rtrt a t-1 atat a t+1 s t-1 stst a greedy

23 23 Sarsa( ) Másik megoldás: használjuk a Sarsa algoritmust! Minden s,a párra: Konvergencia tulajdonság megmarad(?) atat a t+1 a t+2 r t+1 r t+2 stst s t+1 s t+2

24 24 „Közelítő” RL Miért? –Idő és tárkorlátok! (Bellman: dimenzionalítás átka) –Általánosítás új szituációkra (elégtelen mintavételezés) Megoldások –Érték-függvény közelítése –Politika térbeli keresés –Közelítő modellek + tervezés

25 25 Lineáris approximáció Egyszerű és hasznos! Vannak konvergencia eredmények Most: lineáris TD(  Súlyvektor a t. időpillanatban: „Feature” vektor az s állapotra: Becslés Cél: minimalizálni..

26 26 Értékfüggvény közelítés: approximátorok Választások: pl. CMAC, RBF népszerűek CMAC: n db. cserépdarab „Features” Tulajdonságok –„Coarse coding” –Szabályos fedés  jó hatásfok –Véletlen hash: memóriaigény csökkenti

27 27 Lineáris közelítések Gradiens módszer -re TD  egyenlet új alakja: Most az E.T. n-dimenziós vektor, amit így módosítunk: Konvergál -hoz

28 28 Újabb önreklám William D. Smart, Cs. Szepesvári, ICML’2004: Q-learning egy formája konvergál egy megfelelő függvény- approximátorral együtt használva. Nem gradiens módszer. A megfelelő gradiens módszer konvergenciája nem ismert. Sejtés:.... Konvergens?

29 29 Egy különösen sikeres példa: TD-gammon TD( ) tanulás, 1 rejtett rétegű neuronháló, Backprop 1,500,000 játék (saját magával) A legjobb játékosokkal azonos képességek (világbajnok) Backgammon állapottere: ~10 20, DP nem megy!!

30 30 Modell alapú RL: struktúrált modellek Dinamikus Bayes háló a P állapotátmenetek reprezentációjára (másképp: faktorizált MDP) V: fa Backup: „goal regression” Hasonlít a tervezési feladatokra

31 31 RL: rejtett állapotok POMDP, k-Markov POMDP-ben a tervezés nem(sem) kivihető (intractable) Faktorizált POMDP-k: igéretes Politika keresés előnyös atat a t+1 a t+2 r t+1 r t+2 stst s t+1 s t+2 otot o t+1 o t+2

32 32 Politika keresés (direkt módszer) Módszerek –Gradiens –Evolúciós (egyéb local/global search)

33 33 Alkalmazások

34 34 Robot navigációs feladat Pavlov: Nomad 200 robot Nomad 200 simulator Sridhar Mahadevan UMass

35 35 Hierarchikus modellek – térbeli modellezésre 575 states 1385 states Corridor state Entire environment Production state Sridhar Mahadevan UMass

36 36 Hierarchikus modellek abstract states product states, which generate observations entry states exit states vertical transitions horizontal transitions

37 37 Internet forgalom-szabályozás “Multi-protocol label switching” Ingress router ingress router egress router Cél: a sok lehetséges útvonalból úgy választani, hogy a blokkolás valószínűségét minimalizáljuk (Yong Liu, Singapore)

38 38 Robot foci: szimulációs liga Situation (s)Action (a)Utility Q(s,a) Ball kickable, goal nearshoot0.6 Ball kickable, goal farshoot0.33 Ball kickable, goal farpass0.4 ……… Jeremy Wyatt Yoshiyuki Matsumura Matthew Todd University of Birmingham School of Computer Science

39 39 A k-lábú robot

40 40 Egyidejű (konkurrens) akciók Example: driving Look in the mirrorLook at the roadCheck the speed Press brakesAcceleratePress brakes Put on high gearSteer the wheel Right arm Decision epochs Head & eyes Legs

41 41 Alkalmazások (A-tól N-ig) Airline Meal Planning Behaviourial Ecology Capacity Expansion Decision Analysis Equipment Replacement Fisheries Management Gambling Systems Highway Pavement Repair Inventory Control Job Seeking Strategies Knapsack Problems Learning Medical Treatment Network Control M.L.Puterman, 2002

42 42 Alkalmazások (O-tól Z-ig) Option Pricing Project Selection Queueing System Control Robotic Motion Scheduling Tetris User Modeling Vision (Computer) Water Resources X-Ray Dosage Yield Management Zebra Hunting M.L.Puterman, 2002

43 43 Néhány további RL alkalmazás Liftek vezérlése (Barto & Crites) Ütemezési feladatok, űrsikló pakolása (Zhang & Dietterich) Dinamikus csatorna kiosztás mobil hálózatokban (Singh & Bertsekas) Egyensúlyozás: Járni, biciklizni, seprűt egyensúlyozni tanulás, zsonglőrködés Ragadozó-préda (PacMan) Portfólió optimalizálás

44 44 Aktív területek Optimális felfedező stratégiák Struktúrált modellek Relációs modellek Folytonos állapot és akció-terek Hierarchikus RL Állapotok és akciók absztrakciói (options, macros,..) Rejtett állapotok (eg. POMDPs) Prediktív állapot-reprezentáció Politika keresés Szignifikancia tesztek

45 45 Reinforcement Learning: key papers Overviews R. Sutton and A. Barto. Reinforcement Learning: An Introduction. The MIT Press, J. Wyatt, Reinforcement Learning: A Brief Overview. Perspectives on Adaptivity and Learning. Springer Verlag, L.Kaelbling, M.Littman and A.Moore, Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 4: , Value Function Approximation D. Bersekas and J.Tsitsiklis. Neurodynamic Programming. Athena Scientific, Eligibility Traces S.Singh and R. Sutton. Reinforcement learning with replacing eligibility traces. Machine Learning, 22: , 1996.

46 46 Reinforcement Learning: key papers Structured Models and Planning C. Boutillier, T. Dean and S. Hanks. Decision Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, R. Dearden, C. Boutillier and M.Goldsmidt. Stochastic dynamic programming with factored representations. Artificial Intelligence, 121(1-2):49-107, B. Sallans. Reinforcement Learning for Factored Markov Decision Processes Ph.D. Thesis, Dept. of Computer Science, University of Toronto, K. Murphy. Dynamic Bayesian Networks: Representation, Inference and Learning. Ph.D. Thesis, University of California, Berkeley, 2002.

47 47 Reinforcement Learning: key papers Policy Search R. Williams. Simple statistical gradient algorithms for connectionist reinforcement learning. Machine Learning, 8: R. Sutton, D. McAllester, S. Singh, Y. Mansour. Policy Gradient Methods for Reinforcement Learning with Function Approximation. NIPS 12, Hierarchical Reinforcement Learning R. Sutton, D. Precup and S. Singh. Between MDPs and Semi-MDPs: a framework for temporal abstraction in reinforcement learning. Artificial Intelligence, 112: R. Parr. Hierarchical Control and Learning for Markov Decision Processes. PhD Thesis, University of California, Berkeley, A. Barto and S. Mahadevan. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Systems Journal 13: 41-77, 2003.

48 48 Reinforcement Learning: key papers Exploration N. Meuleau and P.Bourgnine. Exploration of multi-state environments: Local Measures and back-propagation of uncertainty. Machine Learning, 35: , J. Wyatt. Exploration control in reinforcement learning using optimistic model selection. In Proceedings of 18 th International Conference on Machine Learning, POMDPs L. Kaelbling, M. Littman, A. Cassandra. Planning and Acting in Partially Observable Stochastic Domains. Artificial Intelligence, 101:99-134, 1998.


Letölteni ppt "Megerősítéses Tanulás = Reinforcement Learning (RL) Szepesvári Csaba Gépi Tanulás és Ember-Gép Interfészek Csoport MTA SZTAKI"

Hasonló előadás


Google Hirdetések