Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Megerősítéses tanulás 2. előadás
Szita István, Lőrincz András
2
Technikai dolgok Email szityu@eotvoscollegium.hu
Annai levlista Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction Jegyzet Vizsga
3
Mi a megerősítéses tanulás?
mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra
4
Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás
újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci
5
az RL nehéz… a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan?
6
az RL nehéz… a helyes döntésért járó jutalom késhet
rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet … de kezelhető
7
A félév tervezett menete
az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk… elemzés (hatékonyság, konvergencia) korlátok
8
A félév tervezett menete
néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések
9
Jöjjenek a részletek!
10
Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell
11
Az RL feladat részei környezet: fekete doboz tanulóügynök
állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot ! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja
12
Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot
mindegyik gyengíthető – de nehezíti a feladatot némelyikre még visszatérünk…
13
Feltevések a jutalom egyetlen számmal leírható
az idő diszkrét ( t = 1, 2, 3, …) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések?
14
Formalizáljuk a feladatot
idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép
15
Formalizáljuk a feladatot
interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:
16
A Markov-feltevés feltesszük, hogy a régmúlt nem számít:
a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:
17
Mi van a végén? epizodikus, fix idejű feladat
epizodikus, nem fix idejű feladat folytonos feladat gond: rt végtelen lehet! megoldás: diszkontálás. rt helyett t rt , <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!
18
Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP)
S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta
19
Markov döntési folyamat megoldása
környezet lépked P és R szerint: ügynök lépked szerint: optimális stratégia: olyan , amelyre maximális.
20
Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon
póker
21
Optimális stratégia keresése
két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum!
22
Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva
23
A Bellman-egyenlet
24
A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik
25
Akcióértékelő függvény
várható összjutalom s, a után Bellman-egyenlet:
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.