Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Megerősítéses tanulás 2. előadás

Hasonló előadás


Az előadások a következő témára: "Megerősítéses tanulás 2. előadás"— Előadás másolata:

1 Megerősítéses tanulás 2. előadás
Szita István, Lőrincz András

2 Technikai dolgok Email szityu@eotvoscollegium.hu
Annai levlista Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction Jegyzet Vizsga

3 Mi a megerősítéses tanulás?
mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra

4 Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás
újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci

5 az RL nehéz… a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan?

6 az RL nehéz… a helyes döntésért járó jutalom késhet
rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet … de kezelhető

7 A félév tervezett menete
az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk… elemzés (hatékonyság, konvergencia) korlátok

8 A félév tervezett menete
néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések

9 Jöjjenek a részletek!

10 Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell

11 Az RL feladat részei környezet: fekete doboz tanulóügynök
állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot ! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja

12 Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot
mindegyik gyengíthető – de nehezíti a feladatot némelyikre még visszatérünk…

13 Feltevések a jutalom egyetlen számmal leírható
az idő diszkrét ( t = 1, 2, 3, …) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések?

14 Formalizáljuk a feladatot
idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép

15 Formalizáljuk a feladatot
interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:

16 A Markov-feltevés feltesszük, hogy a régmúlt nem számít:
a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:

17 Mi van a végén? epizodikus, fix idejű feladat
epizodikus, nem fix idejű feladat folytonos feladat gond: rt végtelen lehet! megoldás: diszkontálás. rt helyett t rt , <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!

18 Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP)
S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta

19 Markov döntési folyamat megoldása
környezet lépked P és R szerint: ügynök lépked  szerint: optimális stratégia: olyan , amelyre maximális.

20 Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon
póker

21 Optimális stratégia keresése
két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum!

22 Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva

23 A Bellman-egyenlet

24 A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik

25 Akcióértékelő függvény
várható összjutalom s, a után Bellman-egyenlet:


Letölteni ppt "Megerősítéses tanulás 2. előadás"

Hasonló előadás


Google Hirdetések