Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

1 Megerősítéses tanulás 2. előadás Szita István, Lőrincz András.

Hasonló előadás


Az előadások a következő témára: "1 Megerősítéses tanulás 2. előadás Szita István, Lőrincz András."— Előadás másolata:

1 1 Megerősítéses tanulás 2. előadás Szita István, Lőrincz András

2 2 Technikai dolgok Annai levlista Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction Jegyzet Vizsga

3 3 Mi a megerősítéses tanulás? mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül  próba-szerencse alapon célorientált  maximális jutalom hosszú távra

4 4 Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás újszülött őzike mindenféle robotok  sétáló  navigáló  helikoptervezérlő  robotfoci

5 5 az RL nehéz… a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés  tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást  időnként új cselekvéseket is ki kell próbálni  az így megszerzett tudást optimálisan felhasználni  dilemma: a járt út vagy a járatlan?

6 6 az RL nehéz… a helyes döntésért járó jutalom késhet  rövidtávú nyereség $ hosszútávú nyereség  miért járt a jutalom? bizonytalan környezet … de kezelhető

7 7 A félév tervezett menete az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek  a legegyszerűbbektől indulunk…  elemzés (hatékonyság, konvergencia)  korlátok

8 8 A félév tervezett menete néhány fejlettebb módszer  általánosítás  neuronhálózatok  policy gradient alkalmazások  backgammon  helikopterirányítás  ember-számítógép kölcsönhatás nyitott kérdések

9 9 Jöjjenek a részletek!

10 10 Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell

11 11 Az RL feladat részei környezet: fekete doboz tanulóügynök állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot ! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja

12 12 Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot mindegyik gyengíthető – de nehezíti a feladatot némelyikre még visszatérünk…

13 13 Feltevések a jutalom egyetlen számmal leírható az idő diszkrét ( t = 1, 2, 3, …) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések?

14 14 Formalizáljuk a feladatot idő: állapot: akció: jutalom: stratégia:  determinisztikus:  szochasztikus:   ( s, a ) annak a valószínűsége, hogy s -ben a -t lép

15 15 Formalizáljuk a feladatot interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:

16 16 A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:

17 17 Mi van a végén? epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat  gond:  r t végtelen lehet!  megoldás: diszkontálás.  r t helyett  t r t,  <1  garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!

18 18 Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP)  S : állapottér  A : akciótér  átmeneti valószínűségek  közvetlen jutalmak  s 0 : kiindulási állapot   : diszkontálási ráta

19 19 Markov döntési folyamat megoldása környezet lépked P és R szerint: ügynök lépked  szerint: optimális stratégia: olyan , amelyre maximális.

20 20 Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon póker

21 21 Optimális stratégia keresése két fő megközelítési mód direkt stratégiakeresési módszerek  egyszerűbbnek tűnik, de nem az  lokális minimum  félév végén lesz róla szó értékelőfüggvény-alapú módszerek  történetileg korábbi  egyszerűbb  globális maximum!

22 22 Az értékelőfüggvény s állapot értéke: a várható összjutalom s -ből indulva

23 23 A Bellman-egyenlet

24 24 A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik

25 25 Akcióértékelő függvény várható összjutalom s, a után Bellman-egyenlet:


Letölteni ppt "1 Megerősítéses tanulás 2. előadás Szita István, Lőrincz András."

Hasonló előadás


Google Hirdetések