Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.

Hasonló előadás


Az előadások a következő témára: "1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András."— Előadás másolata:

1 1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András

2 2 Emlékeztető: Markov döntési folyamat  S : állapottér  A : akciótér  átmeneti valószínűségek  közvetlen jutalmak  s 0 : kiindulási állapot   : diszkontálási ráta

3 3 Ismétlés: Bellman egyenletek

4 4 Stratégiaiteráció ha tudjuk egy stratégia értékét mindenhol, tudunk konstruálni jobbat 1. lépés: stratégia kiértékelése 2. lépés: stratégia javítása

5 5 Iteratív stratégiakiértékelés – a Bellman operátor T  : értékelőfv ! értékelőfv leképezés. V ! T  V T  megmondja, hogy mennyi az állapotok értéke, ha 1 lépésig , utána V V  a Bellman-operátor fixpontja: V = T  V megoldása

6 6 Kontraktív operátorok Egy T operátor kontrakció, ha bármely U, V értékelőfüggvényre és  < 1 Banach-fixponttétel spec. esete: kontraktív operátornak létezik egyértelmű fixpontja

7 7 Kontraktív operátorok – a fixponttétel a fixpont létezik: legyen V 0 tetszőleges, ezért létezik határérték, V 1 fixpont! lim

8 8 Kontraktív operátorok – a fixponttétel a fixpont egyértelmű indirekte tegyük fel, hogy U és V is fixpont, U  V   ellentmondás!

9 9 a Bellman operátor kontrakció

10 10 a Bellman operátor kontrakció

11 11 a Bellman operátor kontrakció

12 12 a Bellman operátor kontrakció

13 13 a Bellman operátor kontrakció

14 14 Iteratív stratégiaértékelés V 0 tetszőleges

15 15 Stratégiajavítás , V  adott ha van olyan  ’ (determinisztikus), hogy minden s - re akkor vagyis, ha 1 lépésre előre javítunk, akkor az egészen is!

16 16 Stratégiajavítás – bizonyítás ha valahol < van, ha nem tudunk javítani, V optimális nemdeterminisztikus  ’ -re is igaz, de nem kell.

17 17 Stratégiaiteráció  0 tetszőleges ciklus  kiértékelés:  javítás: amíg optimális stratégiához konvergál

18 18 Értékiteráció Ötlet: ne V  Bellman-egyenletét iteráljuk, hanem közvetlenül V * -ét! mohó operátor: V * amegoldása

19 19 A mohó operátor is kontrakció! lemma: I az identitásfv, c konstans, azaz ha minden értékhez c -t adunk, az egy lépésre előretekintve becsült jutalom  c -vel nő. lemma: ha akkor kell:

20 20 A mohó operátor is kontrakció

21 21 Értékiteráció V 0 tetszőleges ciklus  amíg fixpont: V *

22 22 Mikor hagyjuk abba? kellene: teljesül, ha biz.:

23 23 Stratégiaiteráció vs. értékiteráció melyik jobb?  strat. iterációnak kevesebb lépés elég  de azok a lépések sokáig tartanak  példa: bolyongás egy vonalon Értékiteráció polinom időben  -optimális értékelőfüggvényhez konvergál Stratégiaiteráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő

24 24 Példa nézzük meg a véletlen bolyongás stratégia értékét

25 25 Példa: stratégiaiteráció

26 Példa nem kell mindig végigcsinálni a kiértékelést!

27 27 Variációk stratégiaértékelést k lépés után leállítjuk k =1: értékiteráció V t+1 számolható helyben  megmutatható: így is konvergens  sőt, gyorsabb, mert a frissített értékeket egyből felhasználja ötlet: a frissítések sorrendje számít! konvergens marad, amíg mindent frissítünk végtelen sokszor

28 28 DP módszerek, összefoglaló konvergensek, de  lassúak  modellre van szükség  Markov feltevés alapvetően fontos RL módszerek ezt javítgatják javítási lehetőség:  fontos állapotokat gyakrabban frissítjük (aszinkron DP)  modell becslése  környezet megtapasztalása modell helyett

29 29 Modell becslése sokszor letesztelünk egy ( s, a ) párt pontatlan modellünk lesz mikor konvergál?  sztochasztikus átlagolás-tételek


Letölteni ppt "1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András."

Hasonló előadás


Google Hirdetések