1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.

1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András

2 Emlékeztető: Markov döntési folyamat  S : állapottér  A : akciótér  átmeneti valószínűségek  közvetlen jutalmak  s 0 : kiindulási állapot   : diszkontálási ráta

3 Ismétlés: Bellman egyenletek

4 Stratégiaiteráció ha tudjuk egy stratégia értékét mindenhol, tudunk konstruálni jobbat 1. lépés: stratégia kiértékelése 2. lépés: stratégia javítása

5 Iteratív stratégiakiértékelés – a Bellman operátor T  : értékelőfv ! értékelőfv leképezés. V ! T  V T  megmondja, hogy mennyi az állapotok értéke, ha 1 lépésig , utána V V  a Bellman-operátor fixpontja: V = T  V megoldása

6 Kontraktív operátorok Egy T operátor kontrakció, ha bármely U, V értékelőfüggvényre és  < 1 Banach-fixponttétel spec. esete: kontraktív operátornak létezik egyértelmű fixpontja

7 Kontraktív operátorok – a fixponttétel a fixpont létezik: legyen V 0 tetszőleges, ezért létezik határérték, V 1 fixpont! lim

8 Kontraktív operátorok – a fixponttétel a fixpont egyértelmű indirekte tegyük fel, hogy U és V is fixpont, U  V   ellentmondás!

9 a Bellman operátor kontrakció

14 Iteratív stratégiaértékelés V 0 tetszőleges

15 Stratégiajavítás , V  adott ha van olyan  ’ (determinisztikus), hogy minden s - re akkor vagyis, ha 1 lépésre előre javítunk, akkor az egészen is!

16 Stratégiajavítás – bizonyítás ha valahol < van, ha nem tudunk javítani, V optimális nemdeterminisztikus  ’ -re is igaz, de nem kell.

17 Stratégiaiteráció  0 tetszőleges ciklus  kiértékelés:  javítás: amíg optimális stratégiához konvergál

18 Értékiteráció Ötlet: ne V  Bellman-egyenletét iteráljuk, hanem közvetlenül V * -ét! mohó operátor: V * amegoldása

19 A mohó operátor is kontrakció! lemma: I az identitásfv, c konstans, azaz ha minden értékhez c -t adunk, az egy lépésre előretekintve becsült jutalom  c -vel nő. lemma: ha akkor kell:

20 A mohó operátor is kontrakció

21 Értékiteráció V 0 tetszőleges ciklus  amíg fixpont: V *

22 Mikor hagyjuk abba? kellene: teljesül, ha biz.:

23 Stratégiaiteráció vs. értékiteráció melyik jobb?  strat. iterációnak kevesebb lépés elég  de azok a lépések sokáig tartanak  példa: bolyongás egy vonalon Értékiteráció polinom időben  -optimális értékelőfüggvényhez konvergál Stratégiaiteráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő

24 Példa nézzük meg a véletlen bolyongás stratégia értékét

25 Példa: stratégiaiteráció

Példa nem kell mindig végigcsinálni a kiértékelést!

27 Variációk stratégiaértékelést k lépés után leállítjuk k =1: értékiteráció V t+1 számolható helyben  megmutatható: így is konvergens  sőt, gyorsabb, mert a frissített értékeket egyből felhasználja ötlet: a frissítések sorrendje számít! konvergens marad, amíg mindent frissítünk végtelen sokszor

28 DP módszerek, összefoglaló konvergensek, de  lassúak  modellre van szükség  Markov feltevés alapvetően fontos RL módszerek ezt javítgatják javítási lehetőség:  fontos állapotokat gyakrabban frissítjük (aszinkron DP)  modell becslése  környezet megtapasztalása modell helyett

29 Modell becslése sokszor letesztelünk egy ( s, a ) párt pontatlan modellünk lesz mikor konvergál?  sztochasztikus átlagolás-tételek

1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.

Hasonló előadás

Az előadások a következő témára: "1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.

Hasonló előadás

Az előadások a következő témára: "1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés