1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András
2 Emlékeztető: Markov döntési folyamat S : állapottér A : akciótér átmeneti valószínűségek közvetlen jutalmak s 0 : kiindulási állapot : diszkontálási ráta
3 Ismétlés: Bellman egyenletek
4 Stratégiaiteráció ha tudjuk egy stratégia értékét mindenhol, tudunk konstruálni jobbat 1. lépés: stratégia kiértékelése 2. lépés: stratégia javítása
5 Iteratív stratégiakiértékelés – a Bellman operátor T : értékelőfv ! értékelőfv leképezés. V ! T V T megmondja, hogy mennyi az állapotok értéke, ha 1 lépésig , utána V V a Bellman-operátor fixpontja: V = T V megoldása
6 Kontraktív operátorok Egy T operátor kontrakció, ha bármely U, V értékelőfüggvényre és < 1 Banach-fixponttétel spec. esete: kontraktív operátornak létezik egyértelmű fixpontja
7 Kontraktív operátorok – a fixponttétel a fixpont létezik: legyen V 0 tetszőleges, ezért létezik határérték, V 1 fixpont! lim
8 Kontraktív operátorok – a fixponttétel a fixpont egyértelmű indirekte tegyük fel, hogy U és V is fixpont, U V ellentmondás!
9 a Bellman operátor kontrakció
10 a Bellman operátor kontrakció
11 a Bellman operátor kontrakció
12 a Bellman operátor kontrakció
13 a Bellman operátor kontrakció
14 Iteratív stratégiaértékelés V 0 tetszőleges
15 Stratégiajavítás , V adott ha van olyan ’ (determinisztikus), hogy minden s - re akkor vagyis, ha 1 lépésre előre javítunk, akkor az egészen is!
16 Stratégiajavítás – bizonyítás ha valahol < van, ha nem tudunk javítani, V optimális nemdeterminisztikus ’ -re is igaz, de nem kell.
17 Stratégiaiteráció 0 tetszőleges ciklus kiértékelés: javítás: amíg optimális stratégiához konvergál
18 Értékiteráció Ötlet: ne V Bellman-egyenletét iteráljuk, hanem közvetlenül V * -ét! mohó operátor: V * amegoldása
19 A mohó operátor is kontrakció! lemma: I az identitásfv, c konstans, azaz ha minden értékhez c -t adunk, az egy lépésre előretekintve becsült jutalom c -vel nő. lemma: ha akkor kell:
20 A mohó operátor is kontrakció
21 Értékiteráció V 0 tetszőleges ciklus amíg fixpont: V *
22 Mikor hagyjuk abba? kellene: teljesül, ha biz.:
23 Stratégiaiteráció vs. értékiteráció melyik jobb? strat. iterációnak kevesebb lépés elég de azok a lépések sokáig tartanak példa: bolyongás egy vonalon Értékiteráció polinom időben -optimális értékelőfüggvényhez konvergál Stratégiaiteráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő
24 Példa nézzük meg a véletlen bolyongás stratégia értékét
25 Példa: stratégiaiteráció
Példa nem kell mindig végigcsinálni a kiértékelést!
27 Variációk stratégiaértékelést k lépés után leállítjuk k =1: értékiteráció V t+1 számolható helyben megmutatható: így is konvergens sőt, gyorsabb, mert a frissített értékeket egyből felhasználja ötlet: a frissítések sorrendje számít! konvergens marad, amíg mindent frissítünk végtelen sokszor
28 DP módszerek, összefoglaló konvergensek, de lassúak modellre van szükség Markov feltevés alapvetően fontos RL módszerek ezt javítgatják javítási lehetőség: fontos állapotokat gyakrabban frissítjük (aszinkron DP) modell becslése környezet megtapasztalása modell helyett
29 Modell becslése sokszor letesztelünk egy ( s, a ) párt pontatlan modellünk lesz mikor konvergál? sztochasztikus átlagolás-tételek