Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaLőrinc Jónás Megváltozta több, mint 9 éve
1
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András
2
2 Emlékeztető: Markov döntési folyamat S : állapottér A : akciótér átmeneti valószínűségek közvetlen jutalmak s 0 : kiindulási állapot : diszkontálási ráta
3
3 Ismétlés: Bellman egyenletek
4
4 Stratégiaiteráció ha tudjuk egy stratégia értékét mindenhol, tudunk konstruálni jobbat 1. lépés: stratégia kiértékelése 2. lépés: stratégia javítása
5
5 Iteratív stratégiakiértékelés – a Bellman operátor T : értékelőfv ! értékelőfv leképezés. V ! T V T megmondja, hogy mennyi az állapotok értéke, ha 1 lépésig , utána V V a Bellman-operátor fixpontja: V = T V megoldása
6
6 Kontraktív operátorok Egy T operátor kontrakció, ha bármely U, V értékelőfüggvényre és < 1 Banach-fixponttétel spec. esete: kontraktív operátornak létezik egyértelmű fixpontja
7
7 Kontraktív operátorok – a fixponttétel a fixpont létezik: legyen V 0 tetszőleges, ezért létezik határérték, V 1 fixpont! lim
8
8 Kontraktív operátorok – a fixponttétel a fixpont egyértelmű indirekte tegyük fel, hogy U és V is fixpont, U V ellentmondás!
9
9 a Bellman operátor kontrakció
10
10 a Bellman operátor kontrakció
11
11 a Bellman operátor kontrakció
12
12 a Bellman operátor kontrakció
13
13 a Bellman operátor kontrakció
14
14 Iteratív stratégiaértékelés V 0 tetszőleges
15
15 Stratégiajavítás , V adott ha van olyan ’ (determinisztikus), hogy minden s - re akkor vagyis, ha 1 lépésre előre javítunk, akkor az egészen is!
16
16 Stratégiajavítás – bizonyítás ha valahol < van, ha nem tudunk javítani, V optimális nemdeterminisztikus ’ -re is igaz, de nem kell.
17
17 Stratégiaiteráció 0 tetszőleges ciklus kiértékelés: javítás: amíg optimális stratégiához konvergál
18
18 Értékiteráció Ötlet: ne V Bellman-egyenletét iteráljuk, hanem közvetlenül V * -ét! mohó operátor: V * amegoldása
19
19 A mohó operátor is kontrakció! lemma: I az identitásfv, c konstans, azaz ha minden értékhez c -t adunk, az egy lépésre előretekintve becsült jutalom c -vel nő. lemma: ha akkor kell:
20
20 A mohó operátor is kontrakció
21
21 Értékiteráció V 0 tetszőleges ciklus amíg fixpont: V *
22
22 Mikor hagyjuk abba? kellene: teljesül, ha biz.:
23
23 Stratégiaiteráció vs. értékiteráció melyik jobb? strat. iterációnak kevesebb lépés elég de azok a lépések sokáig tartanak példa: bolyongás egy vonalon Értékiteráció polinom időben -optimális értékelőfüggvényhez konvergál Stratégiaiteráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő
24
24 Példa nézzük meg a véletlen bolyongás stratégia értékét
25
25 Példa: stratégiaiteráció
26
Példa nem kell mindig végigcsinálni a kiértékelést!
27
27 Variációk stratégiaértékelést k lépés után leállítjuk k =1: értékiteráció V t+1 számolható helyben megmutatható: így is konvergens sőt, gyorsabb, mert a frissített értékeket egyből felhasználja ötlet: a frissítések sorrendje számít! konvergens marad, amíg mindent frissítünk végtelen sokszor
28
28 DP módszerek, összefoglaló konvergensek, de lassúak modellre van szükség Markov feltevés alapvetően fontos RL módszerek ezt javítgatják javítási lehetőség: fontos állapotokat gyakrabban frissítjük (aszinkron DP) modell becslése környezet megtapasztalása modell helyett
29
29 Modell becslése sokszor letesztelünk egy ( s, a ) párt pontatlan modellünk lesz mikor konvergál? sztochasztikus átlagolás-tételek
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.