1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.

Slides:



Advertisements
Hasonló előadás
Megszámlálás Elemi algoritmusok.
Advertisements

5. hét: Solow-modell Csortos Orsolya
1. Közgazdaságtani alapfogalmak
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
Lambda kalkulus.
Determinisztikus programok. Szintaxis: X : Pvalt program változók E : Kifkifejezések B : Lkiflogikai kifejezések C : Utsutasítások.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Algoritmus Az algoritmus problémamegoldásra szolgáló elemi lépések olyan sorozata, amely: véges – azaz véges számú lépés után befejeződik, és eredményt.
Kalman-féle rendszer definíció
Híranyagok tömörítése
Prímtesztelés Témavezető: Kátai Imre Komputeralgebra Tanszék Nagy Gábor:
Euklidészi gyűrűk Definíció.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Bayes hálók október 20. Farkas Richárd
A digitális számítás elmélete
A digitális számítás elmélete
A digitális számítás elmélete
Determinisztikus véges automaták csukva nyitva m s kbsm csukva nyitva csukva nyitva csukvanyitva 1. Példa: Fotocellás ajtó s b m m= mindkét helyen k= kint.
Év eleji információk Előadó: Hosszú Ferenc II. em Konzultáció: Szerda 9:50 – 10:35 II. em
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
6. SZÁMELMÉLET 6.1. Oszthatóság
Nem determinisztikusság és párhuzamosság. A nem determinisztikusság a párhuzamosságban gyökeredzik. Példa: S par  parbegin x:=0   x:=1   x:=2 parend;
A számfogalom bővítése
Lineáris egyenletrendszerek megoldása
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
A digitális számítás elmélete
Evolúciósan stabil stratégiák előadás
Az Alakfelismerés és gépi tanulás ELEMEI
Dinamikai rendszerek kaotikus viselkedése
Gazdaságstatisztika 11. előadás.
Gazdaságstatisztika 10. előadás.
Alapsokaság (populáció)
„Házasodj meg, meg fogod bánni; ne házasodj meg, azt is meg fogod bánni; házasodj vagy ne házasodj, mindkettőt meg fogod bánni; vagy megházasodsz, vagy.
Nemdeterminisztikus tulajdonság tesztelés László Lovász Katalin Vesztergombi.
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
Koncepció: Specifikáció: e par exp i = eb imp bod ib Specifikáció elemzése: tulajdonságok felírása a koncepció alapján + tulajdonságok bizonyítása.
1. MATEMATIKA ELŐADÁS Halmazok, Függvények.
Mesterséges Intelligencia 1. Eddig a környezet teljesen megfigyelhető és determinisztikus volt, az ágens tisztában volt minden cselekvésének következményével.
A folytonosság Digitális tananyag.
Megerősítéses tanulás 8. előadás
2005. Információelmélet Nagy Szilvia 2. A forráskódolás elmélete.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
Programozási alapismeretek 10. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 10.2/  Kiválogatás + összegzés.
T.5. tétel (minimálpolinom egyértelmű létezése)
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
Adva S  parbegin S 1 ...  S n parend; Párhuzamos programszerkezet két vagy több olyan folyamatot tartalmaz, amelyek egymással közös változó segítségével.
Csoportkeresési eljárások Vassy Zsolt. Tematika Girvan Newman klaszterezés Diszkrét Markov lánc: CpG szigetek Rejtett Markov lánc ADIOS.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Iteráció, rekurzió, indukció. Iteráció iterációs módszer –egy adott műveletsort egymás után, többször végrehajtani megvalósítás –ciklusokkal pl. –hatványozás.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás GY
Adatszerkezetek és algoritmusok 2008/ Algoritmus Az algoritmus szó eredete a középkori arab matematikáig nyúlik vissza, egy a i.sz. IX. században.
Adalékok egy véges összegzési feladathoz
Megerősítéses tanulás 5. előadás
Ultrametrikus terek ELTE IK/Fraktálok - Varga Viktor.
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Megerősítéses tanulás
Kifejezések C#-ban.
Mesterséges intelligencia
Válogatott fejezetek a közlekedésgazdaságtanból
II. konzultáció Analízis Sorozatok Egyváltozós valós függvények I.
Kockázat és megbízhatóság
Készült a HEFOP P /1.0 projekt keretében
III. előadás.
Elméleti probléma: vajon minden következtetés helyességét el tudjuk dönteni analitikus fával (véges sok lépésben)? Ha megengedünk végtelen sok premisszás.
Algebrai geometriai számítások
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Absztrakt problémák Q  I  S, az absztrakt probléma kétváltozós reláció az esetek (I) és a megoldások (S) halmazán Példa: legrövidebb út Eset: gráf és.
Előadás másolata:

1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András

2 Emlékeztető: Markov döntési folyamat  S : állapottér  A : akciótér  átmeneti valószínűségek  közvetlen jutalmak  s 0 : kiindulási állapot   : diszkontálási ráta

3 Ismétlés: Bellman egyenletek

4 Stratégiaiteráció ha tudjuk egy stratégia értékét mindenhol, tudunk konstruálni jobbat 1. lépés: stratégia kiértékelése 2. lépés: stratégia javítása

5 Iteratív stratégiakiértékelés – a Bellman operátor T  : értékelőfv ! értékelőfv leképezés. V ! T  V T  megmondja, hogy mennyi az állapotok értéke, ha 1 lépésig , utána V V  a Bellman-operátor fixpontja: V = T  V megoldása

6 Kontraktív operátorok Egy T operátor kontrakció, ha bármely U, V értékelőfüggvényre és  < 1 Banach-fixponttétel spec. esete: kontraktív operátornak létezik egyértelmű fixpontja

7 Kontraktív operátorok – a fixponttétel a fixpont létezik: legyen V 0 tetszőleges, ezért létezik határérték, V 1 fixpont! lim

8 Kontraktív operátorok – a fixponttétel a fixpont egyértelmű indirekte tegyük fel, hogy U és V is fixpont, U  V   ellentmondás!

9 a Bellman operátor kontrakció

10 a Bellman operátor kontrakció

11 a Bellman operátor kontrakció

12 a Bellman operátor kontrakció

13 a Bellman operátor kontrakció

14 Iteratív stratégiaértékelés V 0 tetszőleges

15 Stratégiajavítás , V  adott ha van olyan  ’ (determinisztikus), hogy minden s - re akkor vagyis, ha 1 lépésre előre javítunk, akkor az egészen is!

16 Stratégiajavítás – bizonyítás ha valahol < van, ha nem tudunk javítani, V optimális nemdeterminisztikus  ’ -re is igaz, de nem kell.

17 Stratégiaiteráció  0 tetszőleges ciklus  kiértékelés:  javítás: amíg optimális stratégiához konvergál

18 Értékiteráció Ötlet: ne V  Bellman-egyenletét iteráljuk, hanem közvetlenül V * -ét! mohó operátor: V * amegoldása

19 A mohó operátor is kontrakció! lemma: I az identitásfv, c konstans, azaz ha minden értékhez c -t adunk, az egy lépésre előretekintve becsült jutalom  c -vel nő. lemma: ha akkor kell:

20 A mohó operátor is kontrakció

21 Értékiteráció V 0 tetszőleges ciklus  amíg fixpont: V *

22 Mikor hagyjuk abba? kellene: teljesül, ha biz.:

23 Stratégiaiteráció vs. értékiteráció melyik jobb?  strat. iterációnak kevesebb lépés elég  de azok a lépések sokáig tartanak  példa: bolyongás egy vonalon Értékiteráció polinom időben  -optimális értékelőfüggvényhez konvergál Stratégiaiteráció: konvergál, de nem ismert, hogy polinomiális-e gyakorlatban: problémafüggő

24 Példa nézzük meg a véletlen bolyongás stratégia értékét

25 Példa: stratégiaiteráció

Példa nem kell mindig végigcsinálni a kiértékelést!

27 Variációk stratégiaértékelést k lépés után leállítjuk k =1: értékiteráció V t+1 számolható helyben  megmutatható: így is konvergens  sőt, gyorsabb, mert a frissített értékeket egyből felhasználja ötlet: a frissítések sorrendje számít! konvergens marad, amíg mindent frissítünk végtelen sokszor

28 DP módszerek, összefoglaló konvergensek, de  lassúak  modellre van szükség  Markov feltevés alapvetően fontos RL módszerek ezt javítgatják javítási lehetőség:  fontos állapotokat gyakrabban frissítjük (aszinkron DP)  modell becslése  környezet megtapasztalása modell helyett

29 Modell becslése sokszor letesztelünk egy ( s, a ) párt pontatlan modellünk lesz mikor konvergál?  sztochasztikus átlagolás-tételek