Megerősítéses tanulás 5. előadás

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

I. előadás.
Összefoglalás Hardver,szoftver,perifériák Memóriák fajtái
Statisztika II. I. Dr. Szalka Éva, Ph.D..
Hozzászólás Lovász Anna és Szabó-Morvai Ágnes: „Does childcare matter for maternal labor supply?” előadásához Elek Péter ELTE Közgazdaságtudományi Tanszék.
2005. Operációkutatás Ferenczi Zoltán. Széchenyi István Egyetem Operációkutatás eredete •második világháború alatt alakult ki •különböző szakmájú emberekből.
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
Összetett kísérleti tervek és kiértékelésük
Rangszám statisztikák
Módszerek sebességi állandók becslésére Kovács Benedek, Budapesti Műszaki és Gazdaségtudományi Egyetem.
Hatékony gyorsítótár használata legrövidebb utak kereséséhez Bodnár István, Fodor Krisztián, Gyimesi Gábor Jeppe Rishede Thomsen, Man Lung Yiu, Christian.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Evolúciósan stabil stratégiák előadás
Játékelméleti alapfogalmak előadás
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Operációkutatás eredete
Készítette: Kosztyán Zsolt Tibor
Kvantitatív módszerek
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Statisztikai döntésfüggvények elméletének elemei
Méréstechnika.
Hipotézis vizsgálat (2)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Alapfogalmak.
Lineáris regresszió.
Többtényezős ANOVA.
Enzimreakciók Környezet figyelembe vétele   1 (  1 )-  2 (  2 ), mikor minden fragmens végtelen távolságban van Empirikus vegyértékkötés módszer.
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
Mintavételes eljárások
I. előadás.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Dr. Bánkuti Gyöngyi Klingné Takács Anna
PÉNZÜGYI MENEDZSMENT 4. Dr. Tarnóczi Tibor PARTIUMI KERESZTÉNY EGYETEM
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Megerősítéses tanulás 8. előadás
Kutatásmódszertani dilemmák
Szimuláció.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
Csoportkeresési eljárások Vassy Zsolt. Tematika Girvan Newman klaszterezés Diszkrét Markov lánc: CpG szigetek Rejtett Markov lánc ADIOS.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Készletezési modellek
Tanulás.
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Megerősítéses tanulás
Mesterséges intelligencia
Kockázat és megbízhatóság
I. Előadás bgk. uni-obuda
A kutatási projekt címe Név Oktató neve Tanulmányi intézmény neve
Algoritmusok és Adatszerkezetek I.
A kutatási projekt címe Név Oktató neve Tanulmányi intézmény neve
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Megerősítéses tanulás 5. előadás Szita István, Lőrincz András

Emlékeztető: Markov döntési folyamat S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta

Ismétlés: Bellman egyenletek

Ismétlés: stratégia kiértékelése „kiértékelő” dinamikus programozás-operátor: Vk ! V  gond: szükség van a modellre: kell P, R

Stratégia kiértékelése modell nélkül mit is jelent V(s)? R(s): „nyereség s-ből”, valószínűségi változó várható értéke: V(s)

V(s) becslése R(s) modell nélkül számítható, szimulációval tapasztalati átlag: veszünk N darab s-ből induló utat, a nyereségek: „Monte Carlo” módszer

a Monte Carlo becslés tulajdonságai konvergencia a becslés tart a valódi átlaghoz a szórás tart 0-hoz ritkán lesz nagy az eltérés lehet kényelmesebben is! iteratív becslés nem kell minden s-re kükön

Matematikai kitérő: nagy számok törvénye X valószínűségi változó, véges a várhatóértéke, véges a szórása, veszünk N független mintát X-ből: x1, x2, …, xN xk-k függetlenek

Matematikai kitérő: nagy számok törvénye biz: trivi

Matematikai kitérő: nagy számok törvénye biz: ha ij, a függetlenség miatt

Iteratív átlagolás nem akarjuk mind az N mintát eltárolni mindig később megengedünk általánosabb k-t is

Monte Carlo stratégiaértékelés minden s állapotból N trajektóriát indítunk lemérjük a kapott nyereségeket: nagy számok törvénye miatt csinálhatjuk iteratív átlagolással pazarló!

Monte Carlo, okosabban egyetlen trajektóriából egy csomó R-et megtudhatunk! ha si  sj, akkor a becslések függetlenek mi van, ha si = sj ? (a) csak az egyiket vesszük figyelembe – megmarad a függetlenség (b) mindkettőt felhasználjuk – nem foglalkozunk a lehetséges problémával s1 ! s2 s3 … sT r1 r2 r3 rT-1 R(s1) R(s2) R(s3)

Optimális stratégia tanulása Monte Carlo-val Q-t számolunk, nem V-t stratégiaiteráció kiértékelés MC-vel stratégiajavítás a szokásos módon ha a kiértékelést nem csináljuk végtelen sok lépésen át: használható módszer, de konvergenciatétel nincs Q közvetlen felhasználása mint az értékiteráció: Q szerint mohó akciót választom muszáj „lágy stratégiát” használni: nem-mohó akciókat is választani néha a kiértékelt stratégia állandóan változik – nincs konvergenciatétel

Még mindig a Monte Carlo-ról nagy előny: nem kell modell csak az ügynök tapasztalatait használja működik akkor is, ha nem teljesül a Markov-feltevés! konvergenciához minden állapotot sokszor meg kell látogatni „exploratív kezdés”: minden epizódot másik állapotban kezdünk speciális stratégia, ami minden állapotba eljut hátrány: lassú ha tizedére akarjuk csökkenteni a bizonytalanságot, 100-szorozni kell a kísérletek számát! nem használjuk ki az állapotok közti összefüggéseket

Időbeli differenciák módszere Temporal Differences, TD kiküszöböli a MC módszer hibáit vannak változatai, amik gyorsan tanulnak bizonyítunk konvergenciát tud modell nélkül tanulni az első igazi megerősítéses tanulás-módszer az órán! történetileg is az első

Levezetés a Monte Carlo módszerből V MC becslése: a k. iterációban st-ből az össznyereség Rk kulcs: Rk a V(st)-nek a becslése más becslés:

Az időbeli differenciák módszere az időbeli differencia: előnyök nem kell modell (szemben a DP-vel) nem kell megvárni az epizód végét (szemben az MC-vel) MC-hez képest kisebb a szórás a becsléshez egy másik becslést használunk ez akár gond is lehetne – de látni fogjuk, hogy nem az ugyanazt a becslést használjuk a javításhoz, csak egy lépéssel később

Egy példa: hazaút autóval hivatalnok megy haza az irodából, becsülgeti a hátralevő időt iroda ! garázs ! autópálya ! főút ! kis utca ! otthon  Állapot eltelt idő becsült hátralevő idő becsült összidő indulás az irodából  0 30 autóban ül. esik.  5 (25!) 35 40 autópálya végén 20 (20!) 15 35 főút, kamion mögött (5!) 10 kis utca elején   (0!) 3 43 otthon

Hazaút autóval: TD becslés

Hazaút autóval: MC becslés

Még egy példa: véletlen bolyongás

Véletlen bolyongás: MC vs. TD

Összehasonlítás: DP, MC, TD mindegyik valamilyen becslést használ V-re: DP: a Bellman-fixpontegyenletből származik a várható értéket a modell alapján pontosan számoljuk TD: a várható értéket mintavételezzük a mintavétel zajos, ezért csak -nyi mértékben vesszük figyelembe MC:

Az MDP mint döntési fa fehér pötty: állapot fekete pötty: akció T: terminális állapot T

a Monte Carlo módszer diagramja

az időbeli differencia-módszer diagramja T

a dinamikus programozás diagramja T