Megerősítéses tanulás 2. előadás

Slides:



Advertisements
Hasonló előadás
MESTERSÉGES INTELLIGENCIA (ARTIFICIAL INTELLIGENCE)
Advertisements

Programozási tételek, és „négyzetes” rendezések
Elektronikus készülékek megbízhatósága
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
Képességszintek.
Vállalati pénzügyek alapjai
Mi látszik egy jéghegyből?
Készítette: Tóth Enikő 11.A
Kötelező alapkérdések
Bayes hálók október 20. Farkas Richárd
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
Játékelmélet Nash, dominancia.
SZÉCHENYI ISTVÁN EGYETEM
Lineáris programozás Modellalkotás Grafikus megoldás Feladattípusok
Fuzzy rendszerek mérnöki megközelítésben I
Év eleji információk Előadó: Hosszú Ferenc II. em Konzultáció: Szerda 9:50 – 10:35 II. em
Kétszemélyes játékok Előadó: Nagy Sára.
Mesterséges intelligencia
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Evolúciósan stabil stratégiák előadás
Játékelméleti alapfogalmak előadás
Gazdasági növekedés hosszú- és rövidtávon
Az Alakfelismerés és gépi tanulás ELEMEI
Példák a Fourier transzformáció alkalmazására
„A tudomány kereke” Szociológia módszertan WJLF SZM BA Pecze Mariann.
Készítette: Gergó Márton Konzulens: Engedy István 2009/2010 tavasz.
Pókerágens fejlesztése játékelméleti alapokon
Mobilis robot (e-puck) robot és a Webots szimulációs rendszer megismerése szimulációs rendszer robot közepesen nehéz feladat megoldása például: vonalkövetés.
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Változások menedzselése felsőfokon Készítette: Schalli Adrienn Dinya László.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
$ Információ Következmény Döntés Statisztikai X.  Gyakorlati problémák megoldásának alapja  Elemzéseink célja és eredménye  Központi szerep az egyén.
Oktatási reformok tapasztalatai Pest megyei Tanévnyitó Tanácskozás Augusztus 31. Halász Gábor Országos Közoktatási Intézet.
Átlagtermék, határtermék, optimális inputkombináció
VÉGES AUTOMATA ALAPÚ TERVEZÉSI MODELL
Többváltozós adatelemzés
Alapfogalmak.
Az államháztartási hiány csökkentésének hatásai Hamecz István igazgató A Közgazdasági és Monetáris Politikai szakterület vezetője.
Mesterséges Intelligencia 1. Eddig a környezet teljesen megfigyelhető és determinisztikus volt, az ágens tisztában volt minden cselekvésének következményével.
Megerősítéses tanulás 8. előadás
2005. Információelmélet Nagy Szilvia 2. A forráskódolás elmélete.
Döntsön a kard! Mesterséges intelligencia a játékokban Szita István Eötvös Collegium.
Útkeresések.
Szimuláció.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Reflektív gondolkodás
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
PPKE ITK 2008/09 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás 4.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Mesterséges Neurális Hálózatok 3. előadás
Készletezési modellek
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
Vállalati pénzügyek alapjai
Mesterséges intelligencia 8. Stratégiai játékok A játék kimenetelére a játékosoknak ellenőrizhető módon van befolyásuk. Pl.: sakk, dáma, póker stb. A.
Szimuláció. Mi a szimuláció? A szimuláció a legáltalánosabb értelemben a megismerés egyik fajtája A megismerés a tudás megszerzése vagy annak folyamata.
Megerősítéses tanulás máj. 12. Copyrights: Szepesvári Csaba: Megerősítéses tanulás (2004) Szita István, Lőrincz András: Megerősítéses tanulás (2005) Richard.
Pókerkártya játék algoritmusa
Megerősítéses tanulás
Mesterséges intelligencia
Vállalati terv bemutató
Kockázat és megbízhatóság
Mesterséges intelligencia
Kísérlettervezés 3. előadás.
Gazdaságinformatikus MSc
A mesterséges neuronhálók alapjai
Előadás másolata:

Megerősítéses tanulás 2. előadás Szita István, Lőrincz András

Technikai dolgok Email szityu@eotvoscollegium.hu Annai levlista http://nipglab04.inf.elte.hu/cgi-bin/mailman/listinfo/annai/ Olvasnivaló: Sutton, Barto: Reinforcement Learning: An Introduction http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Jegyzet Vizsga

Mi a megerősítéses tanulás? mesterséges intelligenciakutatás egyik ága interakcióból tanul előzetes információ nélkül próba-szerencse alapon célorientált maximális jutalom hosszú távra

Példák játékok: blackjack, sakk, dáma, tictactoe egyensúlyozás újszülött őzike mindenféle robotok sétáló navigáló helikoptervezérlő robotfoci

az RL nehéz… a tanulóügynöknek nem mondják meg, hogy mi a helyes döntés tanár helyett kritikus próba-szerencse módszerrel kell megtalálni a helyes megoldást időnként új cselekvéseket is ki kell próbálni az így megszerzett tudást optimálisan felhasználni dilemma: a járt út vagy a járatlan?

az RL nehéz… a helyes döntésért járó jutalom késhet rövidtávú nyereség $ hosszútávú nyereség miért járt a jutalom? bizonytalan környezet … de kezelhető

A félév tervezett menete az RL feladat megfogalmazása matematikai modell egyszerű megoldási módszerek a legegyszerűbbektől indulunk… elemzés (hatékonyság, konvergencia) korlátok

A félév tervezett menete néhány fejlettebb módszer általánosítás neuronhálózatok policy gradient alkalmazások backgammon helikopterirányítás ember-számítógép kölcsönhatás nyitott kérdések

Jöjjenek a részletek!

Az RL feladat környezet akció állapot jutalom ügynök stratégia, modell

Az RL feladat részei környezet: fekete doboz tanulóügynök állapot: az ügynök megfigyelése a környezetről jutalom: egyetlen szám (!!!) stratégia: állapot ! akció leképezés akció: ez hat a környezetre kérdés: mi az a stratégia, ami a legtöbb összjutalmat adja

Feltevések szükség van rájuk, hogy meg lehessen támadni a feladatot mindegyik gyengíthető – de nehezíti a feladatot némelyikre még visszatérünk…

Feltevések a jutalom egyetlen számmal leírható az idő diszkrét ( t = 1, 2, 3, …) az állapottér is diszkrét és véges az állapot teljesen megfigyelhető és még egy (Markov tulajdonság), de erről később nem túl erősek a megkötések?

Formalizáljuk a feladatot idő: állapot: akció: jutalom: stratégia: determinisztikus: szochasztikus: (s,a) annak a valószínűsége, hogy s-ben a-t lép

Formalizáljuk a feladatot interakció: környezet modellje: átmeneti valószínűségek és jutalmak cél: maximális várható jutalom:

A Markov-feltevés feltesszük, hogy a régmúlt nem számít: a környezet dinamikája leírható az átmenetivalószínűség-mátrixszal:

Mi van a végén? epizodikus, fix idejű feladat epizodikus, nem fix idejű feladat folytonos feladat gond: rt végtelen lehet! megoldás: diszkontálás. rt helyett t rt , <1 garantáltan véges diszkontálás kényelmes, epizodikus feladatra is használni fogjuk!

Az RL feladat kezelhető modellje: a Markov döntési folyamat (MDP) S: állapottér A: akciótér átmeneti valószínűségek közvetlen jutalmak s0: kiindulási állapot : diszkontálási ráta

Markov döntési folyamat megoldása környezet lépked P és R szerint: ügynök lépked  szerint: optimális stratégia: olyan , amelyre maximális.

Példák bot egyensúlyozása autó a völgyben tic-tac-toe dáma, backgammon póker

Optimális stratégia keresése két fő megközelítési mód direkt stratégiakeresési módszerek egyszerűbbnek tűnik, de nem az lokális minimum félév végén lesz róla szó értékelőfüggvény-alapú módszerek történetileg korábbi egyszerűbb globális maximum!

Az értékelőfüggvény s állapot értéke: a várható összjutalom s-ből indulva

A Bellman-egyenlet

A Bellman-egyenlet fixpontegyenlet egyértelmű megoldás, mindig létezik

Akcióértékelő függvény várható összjutalom s, a után Bellman-egyenlet: