Megerősítéses tanulás Mély Q-hálók

Slides:



Advertisements
Hasonló előadás
ADATSZERZÉS, INFORMÁCIÓ HASZNOSULÁS Biztonságtudatos vállalati kultúra Készítette: Jasenszky Nándor egyetemi szakoktató NKE NBI TEH tanszék.
Advertisements

A Hulladékgazdálkodási technológus FSZ átjárhatósága és kredit beszámíthatóság KÖRNYEZETGAZDÁLKODÁSI AGRÁRMÉRNÖKI BSc.
Nagy Ferenc Vállalkozási tanácsadó november 30.
A szenior tudástőkére épített társadalmi innováció május 21. Miskolc ©Sárközy Erika.
Beruházási és finanszírozási döntések kölcsönhatásai 1.
Nem csak szövegszerkeszt ő virtuózoknak Az Open Office.org 2.0 béta verzió Bándliné Utasi Mária Writer.
EU pályázati programok A szervezet / változások 1.A pályázók adminisztrációs terheinek csökkentése a projektfejlesztési, pályázati szakaszban.
A három lépcsőfok… 29% - A megoldás 52 heti stratégia sikeres üzleti kapcsolatépítéshez (Avidor András - Michelle R. Donovan - Ivan R. Misner) Az emberek.
Kőszegi Forrás- Kőszeg
Keresztyén Ifjúsági Dicsőítő Csoport
Valószínűségi kísérletek
Muraközy Balázs: Mely vállalatok válnak gazellává?
1.sz. ábra: forrás: A tudomány kapujában minta minta minta minta minta minta minta minta minta minta minta.
A CMMI modell alkalmazása SOA-környezetben
A közigazgatással foglalkozó tudományok
Háttértárak karbantartása
Sz&p prof.
Észlelés és egyéni döntéshozatal, tanulás
Monte Carlo módszerek.
Kockázat és megbízhatóság
SZÁMVITEL.
A Menedék Alapítvány ÉRTÉKEI
A mesterséges intelligencia alapjai
Struktúra predikció ápr. 6.
Kovács Gergely Péter Egyszerű lekérdezések
Bemeneti kompetencia mérése
Környezeti teljesítményértékelés
Animációk.
V. Optimális portfóliók
A bemeneti kompetenciamérések és a visszajelzéseken alapuló fejlesztő munka bemutatása a Farkas Gyula Közoktatási Intézmény Dr. Illyés Sándor intézményegységében.
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Szombatiskola, mint baráti kör
1.sz. ábra: forrás: A tudomány kapujában minta minta minta minta minta minta minta minta minta minta minta.
Fazekas Ágnes – Halász Gábor-Horváth László
középfokú felvételi eljárás
Algoritmusok és Adatszerkezetek I.
Algoritmusok és Adatszerkezetek I.
Körmendi Dániel MAS Meeting Scheduler.
Számítógépes Hálózatok
Teljes visszalépéses elemzés
Kóbor Ervin, 10. hét Programozási alapismeretek
Munkagazdaságtani feladatok
Adatbázis Hasonlóság- elemzés Előrejelzés Stratégia- elemzés
Környezeti Kontrolling
Feladat 1: decentralizáltság az általános egyensúlyelméletben
Szerzője Konzulens neve
Tájékoztatás a évi Országos Statisztikai Adatfelvételi Program (OSAP) teljesüléséről az Országos Statisztikai Tanács és a Nemzeti Statisztikai Koordinációs.
Megerősítéses tanulás Mély Q-hálók
Lapkiadó, rendezvényszervező vállalatirányítási rendszer SQL alapon
Megfigyelés és kísérlet
Biró László Miklós Napi mentés: Biró László Miklós
Informatikai eszközök a földrajzórán
Algoritmusok és Adatszerkezetek I.
A számítógép története
További rendező és kereső algoritmusok
SQL jogosultság-kezelés
Scool-Túra Kft Miskolc Széchenyi út 36.
Tóalmási Mesevár Óvoda és Konyha
Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus
Tájékoztató az EPER pályázati folyamatáról
Megerősítéses tanulás Mély Q-hálók
Munkagazdaságtani feladatok
TITKOSÍTÓ ALGORITMUSOK
Mesterséges neuronhálók és alkalmazásaik
Mesterséges intelligencia
A POWERPOINT 2007 újdonságai
Kórházi és ágazati gazdálkodást érintő informatikai fejlesztések és az azokban rejlő lehetőségek Horváth Tamás Vezérigazgató CompuTREND Zrt.
VÁLTOZÓ EURÓPA (Nemzet)Biztonsági szemmel
Megerősítéses tanulás, mély Q-hálók
A tehetséggondozás kihívásai
Előadás másolata:

Megerősítéses tanulás Mély Q-hálók

Megerősítéses tanulás Az ágensnek nem mondjuk meg, hogy mi a helyes döntés. Csak a cselekvéssorozat végén kap jutalmat/büntetést A kapott jutalom alapján stratégiát kell tanulnia Az ágens a környezet és a korábbi cselekvései alapján választhat cselekvést Próbálkoznia kell, hogy megtalálja a helyes megoldást Járt út vagy járatlan? Melyik cselekvés jó, milyen környezetben? Múltbeli tudást hogyan tudja felhasználni? Példák: sakk, Atari játék, Go, Starcraft …

Megerősítéses tanulás Hasznosságalapú ágens Az állapotokra alapozott hasznosságfüggvényt tanul, és az alapján választja ki azokat a cselekvéseit, amelyekkel maximálja az elérhető hasznosság értékét. Q-tanuló Egy függvényt – Q-függvényt – tanul, valamilyen várható hasznot tulajdonítva egy adott helyzetben egy adott cselekvésnek. Reflexszerű ágens Olyan stratégiát tanul, amely közvetlenül képezi le az állapotokat cselekvésekre.

Q-tanulás Feladat: a házból kijutni minél gyorsabban (bármelyik szobából indulva) Forrás: http://mnemstudio.org/path-finding-q-learning-tutorial.htm

Q-tanulás Állapotok és cselekvések: Az 5ös csúcsba mutató éleknek megadhatunk egy jutalmat (pl 100)

Q-tanulás A kezdeti jutalom mátrix: Ezen felül létrehozunk egy Q táblát is, amelyben az adott állapotban adott akcióhoz tartozó értéket fogjuk számolni. Q(state, action) = R(state, action) + Alpha* Max[Q(next state, all actions)] Kezdetben minden elem 0.

Q-tanulás A tanulási algoritmus: Set the alpha parameter, and environment rewards in matrix R. Initialize matrix Q to zero. For each episode: Select a random initial state. Do While the goal state hasn't been reached. Select one among all possible actions for the current state. Using this possible action, consider going to the next state. Get maximum Q value for this next state based on all possible actions. Q(state, action) = R(state, action)+Alpha*Max[Q(next state, all actions)] Set the next state as the current state. End Do End For

Q-tanulás Példák (alpha = 0.8) 1. szobából kezdünk, Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100 3. szobából kezdünk, majd véletlenül az 1. szobába mentünk Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 2), Q(1, 5)] = 0 + 0.8 * Max(0, 100) = 80 Majd még pár próbálkozás után …

Mély Q-tanulás Forrás: Human-level control through deep reinforcement learning (Nature)

Mély Q-tanulás N méretű memória (sebesség) Double Q-learning Az ötlet, hogy 2 neuronhálót tanítunk Az első háló a Q értékeket tanulja A második pedig a discount értékeket Error clipping: pl [-1…1], ez a gradienst stabilizálja Dueling Q-learning:

Alpha-Go Google fejlesztése 2015-ben legyőzte a go bajnokot

Alpha-Go Zero Hasonló a „sima” Alpha-Go-hoz, csak emberi adat nélkül tanul Önmaga ellen játszva tanul A policy és value networks egyesítve lett (Dueling) Egyszerűsített fa keresés az egyesített háló segítségével