Megerősítéses tanulás Mély Q-hálók

Slides:

Advertisements

Hasonló előadás

ADATSZERZÉS, INFORMÁCIÓ HASZNOSULÁS Biztonságtudatos vállalati kultúra Készítette: Jasenszky Nándor egyetemi szakoktató NKE NBI TEH tanszék.

Advertisements

A Hulladékgazdálkodási technológus FSZ átjárhatósága és kredit beszámíthatóság KÖRNYEZETGAZDÁLKODÁSI AGRÁRMÉRNÖKI BSc.

Nagy Ferenc Vállalkozási tanácsadó november 30.

A szenior tudástőkére épített társadalmi innováció május 21. Miskolc ©Sárközy Erika.

Beruházási és finanszírozási döntések kölcsönhatásai 1.

Nem csak szövegszerkeszt ő virtuózoknak Az Open Office.org 2.0 béta verzió Bándliné Utasi Mária Writer.

EU pályázati programok A szervezet / változások 1.A pályázók adminisztrációs terheinek csökkentése a projektfejlesztési, pályázati szakaszban.

A három lépcsőfok… 29% - A megoldás 52 heti stratégia sikeres üzleti kapcsolatépítéshez (Avidor András - Michelle R. Donovan - Ivan R. Misner) Az emberek.

Kőszegi Forrás- Kőszeg

Keresztyén Ifjúsági Dicsőítő Csoport

Valószínűségi kísérletek

Muraközy Balázs: Mely vállalatok válnak gazellává?

1.sz. ábra: forrás: A tudomány kapujában minta minta minta minta minta minta minta minta minta minta minta.

A CMMI modell alkalmazása SOA-környezetben

A közigazgatással foglalkozó tudományok

Háttértárak karbantartása

Észlelés és egyéni döntéshozatal, tanulás

Monte Carlo módszerek.

Kockázat és megbízhatóság

A Menedék Alapítvány ÉRTÉKEI

A mesterséges intelligencia alapjai

Struktúra predikció ápr. 6.

Kovács Gergely Péter Egyszerű lekérdezések

Bemeneti kompetencia mérése

Környezeti teljesítményértékelés

V. Optimális portfóliók

A bemeneti kompetenciamérések és a visszajelzéseken alapuló fejlesztő munka bemutatása a Farkas Gyula Közoktatási Intézmény Dr. Illyés Sándor intézményegységében.

Gazdaságstatisztika Korreláció- és regressziószámítás II.

Szombatiskola, mint baráti kör

1.sz. ábra: forrás: A tudomány kapujában minta minta minta minta minta minta minta minta minta minta minta.

Fazekas Ágnes – Halász Gábor-Horváth László

középfokú felvételi eljárás

Algoritmusok és Adatszerkezetek I.

Algoritmusok és Adatszerkezetek I.

Körmendi Dániel MAS Meeting Scheduler.

Számítógépes Hálózatok

Teljes visszalépéses elemzés

Kóbor Ervin, 10. hét Programozási alapismeretek

Munkagazdaságtani feladatok

Adatbázis Hasonlóság- elemzés Előrejelzés Stratégia- elemzés

Környezeti Kontrolling

Feladat 1: decentralizáltság az általános egyensúlyelméletben

Szerzője Konzulens neve

Tájékoztatás a évi Országos Statisztikai Adatfelvételi Program (OSAP) teljesüléséről az Országos Statisztikai Tanács és a Nemzeti Statisztikai Koordinációs.

Megerősítéses tanulás Mély Q-hálók

Lapkiadó, rendezvényszervező vállalatirányítási rendszer SQL alapon

Megfigyelés és kísérlet

Biró László Miklós Napi mentés: Biró László Miklós

Informatikai eszközök a földrajzórán

Algoritmusok és Adatszerkezetek I.

A számítógép története

További rendező és kereső algoritmusok

SQL jogosultság-kezelés

Scool-Túra Kft Miskolc Széchenyi út 36.

Tóalmási Mesevár Óvoda és Konyha

Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus

Tájékoztató az EPER pályázati folyamatáról

Megerősítéses tanulás Mély Q-hálók

Munkagazdaságtani feladatok

TITKOSÍTÓ ALGORITMUSOK

Mesterséges neuronhálók és alkalmazásaik

Mesterséges intelligencia

A POWERPOINT 2007 újdonságai

Kórházi és ágazati gazdálkodást érintő informatikai fejlesztések és az azokban rejlő lehetőségek Horváth Tamás Vezérigazgató CompuTREND Zrt.

VÁLTOZÓ EURÓPA (Nemzet)Biztonsági szemmel

Megerősítéses tanulás, mély Q-hálók

A tehetséggondozás kihívásai

Előadás másolata:

Megerősítéses tanulás Mély Q-hálók

Megerősítéses tanulás Az ágensnek nem mondjuk meg, hogy mi a helyes döntés. Csak a cselekvéssorozat végén kap jutalmat/büntetést A kapott jutalom alapján stratégiát kell tanulnia Az ágens a környezet és a korábbi cselekvései alapján választhat cselekvést Próbálkoznia kell, hogy megtalálja a helyes megoldást Járt út vagy járatlan? Melyik cselekvés jó, milyen környezetben? Múltbeli tudást hogyan tudja felhasználni? Példák: sakk, Atari játék, Go, Starcraft …

Megerősítéses tanulás Hasznosságalapú ágens Az állapotokra alapozott hasznosságfüggvényt tanul, és az alapján választja ki azokat a cselekvéseit, amelyekkel maximálja az elérhető hasznosság értékét. Q-tanuló Egy függvényt – Q-függvényt – tanul, valamilyen várható hasznot tulajdonítva egy adott helyzetben egy adott cselekvésnek. Reflexszerű ágens Olyan stratégiát tanul, amely közvetlenül képezi le az állapotokat cselekvésekre.

Q-tanulás Feladat: a házból kijutni minél gyorsabban (bármelyik szobából indulva) Forrás: http://mnemstudio.org/path-finding-q-learning-tutorial.htm

Q-tanulás Állapotok és cselekvések: Az 5ös csúcsba mutató éleknek megadhatunk egy jutalmat (pl 100)

Q-tanulás A kezdeti jutalom mátrix: Ezen felül létrehozunk egy Q táblát is, amelyben az adott állapotban adott akcióhoz tartozó értéket fogjuk számolni. Q(state, action) = R(state, action) + Alpha* Max[Q(next state, all actions)] Kezdetben minden elem 0.

Q-tanulás A tanulási algoritmus: Set the alpha parameter, and environment rewards in matrix R. Initialize matrix Q to zero. For each episode: Select a random initial state. Do While the goal state hasn't been reached. Select one among all possible actions for the current state. Using this possible action, consider going to the next state. Get maximum Q value for this next state based on all possible actions. Q(state, action) = R(state, action)+Alpha*Max[Q(next state, all actions)] Set the next state as the current state. End Do End For

Q-tanulás Példák (alpha = 0.8) 1. szobából kezdünk, Q(1, 5) = R(1, 5) + 0.8 * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = 100 + 0.8 * 0 = 100 3. szobából kezdünk, majd véletlenül az 1. szobába mentünk Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 2), Q(1, 5)] = 0 + 0.8 * Max(0, 100) = 80 Majd még pár próbálkozás után …

Mély Q-tanulás Forrás: Human-level control through deep reinforcement learning (Nature)

Mély Q-tanulás N méretű memória (sebesség) Double Q-learning Az ötlet, hogy 2 neuronhálót tanítunk Az első háló a Q értékeket tanulja A második pedig a discount értékeket Error clipping: pl [-1…1], ez a gradienst stabilizálja Dueling Q-learning:

Alpha-Go Google fejlesztése 2015-ben legyőzte a go bajnokot

Alpha-Go Zero Hasonló a „sima” Alpha-Go-hoz, csak emberi adat nélkül tanul Önmaga ellen játszva tanul A policy és value networks egyesítve lett (Dueling) Egyszerűsített fa keresés az egyesített háló segítségével