Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Megerősítéses tanulás Mély Q-hálók
2
Megerősítéses tanulás
Az ágensnek nem mondjuk meg, hogy mi a helyes döntés. Csak a cselekvéssorozat végén kap jutalmat/büntetést A kapott jutalom alapján stratégiát kell tanulnia Az ágens a környezet és a korábbi cselekvései alapján választhat cselekvést Próbálkoznia kell, hogy megtalálja a helyes megoldást Járt út vagy járatlan? Melyik cselekvés jó, milyen környezetben? Múltbeli tudást hogyan tudja felhasználni? Példák: sakk, Atari játék, Go, Starcraft …
3
Megerősítéses tanulás
Hasznosságalapú ágens Az állapotokra alapozott hasznosságfüggvényt tanul, és az alapján választja ki azokat a cselekvéseit, amelyekkel maximálja az elérhető hasznosság értékét. Q-tanuló Egy függvényt – Q-függvényt – tanul, valamilyen várható hasznot tulajdonítva egy adott helyzetben egy adott cselekvésnek. Reflexszerű ágens Olyan stratégiát tanul, amely közvetlenül képezi le az állapotokat cselekvésekre.
4
Q-tanulás Feladat: a házból kijutni minél gyorsabban (bármelyik szobából indulva) Forrás:
5
Q-tanulás Állapotok és cselekvések:
Az 5ös csúcsba mutató éleknek megadhatunk egy jutalmat (pl 100)
6
Q-tanulás A kezdeti jutalom mátrix:
Ezen felül létrehozunk egy Q táblát is, amelyben az adott állapotban adott akcióhoz tartozó értéket fogjuk számolni. Q(state, action) = R(state, action) + Alpha* Max[Q(next state, all actions)] Kezdetben minden elem 0.
7
Q-tanulás A tanulási algoritmus:
Set the alpha parameter, and environment rewards in matrix R. Initialize matrix Q to zero. For each episode: Select a random initial state. Do While the goal state hasn't been reached. Select one among all possible actions for the current state. Using this possible action, consider going to the next state. Get maximum Q value for this next state based on all possible actions. Q(state, action) = R(state, action)+Alpha*Max[Q(next state, all actions)] Set the next state as the current state. End Do End For
8
Q-tanulás Példák (alpha = 0.8) 1. szobából kezdünk,
Q(1, 5) = R(1, 5) * Max[Q(5, 1), Q(5, 4), Q(5, 5)] = * 0 = 100 3. szobából kezdünk, majd véletlenül az 1. szobába mentünk Q(3, 1) = R(3, 1) * Max[Q(1, 2), Q(1, 5)] = * Max(0, 100) = 80 Majd még pár próbálkozás után …
9
Mély Q-tanulás Forrás: Human-level control through deep reinforcement learning (Nature)
10
Mély Q-tanulás N méretű memória (sebesség) Double Q-learning
Az ötlet, hogy 2 neuronhálót tanítunk Az első háló a Q értékeket tanulja A második pedig a discount értékeket Error clipping: pl [-1…1], ez a gradienst stabilizálja Dueling Q-learning:
11
Alpha-Go Google fejlesztése 2015-ben legyőzte a go bajnokot
12
Alpha-Go Zero Hasonló a „sima” Alpha-Go-hoz, csak emberi adat nélkül tanul Önmaga ellen játszva tanul A policy és value networks egyesítve lett (Dueling) Egyszerűsített fa keresés az egyesített háló segítségével
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.