Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Mesterséges intelligencia
12
2
Gépi tanulás Ha a összes intelligenciát a tervező építi be:
hiányos tudás (a tervező nem gondolhat mindenre) nem adaptív rendszer
3
Tanuló rendszerek Cselekvő alrendszer: Tanuló alrendszer
végrehajtandó akciók kiválasztásáért felel Tanuló alrendszer cselekvő alrendszer módosításáért felel
4
Induktív tanulás Bemeneti és kimeneti példák alapján tanulás
A környezet bemeneti/kimeneti adatpárokat generál A cél: olyan függvény megtanulása, mely létrehozhatta ezeket a párokat
5
Megerősítéses tanulás (Reinforcement learning)
Nincsenek kéznél bemeneti és kimeneti példák Jutalom vagy megerősítés (reinforcement) alapú visszacsatolás A cél: A jutalmak alapján a függvény megtanulása Fő felhasználási területek: játékok, robotika
6
Adaptív dinamikus programozás (ADP)
7
Adaptív dinamikus programozás (ADP)
M(a,a’1) M(a,a’n) M(a,a’2) a’1 a’2 a’n U(a’1) U(a’2) U(a’n)
8
Adaptív dinamikus programozás (ADP)
Olyan standard algoritmus, melyhez az összes többi megerősítéses tanulási eljárást mérni tudjuk. Hátránya: nagy állapottér esetén kezelhetetlenné válik Pl. osjáték esetén kb ismeretlennel felírt 1050 egyenletet kéne megoldani
9
Időbeli különbség tanulása (Temporal difference learning – TDL)
Közelítjük az egyenleteket anélkül, hogy az összes állapotra megoldanánk őket!
10
Időbeli különbség tanulása (Temporal difference learning – TDL)
Gyors, mivel csak az aktuális következő állapottal dolgozik „ritka átmenetek” veszélye fix λ helyett minden vizsgálat után csökkentjük az értékét
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.