Mesterséges intelligencia 12
Gépi tanulás Ha a összes intelligenciát a tervező építi be: hiányos tudás (a tervező nem gondolhat mindenre) nem adaptív rendszer
Tanuló rendszerek Cselekvő alrendszer: Tanuló alrendszer végrehajtandó akciók kiválasztásáért felel Tanuló alrendszer cselekvő alrendszer módosításáért felel
Induktív tanulás Bemeneti és kimeneti példák alapján tanulás A környezet bemeneti/kimeneti adatpárokat generál A cél: olyan függvény megtanulása, mely létrehozhatta ezeket a párokat
Megerősítéses tanulás (Reinforcement learning) Nincsenek kéznél bemeneti és kimeneti példák Jutalom vagy megerősítés (reinforcement) alapú visszacsatolás A cél: A jutalmak alapján a függvény megtanulása Fő felhasználási területek: játékok, robotika
Adaptív dinamikus programozás (ADP)
Adaptív dinamikus programozás (ADP) M(a,a’1) M(a,a’n) M(a,a’2) a’1 a’2 a’n U(a’1) U(a’2) U(a’n)
Adaptív dinamikus programozás (ADP) Olyan standard algoritmus, melyhez az összes többi megerősítéses tanulási eljárást mérni tudjuk. Hátránya: nagy állapottér esetén kezelhetetlenné válik Pl. osjáték esetén kb. 1050 ismeretlennel felírt 1050 egyenletet kéne megoldani
Időbeli különbség tanulása (Temporal difference learning – TDL) Közelítjük az egyenleteket anélkül, hogy az összes állapotra megoldanánk őket!
Időbeli különbség tanulása (Temporal difference learning – TDL) Gyors, mivel csak az aktuális következő állapottal dolgozik „ritka átmenetek” veszélye fix λ helyett minden vizsgálat után csökkentjük az értékét