Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem Neural Information Processing Group
Mesterséges Intelligencia – játékok A játékok valós döntéshelyzeteket modelleznek Hasonló megoldási módszerek szükségesek Jó tesztfeladatok MI algoritmusok fejlesztésére Könnyen demonstrálható, magáért beszélő eredmény Vannak sikertörténetek (pl. backgammon, sakk) Miért Pac-Man? Közepes nehézségi szint Nem túlságosan egyszerű, de azért még kezelhető bonyolultság Nemzetközi verseny lett meghirdetve http://cswww.essex.ac.uk/staff/sml/pacman/PacManContest.html Kezdeti sikereink vannak… Gyenes Viktor - ELTE
Megerősítéses Tanulás Népszerű tanulási keretrendszer Környezetben tevékenykedő ügynök Megfigyeléseket kap a környezettől Akciókat választhat amik befolyásolják az állapotát Büntetéseket / jutalmakat kap visszajelzésként Felügyelet nélküli tanulás Döntési mechanizmus: hosszú távú összjutalom maximalizálása Kiforrott matematikai alapok Konvergencia tételek a tanulási folyamatra Újabb eredmények komplex feladatokra is alkalmazhatóvá teszik, hatékony algoritmusok Gyenes Viktor - ELTE
Miért nehéz a feladat? – Megoldás? Brute-force megoldás: Minden lehetséges állapotra tanuljuk meg a helyes döntést! Hihetetlenül nagy állapottér… Pl. sakk: 8x8-as tábla, minden mezőn 12 féle bábu, vagy üres: 1364 ≈ 1071 Általánosítás szükséges Magasabb szintű leírás (fontos észleleteket leíró változók) Feladat struktúra figyelembe vétele Az állapottér változók direktszorzata, közöttük kevés függés A tanult tapasztalatok hasznosítása eddig nem látott állapotban Mik a jó állapotleíró változók? Hogyan találjuk meg? A Mesterséges Intelligencia nagy kérdései… Gyenes Viktor - ELTE
Pac-Man verseny Feladat: a gép irányítsa az embereknek írt játékot! Megfigyelés: a képernyő Akciók: billentyűk nyomogatása Képfeldolgozás szükséges az állapot kinyeréséhez Döntés: magas szintű megfigyelések és akciók Pl. szellemek távolsága; mozgás a legközelebbi pötty felé, stb. Gyenes Viktor - ELTE
Eredmények Köszönöm a figyelmet! Az első pályán átlagos humán teljesítmény elérése! egy korábbi verzióval; szabály alapú vezérlést tanuló rendszer (Szita & Lőrincz, JAIR 2007) A jelenlegi verzió fejlesztés alatt áll Egyelőre szabály alapú kézzel drótozott viselkedés Terv: helyzet-értékelés alapú előretekintő rendszer Köszönöm a figyelmet! Gyenes Viktor - ELTE