Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaCsilla Mezeiné Megváltozta több, mint 10 éve
1
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem Neural Information Processing Group
2
Mesterséges Intelligencia – játékok
A játékok valós döntéshelyzeteket modelleznek Hasonló megoldási módszerek szükségesek Jó tesztfeladatok MI algoritmusok fejlesztésére Könnyen demonstrálható, magáért beszélő eredmény Vannak sikertörténetek (pl. backgammon, sakk) Miért Pac-Man? Közepes nehézségi szint Nem túlságosan egyszerű, de azért még kezelhető bonyolultság Nemzetközi verseny lett meghirdetve Kezdeti sikereink vannak… Gyenes Viktor - ELTE
3
Megerősítéses Tanulás
Népszerű tanulási keretrendszer Környezetben tevékenykedő ügynök Megfigyeléseket kap a környezettől Akciókat választhat amik befolyásolják az állapotát Büntetéseket / jutalmakat kap visszajelzésként Felügyelet nélküli tanulás Döntési mechanizmus: hosszú távú összjutalom maximalizálása Kiforrott matematikai alapok Konvergencia tételek a tanulási folyamatra Újabb eredmények komplex feladatokra is alkalmazhatóvá teszik, hatékony algoritmusok Gyenes Viktor - ELTE
4
Miért nehéz a feladat? – Megoldás?
Brute-force megoldás: Minden lehetséges állapotra tanuljuk meg a helyes döntést! Hihetetlenül nagy állapottér… Pl. sakk: 8x8-as tábla, minden mezőn 12 féle bábu, vagy üres: 1364 ≈ 1071 Általánosítás szükséges Magasabb szintű leírás (fontos észleleteket leíró változók) Feladat struktúra figyelembe vétele Az állapottér változók direktszorzata, közöttük kevés függés A tanult tapasztalatok hasznosítása eddig nem látott állapotban Mik a jó állapotleíró változók? Hogyan találjuk meg? A Mesterséges Intelligencia nagy kérdései… Gyenes Viktor - ELTE
5
Pac-Man verseny Feladat: a gép irányítsa az embereknek írt játékot!
Megfigyelés: a képernyő Akciók: billentyűk nyomogatása Képfeldolgozás szükséges az állapot kinyeréséhez Döntés: magas szintű megfigyelések és akciók Pl. szellemek távolsága; mozgás a legközelebbi pötty felé, stb. Gyenes Viktor - ELTE
6
Eredmények Köszönöm a figyelmet!
Az első pályán átlagos humán teljesítmény elérése! egy korábbi verzióval; szabály alapú vezérlést tanuló rendszer (Szita & Lőrincz, JAIR 2007) A jelenlegi verzió fejlesztés alatt áll Egyelőre szabály alapú kézzel drótozott viselkedés Terv: helyzet-értékelés alapú előretekintő rendszer Köszönöm a figyelmet! Gyenes Viktor - ELTE
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.