Automatikus modellalkotás PDDL tanulás
Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is megjelenhetnek, változhatnak a feltételek Cél nem mindig fogalmazható meg egyértelműen, esetleg csak a cselekvések közben tisztázódik Megoldás: kiegészíteni tanulással!
PDDL tanulás I. Az akciók megfeleltethetőek cselekvéseknek, az aktuális predikátumok összességei állapotoknak Ha a cél nem tiszta, egyfajta megerősítést/visszajelzést akkor is elvárhatunk Gyakran egyszerűbb megerősítések formájában megfogalmazni a célt, mint az explicit megfogalmazás
PDDL tanulás II. Q-tanulással a megerősítések alapján az adott állapotban a cselekvésekhez hasznossági értékeket tudunk rendelni Ezeket felhasználhatjuk tervkészítéshez (metrika) Illetve további következtetéseket vonhatunk le: Összetartozó cselekvések Cselekvések feltételeinek kiegészítése Cél pontosabb megfogalmazása
Egyszerű példa Különböző sorszámú dobozok, különböző súlyú golyók Ágens célja a golyók növekvő súly szerinti elhelyezése Visszajelzés: a megfelelő helyen levő golyók száma Első próbálkozás: egyszerű RAK cselekvés (szabad helyre rak egy még fel nem használt golyót)
Eredmény rak golyo1 doboz1, 1.92 rak golyo3 doboz1, 0.36 rak golyo1 doboz3, 0.36 rak golyo2 doboz2, 1.70 rak golyo2 doboz1, 0.37 rak golyo1 doboz2, 0.36 rak golyo3 doboz2, 0.36 rak golyo2 doboz3, 0.40 rak golyo3 doboz3, 1.80
Egyszerű példa másként A több különböző cselekvés, attól függően, hogy hova rakjuk a golyót (elejére, végére, középre), és a szomszédai alapján megfelelő-e a súlybeli sorrend (jól raktuk-e, ha szomszédai szabadok, vagy sem) A továbbiakban a cselekvéseket nem különböztetjük meg paramétereiben
Tisztán felfedező, 0.2 bátorsági faktor
Tisztán felfedező, 0.6 bátorsági faktor
Mohó, 0.98 felfedezői faktor
Mohó, felfedezői faktor
5 golyó, felfedező, 0.2 bátorsági faktor (2 perc futási idő)
5 golyó, mohó tanulási faktor (7 sec futási idő)
“Egyszerű rak, helyesen rak” kisérlet I. (egyszerű megerősítés)
“Egyszerű rak, helyesen rak” kisérlet II. (inv. száma megerősítés)
Kisérlet konklúziói Hiába volt helyesebb a JólRak cselekvés, az eredmény nem ezt bizonyította Hiába változtattunk a megerősítésen a JólRak javára, nem javult a helyzet Hibás kisérlet? NEM! A feltétel nélküli Rak megtanulta helyesen rakni a kisérlet közben a golyókat! A JólRak cselekvés pontosabb előfeltételei sem jelentettek számára tényleges előnyt
Hova tovább? Felfedező tanulás helyes, de lassú Mohó tanulás gyors, de szuboptimális DE! Mohó tanulással így is elég jó eredményeket lehet kapni, akár tervkészítőként is használható Felfedező tanulással pontosabb következtetéseket lehet levonni, ezzel a PDDL modell átalakítására van lehetőségünk: – Csökkenthetjük a komplexitást – Pontosabbá tehetjük a modellt – Helyesebben fogalmazhatjuk meg a célokat
Köszönöm a figyelmet! Készítette: Láng Péter