Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaMáté Mészáros Megváltozta több, mint 10 éve
1
Automatikus modellalkotás PDDL tanulás
2
Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is megjelenhetnek, változhatnak a feltételek Cél nem mindig fogalmazható meg egyértelműen, esetleg csak a cselekvések közben tisztázódik Megoldás: kiegészíteni tanulással!
3
PDDL tanulás I. Az akciók megfeleltethetőek cselekvéseknek, az aktuális predikátumok összességei állapotoknak Ha a cél nem tiszta, egyfajta megerősítést/visszajelzést akkor is elvárhatunk Gyakran egyszerűbb megerősítések formájában megfogalmazni a célt, mint az explicit megfogalmazás
4
PDDL tanulás II. Q-tanulással a megerősítések alapján az adott állapotban a cselekvésekhez hasznossági értékeket tudunk rendelni Ezeket felhasználhatjuk tervkészítéshez (metrika) Illetve további következtetéseket vonhatunk le: Összetartozó cselekvések Cselekvések feltételeinek kiegészítése Cél pontosabb megfogalmazása
5
Egyszerű példa Különböző sorszámú dobozok, különböző súlyú golyók Ágens célja a golyók növekvő súly szerinti elhelyezése Visszajelzés: a megfelelő helyen levő golyók száma Első próbálkozás: egyszerű RAK cselekvés (szabad helyre rak egy még fel nem használt golyót)
6
Eredmény rak golyo1 doboz1, 1.92 rak golyo3 doboz1, 0.36 rak golyo1 doboz3, 0.36 rak golyo2 doboz2, 1.70 rak golyo2 doboz1, 0.37 rak golyo1 doboz2, 0.36 rak golyo3 doboz2, 0.36 rak golyo2 doboz3, 0.40 rak golyo3 doboz3, 1.80
7
Egyszerű példa másként A több különböző cselekvés, attól függően, hogy hova rakjuk a golyót (elejére, végére, középre), és a szomszédai alapján megfelelő-e a súlybeli sorrend (jól raktuk-e, ha szomszédai szabadok, vagy sem) A továbbiakban a cselekvéseket nem különböztetjük meg paramétereiben
8
Tisztán felfedező, 0.2 bátorsági faktor
9
Tisztán felfedező, 0.6 bátorsági faktor
10
Mohó, 0.98 felfedezői faktor
11
Mohó, 0.933 felfedezői faktor
12
5 golyó, felfedező, 0.2 bátorsági faktor (2 perc futási idő)
13
5 golyó, mohó 0.933 tanulási faktor (7 sec futási idő)
14
“Egyszerű rak, helyesen rak” kisérlet I. (egyszerű megerősítés)
15
“Egyszerű rak, helyesen rak” kisérlet II. (inv. száma megerősítés)
16
Kisérlet konklúziói Hiába volt helyesebb a JólRak cselekvés, az eredmény nem ezt bizonyította Hiába változtattunk a megerősítésen a JólRak javára, nem javult a helyzet Hibás kisérlet? NEM! A feltétel nélküli Rak megtanulta helyesen rakni a kisérlet közben a golyókat! A JólRak cselekvés pontosabb előfeltételei sem jelentettek számára tényleges előnyt
17
Hova tovább? Felfedező tanulás helyes, de lassú Mohó tanulás gyors, de szuboptimális DE! Mohó tanulással így is elég jó eredményeket lehet kapni, akár tervkészítőként is használható Felfedező tanulással pontosabb következtetéseket lehet levonni, ezzel a PDDL modell átalakítására van lehetőségünk: – Csökkenthetjük a komplexitást – Pontosabbá tehetjük a modellt – Helyesebben fogalmazhatjuk meg a célokat
18
Köszönöm a figyelmet! Készítette: Láng Péter
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.