Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is.

Hasonló előadás


Az előadások a következő témára: "Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is."— Előadás másolata:

1 Automatikus modellalkotás PDDL tanulás

2 Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is megjelenhetnek, változhatnak a feltételek Cél nem mindig fogalmazható meg egyértelműen, esetleg csak a cselekvések közben tisztázódik Megoldás: kiegészíteni tanulással!

3 PDDL tanulás I. Az akciók megfeleltethetőek cselekvéseknek, az aktuális predikátumok összességei állapotoknak Ha a cél nem tiszta, egyfajta megerősítést/visszajelzést akkor is elvárhatunk Gyakran egyszerűbb megerősítések formájában megfogalmazni a célt, mint az explicit megfogalmazás

4 PDDL tanulás II. Q-tanulással a megerősítések alapján az adott állapotban a cselekvésekhez hasznossági értékeket tudunk rendelni Ezeket felhasználhatjuk tervkészítéshez (metrika) Illetve további következtetéseket vonhatunk le: Összetartozó cselekvések Cselekvések feltételeinek kiegészítése Cél pontosabb megfogalmazása

5 Egyszerű példa Különböző sorszámú dobozok, különböző súlyú golyók Ágens célja a golyók növekvő súly szerinti elhelyezése Visszajelzés: a megfelelő helyen levő golyók száma Első próbálkozás: egyszerű RAK cselekvés (szabad helyre rak egy még fel nem használt golyót)

6 Eredmény rak golyo1 doboz1, 1.92 rak golyo3 doboz1, 0.36 rak golyo1 doboz3, 0.36 rak golyo2 doboz2, 1.70 rak golyo2 doboz1, 0.37 rak golyo1 doboz2, 0.36 rak golyo3 doboz2, 0.36 rak golyo2 doboz3, 0.40 rak golyo3 doboz3, 1.80

7 Egyszerű példa másként A több különböző cselekvés, attól függően, hogy hova rakjuk a golyót (elejére, végére, középre), és a szomszédai alapján megfelelő-e a súlybeli sorrend (jól raktuk-e, ha szomszédai szabadok, vagy sem) A továbbiakban a cselekvéseket nem különböztetjük meg paramétereiben

8 Tisztán felfedező, 0.2 bátorsági faktor

9 Tisztán felfedező, 0.6 bátorsági faktor

10 Mohó, 0.98 felfedezői faktor

11 Mohó, felfedezői faktor

12 5 golyó, felfedező, 0.2 bátorsági faktor (2 perc futási idő)

13 5 golyó, mohó tanulási faktor (7 sec futási idő)

14 “Egyszerű rak, helyesen rak” kisérlet I. (egyszerű megerősítés)

15 “Egyszerű rak, helyesen rak” kisérlet II. (inv. száma megerősítés)

16 Kisérlet konklúziói Hiába volt helyesebb a JólRak cselekvés, az eredmény nem ezt bizonyította Hiába változtattunk a megerősítésen a JólRak javára, nem javult a helyzet Hibás kisérlet? NEM! A feltétel nélküli Rak megtanulta helyesen rakni a kisérlet közben a golyókat! A JólRak cselekvés pontosabb előfeltételei sem jelentettek számára tényleges előnyt

17 Hova tovább? Felfedező tanulás helyes, de lassú Mohó tanulás gyors, de szuboptimális DE! Mohó tanulással így is elég jó eredményeket lehet kapni, akár tervkészítőként is használható Felfedező tanulással pontosabb következtetéseket lehet levonni, ezzel a PDDL modell átalakítására van lehetőségünk: – Csökkenthetjük a komplexitást – Pontosabbá tehetjük a modellt – Helyesebben fogalmazhatjuk meg a célokat

18 Köszönöm a figyelmet! Készítette: Láng Péter


Letölteni ppt "Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is."

Hasonló előadás


Google Hirdetések