Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is.

Automatikus modellalkotás PDDL tanulás

Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is megjelenhetnek, változhatnak a feltételek Cél nem mindig fogalmazható meg egyértelműen, esetleg csak a cselekvések közben tisztázódik Megoldás: kiegészíteni tanulással!

PDDL tanulás I. Az akciók megfeleltethetőek cselekvéseknek, az aktuális predikátumok összességei állapotoknak Ha a cél nem tiszta, egyfajta megerősítést/visszajelzést akkor is elvárhatunk Gyakran egyszerűbb megerősítések formájában megfogalmazni a célt, mint az explicit megfogalmazás

PDDL tanulás II. Q-tanulással a megerősítések alapján az adott állapotban a cselekvésekhez hasznossági értékeket tudunk rendelni Ezeket felhasználhatjuk tervkészítéshez (metrika) Illetve további következtetéseket vonhatunk le: Összetartozó cselekvések Cselekvések feltételeinek kiegészítése Cél pontosabb megfogalmazása

Egyszerű példa Különböző sorszámú dobozok, különböző súlyú golyók Ágens célja a golyók növekvő súly szerinti elhelyezése Visszajelzés: a megfelelő helyen levő golyók száma Első próbálkozás: egyszerű RAK cselekvés (szabad helyre rak egy még fel nem használt golyót)

Eredmény rak golyo1 doboz1, 1.92 rak golyo3 doboz1, 0.36 rak golyo1 doboz3, 0.36 rak golyo2 doboz2, 1.70 rak golyo2 doboz1, 0.37 rak golyo1 doboz2, 0.36 rak golyo3 doboz2, 0.36 rak golyo2 doboz3, 0.40 rak golyo3 doboz3, 1.80

Egyszerű példa másként A több különböző cselekvés, attól függően, hogy hova rakjuk a golyót (elejére, végére, középre), és a szomszédai alapján megfelelő-e a súlybeli sorrend (jól raktuk-e, ha szomszédai szabadok, vagy sem) A továbbiakban a cselekvéseket nem különböztetjük meg paramétereiben

Tisztán felfedező, 0.2 bátorsági faktor

Tisztán felfedező, 0.6 bátorsági faktor

Mohó, 0.98 felfedezői faktor

Mohó, 0.933 felfedezői faktor

5 golyó, felfedező, 0.2 bátorsági faktor (2 perc futási idő)

5 golyó, mohó 0.933 tanulási faktor (7 sec futási idő)

“Egyszerű rak, helyesen rak” kisérlet I. (egyszerű megerősítés)

“Egyszerű rak, helyesen rak” kisérlet II. (inv. száma megerősítés)

Kisérlet konklúziói Hiába volt helyesebb a JólRak cselekvés, az eredmény nem ezt bizonyította Hiába változtattunk a megerősítésen a JólRak javára, nem javult a helyzet Hibás kisérlet? NEM! A feltétel nélküli Rak megtanulta helyesen rakni a kisérlet közben a golyókat! A JólRak cselekvés pontosabb előfeltételei sem jelentettek számára tényleges előnyt

Hova tovább? Felfedező tanulás helyes, de lassú Mohó tanulás gyors, de szuboptimális DE! Mohó tanulással így is elég jó eredményeket lehet kapni, akár tervkészítőként is használható Felfedező tanulással pontosabb következtetéseket lehet levonni, ezzel a PDDL modell átalakítására van lehetőségünk: – Csökkenthetjük a komplexitást – Pontosabbá tehetjük a modellt – Helyesebben fogalmazhatjuk meg a célokat

Köszönöm a figyelmet! Készítette: Láng Péter

Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is.

Hasonló előadás

Az előadások a következő témára: "Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is.

Hasonló előadás

Az előadások a következő témára: "Automatikus modellalkotás PDDL tanulás. Problémák PDDL leírásokkal Statikus, a környezet (domain) változását nem képes figyelembe venni Új igények is."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés