Szabó Attila, 20071 Cross-entrópia alkalmazása a megerősítéses tanulásban.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Események formális leírása, műveletek
I. előadás.
2006. február 17. Valószínűségszámítás és statisztika II. Telefonos feladat Egy kalapban van két korong, az egyiknek mindkét oldala piros, a másiknak.
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
KG Bevezetés a Szoftver-ergonómiába 2. Tervezési és vizsgálati módszerek 2.3. Bejárási módszerek (walk-through)
Számítógépes algebrai problémák a geodéziában
INFOÉRA Kombinatorikai algoritmusok (Horváth Gyula és Szlávi Péter előadásai felhasználásával) Juhász István-Zsakó László: Informatikai.
INFOÉRA 2006 Kombinatorika
Mozgó Objektumok Detektálása és Követése Robotkamera Segítségével
Mérés és adatgyűjtés laboratóriumi gyakorlat
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Mérési pontosság (hőmérő)
Mesterséges neuronhálózatok
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Szállítási feladatok Optimalitás vizsgálat
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Matematikai modellek a termelés tervezésében és irányításában
Miskolci Egyetem Gépészmérnöki és Informatikai Kar Alkalmazott Informatikai Tanszék 2013/14 1. félév 4. Előadás Dr. Kulcsár Gyula egyetemi docens.
III. előadás.
Regresszióanalízis 10. gyakorlat.
Készítette: Kosztyán Zsolt Tibor
Hálótervezés Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
Koordináta-geometria
Intelligens Felderítő Robotok
Minőségtechnikák I. (Megbízhatóság)
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Lineáris programozás.
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemen ő adatokon a legjobban.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Gazdaságstatisztika 11. előadás.
Fraktálok Szirmay-Kalos László.
Alapsokaság (populáció)
Alapfogalmak.
LKG-Moodle A LKG ToP ( T áv O ktatási P ortál) működéséről avagy bevezetés a MOODLE e-oktatási rendszer használatába Bánhegyesi Zoltán.
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
Informatika bemeneti mérés
A KOMPLEX DÖNTÉSI MODELL MATEMATIKAI ÖSSZEFÜGGÉSRENDSZERE Hanyecz Lajos.
I. előadás.
Lineáris algebra.
Dr. Takács Attila – BME Geotechnikai Tanszék
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Nagy Szilvia 7. Lineáris blokk-kódok
Menetrend optimalizálása genetikus algoritmussal
Szimuláció.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
Közúti és Vasúti Járművek Tanszék. A ciklusidők meghatározása az elhasználódás folyamata alapján Az elhasználódás folyamata alapján kialakított ciklusrendhez.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
Gépi tanulási módszerek
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
Kinetikus Monte Carlo  Bevezetés  Véletlen bolyongás  Residence time algoritmus.
Szimuláció. Mi a szimuláció? A szimuláció a legáltalánosabb értelemben a megismerés egyik fajtája A megismerés a tudás megszerzése vagy annak folyamata.
Genetikus algoritmusok
Műholdas helymeghatározás 6. előadás
Numerikus differenciálás és integrálás
I. Előadás bgk. uni-obuda
Nem módosítható keresések
Bunkóczi László, Dr.Pitlik László, Pető István, Szűcs Imre
Algoritmusok és Adatszerkezetek I.
Absztrakt problémák Q  I  S, az absztrakt probléma kétváltozós reláció az esetek (I) és a megoldások (S) halmazán Példa: legrövidebb út Eset: gráf és.
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban

Szabó Attila, Milyen feladatot old meg? Ritka esetek szimulációja megbízhatóság-vizsgálat telekommunikációs rendszerek teljesítményének vizsgálata Kombinatorikus optimalizálás mire optimalizál? mi köze ennek a tanuláshoz?

Szabó Attila, Ritka esetek szimulációja „...a varázslók kikalkulálták, hogy az egy-a-millióhoz esélyek tízből kilencszer bejönnek.” Terry Pratchett nagy rendszerek esetén adható sztochasztikus modell paraméteres sűrűségfüggvény (valamilyen f(·,v)) ritka eset: P(x) < 0,00001 – ezeknek a valószínűségét becsli a CE ehhez v választásával teremthetők olyan „körülmények”, ahol a ritka esetek valószínűbben következnek be ezzel csökkenthető az elvégzendő trajektóriák száma a sűrűségfüggvények miatt jelenik meg a Kullback-Leibler távolság, más néven cross-entrópia g, h sűrűségfüggvények Kullback-Leibler távolsága:

Szabó Attila, Kombinatorikus optimalizálási probléma Minek a kombinációja? Pl.: utazó ügynök probléma – a városok mely rendezett kombinációja (permutációja) adja legolcsóbb utat? egy stratégia (policy) megadható szabályok kombinációjaként Mire optimalizál? utazó ügynök: utak (gráf éleinek össz-) költségére Pac-Man: elért pontok számára általános esetben valamely feladattól függő értékelő függvényre A kombinatorikus optimalizálást visszavezeti az előző feladtra kitalált algoritmusra („szobatiszta”, diszkrét feladat → sztochasztikus probléma)

Szabó Attila, Milyen körülmények közt jó? „Akinek kalapácsa van, mindent szögnek néz.” szükség van egy megfelelő értékelő függvényre az eltérés az optimumtól jó lehet, de mindig ismerjük az optimumot? értelmezhető egyáltalán optimum? pl.: bridge licit közben átlagosan 6-7 egyszerű jelzésből kell a lehető legjobban meghatározni az 52 kártyalap elhelyezkedését négy játékos, ezen belül két konkuráló csapat esetén rendelkezésünkre áll (megkonstruálható) egy elemi eszköztár, ami kombinálásával értelmezhető stratégiát kapunk pl. adott helyzetben egyértelmű, de legalább eldönthető a következő lépés

Szabó Attila, Egyszerű példa y: n-dimenziós bináris vektor ismeretlen értékekkel a koordináták független, Bernoulli eloszlásúak (P(k=1)=p, P(k=0)=1-p) adott S, ami bármely x-re megadja x és y koordinátánkénti eltérését: adjunk véletlen kereső algoritmust, ami S maximalizálásával visszaadja y-t

Szabó Attila, A módszer a CE egy iteratív algoritmus iterációnként a következőt hajtjuk végre: kísérletezünk valamely véletlenszerű módszer segítségével, és kiértékeljük az eredményeket javítjuk a módszer paramétereit a legsikeresebb kísérletek segítségével, így a következő iterációban „ügyesebben” próbálkozunk

Szabó Attila, Kísérletezés p vektor megadja, hogy a kísérletekben az egyes koordináták mekkora valószínűséggel vesznek fel értékül 1-et kezdetben p=(1/2,...,1/2) elvégzünk N kísérletet és a kapott véletlen vektorokat kiértékeljük: kiválasztjuk a ρ·N db legjobbat (általában 0,02 ≤ ρ ≤ 0,1) ez az „elit halmaz”

Szabó Attila, Javítás A legjobb ρ·N kísérletből koordinátánként tapasztalati átlagot számítunk – legyen ezek vektora z első lehetőség: p’ = z másik lehetőség: p’ = α ·p + (1- α) ·z, 0 ≤α ≤1 Az iteráció terminál, ha az elit halmaz legkisebb elemének értéke nem változik

Szabó Attila, Eredmény az algoritmus bizonyos feltételek mellett 1 valószínűséggel konvergál 10 dimenziós példára a futás eredménye y=(1,1,1,1,1,0,0,0,0,0) esetén: az elit halmaz legkisebb elemének értéke a t. iterációban A p vektor a t. iterációban

Szabó Attila, Matematikai háttér „Ha nem tudod megcsinálni Fortranban, csináld assemblyben. Ha nem tudod megcsinálni assemblyben, nem éri meg foglalkozni vele.” Ed Post: A Valódi Programozó Nehéz... ismerni kellene az eredeti feladatot (ritka esetek szimulációja) a feladat formalizációját (sztochasztikus modell, eloszlások, stb.) a felhasznált módszereket (importance sampling) a mi szemszögünkből nézve általánosítani kell ezektől eltekintve a maximalizálandó függvény meghatározása „csak” némi trükköt igényel

Szabó Attila, Egy kihívás: Pac-Man Jutalom: elfogyasztott pontok......és szörnyek Kombinálandó dolgok akció modul- (ToDot, FromGhost) feltétel (NearestDot<5) párok: „if [feltétel] then do [akció]” sémára Pac-Man feladata: 30, különböző prioritású szabály-hely lehető legjobb feltöltése a rendelkezésre álló, fenti alakú szabályokkal

Szabó Attila, A tanulás Egyrészt tanulja, hogy milyen valószínűséggel töltse fel a rendelkezésre álló helyeket (30 dimenziós vektor) nem feltétlenül van szükség 30 szabályra Másrészt minden helyre tanulja, hogy melyik szabályt érdemes felvennie (30 db K dimenziós vektor, ahol K a választható szabályok száma) ha egy szabály-hely üresen marad, akkor az ottani K dim. vektor elhagyható legfeljebb m+m·K paramétert optimizál előre kódolt szabályok esetén m=30, K=40, iterációnként 300 játékot játszva véletlenszerűen generált szabályok esetén m=90, K=100, iterációnként 1000 játék

Szabó Attila, Az eredmények CE: 300 iterációból 10 stratégia, egyenként 50 játékot játszott fő hátrány: nem sikerül mind a négy szellemet megenni, amikor kékre váltanak ez 4·1600 pont veszteség: ezen felül tökéletesen játszik

Szabó Attila, Felhasznált anyagok: Szita István, Lőrincz András : „Learning to play Pac-Man using low complexity rule-based policies”