Megerősítéses tanulás 8. előadás

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Lineáris regressziós MODELLEK
Készítette: Kosztyán Zsolt Tibor
Programozási tételek, és „négyzetes” rendezések
Matematika és Tánc Felkészítő tanár: Komáromi Annamária
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Számítógépes algebrai problémák a geodéziában
Rekurzió (Horváth Gyula és Szlávi Péter előadásai felhasználásával)
A konformációs entrópia becslése Gauss-keverék függvények segítségével
Euklidészi gyűrűk Definíció.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Programozási alapismeretek 8. előadás. ELTE 2/  További programozási tételek További programozási tételek 
Lineáris és nemlineáris regressziók, logisztikus regresszió
Gépi tanulási módszerek
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Becsléselméleti ismétlés
Mesterséges neuronhálózatok
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Papp Róbert, Blaskovics Viktor, Hantos Norbert
A digitális számítás elmélete
Év eleji információk Előadó: Hosszú Ferenc II. em Konzultáció: Szerda 9:50 – 10:35 II. em
6. SZÁMELMÉLET 6.1. Oszthatóság
Lineáris egyenletrendszerek megoldása
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Játékelméleti alapfogalmak előadás
Az Alakfelismerés és gépi tanulás ELEMEI
Matematikai alapok és valószínűségszámítás
Aszexuális, szimpatrikus speciáció
Rekeszív meghatározása tüdőröntgenen
Lineáris programozás.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
Többváltozós adatelemzés
Alapsokaság (populáció)
Lineáris regresszió.
Többtényezős ANOVA.
Programozási alapismeretek 11. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 11.2/ Tartalom  Rendezési.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Lineáris algebra.
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Dr. Bánkuti Gyöngyi Klingné Takács Anna
Az internetes keresési módszerek
Mesterséges Intelligencia 1. Eddig a környezet teljesen megfigyelhető és determinisztikus volt, az ágens tisztában volt minden cselekvésének következményével.
Mikroökonómia gyakorlat
Business Mathematics A legrövidebb út.
előadások, konzultációk
Valószínűségszámítás II.
Programozási alapismeretek 8. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 8.2/  További programozási.
WP-Dyna: tervezés és megerősítéses tanulás jól tervezhető környezetekben Szita István és Takács Bálint ELTE TTK témavezető: dr. Lőrincz András Információs.
előadások, konzultációk
1 Megerősítéses tanulás 7. előadás Szita István, Lőrincz András.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
1 Megerősítéses tanulás 10. előadás Szita István, Lőrincz András.

Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Gépi tanulási módszerek
1 Megerősítéses tanulás 4. előadás Szita István, Lőrincz András.
Megerősítéses tanulás 5. előadás
Megerősítéses tanulás 2. előadás
1 Megerősítéses tanulás 9. előadás Szita István, Lőrincz András.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Tanulás az idegrendszerben Structure – Dynamics – Implementation – Algorithm – Computation - Function.
Technológiai folyamatok optimalizálása Dinamikus programozás Ráduly Botond Mészáros Sándor.
Kontinuum modellek 1.  Bevezetés a kontinuum modellekbe  Numerikus számolás alapjai.
Mesterséges intelligencia
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Gazdaságinformatikus MSc
A perceptron neurális modell és tanítása
Előadás másolata:

Megerősítéses tanulás 8. előadás Szita István, Lőrincz András

Ismétlés: miért jó a függvényapproximátor? ha túl nagy az állapottér nincs időnk minden egyes állapot értékét becsülni csak egy töredékében járunk egyáltalán általánosítani kell kevés mintapontból minden állapotra tudunk valamit mondani kevesebb paramétert kell hangolni hagyományos megoldás: függvényillesztés (approximáció)

Függvényillesztés a lehető legjobban közelítő függvény függvényérték néhány pontban a lehető legjobban közelítő függvény

Függvényillesztés formálisan adatpontok: célértékek: függvénycsalád: cél: találjunk olyan *-t, hogy legyen minden i helyen mi a függvénycsalád, mi  ? pl: neuronhálózatok: ha n neuronja van,  n2-dimenziós vektor, ami leírja az egyes neuronok közötti kapcsolatok erősségét  *: az a súlyvektor, amivel a neuronhálózat a legjobban közelíti az yi-ket. megtalálása: súlyvektort hangolgatjuk (pl. backpropagation). nem megyünk bele részletesen – külön óra témája

Függvényilesztés: lineáris függvényapproximátorok egyszerűbb példa: van egy csomó bázisfüggvényünk: a közelítő függvényt ezek lineáris kombinációjaként szeretném előállítani: ekkor tehát  : k-dimenziós vektor, függvénycsalád: a bázisfüggvények lineáris kombinációi mennyire jó a lin. fapp.? attól függ, milyenek a bázisfüggvények

Bázisfüggvények megszabja, milyen módon általánosítunk példák: halmaz karakterisztikus függvénye (pl. körön 1, kívül 0) radiális bázisfv a feladat lényeges jellemzői (pl. sakk: bábuk száma, van-e sakkban a király, üthető-e a királynő/bástya, stb. kulcsszerepe van a feladat megoldhatóságában ezzel mi viszünk be tudást a tanulórendszerbe lineáris bázisfv-knél kellenek még a kettes, hármas, stb kombinációk is

Függvényillesztés még mindig – a módszer minimalizáljuk az eltérést az adatpontok és a becslés között általában négyzetes hiba (könnyű vele számolni) bízunk benne, hogy az adatpontokon kicsi lesz a hiba a többi pontban is kicsi lesz a hiba (jó általánosítás) hogy éppen ezt a hibamrtéket szeretnénk minimalizálni a minimalizálás végrehajtása: gradiensmódszer

Függvényillesztés – a gradiensmódszer J( ) gradiense: a deriváltakból kapott vektor a legmeredekebb növekedés iránya -1-szerese a legmeredekebb csökkenés iránya gradiensmódszer: 0 tetszőleges,  pici ismételjük, míg be nem érünk egy lokális minimumba

Függvényillesztés – a gradiensmódszer mennyire változik f, ha -t picit variálom kiszámolása függ a konkrét függvénycsaládtól neuronhálózatok: a backprop algoritmus mondja meg lineáris: triviálisan kapjuk

RL alkalmazás: fix  stratégia kiértékelése utána használhatom p: súlyozás – a gyakori állapotok értéke jobban számít úgyis mintavételezni fogunk – gyakori állapotokból többet, úgyhogy ezt könnyebb is mintavételezni m darab minta (pl. m lépésen át követem -t)

fix  stratégia kiértékelése online gradiens-számolás: követjük a  stratégiát (ettől online) aktuális állapot: st nem szummázunk, csak az aktuális állapotot vesszük figyelembe következő probléma: nem ismerjük V(st)-t mintavételezzük pl. Monte Carloval: V(st) helyett Rt, E(Rt | st) = V(st) Rt-k független véletlen mennyiségek sztochasztikus gradiensbecslés

fix  stratégia kiértékelése a sztochasztikus gradiensmódszer konvergál, t ! *, ha V mintavételezettjei függetlenek, torzítatlanok (pl. Rt) st-ket a  stratégia alapján választjuk t „szépen” tart 0-hoz kijön a sztochasztikus becslés-tételből

RL+függvényillesztés = sok probléma TD becslés: se nem független, se nem torzítatlan… bizony elképzelhető, hogy nem konvergál ugyanez igaz DP becslésre is: még ha konvergál is: * csak lokális minimum elképzelhető, hogy nagyon rossz közelítése lesz V-nek neuronhálók használata esetén pl. sok a lokális minimum

RL+függvényillesztés = sok probléma nem is biztos, hogy azt minimalizáljuk, amit kellett… döntéskor majd a relatív nagyságok kellenek lehet, hogy a négyzetes hiba pici, de a relatív nagyságok rosszak nem tudunk jobbat… V v

Mit csináljunk a problémákkal? legegyszerűbb: semmit gyakorlatban működik, elmélet meg nem lesz lényegében az összes sikeres RL alkalmazás neuronhlókat használ függvényapproximátorként… megszorítjuk a függvénycsaládot: lineáris fapp-ok bázisfüggvények: tömör jelölés: a gradiens egyszerű: TD becslés:

Lineáris függvényapproximáció lineáris fapp-ra a négyzetes hibafüggvény ( J ) kvadratikus, tehát egyértelmű globális minmuma van megmutatható, hogy a TD módszer is konvergál ha st-ket a  stratégiát követve kapom de nem  *-hoz! ehelyett valami máshoz: t ! 1 erről csak azt tudjuk, hogy nem túl rossz:

egy ellenpélda ha nem -t követem, még mindig elszállhat TD helyett DP (az egyszerűség kedvéért) minden állapot azonos súllyal szerepel nem  szerinti súlyozás 6 állapot, 7 bázisfv (bázisfüggvények: lin. függetlenek)

egy ellenpélda

Optimális stratégia tanulása függvényapproximátorral a problémák csak sokasodnak… a V célfüggvény folyton változik pedig amúgy is csak közelítettük egy ilyen kétszeres közelítést kellene jól eltalálni a fapp-pal… ráadásul nekünk Q(s,a)-t kell közelíteni (hogy tudjunk egyszerűen döntést hozni) S helyett S£A-n illesztünk függvényt probléma: minden lépésben maximális értékű akciót kell keresni a mohó lépésben– ez lépésenként egy maximalizálás probléma: a maximum helye eltolódhat minden a-ra külön fapp – véges sok akcióra ez a legtisztább

Optimális stratégia tanulása TD hiba (Sarsa): TD hiba (Q-learning): paraméter-állítás láttuk, hogy ha nem az aktuális  stratégiát követjük, elszállhat a paraméterbecslés a Q-learning nem az aktuális stratégiát használja! (hanem a mohót) van példa, amire elszáll pedig táblázatos tanulásra a Q-learning konvergenciája volt a legegyszerűbb…

Optimális stratégia tanulása fapp-pal – mit tudunk? nemlineáris fapp (pl. neuronháló): divergálhat lineáris fapp + Q-learning: divergálhat lineáris fapp + Sarsa: korlátos marad nem feltétlenül konvergál egy pontba kóvályoghat egy tartományon belül lineáris fapp + „óvatos” RL algoritmus: konvergens csak bonyolult Sarsa/Q-learning + lineáris fapp speciális bázisfüggvényekkel: konvergens a gyakorlat szempontjából mindegy: mindegyik jól használható

Backgammon (vagy Ostábla)