Neuronhálók tanítási módszerei

Slides:



Advertisements
Hasonló előadás
Melyiket válasszam? Windows VS. Linux Készítette: Uher Bertalan.
Advertisements

TÖMÖRÍTÉS. Fogalma A tömörítés egy olyan eljárás, amelynek segítségével egy fájlból egy kisebb fájl állítható elő. A tömörítési arány függ a fájl típusától,
Irattári és levéltári funkciók a tanúsított szoftverekben Vágujhelyi Ferenc.
ELTINGA és MTA KRTK KTI Horváth Áron április 7. Lakásárak, támogatások és energiahatékonyság.
1 Számítógép Hálózatok A hálózatok kialakulása, alapfogalmak Készítette: Csökmei István Péter ( CsIP ) Szegedi Tudományegyetem Természettudományi Kar levelező.
Energiatakarékos megoldások Név: Szamosi Rozina Felkészítő tanár: Kiss Csaba Iskola: Hernád-Pusztavacs Általános Iskola, Pusztavacsi Tagintézménye Cím:
Informatikai rendszerek általános jellemzői 1.Hierarchikus felépítés Rendszer → alrendszer->... → egyedi komponens 2.Az elemi komponensek halmaza absztrakciófüggő.
Internet tudományos használata
Az új METÁR szabályozás és a biomassza piac
FELVÉTELI TÁJÉKOZTATÓ
Merre tovább magyar mezőgazdaság?
Muraközy Balázs: Mely vállalatok válnak gazellává?
Vezetékes átviteli közegek
Kompetenciamérés a Szakiskolai Fejlesztési Program II. keretében 2007
Szabadkai Műszaki Szakfőiskola
Alhálózat számítás Osztályok Kezdő Kezdete Vége Alapértelmezett CIDR bitek alhálózati maszk megfelelője A /8 B
Zsiros Péter A Bolyai János megyei matematikaverseny feladatsorairól és a javítás egységesítéséről Zsiros Péter
Montázs készítése.
Szupergyors Internet Program (SZIP) Jogi akadálymentesítés megvalósítása: Jogalkotással is támogatjuk a fejlesztéseket dr. Pócza András főosztályvezető.
A CMYK.
Lineáris függvények.
Sz&p prof.
Kockázat és megbízhatóság
Tömörítés.
Becsléselmélet - Konzultáció
Mély neuronhálók és alkalmazásaik
Technológiai folyamatok optimalizálása
Technológiai folyamatok optimalizálása
Algoritmusok és Adatszerkezetek I.
Struktúra predikció ápr. 6.
Kockázat és megbízhatóság
Végeselemes modellezés matematikai alapjai
Monte Carlo integrálás
Rangsorolás tanulása ápr. 13..
Newcomb-paradoxon Előttünk van két doboz, A és B. Ezekbe egy nagyon megbízható jövendőmondó helyezett el pénzt, amihez úgy juthatunk, ha mind a két dobozt.
Technológiai folyamatok optimalizálása
Statisztika 10 évf. 3 osztály 82 tanuló 9 évf. 4+1 osztály 118 tanuló Minden osztályt külön pedagógus javított 8 fő - részben of, ha vállalta.
Visual Studio Code Metrics
Adatbázis-kezelés (PL/SQL)
Innovációs képesség és jólét összefüggései
ADAT ÉS TECHNOLÓGIA ORIENTÁLT MARKETING TEVÉKENYSÉG, VÉGE A MEGÉRZÉSEK ÉS AZ ÉRZELMI ALAPÚ DÖNTÉSHOZATALNAK.
Számításelmélet 4.
Közigazgatási alapvizsga a Probono rendszerben
Kvantitatív módszerek
Business Mathematics
Algoritmusok és Adatszerkezetek I.
Számítógépes Hálózatok
AZ OKOSHÁZAK BEMUTATÁSA
Kóbor Ervin, 10. hét Programozási alapismeretek
Tilk Bence Konzulens: Dr. Horváth Gábor
Tájékoztató az Önkormányzati ASP Projektről
Adatbányászati szemelvények MapReduce környezetben
AVL fák.
Csomagoló Üzemi optimalizáló és Szimulációs rendszer
Új pályainformációs eszközök - filmek
Gauss-eloszlás illesztése adatokra Maximum Likelihood és Bayes-módszer
Vasbeton falvasalás megadása és ellenőrzése EC2 szerint
A számítógép története
Együttes tanulás (Ensemble learning)
9-10.-es bemeneti mérések és a fejlesztő munkánk
Tájékoztató az EPER pályázati folyamatáról
TITKOSÍTÓ ALGORITMUSOK
Mesterséges neuronhálók és alkalmazásaik
Együttes tanulás (Ensemble learning)
További tanítási módszerek
MÉLY NEURONHÁLÓK A tananyag az EFOP
Regularizáció.
Hagyományos megjelenítés
A T-spline felületreprezentáció
Regularizáció A tananyag az EFOP
Előadás másolata:

Neuronhálók tanítási módszerei

Backpropagation és alternatívái Messze a legnépszerűbb, legelterjedtebb tanító algoritmus Egyszerű alapelv, könnyű implementálni Csak a derivált kell hozzá Batch módban is használható, így nem muszáj az összes tanító adatot egyszerre betölteni, manipulálni Az alap backpropagation algoritmusnak van több finomítása Alapvetően a derivált és a learning rate számítását próbálják finomítani Régebben: Momentum módszer, Quickprop, resilient backprop, … Újabban: Adagrad, Adadelta, Adam, … Fejlettebb optimalizálási technikák – mit várunk tőlük? Globális optimum – ez nem fog menni… Jobb lokális optimum Gyorsabb konvergencia Kevesebb kézileg állítandó meta-paraméter (pl. learning rate és felezése)

A momentum módszer Emlékezzünk vissza, hogy hogyan változtattuk a súlyokat: Most ezt kiegészítjük egy „momentum” taggal: Ahol a „momentum faktor” egy 0 és 1 közötti érték Ennek az a hatása, hogy időben elsimítja a Δ értéket, „lendületet” ad neki Átsegíthet kisebb lokális optimumokon

Adagrad Minden egyes paraméterhez külön learning rate A learning rate-et leosztja az eddigi deriváltak négyzetes átlagával A nagyobb deriváltakat produkáló paraméterekhez kisebb learning rate A kisebb deriváltúakhoz nagyobb learning rate fog tartozni Előnyök: Kiegyensúlyozza az egyes paraméterek Δ értékének nagyságát Nem kell menet közben állítani a learning rate-et, magát szabályozza Hátrány: Mivel az összes korábbi deriváltat összeadja, a learning rate túl gyorsan elfogy Gyakori tapasztalat, hogy lassabban konvergál, illetve kicsit rosszabb eredményt ad, mint egy jól beállított backprop momentummal

Adadelta, Adam, … Adadelta: az összegzésnél csak a k legutóbbi deltát, vagy az összeset, de exponenciálisan csökkenő súllyal veszi figyelembe Ezzel kiküszöböli az Adagrad túl gyorsan elfogyó learning rate-jét Adam: Szintén futó átlagot számol, de nem csak az átlagot, hanem a szórást is nézi Vannak még újabb finomítások is: AdaMax, Nadam, Eve, …

Kifinomultabb optimalizálási módszerek Newton-módszer és rokonai Kell hozzá a második derivált is  sokváltozós esetben a Hesse-mátrix n változó estén ez nxn-es Neuronhálók esetén ez túl nagy Én invertálni is kellene minden iterációs lépésben… Kvázi Newton-módszerek – csak közelítik a Hesse-mátrixot Pl. L-BFGS Konjugált gradiens módszerek – szintén elkerülik a Hesse-mátrix kiszámítását és invertálását Adott irányban line search + mindig az előző irányokra merőlegesen lép n-dimenzós kvadratikus felület optimumát n lépésben megtalálja Nem kvadratikus felület – a fentit kell ismételgetni

Kifinomultabb optimalizálási módszerek Összehasonlító kísérletekben általában a backpropagation hasonlóan, vagy csak kicsit rosszabbul teljesít Érdemes lehet a két módszercsaládot kombinálni, pl. a tanulás elején a hiba gyorsan csökkenthető backpropagationnal, a végén pedig be lehet vetni a konjugált gradienst, vagy a kvázi-Newton módszereket Általános vélemény jelenleg: Annyival bonyolultabbak matematikailag és implementációs szempontból, hogy nem éri meg az a kis javulás/gyorsulás, mit bizonyos feladatokban adnak

A korlátos Boltzmann-gép (RBM) Hasonlít a neuronháló egy rétegpárjára - de valós helyett bináris értékek Tanítás: kontrasztív divergencia (CD) - felügyelet nélküli módszer (nincsenek osztálycímkék) - az input rekonstrukciójára törekszik a rejtett réteg alapján - tulajdonképpen a Maximum Likelihood célfüggvény közelítése - ugyanúgy iteratív, mint a backpropagation

Deep Belief Network - betanítás: CD-algoritmus rétegenként Deep belief network: korlátos Boltzmann-gépek egymáson - betanítás: CD-algoritmus rétegenként

Konvertálás mély neuronhálóvá A DBN-t eredetileg a mély hálók inicializálására („előtanítás”) javasolták Előtanítás után a DBN konvertálható standard mély hálóvá RBM-ek lecserélése hagyományos neuronokra (súlyok átvitele) egy legfelső, osztályokhoz igazított softmax réteg hozzáadása Innentől már a backpropagation tanítás is hatékony A korai cikkekben DBN-előtanítással oldották meg a mély hálók nehéz backprop-os betanításának a problémáját Jelenlegi álláspont szerint ez már fölösleges, mert Sokkal több tanítóadatunk van Új aktivációs függvények jelentek meg Új súly-inicializálási sémák, batch normalization is segít

DBN-ek jelenlegi alkalmazása A DBN-ek CD-kritériummal való tanítása felügyelet nélküli tanítás Továbbra is lehet értelme a DBN-előtanításnak, ha rengeteg címkézetlen adatunk van, és csak kevés címkézett Az RBM két rétege köz szimmetrikus a kapcsolat Ezért a rejtett rétegből vissza lehet generálni az inputot Könnyű vizualizálni, hogy milyen rejtett reprezentációt alakított ki

Mély hálók felügyelet nélküli tanítása A standard mély hálókat is taníthatjuk felügyelet nélkül Ilyenkor a megtanulandó címkék megegyeznek az inputtal Ez az ún. autoencoder háló Általában homokóra alakú, a középső az ún. „bottleneck” réteg Mire használható Rákényszeríti a hálót, hogy egy tömör reprezentációt találjon az inputhoz Használhatjuk jellemzőtér-redukcióra (ha a bottleneck kisebb, mint az input réteg) Vagy felügyelet nélküli előtanításra (ha sok címkézetlen adatunk van, és kevés címkézett)