Modern többosztályos tanulók: Döntési fa, Véletlen erdő, Előrecsatolt többrétegű neuronháló, Support Vector Machine (SVM), Kernel „trükk”.

Slides:



Advertisements
Hasonló előadás
NEURONHÁLÓK.
Advertisements

Készítette: Kosztyán Zsolt Tibor
Lineáris regressziós MODELLEK
Események formális leírása, műveletek
Készítette: Kosztyán Zsolt Tibor
4. Előadás: A mohó algoritmus
GÉPI TANULÁS (MACHINE LEARNING)
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
IRE 8 /38/ 1 Óbudai Egyetem, NIK Dr. Kutor László2011. TÁMOP – I ntelligens R endszerek E lmélete 8.
Kötelező alapkérdések
Kalman-féle rendszer definíció
Híranyagok tömörítése
Illés Tibor – Hálózati folyamok
SAS Enterprise Miner 2. gyakorlat
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Lineáris és nemlineáris regressziók, logisztikus regresszió
Gépi tanulási módszerek
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Rangsorolás tanulása ápr. 24..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Mesterséges neuronhálózatok
Lineáris programozás Modellalkotás Grafikus megoldás Feladattípusok
Előadó: Prof. Dr. Besenyei Lajos
A digitális számítás elmélete
Szűrés és konvolúció Vámossy Zoltán 2004
Differenciál számítás
Matematika III. előadások MINB083, MILB083
Online hasonlóságelemzések: Online hasonlóságelemzések: Tapasztalatok (kukorica) hozamfüggvények levezetése kapcsán Pitlik László, SZIE Gödöllő (Forrás:
Játékelméleti alapfogalmak előadás
Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
Véletlenszám generátorok
Textúra elemzés szupport vektor géppel
Lénárt Szabolcs Páll Boglárka
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Gazdaságstatisztika 11. előadás.
Többváltozós adatelemzés
Többváltozós adatelemzés
Két kvantitatív változó kapcsolatának vizsgálata
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Részecskenyom analízis és osztályozás Pálfalvi József MSc, Intelligens Rendszerek, Önálló labor 1.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
1. MATEMATIKA ELŐADÁS Halmazok, Függvények.
Algoritmizálás, adatmodellezés tanítása 8. előadás.
előadások, konzultációk
A folytonosság Digitális tananyag.
Valószínűségszámítás II.
Nagy Szilvia 7. Lineáris blokk-kódok
Megerősítéses tanulás 8. előadás
Szabadkai Műszaki Szakfőiskola 1. A neuron modellje a következő 3 elemből áll: 1. A szinapszisok halmaza amelyekkel a neuronok egymáshoz vannak kapcsolva.
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
SVM, kernel módszerek Szabó Zoltán. Tartalomjegyzék Példák, szemlélet Definíciók: –margin, support vektor –pozitív definit, Gram-mtx, kernel –RKHS, feature.
Példa fogalom tanulására
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
Gépi tanulási módszerek
Mesterséges Neurális Hálózatok 3. előadás
HÁLÓZAT Maximális folyam, minimális vágás
SQL aggregálás, csoportosítás és összekapcsolás Adatbázisok 1.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Regresszió, Mesterséges neuronhálók márc. 2.
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Szupportvektor-gépek A diák többsége innen származik: csd
A mesterséges neuronhálók alapjai
Visszacsatolt (rekurrens) neuronhálók
A perceptron neurális modell és tanítása
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Modern többosztályos tanulók: Döntési fa, Véletlen erdő, Előrecsatolt többrétegű neuronháló, Support Vector Machine (SVM), Kernel „trükk”.

Döntési fák Az egyes attribútumok értékei alapján a mintákat hierarchikusan csoportosítjuk A levelek: osztálycímkék Attribútumok: binárisak felsorolás típusúak valósak (ekkor intervallumokra kell felbontani az értelmezési tartományt) nem 1300-1600 kék diesel 3-6 Japán 3. igen 1600 felett piros 6-10 2. fehér Németo. 1. Jól eladható cm3 Szín Motor Kor Gyártás helye

Gyökér  levél út: attribútumtesztekre vonatkozó konjunkció Teljes döntési fa: ezen konjunkciók diszjunkciója Sokféle fa elképzelhető, triviális megoldás: olyan döntési fa, amelynél minden példához önálló bejárási út vezet A jó döntési fa: példákkal konzisztens, „tömör” leírás – lehető legkevesebb attr. teszttel döntésre jutunk A fő kérdés: hogyan válasszuk meg a tesztattribútumot egy csúcspontban? ID3 algoritmus: mohó módon építi a fát a gyökértől, nincs visszalépés, változtatás, stb. az aktuális csomópontban azt az A attribútumot választja, amelyre az ún. információnyereség (G) (v. előny) (information gain) maximális (S az elágazáshoz tartozó példahalmaz):

Túlilleszkedés előfordulhat az Information Gain azokat az attribútumokat preferálja, melyek sok lehetséges értékkel rendelkeznek. Helyette használatos az ún. Gain Ratio (C4.5): Más típusú túltanulás abból ered, hogy túl kevés tanító példával rendelkezünk túl sok attribútum mellett, és így egy-egy példára fog egy-egy ág illeszkedni. A döntési fa nyesése: 1. Heurisztikus módszerekkel: például a levélhez tartozó adatok példányszámára előírva egy minimális küszöböt 2. Egy „validation” (ellenőrző) adathalmazzal teszteljük a túltanulást: addig vágunk lentről felfelé, amíg a validációs halmazon tesztelve jobb eredményt kapunk. Döntési fa tesztje: az output egy osztálycímke, ami az adott attribútumsorozathoz tartozó levélhez tartozó leggyakoribb osztálycímke osztálycímke eloszlás

Bagging döntési fákkal

Véletlen erdők Leo Breiman, Random Forests, Machine Learning, 45, 5-32, 2001 Képezünk valahány döntési fát úgy, hogy bootstrapping-gal tanulóadatbázisokat képezünk Faépítésnél az attribútum választáskor a lehetséges attribútumhalmazt megszorítjuk egy jóval kisebb méretűre (véletlenszerű választással). (utána a max. Inf. G.-t vesszük) Vágást nem alkalmazunk a fákon

Általában nagy számú véletlen fát generálunk. Teszt: mindegyik fa 1 szavazattal. A RF hatékonysága a következőkön múlik: generált fák számán (ált. ha több fa szavaz, javul az eredmény) generált fák közötti korreláción (ha nő a fák közötti korreláció, az eredmény romlik) a fák számát növelve a korreláció is nő A véletlen attribútumok számának növelésével a fák közti korreláció nő van egy „egyensúlyi helyzet”, amikor az adott feladatra a fák száma, és az egyes csomópontoknál választásra használt attribútumok száma optimális Mennyi fa, mennyi attribútum? --> “validation set”

Előrecsatolt többrétegű neuronháló Elnevezések: ANN: Artificial Neural Network MLP: Multi-Layer Perceptron Feed-Forward Neural Network Nem részletezzük nagyon, több előadáson is szerepelt már Egy neuron modellje (φ ún. aktivációs fgv.):

Előrecsatolt háló Tanítása általában gradiens módszerrel inkrementálisan (back-propagation) van jó pár más módszer is (kötegelt, momentum tag, kvázi-Newton módszerek, stb.) Aktivációs függvények: közönséges lineáris, plusz még:

Hány réteg, hány neuron? --> „validation set” Változatok: y=F(x) (ahol F-et átviteli fgv.-nek nevezzük), sokféle átviteli fgv. adható meg. Skalárszorzat alapú, ami már volt Távolságalapú Vegyes Stb., bővebben: Duch, Jankowsky: Survey of Neural Transfer Functions visszacsatolt hálók: (elegendő tanítóadat esetén) az adatsor időbeli lefolyását is tanulja. Az előző output értékek vannak visszacsatolva valamely réteg bemenetére. Pl.:

Reprezentációs képesség: Használat: regresszióra (lineáris aktivációs fgv.-nyel az output rétegben) osztályozásra (output rétegben minden osztálynak megfelel egy neuron, melynek 1 a kimeneti értéke osztályhoz tartozó adatra, egyébként 0) Reprezentációs képesség: Egy 2 rétegű MLP-vel tetszőleges folytonos függvény tetszőlegesen kis hibával közelíthető.

Autoencoder Neural Network Tömörítésre; egyosztályos feladatokra

RBN: Radial Basis (Function) Network Egy példa távolság-alapú aktivációs fgv.-re

Többféle stratégiát dolgoztak ki erre a tanítási feladatra Optimalizálandó: az alapfgv-ek száma (m) (belső neuronok száma) az alapfgv-ek középpontja (xk) és szélessége (σk) az alapfgv-ek súlya (wk) Többféle stratégiát dolgoztak ki erre a tanítási feladatra pl. akár genetikus algoritmus a részletekbe nem megyünk bele

SVM: Support Vector Machine Alapfeladat (bináris): két ponthalmazt válaszunk el olyan hipersíkkal, amelyikhez maximális margó tartozik. Első közelítésben feltesszük, hogy az adatok lineárisan szeparálhatók. Elég sok megoldás (hipersík) létezik a lineáris szeparációra. Olyan megoldást keresünk, amikor az ún. margó szélessége (m) maximális. Class 2 m Class 1

„Lemma”: Az origó és a wtx=k hipersík közötti távolság k/||w||. (Biz:HF.) Ha b értékét úgy választjuk meg, hogy a +1 osztálycímkéjű, margón lévő adatokra: a -1 címkésre pedig: (vagy fordítva, mindegy,) akkor a maximalizálandó margóméret: Class 2 m Class 1

Így, az alapfeladat: Annyit jegyzünk meg, hogy Lagrange szorzókat bevezetve a következő problémára fogalmazható át a feladat: Irodalomról az előadónál lehet érdeklődni :), egy másik kurzus tárgya ez. Lényeges: a duális feladatban csak skaláris szorzatok szerepelnek. Ez egy kvadratikus optimalizálási feladat, így a globális optimumot találjuk meg garantáltan.

Soft-Margin SVM Ha megengedünk valamennyi hibát a szeparáció során. Class 1 Class 2

Minimalizálandó: itt C egy súlyozó paraméter, amely megadja, a margó és a hibaösszeg arányos súlyát az optimalizáláshoz. A minimalizáláshoz tartozó feltétel: Ez a feladat szintén egy duális Lagrange-szorzós feladatra vezet, amit itt nem ismertetünk (egy másik kurzus tárgya). Ebben a duális problémában is csak skaláris szorzatok szerepelnek.

„Kernel trükk” Eddig csak hipersíkokat vettünk számításba, mint lehetséges döntési felületeket. Lehet-e általánosítani? Transzformáljunk minden xi vektort egy magasabb dimenziós térebe, és ott keressünk döntési hipersíkot. Fogalmak: Input tér: az eredeti xi pontok tere Jellemző tér: a f(xi) vektorok transzf. utáni magasabb dimenziós tere f( ) f( ) f( ) f( ) f( ) f(.) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) Feature space Input space

A nagyobb dimenziós térbe leképező fgv. sem lehet akármilyen: Kernel trükk: olyan problémáknál, melyeknél a változók skaláris szorzata szerepel csak, a skaláris szorzatot lecserélhetjük a nagyobb dimenziós térben vett skaláris szorzatra. Ennek (a nagyobb dimenziós térben vett skaláris szorzatnak) a kiszámításához nincsen szükség a nagyobb dimenziós térbe leképező függvényre (Φ(x)), csak a nagyobb dimenziós térben vett skalárszorzatra K(Φ(x), Φ(y)). A nagyobb dimenziós térbe leképező fgv. sem lehet akármilyen: Teljesülnie kell a köv. feltételeknek a K(Φ(x), Φ(y)) (magasabb dimenziós térbeli skalárszorzat) -ra nézve: szimmetrikus folytonos pozitív definit (Mercel Kernel) Ekkor a Φ(x) rendelkezik pl. azzal a tulajdonsággal, hogy lineáris leképezés-tartó.

Tehát, az eredeti feladat helyett vehetünk egy „magasabb dimenzióban megfogalmazott” feladatot a kernel trükk alkalmazásával, ezáltal, az eredeti térben egy nemlineáris döntési felületet kapunk. Különböző Mercel kernelek:

További témák η-SVM Support Vector Regression