Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Lineáris regressziós MODELLEK
Események formális leírása, műveletek
I. előadás.
Másodfokú egyenlőtlenségek
Adatelemzés számítógéppel
Fejmozgás alapú gesztusok felismerése
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Digitális képanalízis
SAS Enterprise Miner 2. gyakorlat
Operációkutatás szeptember 18 –október 2.
DIFFERENCIÁLSZÁMÍTÁS ALKALMAZÁSA
Függvénytranszformációk
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Naïve Bayes, HMM.
Modern többosztályos tanulók: Döntési fa, Véletlen erdő, Előrecsatolt többrétegű neuronháló, Support Vector Machine (SVM), Kernel „trükk”.
Lineáris és nemlineáris regressziók, logisztikus regresszió
Távolság alapú eljárások Hierarchikus eljárások
Gépi tanulási módszerek
Gépi tanulási módszerek febr. 20.
Rangsorolás tanulása ápr. 24..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Előadó: Prof. Dr. Besenyei Lajos
Optimalizálási módszerek 2. Konvex halmazok
A digitális számítás elmélete
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Bizonytalanság melletti döntések
Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Függvények.
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Textúra elemzés szupport vektor géppel
Gépi tanulás Tanuló ágens, döntési fák, általános logikai leirások tanulása.
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
$ Információ Következmény Döntés Statisztikai X.  Gyakorlati problémák megoldásának alapja  Elemzéseink célja és eredménye  Központi szerep az egyén.
Többváltozós adatelemzés
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
Következtető statisztika 9.
Alapsokaság (populáció)
Két kvantitatív változó kapcsolatának vizsgálata
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
I. előadás.
MI 2003/ Mi lenne a b legjobb választása? Statisztikai eljárásoknál az un. Fisher féle lineáris diszkriminancia függvény adja a legjobb szétválasztási.
Mikroökonómia gyakorlat
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
x1 xi 10.Szemnagyság: A szemnagyság megadásának nehézségei
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Struktúra predikció Struktúra lehet Felügyelt tanulási probléma
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
OPERÁCIÓKUTATÁS TÖBBCÉLÚ PROGRAMOZÁS. Operáció kutatás Több célú programozás A * x  b C T * x = max, ahol x  0. Alap összefüggés: C T 1 * x = max C.
Gépi tanulási módszerek
HÁLÓZAT Maximális folyam, minimális vágás
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Mesterséges intelligencia
Gépi tanulási módszerek febr. 18.
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Rangsoroláson és pontozáson alapuló komplex mutatók
A mesterséges neuronhálók alapjai
A perceptron neurális modell és tanítása
Előadás másolata:

Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások

K-NN többosztályos problémákban 1-NN: a tanító adatbázis pontjaival összehasonlítjuk a teszt vektort. Amelyikhez legközelebb van, annak az osztálycímkéjét rendeljük a teszt vektorhoz. 1-NN esetében, a bináris problémákra származtathatunk egy valószínűségi értéket, amit rangsorolásra használhatunk: dp/(dp+dn), ahol dp a legközelebbi pozitív példa távolsága, míg dn a legközelebbi negatív példa távolsága. K-NN: vesszük a teszt vektor k legközelebbi szomszédját a tanító halmazból. Amelyik osztálycímke legtöbbször fordul elő, azt rendeljük a tesztadathoz. K általában kicsi szám. Egyenlőség esetén: távolság alapján súlyozzuk a szavazatokat, és a jobbat (kisebb távolságot eredményezőt) választjuk. 2 osztályos probléma esetén k értéke célszerűen páratlan szám.

Súlyozott K-NN: K(x) függvények pl. 1. A k legközelebbi szomszéd távolságait a [0,1] intervallumba normáljuk a következő módon: 2. Az így kapott távolságokat transzformáljuk egy K(x) függvény segítségével: K monoton csökkenő, nemnegatív a [0,∞) intervallumon 3. Azt az osztálycímkét választjuk, melyre az előző „inverz” távolságok összege maximális: K(x) függvények pl.

LVQ: Learn Vector Quantization Alapja a „legközelebbi szomszéd” típusú klasszifikáció. Minden osztályhoz valahány darab referencia vektor van kijelölve (ez lényegesen kevesebb szokott lenni az összes tanítóadat számánál) Tanításkor ezek a referencia vektorok lesznek „jól” beállítva A referencia vektorok inicializálása: véletlenszerűen, vagy minden osztályra egy klaszterező eljárás segítségével (K-means) Változatok: LVQ, LVQ2

példa

LVQ Iteratívan: megkeressük minden x tanítóadatra a legközelebbi referencia vektort (mi(t)). Két eset lesz attól függően, hogy ez a referencia vektor melyik osztályhoz tartozik: 1. Ahhoz, amelyikhez x : 2. Másik osztályhoz:

LVQ2 Csak bizonyos esetekben mozdít el referencia vektort: 1. a legközelebbi ref. vektorhoz rendelt osztály nem helyes 2. A második legközelebbi viszont igen 3. az x tanító vektor az előző két referencia vektor valamilyen „középső sávjába” esik (egy ablakméret segítségével adjuk meg a „jó” sávot) Minkét vektort a megfelelő irányba elmozdítjuk Az előző képletek adják meg a mozgatást A helyeset közelebb, a hibásat messzebb mozgatjuk

Mennyi referenciavektorra lehet szükség Pl: egy fonémafelismerési feladaton (fonéma=beszédhang):

Gépi tanulási kritériumok Bayes-i döntés: azoknál a tanulómódszereknél, melyek a példákhoz valószínűségi értékeket rendelnek, amelyek megadják az egyes osztályokhoz tartozásának valószínűségét ahhoz, hogy várhatóan a „legjobb” osztályozást kapjuk, mindig azt az osztálycímkét rendeljük a tesztadathoz, amely osztályhoz tartozásának valószínűsége maximális. Könnyen lehet bizonyítani, hogy ez a döntés optimális -- azaz a várható értéke a hibaaránynak ilyenkor minimális -- (amennyiben a tanuló módszer az adatok eloszlásét pontosan adja meg). Most ezt nem bizonyítjuk. Diszkriminatív jellegű kritériumok következnek most: MSE, Corrective Training, MMI, MCE

MSE: Mean Squared Error (közepes négyzetes hiba) függvényt minimalizálja: Tipikus példa: MLP (Multi Layer Perceptron) Corrective Training: egyszerű, heurisztikus, iteratív eljárás: a nem (eléggé) jól felismert adatok alapján a modell paramétereit módosítja pl. a tanítóadatok súlyozása segítségével MMI: Maximum Mutual Information: az osztályba sorolás és input adat közötti „közös információ tartalmat” maximalizálja. MCE: Minimum Classification Error: Az osztályozási hibák darabszámának minimalizálását célozza meg.

MMI (legnagyobb közös információtartalom) MI (közös inf. tartalom) definíciója: A „közös információt” méri két vsz. változó között ha függetlenek: 0 ha megegyeznek: az entrópiáját kapjuk valamelyik változónak

MMI kritérium Szavakban: maximalizáljuk a közös információtartalmát az osztálycímkéknek, és a hozzájuk tartozó adatoknak (jellemzővektoroknak) Ha C az osztálycímke halmaz, X az adathalmaz,  a modellek paraméterei, akkor maximalizálandó: A maximalizálás történhet gradiens, vagy egyéb módszerekkel.

Minimum Classification Error Direkt módon a klasszifikációs hibák számának minimalizálása a cél (a tanító adatbázison) Legtöbb osztályozó modellnél használható, mert csak annyit teszünk fel, hogy adott minden osztályhoz egy ún. diszkrimináns fgv.: és a döntés ez alapján a függvény alapján (Bayes-i): Tegyük fel, hogy x a Ck osztályba tartozik. Kérdés: eltévesztettük-e x osztályát? Tévesztési mérték lehetne: De ez nem folytonos (Nk ugrásszerűen változhat)

Tévesztési mérték és hibafgv.: Ez folytonos: Nagy  érték esetében a jobboldali tag a a hibás kategóriák közötti legnagyobb értékét adja Az összes adatra vonatkozó tévesztési mértékek alapján megpróbáljuk megszámolni, hogy mennyi hiba történt. Definiálunk egy MCE loss függvényt. Az ideális eset a 0-1 függvény lenne, de ez nem folytonos. Helyette:

MCE kritérium: a teljes hibafüggvény minimalizálása. Az l(d) függvény lehet pl. darabonként lineáris, vagy lehet a logisztikus (szigmoid) függvény, stb. MCE kritérium: a teljes hibafüggvény minimalizálása. Gradiens módszer (inkrementális/kötegelt) Másodfokú módszerek, Newton, kvázi Newton módszerek, stb…