Dimenziócsökkentés, valamint jellemzőszelekciós eljárások

Slides:



Advertisements
Hasonló előadás
Készítette: Kosztyán Zsolt Tibor
Advertisements

Lineáris regressziós MODELLEK
A Floyd-Warshall algoritmus
A bizonytalanság és a kockázat
I. előadás.
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Híranyagok tömörítése
Vektormező szinguláris pontjainak indexe
Illeszkedési mátrix Villamosságtani szempontból legfontosabb mátrixreprezentáció. Legyen G egy irányított gráf, n ponton e éllel. Az n x e –es B(G) mátrixot.
Matematika II. 2. előadás Geodézia szakmérnöki szak 2012/2013. tanév Műszaki térinformatika ágazat őszi félév.
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Operációkutatás szeptember 18 –október 2.
Bayes hálók október 20. Farkas Richárd
Lineáris és nemlineáris regressziók, logisztikus regresszió
Távolság alapú eljárások Hierarchikus eljárások
Gépi tanulási módszerek
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Gazdaságelemzési és Statisztikai Tanszék
Készítette: Pető László
Mesterséges neuronhálózatok
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Operációkutatás Kalmár János, Hiperbolikus és kvadratikus programozás.
Optimalizálási módszerek 2. Konvex halmazok
Szűrés és konvolúció Vámossy Zoltán 2004
Lineáris algebra Mátrixok, determinánsok, lineáris egyenletrendszerek
Regresszióanalízis 10. gyakorlat.
Lineáris transzformáció sajátértékei és sajátvektorai
Készítette: Kosztyán Zsolt Tibor
Az Alakfelismerés és gépi tanulás ELEMEI
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Készítette: Horváth Zoltán (2012)
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Gazdaságstatisztika 11. előadás.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
Két kvantitatív változó kapcsolatának vizsgálata
Belső állapotú bolyongások által meglátogatott pontok száma Nándori Péter (V.) Témavezető: Dr. Szász Domokos (BME MI)
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
I. előadás.
Lineáris algebra.
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Hibajavító kódok.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
A számítógépes elemzés alapjai
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
A számítógépes elemzés alapjai
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
I. Előadás bgk. uni-obuda
Összefoglalás (nem teljes)
Összefoglalás (nem teljes)
Emlékeztető Az előző órán az adatok eloszlását Gauss-eloszlással közelítettük Célfüggvénynek a Maximum Likelihood kritériumot használtuk A paramétereket.
Valószínűségi változók együttes eloszlása
A mesterséges neuronhálók alapjai
Adat-előfeldolgozás jellemzőtér-transzformációs módszerekkel
Előadás másolata:

Dimenziócsökkentés, valamint jellemzőszelekciós eljárások SFS, SBS, GSFS, GSBS, SFFS, SFBS, ASSFS PCA, LDA, ICA, LLE, MS Aggregációk

Jellemzőszelekciós eljárások Általánosságban: egy sok elemű attribútumhalmaz egy –sokkal kevesebb elemet tartalmazó – részhalmazának a kiválasztása a cél, oly módon, hogy a klasszifikáció minősége ne romoljon Heurisztikák: Információ-nyereség (Info-Gain) alapján (lásd döntési fánál, később) Különböző statisztikai alapú elgondolások szerint (pl. 2 statisztika) CFS Subset Selection SFS, SBS, …

CFS (Correlation-based F. S.) Olyan feature-részhalmazokat keres (k: elemszám), amelyek jól korrelálnak az osztállyal, de egymással legkevésbé korrelálnak Merit fgv. minél nagyobb legyen:

2 statisztika A jellemzők itt diszkrét értékkészletűek Minden osztályra és minden jellemzőre megnézzük, hogy mennyire függnek egymástól (2 érték), hogy: a jellemző milyen értéket vesz fel a jellemző bele tartozik-e az osztályba vagy nem Minél kevésbé független (val. szám. értelemben statisztikailag) az osztályozás a jellemző értékétől, annál inkább megfelelő a jellemző. Rangsoroljuk a jellemzőket, és kiválasztjuk az első k legjobbat, vagy egy küszöbértéknél nagyobb 2 értékű attribútumokat tartjuk meg.

Két (A és B) esemény független, ha (akk. és csak akk.): Def.: Vegyük észre: a 2 érték tagjai (P(A)-P(A|B))2 alakúak. (A esemény: az attribútum értéke Ci; B esemény: osztály=P vagy osztály=N). Tehát, ha függőek, akkor 2 nagy lesz, és az a jó.

Dimenziócsökkentés nem független attribútumoknál Ha erős korreláció van az attribútumok értékei között, vagy az attribútum valamilyen függvénye más attribútumoknak Elhagyás Aggregáció: az egymással összefüggő attribútumok aggregálása egy db. értékké (összeg, maximum, középértékek, stb.)

Dimenziócsökkentés tértranszformációval PCA: Principal Component Analysis (Főkomponens analízis) LDA: Linear Discriminant analysis ICA: Independent Component Analysis (Független komponens analízis) LLE: Locally Linear Embedding („pontonként lineáris beágyazás”) MDS: Multidimensional Scaling (Sokdimenziós beágyazás) SOM: Self Organizing Map (Önszervező háló)

PCA (Principal Component Analysis Főkomponensanalízis) Fogalmak, állítások: Standardizálás Kovariancia mátrix: szimmetrikus, és pozitív szemidefinit Rayleigh hányados, és ennek jelentése A Rayleigh hányados stacionárius pontjai éppen a kovariancia mátrix sajátvektorai

Standardizálás (ez már ismétlés) Attribútumonként (xi) el kell végezni (most egy másik felírással): Centralizáció: Szórás normalizáció:

Kovariancia mátrix Definíció: Tétel: C szimmetrikus és pozitív szemidefinit mátrix. Szimmetrikus: Pozitív szemidefinit: (Egy A mátrix poz. sz. def., ha: )

A Rayleigh hányados Definíció (Rayleigh coeff.): Def.:

A C mátrix sajátértékei a sajátvektoraihoz (v) tartozó τ(v) hányadosok

Tehát, a C mátrix sajátvektorai olyan irányok, amelyekre vetítve a tanítópontokat, azok szórása extrémális (maximális). A C mátrix pozitív szemidefinit és szimmetrikus  sajátértékek nemnegatívak, és a sajátvektorok ortogonálisak (biz. HF). Legyenek a sajátvektorok a sajátértékek szerint rendezve: Legyen a rendezés szerint (C1,...,Cn a C mátrix 1-re normált sajátvektorai): Ekkor tehát igaz: A PCA transzformáció egy z vektorra:

Kifehérítés (Whitening) Ha az A mátrixot a következőképpen definiáljuk: akkor:

Dimenziócsökkentés PCA-val Mivel a sajátvektorok variancia (amit a sajátérték ad meg) szerint vannak csökkenő sorrenden, meg lehet adni azt, hogy a szórás hány százalékát tartsuk meg transzformáció után. A kis szórású irányok (amelyekhez kis sajátérték tartozik) kevésbé informatívak, ezért azt elhagyhatjuk.

SVD (Singular Value Decomposition, Szinguláris értékfelbontás) Az X adatmátrix (M*N-es, N db. jellemzővektort tartalmaz, amik M attribútummal rendelkeznek) U egy M*M-es, V egy N*N-es mátrix ortonormált oszlopvektorokkal  egy diagonális mátrix, a diagonálisában az un. szinguláris értékekkel Áll.: A  mátrix diagonális elemei (tehát a szinguláris értékek) az XTX mátrix sajátértékeinek négyzetgyökei. Itt a V tartalmazza az XTX sajátvektorait, 2 a sajátértékeket. (biz. táblán)

Így az SVD dimenziócsökkentése: Azok az irányok melyekre az XTX kovarianciamátrix sajátértéke 0 (vagy nagyon kicsi) elhagyhatók. Így az SVD dimenziócsökkentése: Végezzük el X szinguláris felbontását. Rendezzük át a  mátrixot úgy, hogy a diagonális elemei nemnövekvők legyenek. Legyen ennek a  mátrixnak a rangja R. Ekkor a diagonálisában pontosan R nemnulla szingulárisérték van. Rendezzük át a V és U mátrixokat a  átrendezésének megfelelően. Legyenek U*, V* azok a mátrixok melyeket U-ból és V-ből az első R sor meghagyásával kapunk, * -ot pedig ez -ból az első R sor és oszlop meghagyásával nyerjük. Így jó közelítése lesz X-nek: Emellett, a V* * egy olyan bázis lesz, ami a kovarianciát megőrzi (lsd. előző oldal lent alulról a 2. levezetés) (esetleg jóval) kisebb dimenzióban.

ICA A PCA transzformáció azt célozza meg, hogy olyan ortogonális transzformációt találjon, amely alkalmazása után a kovarianciamátrix diagonális: Két valószínűségi változó függetlensége nem egyezik meg azzal a fogalommal, hogy nem korrelálnak. Az ICA a függetlenséget célozza meg. (A függetlenségből következik a korrelálatlanság, de fordítva nem igaz.) Ha az attribútumok között van nem Gauss eloszlású, akkor a két fogalom (ICA, PCA) eltérő. Sokféle ICA modell létezik, különböző zajok és eloszlások modellezésére. Szakirodalom a következő dián.

Rokon területek Faktor Analízis (FA) Fő-faktor Analízis (PFA) Maximális Valószínűségű Faktor Analízis (MLFA) CCA: Canonical Component Analysis Irodalom:

LDA (Linear Discriminant Analysis, Lineáris Diszkrimináns Analízis) Ez az eljárás osztálycímkéket használ fel. Tehát felügyelt módszerek esetében használatos. A cél: olyan irányokat meghatározni, amelyek „mentén” a lineáris szeparáció maximalizálható: az egyes osztályok szórása kicsi, de az osztályok középpontjai közötti távolság (ezek szórása) nagy (mindez egy-egy irányra vetítve). Nem feltétlenül ortogonális irányokat keresünk.

A célfüggvény, aminek a stacionárius pontjait keressük (Fisher hányados):

Számláló: az egyes osztályok közepeinek „szórása”, kovariancia mátrixa Nevező: Az egyes osztályok (külön számított) kovarianciájának összege Ezt akarjuk maximalizálni (azaz olyan vetítés irányt keresünk, hogy a számláló nagy legyen, a nevező kicsi). Tehát: olyan irányokat keresünk, amire, a különböző osztályok (közepei) minél távolabb esnek, miközben az egyes osztályok „belső” szórása ezekben az irányokban minél kisebb.

Bizonyítás: szorgalmi feladat (j az osztályok száma) Jelentése: olyan dimenzióredukciót ad meg az LDA, hogy az [(osztályok száma)-1] lesz a maximális dimenziószám.

Ortonormált diszkrimináns vektorok módszere

LLE (Locally Linear Embedding, Lokálisan Lineáris Beágyazás) Input X: D dimenziós N darabszámú adat; output Y: N db. adat d < D dimenzióban. Algoritmus: 1. X minden Xi elemének megkeressük a k legközelebbi szomszédját. 2. Minden Xi-t megpróbálunk előállítani -leírni- a lehető legjobban szomszédjai súlyozott összegeként, azaz minden Xi-hez kiszámítunk olyan súlyokat, amikkel képezve a szomszédos vektorok súlyozott összegét, az un. rekonstrukciós hiba minimális.

3. A leképezett Yi vektorokat úgy kell meghatározni, hogy az ún 3. A leképezett Yi vektorokat úgy kell meghatározni, hogy az ún. beágyazási költségfüggvény minimális legyen. Azaz az Yi pontokat úgy kell meghatározni, hogy az eredeti térben számolt súlyokkal rekonstruálva ezeket (ugyanazokat a szomszédait használva) a kisebb dimenziós térben a teljes hiba minimális legyen.

MDS (Multidimensional Scaling, Sokdimenziós Skálázás) Input X: D dimenziós N darabszámú adat; output Y: N db. adat d < D dimenzióban. Algoritmus: 1. Számítsuk ki minden Xi Xj vektor távolságát, legyen ez az Mi,j mátrix. 2. Válasszunk véletlenszerűen Yi pontokat a d dimenziós térben. 3. Számítsuk ki minden Yi Yj vektor távolságát, legyen ez az mi,j mátrix. 4. Minimalizáljuk az un. stresszfüggvényt, ami azt méri, hogy Mi,j és mi,j mennyire térnek el: Yi-ket változtassuk meg úgy, hogy a stressz függvény értéke csökkenjen. Ismételjük 3. És 4. Pontot, amíg van javulás a stressz értékben.

SOM (Self Organizing Map, Önszervező háló, Kohonen háló) A „neuronhálós” terminológiát használva: egy egyrétegű háló, ennek a rétegének van egy előre rögzített topológiája, azaz a rétegben a neuronok egy rácson, vagy felületen (általában 1-3, leggyakrabban 2 dimenziós), egymástól rögzített távolságban helyezkednek el.

A neuronok között (a rácson) értelmezett egy szomszédsági függvény. Minden neuronhoz tartozik egy súlyvektor, aminek a dimenziója megegyezik az input adatok attribútumszámával. A neuronok között (a rácson) értelmezett egy szomszédsági függvény. Tanítás: Inicializálása a súlyvektoroknak t=0:lépésköz:1 Minden input adatra: határozzuk meg a legjobban illeszkedő neuront változtassuk meg ezen neuron és a hozzá a rácson közel eső neuronok súlyvektorait

Xi input vektorra legjobban az a neuron illeszkedik, amely súlyvektorának (wk) eltérése az input vektortól minimális. Ennek a neuronnak megfelel az output térben egy rácspont. Az illeszkedő rácsponttól a többi rácspont bizonyos távolságra helyezkedik el. Az egyes neuronok súlyvektorai ezeknek a távolságoknak valamilyen monoton csökkenő függvénye szerinti mértékben módosulnak, ezt adja meg a szomszédsági függvény.