Többváltozós adatelemzés

Slides:



Advertisements
Hasonló előadás
ÉRDEKES PONTOK KINYERÉSE DIGITÁLIS KÉPEKEN. BEVEZETÉS  ALAPPROBLÉMA  Jellemzőpontok detektálása mindkét képen  Kinyert pontok megfeleltetése  Megfeleltetések.
Advertisements

A Floyd-Warshall algoritmus
I. előadás.
Nem hierarchikus klaszterelemzés az SPSS-ben
Balogh Tamás, Koós Krisztián, Laczi Balázs, Tari Tamás 2013 Tavasz.
Geometriai transzformációk
Függvények Egyenlőre csak valós-valós függvényekkel foglalkozunk.
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Számítógépes algebrai problémák a geodéziában
Vektormező szinguláris pontjainak indexe
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
Digitális képanalízis
Digitális Domborzat Modellek (DTM)
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Földrajzi összefüggések elemzése
Térbeli niche szegregáció kétfoltos környezetben
Két változó közötti összefüggés
Bayes hálók október 20. Farkas Richárd
Lineáris és nemlineáris regressziók, logisztikus regresszió
Gépi tanulási módszerek
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Előadó: Prof. Dr. Besenyei Lajos
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok
Regresszióanalízis 10. gyakorlat.
SPSS bevezetés.
Hierarchikus klaszteranalízis
K-közepű és kétlépéses klaszteranalízis (3. fejezet)
ISMERETALAPÚ RENDSZEREK SZAKÉRTŐ RENDSZEREK
Vámossy Zoltán 2004 (H. Niemann: Pattern Analysis and Understanding, Springer, 1990) DIP + CV Bevezető II.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Statisztika a szociológiában
3. előadás Heterogén sokaságok Szórásnégyzet-felbontás
Ipari képfeldolgozás projekt II. mérföldkő
Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.
Textúra elemzés szupport vektor géppel
Rekeszív meghatározása tüdőröntgenen
Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból.
Szükségünk lesz valamilyen spreadsheet / táblázat kezelő programra
A differenciálszámtás alapjai Készítette : Scharle Miklósné
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Lineáris regresszió.
Lagrange-interpoláció
Rendszerek stabilitása
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
I. előadás.
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Valószínűségszámítás II.
Számítógépes grafika I. AUTOCAD alapok
Menetrend optimalizálása genetikus algoritmussal
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Gépi tanulási módszerek
Több irányú, alaksablonok nélküli épület detekció légiképeken Manno-Kovács Andrea, Szirányi Tamás Elosztott Események Elemzése Kutatócsoport MTA SZTAKI.
1.Kanonikus felügyelt tanulási feladat definíciója (5p) 1.Input, output (1p) 2.Paraméterek (1p) 3.Hipotézisfüggvény (1p) 4.Hibafüggvény/költségfüggvény.
Statisztikai Programcsomagok SAS EG gyakorlat
Mérési skálák, adatsorok típusai
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Többváltozós adatelemzés 4. előadás

Klaszterelemzés Nem irányított szegmentálás Nincs ‘eredményváltozó’ A változók egyenrangúak Osztályozó nélküli osztályozás Nem irányított tanulás

Mi a cél? Nem jól definiált (saját meglátás) „Clustering is the classification of objects into different groups, or more precisely, the partitioning of a data set into subsets (clusters), so that the data in each subset (ideally) share some common trait - often proximity according to some defined distance measure.” Heterogén sokaság homogén részsokaságokra történő felbontása (saját definíció)

Előnyök Nem szükséges az eloszlást ismerni Gyakorlatilag bármilyen adatállományon lehet klaszterelemzést végezni

Hátrányok Erős szubjektivitás Nincsenek támpontok az ‘illeszkedés’ jóságának méréséhez Sok választási lehetőség, orientáció nélkül Tapasztalat

Elvárások a klaszterezéssel szemben Folytonosság: kis változásokra az adatokban kis változások történjenek a klaszterekben) Nincs jól definiálva, hogy mit jelent a kis változás

Elvárások a klaszterezéssel szemben -2- Stabilitás: egy-egy adat jelentősége csekély (egy új pont elvétele vagy hozzáadása elenyésző hatású) Időbeli (keresztmetszeti) stabilitás: különböző időpontokban (helyeken) elvégzett klaszterezés azonos eredményt adjon

Elvárások a klaszterezéssel szemben -3- Invariancia: a klaszterelemzés invariáns legyen a változók monoton transzformációjára Skálafüggetlenség (pl.: sztenderdizálás) Adatok sorrendjétől való függetlenség

Elvárások a klaszterezéssel szemben -4- Validitás: Külső validitás: ismert csoportokba tartozó egyedekből veszünk mintát Belső validitás: eredeti és származtatott távolságok Megismételhetőség Különböző eljárások összevetése

Elvárások a klaszterezéssel szemben -5- Robosztusság: kilógó pontok hatásának csökkentése

Klaszterelmzés két fő iránya Nemhierarchikus klaszterelmzés K-középpontú algoritmus (K-means cluster) Partícionáló klaszterelemzés Hierarchikus klaszterelmzés Természetesen ezen két fő irányon kívül léteznek még más eljárások is. Egyik legismertebb az ún. Kohonen-map ami neurális hálón alapszik

K középpontú algoritmus Algoritmus leírása Klaszterközepek kijelölése Adatpontok hozzárendelése a középpontokohoz Klaszterközepek újraszámolás Ha a klaszterközepek változtak, akkor újabb iteráció

Kezdőpontok hatása A kleszterelmzést megismételjük úgy, hogy induláskor másik kezdőpontot választunk

Kezdőpontok választása Az előbbi példán is láttuk, milyen nagy a kezdőpontok választásának jelentősége Az SPSS programcsomag egy viszonylag bonyolult algoritmussal választ kezdőpontot, amivel eléri, hogy az esetek nagy részében nem függ az adatok sorrendjétől a választás, de bizonyos esetekben más eredményt kapunk az adatok sorrendjétől függően

K középpontú algoritmus Az algoritmus meglehetősen gyors Lokális optimum problémája Az eljárás függhet a kezdőpontok megválasztásától Kis elemszámú klaszterek Klaszterek számára nincs iránymutatás (hüvelykujj szabály: könyökpont keresése) Változók jelentősége (ANOVA tábla)

Változók mértékegysége A nagyobb szórású változók nagyobb hatással vannak a klaszterezésre Ha a változók mértékegysége különbözik, akkor a változókat sztenderdizáljuk A sztenderdizálás hatására az eredmény érzéketlen a lineáris transzformációra

K középpontú klaszterelemzés

Extrém értékek nélkül

ANOVA

Hány klaszter legyen?

Könyökpont keresése Egy heurisztikus megközelítés: Tekintsük a klasztereket csoportképző változónak. Számoljuk minden klaszterszám esetén a külső szórásnégyzet és a teljes szórásnégyzet arányát. Válasszuk azt a klaszterszámot, ahol törés mutatkozik a görbében

Könyökpont keresése

Százalékos megoszlás Ha az abszolút értékek alapján végezzük el a klaszterelemzést (még ha sztenderdizálva vannak is a változók) olyan klaszterek keletkeznek, hogy vannak nagy költségvetésű intézmények és vannak kicsik Százalékos megoszlás esetén nem alkalmazok sztenderdizálást

Százalékos megoszlás

Százalékos megoszlás -szűrés után-

Százalékos megoszlás -szűrés után-