Hierarchikus klaszteranalízis

Slides:



Advertisements
Hasonló előadás
4. előadás Összehasonlítás standardizálással és indexszámítással.
Advertisements

A normalizálás az adatbázis-tervezés egyik módszere
Nem hierarchikus klaszterelemzés az SPSS-ben
SMED.
Csoportosítás.
Készítette: Magyar Dániel
Klaszterelemzés az SPSS-ben
Statisztika I. VI. Dr. Szalka Éva, Ph.D..
Gazdaságelemzési és Statisztikai Tanszék
Főátlagok összehasonlítása standardizálással
Gazdaságelemzési és Statisztikai Tanszék
Non-profit szervezetek bevételi szerkezetének elemzése.
Csoportosítás megadása: Δx – csoport szélesség
Távolság alapú eljárások Hierarchikus eljárások
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Klaszterező algoritmusok smart city alkalmazásokhoz Gonda László Témavezető: Dr. Ispány Márton.
Gazdaságelemzési és Statisztikai Tanszék
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
A körlevél készítésének menete
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
Vámossy Zoltán 2006 Gonzales-Woods, SzTE (Kató Zoltán) anyagok alapján
x2 x2 – 5x + 6 x(x ) + x(–2)+ (–3)(x) + (–3)(–2) = (x – 3)(x – 2) = Végezzük el a következő szorzást: (x-3)(x-2) =
A középérték mérőszámai
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok
Adatbányászat: Klaszterezés Alapfogalmak és algoritmusok
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
K-közepű és kétlépéses klaszteranalízis (3. fejezet)
Kvantitatív módszerek
VII. Nemzetközi Médiakonferencia „A média hatása a gyermekekre és fiatalokra" szeptember Balatonalmádi Fiatal group leaderek Facebook használati.
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
A MÉRETMEGADÁS SZABÁLYAI
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.
A hőmérséklet mérése. A hőmérő
Statisztika.
Emberi Erőforrás Menedzsment Munkakör-értékelés EEM.4.
Statisztikai módszerek áttekintése módszerválasztási tanácsok Makara Gábor.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
A... TANTÁRGY OKTATÁSA KÍSÉRLETI/PROJEKT FORMÁBAN Projekt/kísérlet konkrét címe Név | Tanár neve | Iskola.
Többszintű Tenyéralapú Biometrikus Azonosító Rendszer
„Taxonok mintákban” típusú adatmátrix
TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
Newton gravitációs törvényének és Coulomb törvényének az összehasonlítása. Sípos Dániel 11.C 2009.
1. feladat  Készíts olyan függvényt, mely paraméterül kapja két egész típusú változó címét, s hívása után a két változó értéke helyet cserél.
Objektum orientált programozás
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Gráf szélességi bejárása. Cél Az algoritmus célja az, hogy bejárjuk egy véges gráf összes csúcsát és kiírjuk őket a kezdőcsúcstól való távolságuk szerint.
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Kiváltott agyi jelek informatikai feldolgozása 2016
Összefoglalás 7. évfolyam
Adatelemzési gyakorlatok
Komplex természettudományos tantárgy
Statisztikai Programcsomagok SAS EG gyakorlat
A leíró statisztikák alapelemei
Rangsoroláson és pontozáson alapuló komplex mutatók
Analitika OKTÁV tanfolyam részére 2016
2. Helyzet- és igényfelmérés (Kutatás 1.)
Előadás másolata:

Hierarchikus klaszteranalízis 2017.04.04. Hierarchikus klaszteranalízis

Klaszteranalízisről általában Cél: Olyan csoportok (klaszterek) létrehozása, melyekben az egyedek a saját csoportjukban levő más egyedekhez hasonlítanak a legjobban Heterogén sokaság homogén csoportokba Az objektumok „helyettesítése” a rájuk legjellemzőbb „mesterséges” objektummal Különböző módszerek: Hierarchikus Agglomeratív Divizív Nem hierarchikus (iteratív)

Agglomeratív hierarchikus klaszterezés Elve: minden megfigyelés egy egyelemű klaszter, majd ezeket vonjuk távolságuk/hasonlóságuk alapján össze Menete: Valamennyi megfigyelésünk külön A választott távolságmérték alapján a két leginkább hasonló klaszter kiválasztása Csökkentsük a klaszterek számát egyel, számítsuk ki újra a távolságokat Az előző két lépést folytassuk addig, amíg egyetlen klasztert nem kapunk

Megválaszolandó kérdések Távolság/hasonlóság mérése Milyen mérőszámmal mérjük? Mi között mérjük a távolságot? Mértékegységek kezelése Változók különböző nagyságrendje Standardizálás Hány klasztert képezzünk? Változók jellemzői, mérési skála Kvantitatív, bináris, darabszámok Esetleg sorrend függőség

Alkalmazott távolság/hasonlóság mérték Skála típusú változók esetén Euklideszi távolság Négyzetes euklideszi távolság Korreláció Cosine Csebisev-távolság Block Minkowski (p) Power (p,r)

Hogyan mérjük a klaszterek közti távolságot? Legközelebbi szomszéd (single linkage): legközelebbi elemek alapján Legtávolabbi szomszéd (complete linkage): legtávolabbi elemek alapján Átlagos távolság (average linkage): páronkénti távolságok átlaga Euklideszi távolságot használó módszerek: Centroid módszer (centroid method): átlagos klasztertagok közötti távolság Ward módszer: minimális klaszteren belüli szórás növekedés

Eredmény ábrázolása: dendogram Kevés eset esetén áttekinthető csak