Többváltozós adatelemzés 5. előadás
Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül képződnek klaszterek Agglomeratív és felosztó eljárások Adatok és/vagy változók klaszterezése
Hierarchikus klaszterezés -2- Algoritmus leírása (agglomeratív eljárások): Kezdetben minden pont önálló klaszter Minden lépésben a két legközelebbi klaszter összevonása történik N-1 lépésben összevonásra kerül az összes pont (változó) Az összevonásokat ún. dendrogramon ábrázoljuk
Hierarchikus klaszterezés -3- Két lényeges kérdés: Mit értünk két pont távolságán (hasonlóságán) Mit értünk két klaszter távolságán (un. agglomerációs elvek)
Távolság (hasonlósági) mértékek Távolság definíciója: d(x,y) kétváltozós függvény távolság, ha –nemnegatív: d(x,y)>=0 –d(x,y)=0, akkor és csak akkor, ha x=y –szimmetrikus d(x,y)=d(y,x) –háromszög egyenlőtlenség d(x,z)>=d(x,y)+d(y,z)
Távolság (hasonlósági) mértékek Nevezetes távolságok: –Euklídeszi: d(x,y)= sqrt[(x 1 -y 1 ) 2 +(x 2 -y 2 ) 2 +…+(x n -y n ) 2 ] –Négyzetes euklídeszi (nem távolság!): (x 1 -y 1 ) 2 +(x 2 -y 2 ) 2 +…+(x n -y n ) 2 –City block (Manhattan): |x 1 -y 1 |+|x 2 -y 2 |+…+|x n -y n | –Csebisev: max(|x 1 -y 1 |,|x 2 -y 2 |,…,|x n -y n |)
Agglomerációs elvek Mit értünk két klaszter távolságán
Agglomerációs elvek Legközelebbi szomszéd (egyszerű lánc) Legtávolabbi szomszéd (teljes lánc) Átlagos lánc (csoportok között, csoporton belül) Centroid Medián Ward
Legközelebbi szomszéd
Legtávolabbi szomszéd
Ward elv
Hány klaszter keletkezik A dendrogramot az 5 és 10 távolságszint között szoktuk elvágni Akkor jó, ha összevonódások az 5 távolságszint alatt, vagy a 10 felett vannak Az eljárás meglehetősen heurisztikus
Melyiket válasszuk ‘Ahogy tetszik gondolni’ Tértégító, térszűkítő, térkonzerváló hatás ‘Szokásjog’ Feladat egyedi jellege (pl. monoton transzformációra legyen érzéketlen)
Esetek szűrése Ha túl sok eset van nem mutat semmit a dendrogram, ilyenkor célszerű szűkíteni a megfigyelések körét Sztendredizálás szűrés előtt, vagy szűrés után?
Hierarchikus klaszterezés Egyházi intézmények
Fenntartóra aggregálva kiadások szerkezete
Fenntartóra aggregálva kiadások megoszlása
Megyére aggregálva kiadások szerkezete
Megyére aggregálva kiadások megoszlása