Hierarchikus klaszteranalízis 2017.04.04. Hierarchikus klaszteranalízis
Klaszteranalízisről általában Cél: Olyan csoportok (klaszterek) létrehozása, melyekben az egyedek a saját csoportjukban levő más egyedekhez hasonlítanak a legjobban Heterogén sokaság homogén csoportokba Az objektumok „helyettesítése” a rájuk legjellemzőbb „mesterséges” objektummal Különböző módszerek: Hierarchikus Agglomeratív Divizív Nem hierarchikus (iteratív)
Agglomeratív hierarchikus klaszterezés Elve: minden megfigyelés egy egyelemű klaszter, majd ezeket vonjuk távolságuk/hasonlóságuk alapján össze Menete: Valamennyi megfigyelésünk külön A választott távolságmérték alapján a két leginkább hasonló klaszter kiválasztása Csökkentsük a klaszterek számát egyel, számítsuk ki újra a távolságokat Az előző két lépést folytassuk addig, amíg egyetlen klasztert nem kapunk
Megválaszolandó kérdések Távolság/hasonlóság mérése Milyen mérőszámmal mérjük? Mi között mérjük a távolságot? Mértékegységek kezelése Változók különböző nagyságrendje Standardizálás Hány klasztert képezzünk? Változók jellemzői, mérési skála Kvantitatív, bináris, darabszámok Esetleg sorrend függőség
Alkalmazott távolság/hasonlóság mérték Skála típusú változók esetén Euklideszi távolság Négyzetes euklideszi távolság Korreláció Cosine Csebisev-távolság Block Minkowski (p) Power (p,r)
Hogyan mérjük a klaszterek közti távolságot? Legközelebbi szomszéd (single linkage): legközelebbi elemek alapján Legtávolabbi szomszéd (complete linkage): legtávolabbi elemek alapján Átlagos távolság (average linkage): páronkénti távolságok átlaga Euklideszi távolságot használó módszerek: Centroid módszer (centroid method): átlagos klasztertagok közötti távolság Ward módszer: minimális klaszteren belüli szórás növekedés
Eredmény ábrázolása: dendogram Kevés eset esetén áttekinthető csak