Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Hierarchikus klaszteranalízis
Hierarchikus klaszteranalízis
2
Klaszteranalízisről általában
Cél: Olyan csoportok (klaszterek) létrehozása, melyekben az egyedek a saját csoportjukban levő más egyedekhez hasonlítanak a legjobban Heterogén sokaság homogén csoportokba Az objektumok „helyettesítése” a rájuk legjellemzőbb „mesterséges” objektummal Különböző módszerek: Hierarchikus Agglomeratív Divizív Nem hierarchikus (iteratív)
3
Agglomeratív hierarchikus klaszterezés
Elve: minden megfigyelés egy egyelemű klaszter, majd ezeket vonjuk távolságuk/hasonlóságuk alapján össze Menete: Valamennyi megfigyelésünk külön A választott távolságmérték alapján a két leginkább hasonló klaszter kiválasztása Csökkentsük a klaszterek számát egyel, számítsuk ki újra a távolságokat Az előző két lépést folytassuk addig, amíg egyetlen klasztert nem kapunk
4
Megválaszolandó kérdések
Távolság/hasonlóság mérése Milyen mérőszámmal mérjük? Mi között mérjük a távolságot? Mértékegységek kezelése Változók különböző nagyságrendje Standardizálás Hány klasztert képezzünk? Változók jellemzői, mérési skála Kvantitatív, bináris, darabszámok Esetleg sorrend függőség
5
Alkalmazott távolság/hasonlóság mérték
Skála típusú változók esetén Euklideszi távolság Négyzetes euklideszi távolság Korreláció Cosine Csebisev-távolság Block Minkowski (p) Power (p,r)
6
Hogyan mérjük a klaszterek közti távolságot?
Legközelebbi szomszéd (single linkage): legközelebbi elemek alapján Legtávolabbi szomszéd (complete linkage): legtávolabbi elemek alapján Átlagos távolság (average linkage): páronkénti távolságok átlaga Euklideszi távolságot használó módszerek: Centroid módszer (centroid method): átlagos klasztertagok közötti távolság Ward módszer: minimális klaszteren belüli szórás növekedés
7
Eredmény ábrázolása: dendogram
Kevés eset esetén áttekinthető csak
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.