K-közepű és kétlépéses klaszteranalízis (3. fejezet) 2017.04.04. K-közepű és kétlépéses klaszteranalízis (3. fejezet)
k-közepű klaszterezés Jellemzők: nagy számú egyed csoportosítása klaszterek számának (k) meghatározása előre iteratív klaszterközéppontok csak intervallum/arány skálán mért változók egyszerű euklideszi távolság!!! standardizálás Az eljárás lépései: Kezdeti klaszterközéppontok kiválasztása: első k darab teljes megfigyelés, majd ezek módosítása Kezdeti klaszterközéppontok újraszámítása: minden esetet a legközelebbi klaszterhez rendelünk, majd újra kiszámítjuk a középpontot „Elég kis” változáskor az iteráció leáll
Kétlépéses klaszterezés Jellemzők: Folytonos és kategóriás változók kezelésére egyaránt képes A klaszterek számának automatikus kiválasztása Hatékonyság nagy adatállományok esetén is Feltevések: A változók egymástól függetlenek A folytonos változók normális, a kategóriás változók multinomiális eloszlásúak A módszer lépései: CF (Cluster Features) Tree: előzetes klaszterezés hasonló egyedekre A levelek agglomeratív klaszterezése, AIC/BIC alapján a „legjobb” választása
k-közepű klaszterezés telco_extra.sav (1000 ügyfél): SPSS példa k-közepű klaszterezés telco_extra.sav (1000 ügyfél): változók: zlnlong zlntoll zlnequi zlncard zlnwire zmultlin zvoice zpager zinterne zcallid zcallwai zforward zconfer zebill 3 induló klaszter, majd 4 exclude cases pairwise Kétlépéses klaszterezés car_sales.sav (157 gépkocsi) változók: típus, price-mpg