Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz
Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
Gyakorlati alkalmazási területei Piacszegmentálás Releváns piac meghatározása Szegmentáció alapjául szolgáló ismérvek meghatározása Szegmentálás (Faktor-, klaszteranalízis) 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés
Klaszteranalízis folyamata 1. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) 2. Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás 3. Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) 4. Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus 5. Klaszterek száma Hány csoport? Mi alapján? 6. Klaszterek értelmezése, jellemzése Elnevezés, értékelés 7. Klaszterelemzés érvényességének ellenőrzése
Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb Név Főzős Házias Nem Lakhely Kereset 1 Béla 3 3000 2 Jenő 1500 Bea 5 2000 4 Marci 1000 Ubul 7000 6 Zsuzsa 7 8000 Rita 8 Zoli 9 Dávid 5000 10 Robi 11 Kriszti 12 Zsófi 4000 13 Géza 14 Éva 15 Dóra 16 Vera 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
SPSS
A probléma megfogalmazása 1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)
A klaszteranalízis feltételeinek vizsgálata I. 2. A klaszteranalízis feltételeinek vizsgálata I. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour
A klaszteranalízis feltételeinek vizsgálata II. 2. A klaszteranalízis feltételeinek vizsgálata II. Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: a válaszok egymáshoz képesti relatív fontossága a lényeges, hasonló profilokat keresünk, nem érdekel a „válaszadó stílusa hatás”. Átlaga 0, szórása 1 Összehasonlítható adatok
Analyze / Classify / Hierarchical Cluster / Method…
A klaszteranalízis feltételeinek vizsgálata III. 2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Analyze / Regression/ Linear … Multikollinearitás
Hasonlósági és távolságmérték meghatározása 3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztés Variancia Jaccard City block Yule Csebisev Analyze / Classify / Hierarchical Cluster / Method
Klasztermódszer kiválasztása 4. Klasztermódszer kiválasztása Hierarchikus Agglomeratív (Összevonó) Lánc módszer Egyszerű Teljes Átlagos Variancia módszer Ward-féle eljárás Centroid módszer Divízív (Felosztó) Nem hierarchikus Forgy: kezdőpontmagpont Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A legközelebbi 2 elem távolsága A klasztereken belüli szórásnégyzet növekedése a legkisebb A legtávolabbi 2 elem távolsága Az elemek közötti távolság átlaga Forrás: Malhotra [2001]
Nem hierarchikus módszer Előnyös a használata, ha: nem tudjuk előre, hány klasztert szeretnénk létrehozni a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Érzékeny a kiugró értékekre A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől Kombinált használat: Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás
Analyze / Classify / Hierarchical Cluster Az összevonás lépései A szerintünk releváns változók Ne használd, lefagy a gép! Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Jégcsapdiagram meghatározott klasztertartományra
Outlierek kiszűrése miatt! Távolságmérték
Output Az összevonás lépései Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás
Vertical Icecle – Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. 3 Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
Kiugró értékek kezelése Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?
Kiugró elemek törlése Data / Select Cases / If condition is satisfied… Ez marad benn.
Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között
Klaszterek számának meghatározása 5. Klaszterek számának meghatározása Kutatói tapasztalat Távolságok Könyökkritérium Klaszterek relatív mértéke
b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter
c) Könyökkritérium Ábraszerkesztés Line
12. lépés után n - stagetöréspont 3 klaszter (n-1) elem
Analyze / Classify / Hierarchical Cluster / Save… Konkrét klaszterszám
Graphs / Scatter/Dot…
Klaszterek értelmezése, jellemzése 6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat Analyze / Compare Means / Means
Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv asszociáció Analyze / Descriptive Statistics / Crosstabs
Mennyiségi (kereset) +minőségi (cluster) ismérvek vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means
Klaszterek jellemzése, elnevezése 6. Klaszterek jellemzése, elnevezése 1. klaszter 2. klaszter 3. klaszter Klasztereljá-rásba bevont változók Sokat főz Nem Igen Házias Csak a jellemzésbe bevont változók Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely ? Nagy város Megyeszékhely Kereset Alacsony (3000€) (2200€) Magas (7667€) Elnevezés Nemtörődö-mök Házi tündérek Rohanó üzletasszonyok
Graphs / Pie…
Klaszterelemzés érvényességének ellenőrzése 7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés… Folyt. köv. órán
Köszönöm a figyelmet!