Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Klaszterelemzés az SPSS-ben
Petrovics Petra Doktorandusz
2
Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.
3
Gyakorlati alkalmazási területei
Piacszegmentálás Releváns piac meghatározása Szegmentáció alapjául szolgáló ismérvek meghatározása Szegmentálás (Faktor-, klaszteranalízis) 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés
4
Klaszteranalízis folyamata
1. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) 2. Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás 3. Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) 4. Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus 5. Klaszterek száma Hány csoport? Mi alapján? 6. Klaszterek értelmezése, jellemzése Elnevezés, értékelés 7. Klaszterelemzés érvényességének ellenőrzése
5
Feladat TK/286. oldal (Sajtos-Mitev)
Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
6
Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
Név Főzős Házias Nem Lakhely Kereset 1 Béla 3 3000 2 Jenő 1500 Bea 5 2000 4 Marci 1000 Ubul 7000 6 Zsuzsa 7 8000 Rita 8 Zoli 9 Dávid 5000 10 Robi 11 Kriszti 12 Zsófi 4000 13 Géza 14 Éva 15 Dóra 16 Vera 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
7
SPSS
8
A probléma megfogalmazása
1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)
9
A klaszteranalízis feltételeinek vizsgálata I.
2. A klaszteranalízis feltételeinek vizsgálata I. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour
10
A klaszteranalízis feltételeinek vizsgálata II.
2. A klaszteranalízis feltételeinek vizsgálata II. Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: a válaszok egymáshoz képesti relatív fontossága a lényeges, hasonló profilokat keresünk, nem érdekel a „válaszadó stílusa hatás”. Átlaga 0, szórása 1 Összehasonlítható adatok
11
Analyze / Classify / Hierarchical Cluster / Method…
12
A klaszteranalízis feltételeinek vizsgálata III.
2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Analyze / Regression/ Linear … Multikollinearitás
13
Hasonlósági és távolságmérték meghatározása
3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztés Variancia Jaccard City block Yule Csebisev Analyze / Classify / Hierarchical Cluster / Method
14
Klasztermódszer kiválasztása
4. Klasztermódszer kiválasztása Hierarchikus Agglomeratív (Összevonó) Lánc módszer Egyszerű Teljes Átlagos Variancia módszer Ward-féle eljárás Centroid módszer Divízív (Felosztó) Nem hierarchikus Forgy: kezdőpontmagpont Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A legközelebbi 2 elem távolsága A klasztereken belüli szórásnégyzet növekedése a legkisebb A legtávolabbi 2 elem távolsága Az elemek közötti távolság átlaga Forrás: Malhotra [2001]
15
Nem hierarchikus módszer Előnyös a használata, ha:
nem tudjuk előre, hány klasztert szeretnénk létrehozni a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Érzékeny a kiugró értékekre A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől Kombinált használat: Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás
16
Analyze / Classify / Hierarchical Cluster
Az összevonás lépései A szerintünk releváns változók Ne használd, lefagy a gép! Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Jégcsapdiagram meghatározott klasztertartományra
17
Outlierek kiszűrése miatt!
Távolságmérték
18
Output Az összevonás lépései
Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás
19
Vertical Icecle – Jégcsap diagram
Nagy elemszám esetében nehezen kezelhető. 3 Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
20
Kiugró értékek kezelése
Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?
21
Kiugró elemek törlése Data / Select Cases / If condition is satisfied…
Ez marad benn.
22
Analyze / Classify / Hierarchical Cluster / Method: Ward
Metrikus változók Nincs kiugró érték Nincs korreláció a változók között
23
Klaszterek számának meghatározása
5. Klaszterek számának meghatározása Kutatói tapasztalat Távolságok Könyökkritérium Klaszterek relatív mértéke
24
b) Távolság ( Dendogram)
Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát 2 v. 3 klaszter
25
c) Könyökkritérium Ábraszerkesztés Line
26
12. lépés után n - stagetöréspont 3 klaszter (n-1) elem
27
Analyze / Classify / Hierarchical Cluster / Save…
Konkrét klaszterszám
28
Graphs / Scatter/Dot…
30
Klaszterek értelmezése, jellemzése
6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek vegyes kapcsolat Analyze / Compare Means / Means
31
Demográfiai vizsgálat (nem, lakhely)
Minőségi-minőségi ismérv asszociáció Analyze / Descriptive Statistics / Crosstabs
34
Mennyiségi (kereset) +minőségi (cluster) ismérvek
vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means
35
Klaszterek jellemzése, elnevezése
6. Klaszterek jellemzése, elnevezése 1. klaszter 2. klaszter 3. klaszter Klasztereljá-rásba bevont változók Sokat főz Nem Igen Házias Csak a jellemzésbe bevont változók Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely ? Nagy város Megyeszékhely Kereset Alacsony (3000€) (2200€) Magas (7667€) Elnevezés Nemtörődö-mök Házi tündérek Rohanó üzletasszonyok
36
Graphs / Pie…
37
Klaszterelemzés érvényességének ellenőrzése
7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés… Folyt. köv. órán
38
Köszönöm a figyelmet!
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.