Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Klaszterelemzés az SPSS-ben

Hasonló előadás


Az előadások a következő témára: "Klaszterelemzés az SPSS-ben"— Előadás másolata:

1 Klaszterelemzés az SPSS-ben
Petrovics Petra Doktorandusz

2 Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

3 Gyakorlati alkalmazási területei
Piacszegmentálás Releváns piac meghatározása Szegmentáció alapjául szolgáló ismérvek meghatározása Szegmentálás (Faktor-, klaszteranalízis) 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés

4 Klaszteranalízis folyamata
1. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) 2. Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás 3. Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) 4. Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus 5. Klaszterek száma Hány csoport? Mi alapján? 6. Klaszterek értelmezése, jellemzése Elnevezés, értékelés 7. Klaszterelemzés érvényességének ellenőrzése

5 Feladat TK/286. oldal (Sajtos-Mitev)
Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

6 Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
Név Főzős Házias Nem Lakhely Kereset 1 Béla 3 3000 2 Jenő 1500 Bea 5 2000 4 Marci 1000 Ubul 7000 6 Zsuzsa 7 8000 Rita 8 Zoli 9 Dávid 5000 10 Robi 11 Kriszti 12 Zsófi 4000 13 Géza 14 Éva 15 Dóra 16 Vera 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

7 SPSS

8 A probléma megfogalmazása
1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)

9 A klaszteranalízis feltételeinek vizsgálata I.
2. A klaszteranalízis feltételeinek vizsgálata I. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

10 A klaszteranalízis feltételeinek vizsgálata II.
2. A klaszteranalízis feltételeinek vizsgálata II. Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: a válaszok egymáshoz képesti relatív fontossága a lényeges, hasonló profilokat keresünk, nem érdekel a „válaszadó stílusa hatás”. Átlaga 0, szórása 1 Összehasonlítható adatok

11 Analyze / Classify / Hierarchical Cluster / Method…

12 A klaszteranalízis feltételeinek vizsgálata III.
2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Analyze / Regression/ Linear … Multikollinearitás

13 Hasonlósági és távolságmérték meghatározása
3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztés Variancia Jaccard City block Yule Csebisev Analyze / Classify / Hierarchical Cluster / Method

14 Klasztermódszer kiválasztása
4. Klasztermódszer kiválasztása Hierarchikus Agglomeratív (Összevonó) Lánc módszer Egyszerű Teljes Átlagos Variancia módszer Ward-féle eljárás Centroid módszer Divízív (Felosztó) Nem hierarchikus Forgy: kezdőpontmagpont Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A legközelebbi 2 elem távolsága A klasztereken belüli szórásnégyzet növekedése a legkisebb A legtávolabbi 2 elem távolsága Az elemek közötti távolság átlaga Forrás: Malhotra [2001]

15 Nem hierarchikus módszer Előnyös a használata, ha:
nem tudjuk előre, hány klasztert szeretnénk létrehozni a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Érzékeny a kiugró értékekre A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől Kombinált használat: Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás

16 Analyze / Classify / Hierarchical Cluster
Az összevonás lépései A szerintünk releváns változók Ne használd, lefagy a gép! Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Jégcsapdiagram meghatározott klasztertartományra

17 Outlierek kiszűrése miatt!
Távolságmérték

18 Output Az összevonás lépései
Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás

19 Vertical Icecle – Jégcsap diagram
Nagy elemszám esetében nehezen kezelhető. 3 Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés

20 Kiugró értékek kezelése
Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?

21 Kiugró elemek törlése Data / Select Cases / If condition is satisfied…
Ez marad benn.

22 Analyze / Classify / Hierarchical Cluster / Method: Ward
Metrikus változók Nincs kiugró érték Nincs korreláció a változók között

23 Klaszterek számának meghatározása
5. Klaszterek számának meghatározása Kutatói tapasztalat Távolságok Könyökkritérium Klaszterek relatív mértéke

24 b) Távolság ( Dendogram)
Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát  2 v. 3 klaszter

25 c) Könyökkritérium Ábraszerkesztés Line

26  12. lépés után n - stagetöréspont 3 klaszter (n-1) elem

27 Analyze / Classify / Hierarchical Cluster / Save…
Konkrét klaszterszám

28 Graphs / Scatter/Dot…

29

30 Klaszterek értelmezése, jellemzése
6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek  vegyes kapcsolat Analyze / Compare Means / Means

31 Demográfiai vizsgálat (nem, lakhely)
Minőségi-minőségi ismérv  asszociáció Analyze / Descriptive Statistics / Crosstabs

32

33

34 Mennyiségi (kereset) +minőségi (cluster) ismérvek
 vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means

35 Klaszterek jellemzése, elnevezése
6. Klaszterek jellemzése, elnevezése 1. klaszter 2. klaszter 3. klaszter Klasztereljá-rásba bevont változók Sokat főz Nem Igen Házias Csak a jellemzésbe bevont változók Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely ? Nagy város Megyeszékhely Kereset Alacsony (3000€) (2200€) Magas (7667€) Elnevezés Nemtörődö-mök Házi tündérek Rohanó üzletasszonyok

36 Graphs / Pie…

37 Klaszterelemzés érvényességének ellenőrzése
7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés… Folyt. köv. órán

38 Köszönöm a figyelmet!


Letölteni ppt "Klaszterelemzés az SPSS-ben"

Hasonló előadás


Google Hirdetések