Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz.

Hasonló előadás


Az előadások a következő témára: "Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz."— Előadás másolata:

1 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz

2 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

3 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Gyakorlati alkalmazási területei Piacszegmentálás 1.Releváns piac meghatározása 2.Szegmentáció alapjául szolgáló ismérvek meghatározása 3.Szegmentálás (Faktor-, klaszteranalízis) 4.1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés

4 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis folyamata 1. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) 2. Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás 3. Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) 4. Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus 5. Klaszterek száma Hány csoport? Mi alapján? 6. Klaszterek értelmezése, jellemzése Elnevezés, értékelés 7. Klaszterelemzés érvényességének ellenőrzése

5 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

6 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet NévFőzősHáziasNemLakhelyKereset 1Béla Jenő Bea Marci Ubul Zsuzsa Rita Zoli Dávid Robi Kriszti Zsófi Géza Éva Dóra Vera Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

7 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet SPSS

8 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív) 1. A probléma megfogalmazása

9 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) –Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; –Alulprezentálják az alapsokaságban levő csoport nagyságát. 2. A klaszteranalízis feltételeinek vizsgálata I. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

10 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Skálák –Hasonló skálázási adatok az összehasonlíthatók –Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: - a válaszok egymáshoz képesti relatív fontossága a lényeges, - hasonló profilokat keresünk, - nem érdekel a „válaszadó stílusa hatás”. 2. A klaszteranalízis feltételeinek vizsgálata II. Átlaga 0, szórása 1 Összehasonlítható adatok

11 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Analyze / Classify / Hierarchical Cluster / Method…

12 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet 2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Analyze / Regression/ Linear … Multikollinearitás

13 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Bináris változók eseténMetrikus változók esetén TávolságmértékHasonlóságmértékTávolságmértékHasonlóságmérték Euklidészi távolság Russel and RaoEuklidészi távolság Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztésNégyzetes euklidészi távolság VarianciaJaccardCity block YuleCsebisev 3. Hasonlósági és távolságmérték meghatározása Analyze / Classify / Hierarchical Cluster / Method

14 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Forgy: kezdőpont  magpont 4. Klasztermódszer kiválasztása Hierarchikus Agglomeratív (Összevonó) Lánc módszer Egyszerű Teljes Átlagos Variancia módszer Ward-féle eljárás Centroid módszer Divízív (Felosztó) Nem hierarchikus Az elemek közötti távolság átlaga A legtávolabbi 2 elem távolsága A legközelebbi 2 elem távolsága A centroidok (kp.) közötti távolság Forrás: Malhotra [2001] Pl: Belson: kettéosztás A klasztereken belüli szórásnégyzet növekedése a legkisebb

15 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Hierarchikus módszerNem hierarchikus módszer Előnyös a használata, ha: nem tudjuk előre, hány klasztert szeretnénk létrehozni a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Érzékeny a kiugró értékekre A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől Kombinált használat: 1.Hierarchikus: klaszterek ideális száma 2.Kiugró elemek kiszűrése 3.Nem hierarchikus csoportosítás

16 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Analyze / Classify / Hierarchical Cluster A szerintünk releváns változók Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Az összevonás lépései Távolságmátrix Jégcsapdiagram meghatározott klasztertartományra Ne használd, lefagy a gép!

17 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Outlierek kiszűrése miatt! Távolságmérték

18 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Output Az összevonás lépései Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás

19 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Vertical Icecle – Jégcsap diagram Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés 3 Nagy elemszám esetében nehezen kezelhető. Géza ~ kiugró érték

20 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?

21 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Kiugró elemek törlése Data / Select Cases / If condition is satisfied… Ez marad benn.

22 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között

23 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet a.Kutatói tapasztalat b.Távolságok c.Könyökkritérium d.Klaszterek relatív mértéke 5. Klaszterek számának meghatározása

24 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát  2 v. 3 klaszter

25 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet c) Könyökkritérium Ábraszerkesztés Line

26 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet  12. lépés után n - stage töréspont 3 klaszter (n-1) elem

27 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Analyze / Classify / Hierarchical Cluster / Save… Konkrét klaszterszám

28 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Graphs / Scatter/Dot…

29 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

30 6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek  vegyes kapcsolat Analyze / Compare Means / Means

31 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv  asszociáció Analyze / Descriptive Statistics / Crosstabs

32 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

33

34 Mennyiségi (kereset) +minőségi (cluster) ismérvek  vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means

35 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet 6. Klaszterek jellemzése, elnevezése 1. klaszter2. klaszter3. klaszter Klasztereljá- rásba bevont változók Sokat főzNemIgenNem HáziasNemIgen Csak a jellemzésbe bevont változók Nem Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely?Nagy városMegyeszékhely Kereset Alacsony (3000€) Alacsony (2200€) Magas (7667€) Elnevezés Nemtörődö- mök Házi tündérek Rohanó üzletasszonyok

36 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Graphs / Pie…

37 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés… 7. Klaszterelemzés érvényességének ellenőrzése Folyt. köv. órán

38 Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Köszönöm a figyelmet!


Letölteni ppt "Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz."

Hasonló előadás


Google Hirdetések