Klaszterelemzés az SPSS-ben

Slides:



Advertisements
Hasonló előadás
Petrovics Petra Doktorandusz
Advertisements

Statisztika II. I. Dr. Szalka Éva, Ph.D..
Nem hierarchikus klaszterelemzés az SPSS-ben
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Összefoglalás - Faktor- és klaszteranalízis - Petrovics Petra.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Gazdálkodási modul Gazdaságtudományi ismeretek III. Marketing KÖRNYEZETGAZDÁLKODÁSI MÉRNÖKI MSc TERMÉSZETVÉDELMI MÉRNÖKI MSc.
A statisztika alapjai - Bevezetés az SPSS-be -
A PEDAGÓGIAI KUTATÁS FOLYAMATA
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék STATISZTIKA I. 11. Előadás.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
3. előadás.
Gazdálkodási modul Gazdaságtudományi ismeretek III. Marketing KÖRNYEZETGAZDÁLKODÁSI MÉRNÖKI MSc TERMÉSZETVÉDELMI MÉRNÖKI MSc.
A megyei jogú városok, mint innovációs potenciál hordozók
Regresszióanalízis 10. gyakorlat.
SPSS bevezetés.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
Hierarchikus klaszteranalízis
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
K-közepű és kétlépéses klaszteranalízis (3. fejezet)
A PEDAGÓGIAI KUTATÁS Dr. Molnár Béla Ph.D.. 1. PEDAGÓGIAI KUTATÁS CÉLJA, TÁRGYA Célja, hogy az új ismeretek feltárásával, pontosabbá tételével, elmélyítésével.
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Az F-próba szignifikáns
Klaszter analízis A klaszteranalízis értelmes és használható csoportba sorolja az adatokat, ezek a klaszterek. A klaszteranalízis kiindulópontja az elemek.
Statisztika.
A piacszegmentáció és a célpiaci marketing
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Lineáris regresszió.
Adatleírás.
Faktoranalízis az SPSS-ben
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
Sztochasztikus kapcsolatok
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Petrovics Petra Doktorandusz
Bevezetés a Korreláció & Regressziószámításba
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Többváltozós lineáris regressziós modell feltételeinek tesztelése.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Parciális korreláció Petrovics Petra Doktorandusz.
Marketing információs
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
A számítógépes elemzés alapjai
Az SPSS programrendszer.
Harsányi László: Munkafüzethez 1. MOME 1. 2 A számításba veendő öt alaptényező: Beszállítók (írók, nyomdák, stb.) alku-pozíciója Vásárlók (fogyasztók)
1 © GfK Hungária | Superbrands 2015 SUPERBRANDS KUTATÁS 2015 GfK Hungária, Consumer Experiences január 28. Alap / Premium kutatási csomagok leírása.
A számítógépes elemzés alapjai
Célpiaci marketing.
Lineáris regressziós modellek
Kiváltott agyi jelek informatikai feldolgozása 2016
Részekre bontott sokaság vizsgálata, gyakorló feladatok
Adatelemzési gyakorlatok
2. Helyzet- és igényfelmérés (Kutatás 1.)
Sztochasztikus kapcsolatok I. Asszociáció
Dr. Varga Beatrix egyetemi docens
Bevezetés a kvantitatív kutatásba
A leíró statisztikák alapelemei
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Mérési skálák, adatsorok típusai
2. Helyzet- és igényfelmérés (Kutatás 1.)
Előadás másolata:

Klaszterelemzés az SPSS-ben Petrovics Petra Doktorandusz

Klaszteranalízis Olyan dimenziócsökkentő eljárás, amellyel adattömböket – megfigyelési egységeket – tudunk viszonylag homogén csoportokba sorolni, klasszifikálni. Cél: megmutatni, hogy léteznek olyan csoportok, amelyek jobban hasonlítanak egymáshoz, mint más csoportok tagjai.

Gyakorlati alkalmazási területei Piacszegmentálás Releváns piac meghatározása Szegmentáció alapjául szolgáló ismérvek meghatározása Szegmentálás (Faktor-, klaszteranalízis) 1 csoportba került fogyasztók jellemzése Piacszerkezet-elemzés (versenytárs márkáival való helyettesíthetőség) Új termék lehetőségeinek feltárása Tesztpiacok kiválasztása Adatcsökkentés

Klaszteranalízis folyamata 1. A probléma megfogalmazása (Kutatási probléma, hipotézis, vizsgálandó elemek nagysága, stb.) 2. Feltételek vizsgálata Pl: kiugró értékek, reprezentatív minta, skálázás 3. Hasonlósági és távolságmérték meghatározása (Ahol kisebb a távolság, azok a megfigyelési értékek hasonlóbbak) 4. Klasztermódszer kiválasztása Hierarchikus vs. nem hierarchikus 5. Klaszterek száma Hány csoport? Mi alapján? 6. Klaszterek értelmezése, jellemzése Elnevezés, értékelés 7. Klaszterelemzés érvényességének ellenőrzése

Feladat TK/286. oldal (Sajtos-Mitev) Levesport gyártó vállalat fogyasztóit kérdezték meg Név: String Főzős: 1-7-ig terjedő skálán mennyit főz Házias: 1-7-ig terjedő skálán mennyire házias Nem: 1: férfi, 2: nő Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb

Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb Név Főzős Házias Nem Lakhely Kereset 1 Béla 3 3000 2 Jenő 1500 Bea 5 2000 4 Marci 1000 Ubul 7000 6 Zsuzsa 7 8000 Rita 8 Zoli 9 Dávid 5000 10 Robi 11 Kriszti 12 Zsófi 4000 13 Géza 14 Éva 15 Dóra 16 Vera 6000 Nem: 1-férfi, 2-nő Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb

SPSS

A probléma megfogalmazása 1. A probléma megfogalmazása A klaszterelemzés célja: A levesporfogyasztókat bizonyos ismérvek alapján csoportokba rendezni. Vizsgálandó elemek kiválasztása: Sokaság nagysága: Pl. Magyarország levespor-fogyasztói Mintanagyság meghatározása Mintavétel módjának meghatározása Most itt: n=16 fő (nem reprezentatív)

A klaszteranalízis feltételeinek vizsgálata I. 2. A klaszteranalízis feltételeinek vizsgálata I. Reprezentatív-e a minta? Itt NEM nem vonhatunk le következtetéseket a sokaságra vonatkozóan Kiugró adatok (outliers) Olyan abnormális megfigyelések, amelyek nem jellemzők a sokaságra; Alulprezentálják az alapsokaságban levő csoport nagyságát. Analyze / Classify / Hierarchical Cluster / Method: Nearest neighbour

A klaszteranalízis feltételeinek vizsgálata II. 2. A klaszteranalízis feltételeinek vizsgálata II. Skálák Hasonló skálázási adatok az összehasonlíthatók Célszerű: azonos mértékegység (ok: nagyobb szórás nagyobb hatást mutat) Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk; A jövedelmet hasonlítanánk össze a főzéssel, stb. Ha eltér: standardizálni! Ha: a válaszok egymáshoz képesti relatív fontossága a lényeges, hasonló profilokat keresünk, nem érdekel a „válaszadó stílusa hatás”. Átlaga 0, szórása 1 Összehasonlítható adatok

Analyze / Classify / Hierarchical Cluster / Method…

A klaszteranalízis feltételeinek vizsgálata III. 2. A klaszteranalízis feltételeinek vizsgálata III. Erősen korrelálnak az elemzésbe bevont változók egymással? Analyze / Regression/ Linear … Multikollinearitás

Hasonlósági és távolságmérték meghatározása 3. Hasonlósági és távolságmérték meghatározása Bináris változók esetén Metrikus változók esetén Távolságmérték Hasonlóságmérték Euklidészi távolság Russel and Rao Pearson korreláció Négyzetes euklidészi távolság Egyszerű illesztés Variancia Jaccard City block Yule Csebisev Analyze / Classify / Hierarchical Cluster / Method

Klasztermódszer kiválasztása 4. Klasztermódszer kiválasztása Hierarchikus Agglomeratív (Összevonó) Lánc módszer Egyszerű Teljes Átlagos Variancia módszer Ward-féle eljárás Centroid módszer Divízív (Felosztó) Nem hierarchikus Forgy: kezdőpontmagpont Pl: Belson: kettéosztás A centroidok (kp.) közötti távolság A legközelebbi 2 elem távolsága A klasztereken belüli szórásnégyzet növekedése a legkisebb A legtávolabbi 2 elem távolsága Az elemek közötti távolság átlaga Forrás: Malhotra [2001]

Nem hierarchikus módszer Előnyös a használata, ha: nem tudjuk előre, hány klasztert szeretnénk létrehozni a mintavételi egységek száma magas kevésbé függ kiugró értékektől kevésbé függ távolságmértékektől kevésbé függ attól, hogy került-e az elemzésbe irreleváns változó Hátránya Érzékeny a kiugró értékekre A klaszterek számát előre kell meghatározni Klaszterközéppont kiválasztása Függ a megfigyelések sorrendjétől Kombinált használat: Hierarchikus: klaszterek ideális száma Kiugró elemek kiszűrése Nem hierarchikus csoportosítás

Analyze / Classify / Hierarchical Cluster Az összevonás lépései A szerintünk releváns változók Ne használd, lefagy a gép! Távolságmátrix Ha az egyes egységeket el szeretnénk nevezni Megfigyelési egységeket / változókat szeretnénk összevonni Jégcsapdiagram meghatározott klasztertartományra

Outlierek kiszűrése miatt! Távolságmérték

Output Az összevonás lépései Rita Vera Az új közös klaszter melyik lépésben jelenik meg legközelebb (az alacsonyabb szám a nyilvántartási szám) Az összevonásra került klaszter melyik lépésben jelenik meg először Az összevonás lépései Milyen távolságok alapján vonták össze a klasztert Túl nagy ugrás

Vertical Icecle – Jégcsap diagram Nagy elemszám esetében nehezen kezelhető. 3 Géza ~ kiugró érték Alulról kezdjük értelmezni: Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés

Kiugró értékek kezelése Dendogram Legkisebb távolság alapján von össze Kiugró értékek kezelése Géza ~ kiugró érték Abnormális? Ki kell zárni?

Kiugró elemek törlése Data / Select Cases / If condition is satisfied… Ez marad benn.

Analyze / Classify / Hierarchical Cluster / Method: Ward Metrikus változók Nincs kiugró érték Nincs korreláció a változók között

Klaszterek számának meghatározása 5. Klaszterek számának meghatározása Kutatói tapasztalat Távolságok Könyökkritérium Klaszterek relatív mértéke

b) Távolság ( Dendogram) Ahol a koefficiens értéke hirtelen megnő De: törekedjünk 5 körüli értéknél meghatározni a klaszterek számát  2 v. 3 klaszter

c) Könyökkritérium Ábraszerkesztés Line

 12. lépés után n - stagetöréspont 3 klaszter (n-1) elem

Analyze / Classify / Hierarchical Cluster / Save… Konkrét klaszterszám

Graphs / Scatter/Dot…

Klaszterek értelmezése, jellemzése 6. Klaszterek értelmezése, jellemzése Klasztercentroidok és szórások Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek  vegyes kapcsolat Analyze / Compare Means / Means

Demográfiai vizsgálat (nem, lakhely) Minőségi-minőségi ismérv  asszociáció Analyze / Descriptive Statistics / Crosstabs

Mennyiségi (kereset) +minőségi (cluster) ismérvek  vegyes kapcsolat (ANOVA) Analyze / Compare Means / Means

Klaszterek jellemzése, elnevezése 6. Klaszterek jellemzése, elnevezése 1. klaszter 2. klaszter 3. klaszter Klasztereljá-rásba bevont változók Sokat főz Nem Igen Házias Csak a jellemzésbe bevont változók Túlnyomórészt férfiak Túlnyomórészt nők Nők Lakhely ? Nagy város Megyeszékhely Kereset Alacsony (3000€) (2200€) Magas (7667€) Elnevezés Nemtörődö-mök Házi tündérek Rohanó üzletasszonyok

Graphs / Pie…

Klaszterelemzés érvényességének ellenőrzése 7. Klaszterelemzés érvényességének ellenőrzése Más távolságmérték Más klasztereljárások Változók elhagyása A minta 2 részre bontása Az esetek sorrendjének megváltoztatása Nem hierarchikus klaszterelemzés… Folyt. köv. órán

Köszönöm a figyelmet!