Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /
A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás
A klaszterezéssel alkotott csoportok jellemzése SPSS-ben Mindezek után, jellemezzük az elkészült csoportokat egy csomó háttérváltozó szerint: Az SPSS Analyze| Reports| Case Summaries menüjével indíthatjuk a csoportosított adatok számítását. Válasszuk ki a háttérváltozókat elemzésre a ►gomb megnyomásával : A 13db csoportosító változót A demográfiai változókat a Nem-től a Jövedelem-ig A 4 előzetesen kiszámított faktorváltozót Válasszuk ki az előzőekben kiszámított csoporttagság-változót (Grouping Variable) a ►gombbal. Kapcsoljuk ki a Display Cases-t A gomb megnyomásával szabályozhatjuk a kiszámítandó statisztikákat. Jelöljük ki a gyakoriságkat (Number of Cases)-t Az gombbal indítsuk a számolást katt shift +húz shift +húz katt
A csoportjellemzők feldolgozása Excelben 1 Az Output Window| Case Summaries részében jelöljük ki a három csoport gyakoriságát az első változónál Másoljuk át az Excel munkalap Csop.méret: celláiba a korábban ismertetett módon (transzponálással, csak értékként), kivéve, hogy itt nem kell rendezni. Megint indísuk el az SPSS Analyze| Reports| Case Summaries menüjével a csoportosított adatok számítását. A gombnál jelöljük ki a csoportátlagokat (Mean) a ►gombbal. Az gombbal indítsuk a számolást. katt
A csoportjellemzők feldolgozása Excelben 2 Az Output Window| Case Summaries-ből másoljuk át a háttérváltozók neveit és a csoportátlagokat az Excel „Háttérvált.:” celláiba A csoportosító változókat színezzük narancssárgára Futtassuk le a csoportadatok számítását harmadszor is, ezúttal a bizonytalanságokat (Variance) választva Az eredményt Output Window-ból másol- juk az Excel „Háttér- változók bizonyta- lansága”celláiba katt
A csoportjellemzők feldolgozása Excelben 3 A pókháló diagrammon (Radar Plot) a csoportok átlagait tanulmányozhatjuk az összes háttérváltozó szerint. Az egy csillaggal (*) jelölt változóknál jelentős a csoportok elkülönülése, a kétcsillagosoknál (**) még inkább. A csoport- profilok alap- ján adhatunk a csoportok- nak nevet,pl: - Idealista - Racionális - Tunningoló amit az Excel „csoportnév” celláiba írha- tunk be:
A csoportjellemzők feldolgozása Excelben 4 A pókháló diagramm nem az eredeti csoportátlagokat mutatja, hanem sztenderd normalizálja (Z-score normalization), vagyis 0 várható értékűre és 1 szórásúra hozza őket: Normalizált érték = (Eredeti érték – A változó átlaga) A változó szórása (17.4) Így a különféle háttérváltozók szerinti csoportátlagok – azok mértékegységétől függetlenül – jól összehasonlíthatók Az Excel munkalap minden háttérváltozóra egyutas ANOVA-t (One-way ANOVA) futtat, hogy megvizsgálja, az adott változó szerint mennyire biztosan különülnek el a csoportok Az egy csillag (*) 5%-os szignifikancia szintet, A két csillag (**) 1%-os (még biztosabb) szignifikancia szintet jelez. A csoportokat a jelentősen elkülönítő változók szerint elért átlagaik alapján nevezzük el: Pl. A lila csoport minden termékjellemzőt – még az egymásnak ellentmondóakat is (pl. fogyasztás-motorméret) – fontosnak tart, vagyis nincs kialakult preferencia rendszere. Ezt alátámasztja, hogy ők relative a legfiatalabbak és legképzetlenebbek. Ez alapján „Idealistáknak” nevzzük őket A kék csoport az árat, fogyasztást és a biztonságot előnyben részesíti a divatossággal és a motormérettel szemben, ráadásul ők relatíve a legidősebbek, ezért „Racionálisnak” nevezzük őket világoskékA világoskék csoport kiemelkedik a tunningolás faktorban, a divatosságot, motorméretet és az extrákat favorizálja, ezért „Tunningolónak” nevezzük
A csoportjellemzők feldolgozása Excelben 5 A pókháló diagramm sok változót mutat, de a csoportok egymáshoz viszonyított helyzetét és méretét nem mutatja Ezért használjuk a csoportcentrumok gombóc diagrammját (Ball Plot). Ez csak 2 változót mutat, de a fentiek tanulmányozhatók rajta. A zöld legördülő menükben válasszuk ki, melyik tengelyen mely változót mutassa Kattinsunk a digrammra, majd nyomjuk meg a szürke gombot, ekkor a feliratok frissülnek A tortadiagramm (Pie chart) a csoportok méretét mutatja. Az Autószbrászat Bt. számára érdekes Tunningolók 32%-át teszik ki a piacnak Az SPSS változólistában a csoporttagság változónál értékcímkeként állítsuk be a csoportok neveit! A kész elemzést lásd: CsoportokMinta.xlsCsoportokMinta.xls katt
A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás
A klaszterezés alkotta csoportok további jellemzése A csoportokat eddig a háttérváltozók átlagaival jellemeztük, és egyutas ANOVA-val teszteltük, hogy különbségük szignifikáns-e Létezhetnek azonban nominális háttérváltozók (pl. Foglalkozás), amelyeknek értelmetlen az átlagát kiszámítani, ezért kapcsolatukat a szintén nominális csoporttagság változóval csak kereszttabulációval vizsgálhatjuk, vagy a kereszttabuláció cellagyakoriságait cellaátlagokként értelmezve kétutas ANOVA-t is futtathatunk rajtuk A háttérként használt kérdések lehetnek egyszeres- vagy többszörös feleletválasztósak. Mintapéldaként egy 2005-ös, a fiatalkori dohányzási szokásokat kutató felmérés szolgál (kérdőívét lásd: DohanyzasKerdoiv.doc, az adatbázist lásd: Dohanyzas.sav), ahol korábbi vizsgálatokkal az 1254 válaszadót már besorolták 7 szocio-demográfiai csoport valamelyikébe. A csoporttagságot a demcu7 változó tárolja.DohanyzasKerdoiv.docDohanyzas.sav Egyrészt, arra vagyunk kíváncsiak, hogy a csoportbatartozás milyen kapcsolatban áll a dohányzás okozta károk megítélésével (Egyszeres feleltválasztós kérdés, dohkarok változóban tárolódik): Másrészt, a csoportbatartozás és a dohányzás kipróbálásának kapcsolatát kutatjuk (többszörös feleletválasztós kérdés, alternatívái a dohprob0..dohprob9 bináris változókban tárolódnak)
Változók kapcsolatának elemzése a KetUtasANOVA rendszerrel A KetUtasANOVA.xls fájl példát mutat rá, hogy SPSS-ből az eredményeket a zöld cellákba másolva gyorsan elvégezzük a csoporttagság változó és egyszeres feleletválasztós (lásd: EgyszeresFelelValaszt munkalap), illetve többszörös feleletválasztós (lásd: TobbszorosFelValaszt munkalap) kérdések kereszttabulálásával kapcsolatos teszteket, és a menükiválasztás alapján a gyakoriságok, várt gyakoriságok, reziduumok, relatív rezidumok térképen történő megjelenítését, valamint az egy- és kétutas ANOVA-kat:KetUtasANOVA.xls
Az egyszeres feleletválasztós kereszttabulációk kezelése 1 Ha két egyszeres feleletválasztós kérdést kereszttabulálunk: Indítsuk el az SPSS-t File|Open menüvel nyissuk meg a Dohanyzas.sav fájltDohanyzas.sav Az Analyze|Descriptive Statistics|Crosstabs menüvel megnyitjuk a kereszttabuláció (Crosstabs) ablakot Kiválasztjuk a sor(Row) és oszlop(Column) változókat a változólistából. Általában a csoporttagság változót (defaclu7) szoktuk sorokba tenni, oszlopokba pedig a háttérváltozót (dohkarok) A gombbal tényleges gyakoriságokat (Observed Counts) kérünk Az gombbal indítjuk a számolást katt
Okozhat-e kárt neked a dohányzás? Total Igen, akkor is ha más dohányzi k elõttem igen, mert én is dohányz om Nem, mert csak keveset dohányz om Nem, mert alascony nikotin- és kátránytartal mú termékeket fo Nem mert nem tüdõzöm le Nem,mert ismerek dohányosoka t, akik magas kort éltek meg Nem mert erõs szervezet em van Demográfi a 7 csoport 4 demográfi ai faktoron Jólszituált Vidéki leszakadók Városi lázadó dohányos Városi leszakadó Értelmiségi hátterû Pörgõs iskolarém dohányosok Vidéki lázadó dohányosok Total Az egyszeres feleletválasztós kereszttabulációk kezelése 2 Az Output Window| Crosstabs-ban megjelenő kontingencia táblát átmásoljuk a vágólapon keresztül az EgyszeresFelelValaszt munkalap Cellaösszegek nevű táblázatának zöld színű celláiba A beillesztést a vágólapról a Szerkesztés| Irányított beillesztés| Csak szöveget (Edit| Paste special| Text only)menüvel tegyük, különben elrontjuk a munkalap formázásait Töltsük ki a sor/oszlop változók nevét A munkalapon az Egyszerű kereszttábla? kérdésre válaszoljunk Y-t! A sor/oszlop sorszámok arra valók, hogy a sorok/oszlopok térképen történő megjelenési sorrendjét szabályozzuk vele, a számítások eredményét nem befolyásoláják
Az egyszeres feleletválasztós kereszttabulációk kezelése 3 Olvassuk le a Cramer V mutató értékét (erős) A menüből válasszuk ki a megjeleníteni kívánt térképet a diagrammra A diagramm területet egérkattintással kijelölve, az alatta lévő adatforrás-cellákon behúzhatjuk egérrel az adatforrás kijelölő keretet, hogy kihagyjuk az éppen üres cellákat, így a diagramm jobban látható lesz. Ha a térképet egy word jelentésbe másoljuk vágólapon keresztül, akkor ne a diagrammot, hanem az alatta lévő cellákat válasszuk ki, és a vágólapról történő beillesztést a Szerkesztés| Irányított beillesztés...| Kép, metafájl menüvel végezzük, különben a jelmagyarázat nem megy át! katt húz A reziduális térképről látszik, hogy a Pörgős iskolarém dohányosok- nál egyedül nyomokban fellelhető a hit, hogy ők mindent kibírnak, ezért a dohányzás nem árt nekik
Az egyszeres feleletválasztós kereszttabulációk kezelése 4 Az ANOVA-k eredményei a következőképpen állnak elő: Sor/oszlop csoportok egyutas ANOVA-inak szignifikancia szintjei A két csoportosító változó közti kétutas ANOVA teljes hatás szignifikancia szintje A sor- és oszlopfaktorok elkülönített hatásainak szignifikancia szintjei A sor- és oszlopfaktorok közti kereszthatás szignifikancia szintje
A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás
A többszörös feleletválasztós kereszttabulációk kezelése 1 Ha egy egyszeres felelet- választós kérdést kereszt- tabulálunk egy többszörös feleletválasztós kérdéssel: Az Analyze| Reports| Case summaries menüvel indítjuk a csoportosított adatok számítását (Summarize cases) A többszörös feleletválasztós kérdés bináris változóit (dohprob0..dohprob9) a ►gombra kattintva bevonjuk az elemzés változóinak (Variables) Csoportosító változónak (Grouping variable) a ►gombra kattintva kivá- lasztjuk a csoporttagságot leíró egysze- res feleletválasztós változót (defaclu7) Kikapcsoljuk az egyes esetek mutatását (Display Cases), mert csak összesítést kérünk A gombbal kinyitjuk a statisztikák számítását. A ►gombra kattintva beállítjuk, hogy összegeket (Sum) számoljon Az gombbal indítjuk a számításokat katt shift +húz shift +húz
A többszörös feleletválasztós kereszttabulációk kezelése 2 Az Output Window| Case summaries pontjára állunk Kimásoljuk belőle az összegeket, a kategóriák neveit a Tobbszoros FelelValaszt munkalap Cellaösszegek táblázatába, csak szövegként beillesztve Kitöltjük a sor/oszlop változók neveit A Simple crosstab? kérdésre beírjuk, hogy N Case Summaries Sum Demográfia 7 csoport 4 demográfiai faktoron Dohányz áspróba: Soha nem próbálná m ki Dohányz áspróba: Kíváncsi ság Dohányz áspróba: Saját döntés Dohányz áspróba: Szüleim dohányz ása miatt Dohányz áspróba: Szüleim/t anáraim tiltása miatt Dohányz áspróba: Barát/bar átnõ hatására Dohányz áspróba: Osztálytá rsak/hav erok hatása Dohányz áspróba: Kedvenc filmhõsö m/Tv szereplõ m miatt Dohányz áspróba: Cigaretta reklám hatására Dohányz áspróba: Cigarettá t áruló fiatalok miatt Jólszituált Vidéki leszakadók Városi lázadó dohányos Városi leszakadó Értelmiségi hátterû Pörgõs iskolarém dohányosok Vidéki lázadó dohányosok Total
A többszörös feleletválasztós kereszttabulációk kezelése 3 Második körben gyakoriságokat (Number of Cases)-t számolunk az Anlyze| Reports| Case summaries-ben Az Output window| Case summaries-re állunk Az eredményt átmásoljuk a Tobb- szorosFeleletValaszt munkalap Cellába eső megfigyelések száma táblázatába Case Summaries N Demográfia 7 csoport 4 demográfiai faktoron Dohányzásp róba: Soha nem próbálnám ki Dohányzásp róba: Kíváncsiság Dohányzásp róba: Saját döntés Dohányzásp róba: Szüleim dohányzása miatt Dohányzásp róba: Szüleim/tan áraim tiltása miatt Dohányzásp róba: Barát/barátn õ hatására Dohányzásp róba: Osztálytársa k/haverok hatása Dohányzásp róba: Kedvenc filmhõsöm/T v szereplõm miatt Dohányzásp róba: Cigarettarekl ám hatására Dohányzásp róba: Cigarettát áruló fiatalok miatt Jólszituált90 Vidéki leszakadók186 Városi lázadó dohányos112 Városi leszakadó103 Értelmiségi hátterû183 Pörgõs iskolarém dohányosok66 Vidéki lázadó dohányosok77 Total817
Case Summaries Variance Demográfia 7 csoport 4 demográfiai faktoron Dohányz áspróba: Soha nem próbálná m ki Dohányzá spróba: Kíváncsis ág Dohányz áspróba: Saját döntés Dohányzá spróba: Szüleim dohányzá sa miatt Dohányzá spróba: Szüleim/t anáraim tiltása miatt Dohányz áspróba: Barát/bar átnõ hatására Dohányzá spróba: Osztálytár sak/haver ok hatása Dohányz áspróba: Kedvenc filmhõsö m/Tv szereplõ m miatt Dohányzá spróba: Cigarettar eklám hatására Dohányz áspróba: Cigarettá t áruló fiatalok miatt Jólszituált Vidéki leszakadók Városi lázadó dohányos Városi leszakadó Értelmiségi hátterû Pörgõs iskolarém dohányosok Vidéki lázadó dohányosok Total A többszörös feleletválasztós kereszttabulációk kezelése 4 Harmadik körben varianciákat (Variance)- t számolunk az Anlyze| Reports| Case summaries-ben Az Output window| Case summaries-re állunk Az eredményt átmásoljuk a Tobb- szorosFeleletValaszt munkalap Cellákba eső varianciák táblázatba
A többszörös feleletválasztós kereszttabulációk kezelése 5 Ezekután, leolvashatjuk az asszociáció erősségét jelző Cramer V-tesztet (gyenge) A menüben reziduumokat kérünk A reziduális térképet az egyszerű kereszttabulációnál tárgyaltakhoz hasonlóan kimásolhatjuk egy Word jelentésbe A reziduumokból látható, hogy a Városi lázadó dohányosok inkább az osztálytársak hatására, még a Vidéki lázadó dohányosok inkább barát/ barátnő hatására szoknak rá a dohányzásra
Többszörös feleletválasztós kereszttabulációk kezelése 6 Az ANOVA-k eredményei a következőképpen állnak elő: Sor/oszlop csoportok egyutas ANOVA-inak szignifikancia szintjei A két csoportosító változó közti kétutas ANOVA teljes hatás szignifikancia szintje A sor- és oszlopfaktorok elkülönített hatásainak szignifikancia szintjei A sor- és oszlopfaktorok közti kereszthatás
A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás
17. Házi Feladat: Saját piackutatási project: Készítse el a megfigyelések attitüd-faktorokon alapuló csoportosítását, illetve a csoportok háttérvizsgálatát a Csoportok.xls sablon segítségével. Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! ( 2.5p )Csoportok.xls Készítse el a megfigyelések fogyasztói termékpreferenciákon, vagy fogyasztási szokásokon alapuló csoportosítását, illetve a csoportok háttérvizsgálatát a Csoportok.xls sablon segítségével. Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! ( 2.5p )Csoportok.xls