Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.

Hasonló előadás


Az előadások a következő témára: "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika."— Előadás másolata:

1

2 Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu gjpauler@acsu.buffalo.edu

3 A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás

4 A klaszterezéssel alkotott csoportok jellemzése SPSS-ben Mindezek után, jellemezzük az elkészült csoportokat egy csomó háttérváltozó szerint: Az SPSS Analyze| Reports| Case Summaries menüjével indíthatjuk a csoportosított adatok számítását. Válasszuk ki a háttérváltozókat elemzésre a ►gomb megnyomásával : A 13db csoportosító változót A demográfiai változókat a Nem-től a Jövedelem-ig A 4 előzetesen kiszámított faktorváltozót Válasszuk ki az előzőekben kiszámított csoporttagság-változót (Grouping Variable) a ►gombbal. Kapcsoljuk ki a Display Cases-t A gomb megnyomásával szabályozhatjuk a kiszámítandó statisztikákat. Jelöljük ki a gyakoriságkat (Number of Cases)-t Az gombbal indítsuk a számolást katt shift +húz shift +húz katt

5 A csoportjellemzők feldolgozása Excelben 1 Az Output Window| Case Summaries részében jelöljük ki a három csoport gyakoriságát az első változónál Másoljuk át az Excel munkalap Csop.méret: celláiba a korábban ismertetett módon (transzponálással, csak értékként), kivéve, hogy itt nem kell rendezni. Megint indísuk el az SPSS Analyze| Reports| Case Summaries menüjével a csoportosított adatok számítását. A gombnál jelöljük ki a csoportátlagokat (Mean) a ►gombbal. Az gombbal indítsuk a számolást. katt

6 A csoportjellemzők feldolgozása Excelben 2 Az Output Window| Case Summaries-ből másoljuk át a háttérváltozók neveit és a csoportátlagokat az Excel „Háttérvált.:” celláiba A csoportosító változókat színezzük narancssárgára Futtassuk le a csoportadatok számítását harmadszor is, ezúttal a bizonytalanságokat (Variance) választva Az eredményt Output Window-ból másol- juk az Excel „Háttér- változók bizonyta- lansága”celláiba katt

7 A csoportjellemzők feldolgozása Excelben 3 A pókháló diagrammon (Radar Plot) a csoportok átlagait tanulmányozhatjuk az összes háttérváltozó szerint. Az egy csillaggal (*) jelölt változóknál jelentős a csoportok elkülönülése, a kétcsillagosoknál (**) még inkább. A csoport- profilok alap- ján adhatunk a csoportok- nak nevet,pl: - Idealista - Racionális - Tunningoló amit az Excel „csoportnév” celláiba írha- tunk be:

8 A csoportjellemzők feldolgozása Excelben 4 A pókháló diagramm nem az eredeti csoportátlagokat mutatja, hanem sztenderd normalizálja (Z-score normalization), vagyis 0 várható értékűre és 1 szórásúra hozza őket: Normalizált érték = (Eredeti érték – A változó átlaga) A változó szórása (17.4) Így a különféle háttérváltozók szerinti csoportátlagok – azok mértékegységétől függetlenül – jól összehasonlíthatók Az Excel munkalap minden háttérváltozóra egyutas ANOVA-t (One-way ANOVA) futtat, hogy megvizsgálja, az adott változó szerint mennyire biztosan különülnek el a csoportok Az egy csillag (*) 5%-os szignifikancia szintet, A két csillag (**) 1%-os (még biztosabb) szignifikancia szintet jelez. A csoportokat a jelentősen elkülönítő változók szerint elért átlagaik alapján nevezzük el: Pl. A lila csoport minden termékjellemzőt – még az egymásnak ellentmondóakat is (pl. fogyasztás-motorméret) – fontosnak tart, vagyis nincs kialakult preferencia rendszere. Ezt alátámasztja, hogy ők relative a legfiatalabbak és legképzetlenebbek. Ez alapján „Idealistáknak” nevzzük őket A kék csoport az árat, fogyasztást és a biztonságot előnyben részesíti a divatossággal és a motormérettel szemben, ráadásul ők relatíve a legidősebbek, ezért „Racionálisnak” nevezzük őket világoskékA világoskék csoport kiemelkedik a tunningolás faktorban, a divatosságot, motorméretet és az extrákat favorizálja, ezért „Tunningolónak” nevezzük

9 A csoportjellemzők feldolgozása Excelben 5 A pókháló diagramm sok változót mutat, de a csoportok egymáshoz viszonyított helyzetét és méretét nem mutatja Ezért használjuk a csoportcentrumok gombóc diagrammját (Ball Plot). Ez csak 2 változót mutat, de a fentiek tanulmányozhatók rajta. A zöld legördülő menükben válasszuk ki, melyik tengelyen mely változót mutassa Kattinsunk a digrammra, majd nyomjuk meg a szürke gombot, ekkor a feliratok frissülnek A tortadiagramm (Pie chart) a csoportok méretét mutatja. Az Autószbrászat Bt. számára érdekes Tunningolók 32%-át teszik ki a piacnak Az SPSS változólistában a csoporttagság változónál értékcímkeként állítsuk be a csoportok neveit! A kész elemzést lásd: CsoportokMinta.xlsCsoportokMinta.xls katt

10 A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás

11 A klaszterezés alkotta csoportok további jellemzése A csoportokat eddig a háttérváltozók átlagaival jellemeztük, és egyutas ANOVA-val teszteltük, hogy különbségük szignifikáns-e Létezhetnek azonban nominális háttérváltozók (pl. Foglalkozás), amelyeknek értelmetlen az átlagát kiszámítani, ezért kapcsolatukat a szintén nominális csoporttagság változóval csak kereszttabulációval vizsgálhatjuk, vagy a kereszttabuláció cellagyakoriságait cellaátlagokként értelmezve kétutas ANOVA-t is futtathatunk rajtuk A háttérként használt kérdések lehetnek egyszeres- vagy többszörös feleletválasztósak. Mintapéldaként egy 2005-ös, a fiatalkori dohányzási szokásokat kutató felmérés szolgál (kérdőívét lásd: DohanyzasKerdoiv.doc, az adatbázist lásd: Dohanyzas.sav), ahol korábbi vizsgálatokkal az 1254 válaszadót már besorolták 7 szocio-demográfiai csoport valamelyikébe. A csoporttagságot a demcu7 változó tárolja.DohanyzasKerdoiv.docDohanyzas.sav Egyrészt, arra vagyunk kíváncsiak, hogy a csoportbatartozás milyen kapcsolatban áll a dohányzás okozta károk megítélésével (Egyszeres feleltválasztós kérdés, dohkarok változóban tárolódik): Másrészt, a csoportbatartozás és a dohányzás kipróbálásának kapcsolatát kutatjuk (többszörös feleletválasztós kérdés, alternatívái a dohprob0..dohprob9 bináris változókban tárolódnak)

12 Változók kapcsolatának elemzése a KetUtasANOVA rendszerrel A KetUtasANOVA.xls fájl példát mutat rá, hogy SPSS-ből az eredményeket a zöld cellákba másolva gyorsan elvégezzük a csoporttagság változó és egyszeres feleletválasztós (lásd: EgyszeresFelelValaszt munkalap), illetve többszörös feleletválasztós (lásd: TobbszorosFelValaszt munkalap) kérdések kereszttabulálásával kapcsolatos teszteket, és a menükiválasztás alapján a gyakoriságok, várt gyakoriságok, reziduumok, relatív rezidumok térképen történő megjelenítését, valamint az egy- és kétutas ANOVA-kat:KetUtasANOVA.xls

13 Az egyszeres feleletválasztós kereszttabulációk kezelése 1 Ha két egyszeres feleletválasztós kérdést kereszttabulálunk: Indítsuk el az SPSS-t File|Open menüvel nyissuk meg a Dohanyzas.sav fájltDohanyzas.sav Az Analyze|Descriptive Statistics|Crosstabs menüvel megnyitjuk a kereszttabuláció (Crosstabs) ablakot Kiválasztjuk a sor(Row) és oszlop(Column) változókat a változólistából. Általában a csoporttagság változót (defaclu7) szoktuk sorokba tenni, oszlopokba pedig a háttérváltozót (dohkarok) A gombbal tényleges gyakoriságokat (Observed Counts) kérünk Az gombbal indítjuk a számolást katt

14 Okozhat-e kárt neked a dohányzás? Total Igen, akkor is ha más dohányzi k elõttem igen, mert én is dohányz om Nem, mert csak keveset dohányz om Nem, mert alascony nikotin- és kátránytartal mú termékeket fo Nem mert nem tüdõzöm le Nem,mert ismerek dohányosoka t, akik magas kort éltek meg Nem mert erõs szervezet em van Demográfi a 7 csoport 4 demográfi ai faktoron Jólszituált61216 11 90 Vidéki leszakadók168125 1 186 Városi lázadó dohányos505341 31112 Városi leszakadó86411 11103 Értelmiségi hátterû17427 183 Pörgõs iskolarém dohányosok152333 81466 Vidéki lázadó dohányosok28451 1277 Total58216037421418817 Az egyszeres feleletválasztós kereszttabulációk kezelése 2 Az Output Window| Crosstabs-ban megjelenő kontingencia táblát átmásoljuk a vágólapon keresztül az EgyszeresFelelValaszt munkalap Cellaösszegek nevű táblázatának zöld színű celláiba A beillesztést a vágólapról a Szerkesztés| Irányított beillesztés| Csak szöveget (Edit| Paste special| Text only)menüvel tegyük, különben elrontjuk a munkalap formázásait Töltsük ki a sor/oszlop változók nevét A munkalapon az Egyszerű kereszttábla? kérdésre válaszoljunk Y-t! A sor/oszlop sorszámok arra valók, hogy a sorok/oszlopok térképen történő megjelenési sorrendjét szabályozzuk vele, a számítások eredményét nem befolyásoláják

15 Az egyszeres feleletválasztós kereszttabulációk kezelése 3 Olvassuk le a Cramer V mutató értékét (erős) A menüből válasszuk ki a megjeleníteni kívánt térképet a diagrammra A diagramm területet egérkattintással kijelölve, az alatta lévő adatforrás-cellákon behúzhatjuk egérrel az adatforrás kijelölő keretet, hogy kihagyjuk az éppen üres cellákat, így a diagramm jobban látható lesz. Ha a térképet egy word jelentésbe másoljuk vágólapon keresztül, akkor ne a diagrammot, hanem az alatta lévő cellákat válasszuk ki, és a vágólapról történő beillesztést a Szerkesztés| Irányított beillesztés...| Kép, metafájl menüvel végezzük, különben a jelmagyarázat nem megy át! katt húz A reziduális térképről látszik, hogy a Pörgős iskolarém dohányosok- nál egyedül nyomokban fellelhető a hit, hogy ők mindent kibírnak, ezért a dohányzás nem árt nekik

16 Az egyszeres feleletválasztós kereszttabulációk kezelése 4 Az ANOVA-k eredményei a következőképpen állnak elő: Sor/oszlop csoportok egyutas ANOVA-inak szignifikancia szintjei A két csoportosító változó közti kétutas ANOVA teljes hatás szignifikancia szintje A sor- és oszlopfaktorok elkülönített hatásainak szignifikancia szintjei A sor- és oszlopfaktorok közti kereszthatás szignifikancia szintje

17 A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás

18 A többszörös feleletválasztós kereszttabulációk kezelése 1 Ha egy egyszeres felelet- választós kérdést kereszt- tabulálunk egy többszörös feleletválasztós kérdéssel: Az Analyze| Reports| Case summaries menüvel indítjuk a csoportosított adatok számítását (Summarize cases) A többszörös feleletválasztós kérdés bináris változóit (dohprob0..dohprob9) a ►gombra kattintva bevonjuk az elemzés változóinak (Variables) Csoportosító változónak (Grouping variable) a ►gombra kattintva kivá- lasztjuk a csoporttagságot leíró egysze- res feleletválasztós változót (defaclu7) Kikapcsoljuk az egyes esetek mutatását (Display Cases), mert csak összesítést kérünk A gombbal kinyitjuk a statisztikák számítását. A ►gombra kattintva beállítjuk, hogy összegeket (Sum) számoljon Az gombbal indítjuk a számításokat katt shift +húz shift +húz

19 A többszörös feleletválasztós kereszttabulációk kezelése 2 Az Output Window| Case summaries pontjára állunk Kimásoljuk belőle az összegeket, a kategóriák neveit a Tobbszoros FelelValaszt munkalap Cellaösszegek táblázatába, csak szövegként beillesztve Kitöltjük a sor/oszlop változók neveit A Simple crosstab? kérdésre beírjuk, hogy N Case Summaries Sum Demográfia 7 csoport 4 demográfiai faktoron Dohányz áspróba: Soha nem próbálná m ki Dohányz áspróba: Kíváncsi ság Dohányz áspróba: Saját döntés Dohányz áspróba: Szüleim dohányz ása miatt Dohányz áspróba: Szüleim/t anáraim tiltása miatt Dohányz áspróba: Barát/bar átnõ hatására Dohányz áspróba: Osztálytá rsak/hav erok hatása Dohányz áspróba: Kedvenc filmhõsö m/Tv szereplõ m miatt Dohányz áspróba: Cigaretta reklám hatására Dohányz áspróba: Cigarettá t áruló fiatalok miatt Jólszituált1864603738201 Vidéki leszakadók601841155856110 Városi lázadó dohányos11041215763230 Városi leszakadó38521402135000 Értelmiségi hátterû79110645051111 Pörgõs iskolarém dohányosok51046424 010 Vidéki lázadó dohányosok0431254339101 Total20164216719290306763

20 A többszörös feleletválasztós kereszttabulációk kezelése 3 Második körben gyakoriságokat (Number of Cases)-t számolunk az Anlyze| Reports| Case summaries-ben Az Output window| Case summaries-re állunk Az eredményt átmásoljuk a Tobb- szorosFeleletValaszt munkalap Cellába eső megfigyelések száma táblázatába Case Summaries N Demográfia 7 csoport 4 demográfiai faktoron Dohányzásp róba: Soha nem próbálnám ki Dohányzásp róba: Kíváncsiság Dohányzásp róba: Saját döntés Dohányzásp róba: Szüleim dohányzása miatt Dohányzásp róba: Szüleim/tan áraim tiltása miatt Dohányzásp róba: Barát/barátn õ hatására Dohányzásp róba: Osztálytársa k/haverok hatása Dohányzásp róba: Kedvenc filmhõsöm/T v szereplõm miatt Dohányzásp róba: Cigarettarekl ám hatására Dohányzásp róba: Cigarettát áruló fiatalok miatt Jólszituált90 Vidéki leszakadók186 Városi lázadó dohányos112 Városi leszakadó103 Értelmiségi hátterû183 Pörgõs iskolarém dohányosok66 Vidéki lázadó dohányosok77 Total817

21 Case Summaries Variance Demográfia 7 csoport 4 demográfiai faktoron Dohányz áspróba: Soha nem próbálná m ki Dohányzá spróba: Kíváncsis ág Dohányz áspróba: Saját döntés Dohányzá spróba: Szüleim dohányzá sa miatt Dohányzá spróba: Szüleim/t anáraim tiltása miatt Dohányz áspróba: Barát/bar átnõ hatására Dohányzá spróba: Osztálytár sak/haver ok hatása Dohányz áspróba: Kedvenc filmhõsö m/Tv szereplõ m miatt Dohányzá spróba: Cigarettar eklám hatására Dohányz áspróba: Cigarettá t áruló fiatalok miatt Jólszituált0.1620.0630.0430.0630.0000.2450.2470.0220.0000.011 Vidéki leszakadók0.2200.0880.0210.0560.0260.2160.2120.005 0.000 Városi lázadó dohányos0.0090.0820.0350.0970.0090.2520.2480.0180.0260.000 Városi leszakadó0.2350.0470.0190.1190.0000.1640.2270.000 Értelmiségi hátterû0.2470.0570.0000.0320.0210.2000.2020.005 Pörgõs iskolarém dohányosok0.0710.1310.0580.0840.0580.235 0.0000.0150.000 Vidéki lázadó dohányosok0.0000.0500.0380.1330.0620.2500.2530.0130.0000.013 Total0.1860.0720.0250.0750.0230.2290.2350.0090.0070.004 A többszörös feleletválasztós kereszttabulációk kezelése 4 Harmadik körben varianciákat (Variance)- t számolunk az Anlyze| Reports| Case summaries-ben Az Output window| Case summaries-re állunk Az eredményt átmásoljuk a Tobb- szorosFeleletValaszt munkalap Cellákba eső varianciák táblázatba

22 A többszörös feleletválasztós kereszttabulációk kezelése 5 Ezekután, leolvashatjuk az asszociáció erősségét jelző Cramer V-tesztet (gyenge) A menüben reziduumokat kérünk A reziduális térképet az egyszerű kereszttabulációnál tárgyaltakhoz hasonlóan kimásolhatjuk egy Word jelentésbe A reziduumokból látható, hogy a Városi lázadó dohányosok inkább az osztálytársak hatására, még a Vidéki lázadó dohányosok inkább barát/ barátnő hatására szoknak rá a dohányzásra

23 Többszörös feleletválasztós kereszttabulációk kezelése 6 Az ANOVA-k eredményei a következőképpen állnak elő: Sor/oszlop csoportok egyutas ANOVA-inak szignifikancia szintjei A két csoportosító változó közti kétutas ANOVA teljes hatás szignifikancia szintje A sor- és oszlopfaktorok elkülönített hatásainak szignifikancia szintjei A sor- és oszlopfaktorok közti kereszthatás

24 A gyakorlat tartalma 16. Házi feladat ellenőrzése: Faktoranalízis Klaszterezéssel alkotott csoportok jellemzése SPSS-ben A csoportjellemzők feldolgozása Excelben Pókháló diagramm Egyutas ANOVA-k Gombóc- és tortadiagramm A csoportok további jellemzése a KetUtasANOVA.xls elemző rendszer használatával A csoporttagság változó kereszttabulációja egyszeres feleletvávalasztós változókkal, egy- és kétutas ANOVA A csoporttagság változó kereszttabulációja többszörös feleletvávalasztós változóhalmazzal, egy- és kétutas ANOVA 17. Házi feladat: Csoportosítás

25 17. Házi Feladat: Saját piackutatási project: Készítse el a megfigyelések attitüd-faktorokon alapuló csoportosítását, illetve a csoportok háttérvizsgálatát a Csoportok.xls sablon segítségével. Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! ( 2.5p )Csoportok.xls Készítse el a megfigyelések fogyasztói termékpreferenciákon, vagy fogyasztási szokásokon alapuló csoportosítását, illetve a csoportok háttérvizsgálatát a Csoportok.xls sablon segítségével. Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! ( 2.5p )Csoportok.xls


Letölteni ppt "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika."

Hasonló előadás


Google Hirdetések