Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 18. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu
A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció
Klaszterezés kiváltása faktoranalízissel 1 Egy faktoranalízis kiszámított faktorértékeit felhasználhatjuk a megfigyelések csoportokba sorolására: Annyi csoportunk lesz, ahány kibontott faktor van Egy megfigyelés abba a csoportba tartozik, ahol a legnagyobb a faktor értéke (soronként maximumot keresünk a táblában) A faktoranalízissel történő csoportosítás előnyei: Összehasonlíthatatlanul kisebb számolásigényű, mint a K-közép vagy pláne a hierarchikus klaszterezés Minősége statisztikailag mérhető a KMO-teszttel, még hierarchikus klaszterezésnél erre nézve csak scree plot törésének élessége ad közelítést, a K-közép klaszterezésnél pedig a konvergenciához szükséges lépésszám A hátrányai: A faktoranalízis eloszlással kapcsolatos feltételezései miatt csak olyan eloszlási mintázatú adatbázisokat tud jól csoportosítani, ahol a sokaság főátlagától sugárirányban kifele húzódnak a csoportok A csoportokat így csak hipergúla (Hyperpyramid) alakú térrészekbe képes szétválasztani, amelyek tengelyében a faktorok sajávektora húzódik Nem képes olyan eloszlásokat helyesen csoportosítani, ahol egy nagy, központi helyzetű csoport léte feltételezhető Lássuk mindezt az Autószobrászat Bt. példáján (kérdőívet lásd: KerdoivMinta.doc )
Klaszterezés kiváltása faktoranalízissel 2 A klasszifikációs számításokat SPSS-ben nem lehet megoldani, ezért a következőképp járunk el: Elindítjuk az SPSS-t A File|Open menüvel megnyitjuk a AdatbazisMinta.sav fájlt Az adattábla nézetben (Data view) kijelöljük a kiszámított faktorváltozókat a fejlécgombjaikon történő egérhúzással, és Ctr+C-vel vágólapra másoljuk őket Megnyitjuk a FaktorKlasszifikacio.xls munkalapot A zöld cellákba Szerkesztés| Irányított beillesztés| Csak szöveg (Edit| Paste special| Text only) menüvel beillesztjük a faktorváltozók tartalmát, és kitöltjük a neveiket A Szerkesztés| Csere| Teljes cellát| „.” „” (Edit| Replace| Whole cells| „.” „”) menüvel eltűntetjük az SPSS rendszer hiányzó értékeiből keletkezett pontokat, mert ezek zavarnák a munkalapot A munkalap Max és Hol.Van (Match) függvények segítségével a piros cellákba kiszámítja, mely megfigyelés mely csoportba tartozik Kijelöljük ezeket a cellákat, majd Ctrl+C-vel vágólapra másoljuk SPSS-ben Ctrl+V-vel beillesztjük őket egy üres változó oszlopába A változólistában ezt ellátjuk rendes névvel, címkével és értékcímkékkel húz katt
A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció
Faktoranalízis kiváltása klaszterezéssel 1 Abban az esetben, ha az adatbázis változóinak kapcsolata nem lineáris, nem monoton (pl. a megfigyelések egy hiperparaboloid felülete mentén szóródnak), illetve az eloszlás masszívan multimodális, a korrelációszámításon alapuló faktoranalízis nem fog működni. Ekkor használhatjuk a változók közti kapcsolatrendszer felderítésére a hierachikus klaszterezés „változók csopotosítása” (Group Variables) opcióját: Az algoritmus „transzponálva” – sor/oszlop cserével – fut le az adatbázis táblán: a változók oszlopait veszi megfigeléseknek, és köztük mér Euklideszi távolságot, ami jóval érzékenyebb mint a korreláció Az eredmény a változók közti csoporthierachia lesz A megoldás hátránya a Fakoranalízisnél magasabb számolásigény, illetve a statisztikai tesztelhetőség hiánya (erre itt is csak a scree plot áll rendelkezésre) D(Vi, Vj)
Faktoranalízis kiváltása klaszterezéssel 2 Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt Az Analyze| Classify| Hierarchical Cluster menüvel válasszuk a csoportok kiszámítását Erre megjelenik a Hierarchikus Klaszteranalízis (Hierachical Cluster Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 8db attitüd változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre Jelöljök meg a változók csoportosítását (Cluster Variables) katt katt katt katt shift +húz katt katt
Faktoranalízis kiváltása klaszterezéssel 3 A gombra kattintva jelöljük be, hogy aglomerációs sorrendet (Agglomeration Schedule) kérünk. A gombra kattintva kérjünk Dendogrammot, az Icicle-t pedig állítsuk None-ra. A gombra kattinta szabályozzuk a csoportosítási módszert. A Cluster method-ot állítsuk Ward Method-ra, Standardize-t pedig Standard deviation of 1, By case-ra Az gombbal indítjuk a számolást A bevont változók kis száma miatt még az SPSS Output window| Dendogramm diagrammján is jól tanulmányozhatjuk a változók közti csoporthierachiát (pl. a stílus tükrözése /attstyle/ és az egyéniesítés /attdecor/ állnak a legközelebb egymáshoz) katt katt katt katt katt katt katt katt katt
A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció
Klaszterezés távolsági-közelségi bemenő adatokkal 1 Néha előfordul olyan helyzet, hogy az egyes megfigyelések csoportosító változók szerinti adatai ismeretlenek, csak a köztük lévő távolságról (Distance) /közelségről (Proximity) rendelkezünk infókkal, és ez alapján kellene köztük egy csoporthierarchiát létrehozni: Uhrin Ubul, a Saarban-Haw-Duke Magyarország Biztosító Rt. Dél-Dunántúli régióvezetője nagy bajban van: a belszolgálati ügyvitel krónikusan akadozó, az ügyfelek aktái elvesznek, az üzletkötőknek nem számfejtik időben a jutalékukat. Gyanítjuk, hogy a jelenség egyik fő oka, hogy a munkatársak közti informális csoportszerveződés messze nem áll összhangban a formális szervezeti hierarchiával, és a szolgálati úton lassú a kommunikáció Ubul Laci Géza Jenő Aladár Magda Sári Anett Lajos Sándor Ádám György
Klaszterezés távolsági-közelségi bemenő adatokkal 2 De hogyan lehetne feltérképezni a munkatársak közti informális szerveződést? Megfigyeltük az elmúlt egy évben a munkatársak egymásközti telefon és e-mail forgalmát, és egy táblázatban összesítettük a kontaktusok számát Feltételezzük, hogy a intenzívebb kölcsönös kommunikáció a munkatársak szorosabb kapcsolatára utal (a nem kölcsönös kommunikáció lehet a „szolgálati út” is) Nem ismerjük, hogy a munkatársak mely jellemzői hatnak az informális csoportok kialakulására, és nem is ismerjük ezek értékeit, csupán a „kommunikációs közelségi” infók állnak rendelkezésre Hívó/ Hívott Ubul Géza Laci Jenő Sári Ádám Lajos Anett Sándor Magda Aladár György 978 120 847 205 416 808 73 167 963 241 211 855 259 646 306 276 790 437 90 9 814 410 138 304 664 717 656 654 678 839 31 250 842 826 771 574 422 605 117 730 913 485 44 212 293 838 350 542 688 922 746 651 565 498 231 704 488 631 86 460 317 434 275 502 856 687 640 677 685 89 355 914 37 15 64 389 782 139 916 548 378 193 954 340 216 148 84 708 672 655 373 1001 155 128 825 829 986 8 29 888 645 516 35 845 121 237 266 943 284 442 464 223 16 320 779 452 6 225 430 809 36 472 466 702 175 879 230 7
Klaszterezés távolsági-közelségi bemenő adatokkal 3 Az adatbázisba (lásd Kontaktus.sav ) egyszerűen bemásoljuk a kapcsolat mátrixot Ez itt megfigyelésekre (sorokra) bomlik, és minden munkatársnak lesz egy „kapcsolati profilja”. Ezen profilok közt mér majd a klaszterezés a távolságokat Az egyetlen átalakítás, amit teszünk, hogy mivel önmagához mindenki elég közel áll, és sokat kommunikál magában - csak ezt nem tudjuk megfigyelni – az üres főátló elemeit feltöltjük a sorok maximumával
Klaszterezés távolsági-közelségi bemenő adatokkal 4 Lefuttatjuk a Ward-hierarchikus klaszterezést, a szokásos beállításokkal: Csoportosítás (Cluster) = Megfigyelések (Cases) Sztenderdizáció (Standardization) = változókra (Variables), szórások 1-hez (Standard deviation to 1) Ha a Dendogrammot összehasonlítjuk a formális szervezeti hierarchiával, ebből érdekes következtetésekre juthatunk: Pl. Laci az Ubul egyik helyettese a szolgálti úton, de az informális csoportszerkezetben nagyon messze áll tőle, alig kommunikálnak Ubul Laci Géza Jenő Aladár Magda Sári Anett Lajos Sándor Ádám György C A S E 0 5 10 15 20 25 Label Num + --------- + Sári 5 òûòòòòòòòòòòòòòòòòòø Anett 8 ò÷ ó Laci 3 òòòûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø Ádám 6 ò òò÷ ùòòòòòø György 12 òòòòò÷ ùòòòòòòò÷ Lajos 7 òòòòòòòûòòò÷ Sándor 9 òòòòòòò÷ Ubul 1 òûòòòòòòòòòòòø Jenö 4 ùòòòø Géza 2 òòòòòòòûòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ Aladár 11 òò Magda 10 òòòòòòòòòòòòòòòòò÷
A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció
Saját piackutatási project: 18. Házi feladat: Saját piackutatási project: Készítse el a megfigyelések demográfiai tényezőkön alapuló csoportosítását, illetve a csoportok háttérvizsgálatát a Csoportok.xls sablon segítségével. Ügyeljen rá, hogy ezek a változók kevés érték felett koncentrálódnak, ami megzavarhatja a klaszterezést, ezért lehet, hogy elöbb faktorokat kell belőlük csinálni! Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! (3p) Készítse el az attitüd/faktor-, termékpreferencia-, demográfiai elvű csoportosítások kereszttabulálását a KetUtasANOVA.xls sablon segítségével. Figyelje meg, mely csoportok közt van kapcsolat! Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! (2p)