18. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens

Slides:



Advertisements
Hasonló előadás
Microsoft Excel 3. óra Előadó: Jánosik Tamás.
Advertisements

Hogyan készítsünk el egy COCO-t???
Számítógépes ismeretek 5. óra
A statisztika alapjai - Bevezetés az SPSS-be -
Kezdhetek mindent elölről…
Matematika II. 2. előadás Geodézia szakmérnöki szak 2012/2013. tanév Műszaki térinformatika ágazat őszi félév.
Táblázat kezelő programok
Mire jók a tabulátorok? Lehetőséget nyújtanak
Gazdaságelemzési és Statisztikai Tanszék
Adatbáziskezelés az MSAccess programmal Makány György 5. rész: Jelentések.
A körlevél készítésének menete
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Dr.Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p.,
Táblázatkezelés Az Excel.
Cellák és tartalmak formázása táblázatkezelő programokban Készítette: Péter Tünde Felkészítő tanár: András Izabella Iskola: Gábor Áron Iskolaközpont,
A táblázatok formázása Készítette: Gombkötő Alexandra Felkészítő tanár: Györe Mihály József Attila Gimnázium, 6900 Makó Csanád vezér tér 6.
Zsombori Balázs Neumann János Számítástechnikai SZKI
Képek beillesztése,formázása dokumentumokban Tóth Anita 8
A GIMP képszerkesztő program bemutatása Készítette: Rokonál Zoltán
Gazdasági informatikából megkaptuk a félévi feladatot!!! Mindenki nagy örömére… 0. hét.
SPSS bevezetés.
Hierarchikus klaszteranalízis
K-közepű és kétlépéses klaszteranalízis (3. fejezet)
Főkomponens és faktor analízis
Microsoft Excel Diagramok.
Microsoft Excel 2. óra Előadó: Jánosik Tamás.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Alapszint 2.  Készíts makrót, ami a kijelölt cellákat egybenyitja, a tartalmat vízszintesen és függőlegesen középre igazítja és 12 pontos betűméretűre.
Projektelőterv, projektköltségvetés készítése Készítette: Szentirmai Róbert (minden jog fenntartva)
Elemzések, jelentések készítése
Táblázatkezelés.
TÁBLÁZATOK SZERKESZTÉSE EXCEL 2007 TÁBLÁZATKEZELŐVEL.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
Készítette: Rummel Szabolcs Elérhetőség:
ADATBÁZISKEZELÉS ŰRLAPOK.
SPSS 16 Ez a dia sorozat a gyakorlatok anyagának felidézését segíti.
Készítette:Képes Edina 10/d
Tananyag: 3. Előadás A HTML nyelv alapjai Kép beillesztés Navigációk
Turócziné Kiscsatári Nóra
Az operációs rendszerek feladatai, csoportosításuk
Gazdasági informatikus - Szövegszerkesztés 1 Bekezdések formázása 2.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Az SPSS programrendszer.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 12. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
16. Előadás Dr. Pauler Gábor, Egyetemi Docens
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 20. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.
17. Előadás Dr. Pauler Gábor, Egyetemi Docens
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 11. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
SQL aggregálás, csoportosítás és összekapcsolás Adatbázisok 1.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 20. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
Excel alapok Templom Téri Német Nemzetiségi Általános iskola Pilisvörösvár 2015 A leggyakoribb Excel műveletek, ill. típusfeladatok Készítette: Kárpát.
Gyakorlat. postafiók készítése: 1. Nyissuk meg a oldalt! 2. Válasszuk a Fiók létrehozása gombot! 3. Töltsük ki az űrlapot! 4. A nyitólap.
Csoportmunkát támogató szoftverek
Kimutatás-pivot tábla, Excel 2010
Közigazgatási alapvizsga a Probono rendszerben
Kimutatás készítés 1..
Jelentések Jelentést akkor használunk, ha az adatbázisban letárolt adatokat szeretnénk kinyomtatni. A jelentésben szereplő adatok alapja egy tábla vagy.
PTE Természettudományi Kar
18. Előadás Dr. Pauler Gábor, Egyetemi Docens
Az én művem Készítette:Szekerczés Szabina
Adatelemzési gyakorlatok
Az Európai Unió tagországainak, a csatlakozásra váró országoknak
Az IBM SPSS Statistics programrendszer
Ültetési rend létrehozása
Táblázatkezelés Az Excel.
5. Kalibráció, függvényillesztés
Előadás másolata:

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 18. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu

A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció

Klaszterezés kiváltása faktoranalízissel 1 Egy faktoranalízis kiszámított faktorértékeit felhasználhatjuk a megfigyelések csoportokba sorolására: Annyi csoportunk lesz, ahány kibontott faktor van Egy megfigyelés abba a csoportba tartozik, ahol a legnagyobb a faktor értéke (soronként maximumot keresünk a táblában) A faktoranalízissel történő csoportosítás előnyei: Összehasonlíthatatlanul kisebb számolásigényű, mint a K-közép vagy pláne a hierarchikus klaszterezés Minősége statisztikailag mérhető a KMO-teszttel, még hierarchikus klaszterezésnél erre nézve csak scree plot törésének élessége ad közelítést, a K-közép klaszterezésnél pedig a konvergenciához szükséges lépésszám A hátrányai: A faktoranalízis eloszlással kapcsolatos feltételezései miatt csak olyan eloszlási mintázatú adatbázisokat tud jól csoportosítani, ahol a sokaság főátlagától sugárirányban kifele húzódnak a csoportok A csoportokat így csak hipergúla (Hyperpyramid) alakú térrészekbe képes szétválasztani, amelyek tengelyében a faktorok sajávektora húzódik Nem képes olyan eloszlásokat helyesen csoportosítani, ahol egy nagy, központi helyzetű csoport léte feltételezhető Lássuk mindezt az Autószobrászat Bt. példáján (kérdőívet lásd: KerdoivMinta.doc )

Klaszterezés kiváltása faktoranalízissel 2 A klasszifikációs számításokat SPSS-ben nem lehet megoldani, ezért a következőképp járunk el: Elindítjuk az SPSS-t A File|Open menüvel megnyitjuk a AdatbazisMinta.sav fájlt Az adattábla nézetben (Data view) kijelöljük a kiszámított faktorváltozókat a fejlécgombjaikon történő egérhúzással, és Ctr+C-vel vágólapra másoljuk őket Megnyitjuk a FaktorKlasszifikacio.xls munkalapot A zöld cellákba Szerkesztés| Irányított beillesztés| Csak szöveg (Edit| Paste special| Text only) menüvel beillesztjük a faktorváltozók tartalmát, és kitöltjük a neveiket A Szerkesztés| Csere| Teljes cellát| „.”  „” (Edit| Replace| Whole cells| „.”  „”) menüvel eltűntetjük az SPSS rendszer hiányzó értékeiből keletkezett pontokat, mert ezek zavarnák a munkalapot A munkalap Max és Hol.Van (Match) függvények segítségével a piros cellákba kiszámítja, mely megfigyelés mely csoportba tartozik Kijelöljük ezeket a cellákat, majd Ctrl+C-vel vágólapra másoljuk SPSS-ben Ctrl+V-vel beillesztjük őket egy üres változó oszlopába A változólistában ezt ellátjuk rendes névvel, címkével és értékcímkékkel húz katt

A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció

Faktoranalízis kiváltása klaszterezéssel 1 Abban az esetben, ha az adatbázis változóinak kapcsolata nem lineáris, nem monoton (pl. a megfigyelések egy hiperparaboloid felülete mentén szóródnak), illetve az eloszlás masszívan multimodális, a korrelációszámításon alapuló faktoranalízis nem fog működni. Ekkor használhatjuk a változók közti kapcsolatrendszer felderítésére a hierachikus klaszterezés „változók csopotosítása” (Group Variables) opcióját: Az algoritmus „transzponálva” – sor/oszlop cserével – fut le az adatbázis táblán: a változók oszlopait veszi megfigeléseknek, és köztük mér Euklideszi távolságot, ami jóval érzékenyebb mint a korreláció Az eredmény a változók közti csoporthierachia lesz A megoldás hátránya a Fakoranalízisnél magasabb számolásigény, illetve a statisztikai tesztelhetőség hiánya (erre itt is csak a scree plot áll rendelkezésre) D(Vi, Vj)

Faktoranalízis kiváltása klaszterezéssel 2 Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt Az Analyze| Classify| Hierarchical Cluster menüvel válasszuk a csoportok kiszámítását Erre megjelenik a Hierarchikus Klaszteranalízis (Hierachical Cluster Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 8db attitüd változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre Jelöljök meg a változók csoportosítását (Cluster Variables) katt katt katt katt shift +húz katt katt

Faktoranalízis kiváltása klaszterezéssel 3 A gombra kattintva jelöljük be, hogy aglomerációs sorrendet (Agglomeration Schedule) kérünk. A gombra kattintva kérjünk Dendogrammot, az Icicle-t pedig állítsuk None-ra. A gombra kattinta szabályozzuk a csoportosítási módszert. A Cluster method-ot állítsuk Ward Method-ra, Standardize-t pedig Standard deviation of 1, By case-ra Az gombbal indítjuk a számolást A bevont változók kis száma miatt még az SPSS Output window| Dendogramm diagrammján is jól tanulmányozhatjuk a változók közti csoporthierachiát (pl. a stílus tükrözése /attstyle/ és az egyéniesítés /attdecor/ állnak a legközelebb egymáshoz) katt katt katt katt katt katt katt katt katt

A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció

Klaszterezés távolsági-közelségi bemenő adatokkal 1 Néha előfordul olyan helyzet, hogy az egyes megfigyelések csoportosító változók szerinti adatai ismeretlenek, csak a köztük lévő távolságról (Distance) /közelségről (Proximity) rendelkezünk infókkal, és ez alapján kellene köztük egy csoporthierarchiát létrehozni: Uhrin Ubul, a Saarban-Haw-Duke Magyarország Biztosító Rt. Dél-Dunántúli régióvezetője nagy bajban van: a belszolgálati ügyvitel krónikusan akadozó, az ügyfelek aktái elvesznek, az üzletkötőknek nem számfejtik időben a jutalékukat. Gyanítjuk, hogy a jelenség egyik fő oka, hogy a munkatársak közti informális csoportszerveződés messze nem áll összhangban a formális szervezeti hierarchiával, és a szolgálati úton lassú a kommunikáció Ubul Laci Géza Jenő Aladár Magda Sári Anett Lajos Sándor Ádám György

Klaszterezés távolsági-közelségi bemenő adatokkal 2 De hogyan lehetne feltérképezni a munkatársak közti informális szerveződést? Megfigyeltük az elmúlt egy évben a munkatársak egymásközti telefon és e-mail forgalmát, és egy táblázatban összesítettük a kontaktusok számát Feltételezzük, hogy a intenzívebb kölcsönös kommunikáció a munkatársak szorosabb kapcsolatára utal (a nem kölcsönös kommunikáció lehet a „szolgálati út” is) Nem ismerjük, hogy a munkatársak mely jellemzői hatnak az informális csoportok kialakulására, és nem is ismerjük ezek értékeit, csupán a „kommunikációs közelségi” infók állnak rendelkezésre Hívó/ Hívott Ubul Géza Laci Jenő Sári Ádám Lajos Anett Sándor Magda Aladár György   978 120 847 205 416 808 73 167 963 241 211 855 259 646 306 276 790 437 90 9 814 410 138 304 664 717 656 654 678 839 31 250 842 826 771 574 422 605 117 730 913 485 44 212 293 838 350 542 688 922 746 651 565 498 231 704 488 631 86 460 317 434 275 502 856 687 640 677 685 89 355 914 37 15 64 389 782 139 916 548 378 193 954 340 216 148 84 708 672 655 373 1001 155 128 825 829 986 8 29 888 645 516 35 845 121 237 266 943 284 442 464 223 16 320 779 452 6 225 430 809 36 472 466 702 175 879 230 7

Klaszterezés távolsági-közelségi bemenő adatokkal 3 Az adatbázisba (lásd Kontaktus.sav ) egyszerűen bemásoljuk a kapcsolat mátrixot Ez itt megfigyelésekre (sorokra) bomlik, és minden munkatársnak lesz egy „kapcsolati profilja”. Ezen profilok közt mér majd a klaszterezés a távolságokat Az egyetlen átalakítás, amit teszünk, hogy mivel önmagához mindenki elég közel áll, és sokat kommunikál magában - csak ezt nem tudjuk megfigyelni – az üres főátló elemeit feltöltjük a sorok maximumával

Klaszterezés távolsági-közelségi bemenő adatokkal 4 Lefuttatjuk a Ward-hierarchikus klaszterezést, a szokásos beállításokkal: Csoportosítás (Cluster) = Megfigyelések (Cases) Sztenderdizáció (Standardization) = változókra (Variables), szórások 1-hez (Standard deviation to 1) Ha a Dendogrammot összehasonlítjuk a formális szervezeti hierarchiával, ebből érdekes következtetésekre juthatunk: Pl. Laci az Ubul egyik helyettese a szolgálti úton, de az informális csoportszerkezetben nagyon messze áll tőle, alig kommunikálnak Ubul Laci Géza Jenő Aladár Magda Sári Anett Lajos Sándor Ádám György C A S E 0 5 10 15 20 25 Label Num + --------- + Sári 5 òûòòòòòòòòòòòòòòòòòø Anett 8 ò÷ ó Laci 3 òòòûòø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø Ádám 6 ò òò÷ ùòòòòòø György 12 òòòòò÷ ùòòòòòòò÷ Lajos 7 òòòòòòòûòòò÷ Sándor 9 òòòòòòò÷ Ubul 1 òûòòòòòòòòòòòø Jenö 4 ùòòòø Géza 2 òòòòòòòûòòòòò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ Aladár 11 òò Magda 10 òòòòòòòòòòòòòòòòò÷

A gyakorlat tartalma 17. Házi feladat ellenőrzése: Csoportosítás Klaszterezés kiváltása Faktoranalízissel Mintapélda Faktoranalízis kiváltása Klaszterezéssel Klaszterezés távolsági-közelségi bemenő adatokkal 18. Házi feladat: Csoport-kereszttabuláció

Saját piackutatási project: 18. Házi feladat: Saját piackutatási project: Készítse el a megfigyelések demográfiai tényezőkön alapuló csoportosítását, illetve a csoportok háttérvizsgálatát a Csoportok.xls sablon segítségével. Ügyeljen rá, hogy ezek a változók kevés érték felett koncentrálódnak, ami megzavarhatja a klaszterezést, ezért lehet, hogy elöbb faktorokat kell belőlük csinálni! Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! (3p) Készítse el az attitüd/faktor-, termékpreferencia-, demográfiai elvű csoportosítások kereszttabulálását a KetUtasANOVA.xls sablon segítségével. Figyelje meg, mely csoportok közt van kapcsolat! Az eredményeket vigye fel új fejezetként a jelentésébe és csatolja a szoftvereket! (2p)