17. Előadás Dr. Pauler Gábor, Egyetemi Docens

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining
17. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /3725

Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportosítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

A fogyasztók eltérő igényű csoportjainak meghatározása
Miért kell a fogyasztókat csoportokba, szegmensekbe (Market Segment) sorolni? A különböző fogyasztói csoportok: Más termékeket igényelnek Más csatornán keresztül érhetők el Más árat hajlandók megfizetni Más promóciós mix hat rájuk Aki nem szegmentál, hanem átlagvevőben gondolkodik az Mindenkire ugyanazt a terméket akarja ráeröltetni Mindenkit ki akar szolgálni, senkit nem szolgál jól Kiismerhetetlennek és szeszélyesnek fogja tartani a piacot, politikai biztosítékokat keres korrupció

Példa a fogyasztók csoportjaira
Miért használhatatlan fogalom az „átlagos vevő”? Ragadjunk ki két változót (Kor,Jövedelem) és ábrázoljuk őket X, Y diagrammon! Sorsz. Kor Jövedelem 1 28 40002 2 18 50625 3 22 54446 4 23 24133 5 10 37452 6 13 47833 7 15 32605 8 43 121616 9 44 110893 52 104828 11 30 135456 12 45 134224 37 136279 14 49 113044 39 130931 16 69 36702 17 65 20974 61 35851 19 75 57622 20 62 38851 21 64 46853 71 33917 30869 Átlag 68522 Inkább csoportokra kellene bontani, és azok átlagát kiszámítani! Van-e itt értelme átlagot számolni? Létezik-e átlagos ügyfél? 1

A csoportosítás változói
A csoportosításnál a változók két nagy részre oszlanak: Csoportosító változók (Grouping Variables): azon tulajdonságok, ami alapján megkülönböztetjük a csoportokat: A fogyasztó mennyire gondolja fontosnak a különböző termékjellemzőket? Mik számára az ideális termék jellemzői? Az viszont nem lehet a csoportosítás alapja, hogy valaki szereti-e a mi termékünket, vagy nem. Lehet, hogy nagyon jó vevő lenne, csak épp a mi termékünkkel van baj! Intervallum-, vagy arány skálán mért változók Háttérváltozók (Group Profile Variables): azon tulajdonságok, amik szerint az elkészült csoportokat jellemezzük: Kitől, hol, milyen gyakran, mennyiért szokott vásárolni? Milyen médiából szerzi a vásárláshoz szükséges információkat? Szocio-demográfia: nem, kor, jövedelem, iskolai végzettség, családméret, foglalkozás Korábban kiszámított faktorváltozók Mindenfajta skálán mért változó lehet!

Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportosítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

Hogyan működik a fogyasztók csoportosítása?
1. Módszer: Agglomeratív Hierarcikus Klaszterezés (Agglomerative Hierarchic Clustering): Vonjuk össze a két leghasonlóbb elemet egy csoportba. De mi a leghasonlóbb? A csoportosító változók értékeitől, mint koordinátáktól függ: Nearest neighbor-módszer: a két legközelebbi elemet von össze 1:(X1,Y1) 2:(X2,Y2) koordináták távolsága Pithagorasz tétellel: c = (a2 + b2) D(1,2) = ((X1-X2)2 + (Y1-Y2)2)Min (17.1) Ward-módszer: a két elem összevonva a lehető legkompaktabb csoportot alkossa Elemek csoportátlagtól mért távolságának Elemtagszámmal súlyozott négyzetösszege WSS = i(D(Elemi,Csoportátlag)2*Elemtagszámi)Min (17.2) Ismételjük az összevonogatást. Így m megfigyelést m-1 lépésben összevonhatunk 1 csoportba. Ennek persze nem sok értelme van, valamely közbülső lépésben meg kellene állni. Mi a legjobb csoportszám? Az összevonással eltűntetett D vagy WSS kezdetben kicsi, De nagyon megugrik, mikor már különböző elemeket von össze Ezt lépésenként figyeljük egy „Scree Plot” nevű diagrammon Nem vonunk többet össze, ha ez hirtelen fölfele kezd menni! Az összevonogatás miatt csoportok fa-szerűen, hierarchiában tartalmaznak majd alcsoportokat. Ezt a hierarchiát a „Dendogram Plot” mutatja. (X1,Y1) D(1,2) b=Y1-Y2 (X2,Y2) a=X1-X2

A Ward-módszer grafikai szemlélete működés közben
Dendogram Plot 9 8 7 6 5 4 3 2 1 Lépés A megfigyelések 160000 Jövedelem A legkompaktabban összevonható elemekkel kezdi 140000 2 3 120000 5 100000 Megfigyelés Egy már meglévő csoportot is összevonhat egy elemmel ha ez a legkompaktabb 80000 Scree Plot WSS Állj! 60000 8 6 1 40000 4 7 9 20000 10 Csoport Kor 10 20 30 40 50 60 70 80

Hogyan működik a fogyasztók csoportosítása?
2. Módszer: K-közép klaszterezés (K-Mean Clustering) Előre tujuk hogy hány (k db) csoportot szeretnénk csinálni. Ennek megfelelően, felveszünk k db csoportcentrumot a csoportosító változók szerinti random értékű koordinátákként Ezután lépésenként mozoghatnak a csoportcentrumok, oly módon, hogy minél több megfigyeléshez kerüljenek közel, egymástól viszont minél távolabb legyenek A távolság Euklideszi (Euclidean) távolságként definiált: D(1,2) = ((X1-X2)2 + (Y1-Y2)2) (17.3) Az algritmus akkor áll le, ha a centrumok összesített elmozdulása egy lépésben nem ér el egy határértéket  dinamikus egyensúly jön létre, Ljapunov-stabil állapot (Ljapunov-stability) Ezek után, a megfigyeléseket a hozzájuk legközelebbi csoportcentrumhoz csatoljuk, így jönnek létre a csoportok

A K-közép klaszterezés működésének grafikus szemlélete
Először véletlen koordinátákként felveszünk három csoportcentrumot Ezek a megfigyelésekhez közeledve és egymástól távolodva mozognak Amíg a Ljapunov-stabil állapotot el nem érik Ezután a megfigyeléseket a legközelebbi centrumhoz csatoljuk A megfigyelések 20000 40000 60000 80000 100000 120000 140000 160000 10 20 30 40 50 60 70 80 Kor Jövedelem 1 2 3 4 5 6 7 8 9 Állj! Lépés Mozgás Ljapunov Plot

A hierarchikus és K-közép klaszterezések összehasonlítása 1
Hierarchikus klaszterezés Előnyei: Nem kell tudni előre a csoportok számát, jó esetben az algoritmus maga adja meg a scree ploton Nem kompakt alakú, térben elnyújtott csoportokat (Spurious Clusters) is detektálni tud a Nearest Neighbor módszerrel (pl. „kifli” alakú klaszterek) A Ward-módszer inkább kompakt alakú csoportokat tud azonosítani A csoportok közt hierarchiát állít fel, azok alcsoportokra szeletelhetők Hátrányai Nagyon szélsőérték érzékeny, a kieső megfigyelések (Outlier) eltorzítják az algoritmust és így elég egyenlőtlen méretű csoportok születnek (néhány megfigyelésből álló, töredék minicsoportok megjelenése az eredményben tipikus tünet erre) Magas a számolásigénye, a megfigyelések számával négyzetesen arányosan nő, ezért az SPSS itt max megfigyelést kezel

A szélsőséges értékek kiszűrése az adatbázisból
A hierachikus klaszterezés lefuttatása elött, szélsőséges értékű megfigyeléseket célszerű kiszűrni a mintából: Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg a AdatbazisMinta.sav fájlt A Data|Select cases menüvel indítsuk el a megfigyelések kiválasztását (Select Cases) Ezután a „kiválasztás, ha a feltételt kielégíti” (Select if condition satisfied) pontra kattintsunk Az gombra kattintva egy képletszerkesztő ablakban definiálhatjuk a feltételt A bal oldali változólistából ►gombra kattintva hozhatunk be változókat a képletszerkesztőbe Ezekre <, >, <=, >=, <> relációkkal adhatunk meg különféle alsó-felső korlátokat A jobboldali listából különféle matematikai-statisztikai függvényeket hozhatunk be ►gombra kattintva Az egyes változókra vonatkozó feltételeket zárójelekkel () és logikai operátorokkal kapcsolhatjuk össze (AND: &, OR: |, NOT: /) Jelöljük meg a „ki nem választott megfigyelések kiszűrve” (Unselected cases are filtered) pontot Az gomb megnyomásával indítsuk a szűrést katt katt katt katt katt katt katt katt katt katt katt katt

A hierarchikus és K-közép klaszterezések összehasonlítása 3
Előnyei: Kevésbé szélsőérték érzékeny A csoportok mérete kiegyenlítettebb Alacsony számolásigény, a megfigyelések számával lineárisan nő, az SPSS-ben a bevont megfigyelések száma nem korlátozott Hátrányai: Előre ismerni kell a csoportok számát. Ha nem találjuk el: Vagy nem alakul ki a Ljapunov-stabil állapot Vagy nagyon egyenlőtlen méretű csoportok jönnek létre Kizárólag kompakt alakú, n-dimenziós konvex sökszögtestekkel, konvex poliéderekkel (Convex Polyhedron) elhatárolható csoportokat tud azonosítani: Mivel a csoporttagságról az dönt, hogy a megfigyelés mely centrumhoz esik közelebb Ezért a csoporthatár a két centrumot összekötő szakaszt felező merőleges hipersík lesz A csoportot határoló hipersíkok konvex poliédert alkotnak Nincs a csoportok közt hierarchia, azok nem bonthatóak

Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportsítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

Mintapélda Az Autószobrászat Bt. kérdőívén (lásd KerdoivMinta.doc ) 13db változó foglalkozik azzal, hogy a fiatalok az autók mely jellemzőit milyen fontosak tartják. Ezek alapján fogjuk egyelőre ismeretlen számú csoportba sorolni a 130 válaszadót:

Agglomeratív hierarchikus klaszterezés SPSS-ben 1
Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt Az Analyze| Classify| Hierarchical Cluster menüvel válasszuk a csoportok kiszámítását Erre megjelenik a Hierarchikus Klaszteranalízis (Hierachical Cluster Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 13db csoportosító változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt katt katt katt shift +húz katt

Agglomeratív hierarchikus klaszterezés SPSS-ben 2
A gombra kattintva jelöljük be, hogy aglomerációs sorrendet (Agglomeration Schedule) kérünk. A gombra kattintva kérjünk Dendogrammot, az Icicle-t pedig állítsuk None-ra. A gombra kattinta szabályozzuk a csoportosítási módszert. A Cluster method-ot állítsuk Ward Method-ra, Standardize-t pedig Standard deviation of 1-ra A gombra kattintva szabályozzuk az eredmények adatbázisba mentését. A Range of Solutions-t jelöljük be, a határokat állítsuk 2-re, illetve 9-re Az gombbal in- dítsuk a szá- molást katt katt katt katt katt katt katt katt katt katt

A beállítások néhány kérdése:
Miért kérünk előre 2-9 csoportra csoporttagságot a megfigyelésekhez? Nem tudjuk előre eldönteni, hány csoport van valójában az adatbázisban Ez csak az utolsó lépésnél derül ki, amikor meg tudjuk vizsgálni a scree plotot Ezért számoltatunk vele több verziót előre A feleslegeseket majd letöröljük Miért kell a változókat sztenderdizálni (Standardize)? Ha a változók nem összehasonlítható mértékegységekben mértek (pl. Gyerekszám, db, Magasság, cm), a nagyobb számértékű változó csúnyán megvezetné a távolságok kiszámítását. Ezért minden változóértéket beosztunk az adott változó szórásával, vagyis a változók szórását 1-re állítjuk A szórásal való osztás eltűnteti a mérték- egységek torzító hatását a távolságszámításból! Sorsz. Gyerek Magas 1 3 176 2 119 142 4 169 5 186 6 198 7 150 8 9 157 10 163 11 118 12 197 13 14 108 15 155 16 162 17 129 18 113 19 120 20 21 170 22 144 23 135 Átlag 2.043 156 Szórás 0.767 29.7

Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportsítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

A csoportosítás feldolgozása Excelben 1
A számítási eredmények mindig egy Output Window nevű külön ablakban jelennek meg Ennek baloldalán egy tartalomjegyzék van, amire kattintva eléretjük a különféle eredményeket A jobboldalán pedig mindig a kiválasztott eredmény táblázat jelenik meg Mivel az SPSS egyáltalán nem tudja könnyen érthető formában megjeleníteni a csoportosítási eredményeket, az eredménytáblát átmásoljuk egy Csoportok.xls nevű Excel munkalapra, ami elvégzi ezt Indítsuk el az Excelt, és Fájl|Megnyitás (File|Open) menüvel nyissuk meg ezt a fájlt!

Először átmásoljuk az összevonás miatti lépésenkénti infóvesztést: Az Output Window| Agglomeration Scedule nevű részét válasszuk ki egérkattintással Dupla kattintással jelöljük ki az eredménytáblázatot, és görgessünk a legaljára Shift + egérhúzással válasszuk ki a 4. oszlop utolsó 14db elemét (ezek az utolsó összevonási lépésekhez tartozó infóvesztések) Ctrl+C billentyűkombinációval másoljuk őket a vágólapra, ami egy láthatatlan tároló prog-ramok közti adatmozgáshoz Ezek egy oszlopban vannak, a Excel munkalapra pedig egy sorba és fordított sorrendben kellene kerülniük, ezért a következőképp másolunk: Ctrl+V-vel bemásoljuk az Excel egy üres helyére katt + katt shift +húz katt katt katt katt katt Adatok|Rendezés|Csökkenő (Data|Sort| Descending) menüvel megfordítjuk a sorrendet Ctrl+C-vel vágólapra másoljuk az új sorrendben Szerkesztés|Irányított beillesztés|Csak értéket +Transzponálva (Edit|Paste Special| Values +Transpose) menüvel a helyére illesszük sor/ oszlop fodítással (transzponálva), csak értékként, hogy a munkalap formázásai ne menjenek tönkre!

Ezután megnézzük az infóvesztési könyökdiagrammot, hol van rajta a legnagyobb törés (ha nincs törés, a csoportosítás rossz, és más változókkal újra meg kell ismételni): pl. 3 csoport összevonása után, 2 és 1 csoportnál nagyon felugrik az infóvesztés, ezért három csoportot hagyunk meg. A fogyasztóknak három jelentősebb csoportja lesz! Ezt a diagrammon a kis zászló odahúzásával jelöljük: katt +Del katt +húz Az SPSS közben lementette az adatbázisba minden megfigyeléshez a csoporttagságát, 2-9 csoportig terjedő megoldásokban. Ezek közül a 3 csoportosra (Clu3_1) lesz csak szükség, a többit a változólistában kijelölve Del megnyomásával törölhetjük A csoporttagság-változónak adjunk rendes nevet és címkét +Del katt

K-közép klaszterezés SPSS-ben 1
Tegyük fel, hogy a korábbi piaci tapasztalatok alapján tudjuk, hogy 3 csoport van Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt Az Analyze| Classify| K-Means Cluster menüvel válasszuk a csoportok kiszámítását Erre megjelenik a K-közép Klaszteranalízis (K-Means Cluster Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 13db csoportosító változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre Adjuk meg, hogy a csoportok száma (Number of Clusters) = 3 Jelöljük meg, hogy módosítsa az induló csoportcentrumokat, és utána osztályozza a megfigyeléseket (Iterate and classify) katt katt katt katt shift +húz katt katt katt

K-közép klaszterezés SPSS-ben 2
Az SPSS az induló kasz- ter centromokat automatikusan random módon választja ki. De ha pl. a konvergenciával problémáink vannak a gombbal megadha- tunk egy fájlt az induló klaszter centrumok kézi beállitásával. Ebben ugyanolyan nevű csoportosító válto- zókak kell lenni ugyanolyan sorrendben. Az gombbal állíthatjuk a max. lépésszámot (legyen 100), a konvergencia küszöbértékét (0 teljes megállást követel), a mozgóátlagok (Running means) hasz-nálata iteráció közben csökkenti a centrumok ide-oda ugrálását A gommbal állíthatjuk a cso-porttagság változóba mentését Az gombbal indítunk. Az Output window| Iteration history-ban megnézzük, hogy konvergált-e, és hány lépésben A lementett csoporttagság változónak rendes nevet és címkét adunk katt katt katt katt katt katt katt katt katt

Szakirodalom K-közép klaszterezés:
Elméleti bevezető: Elméleti bevezető: Részletes algoritmusa: Használata Stata-ban: Visual basic programkódja: Online bibliográfia: Hierarchikus klaszterezés: Elméleti bevezető: Elméleti bevezető: Online bibliográfia:

17. Előadás Dr. Pauler Gábor, Egyetemi Docens

Hasonló előadás

Az előadások a következő témára: "17. Előadás Dr. Pauler Gábor, Egyetemi Docens"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

17. Előadás Dr. Pauler Gábor, Egyetemi Docens

Hasonló előadás

Az előadások a következő témára: "17. Előadás Dr. Pauler Gábor, Egyetemi Docens"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés