Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.

Hasonló előadás


Az előadások a következő témára: "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."— Előadás másolata:

1 Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /

2 Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportosítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

3 A fogyasztók eltérő igényű csoportjainak meghatározása Miért kell a fogyasztókat csoportokba, szegmensekbe (Market Segment) sorolni? A különböző fogyasztói csoportok: Más termékeket igényelnek Más csatornán keresztül érhetők el Más árat hajlandók megfizetni Más promóciós mix hat rájuk Aki nem szegmentál, hanem átlagvevőben gondolkodik az Mindenkire ugyanazt a terméket akarja ráeröltetni Mindenkit ki akar szolgálni, senkit nem szolgál jól Kiismerhetetlennek és szeszélyesnek fogja tartani a piacot, politikai biztosítékokat keres  korrupció

4 Miért használhatatlan fogalom az „átlagos vevő”? Ragadjunk ki két változót (Kor,Jövedelem) és ábrázoljuk őket X, Y diagrammon! Példa a fogyasztók csoportjaira Sorsz.KorJövedelem Átlag Van-e itt értelme átlagot számolni? Létezik-e átlagos ügyfél? Inkább csoportokra kellene bontani, és azok átlagát kiszámítani! 1

5 A csoportosítás változói A csoportosításnál a változók két nagy részre oszlanak: Csoportosító változók (Grouping Variables): azon tulajdonságok, ami alapján megkülönböztetjük a csoportokat: A fogyasztó mennyire gondolja fontosnak a különböző termékjellemzőket? Mik számára az ideális termék jellemzői? Az viszont nem lehet a csoportosítás alapja, hogy valaki szereti-e a mi termékünket, vagy nem. Lehet, hogy nagyon jó vevő lenne, csak épp a mi termékünkkel van baj! Intervallum-, vagy arány skálán mért változók Háttérváltozók (Group Profile Variables): azon tulajdonságok, amik szerint az elkészült csoportokat jellemezzük: Kitől, hol, milyen gyakran, mennyiért szokott vásárolni? Milyen médiából szerzi a vásárláshoz szükséges információkat? Szocio-demográfia: nem, kor, jövedelem, iskolai végzettség, családméret, foglalkozás Korábban kiszámított faktorváltozók Mindenfajta skálán mért változó lehet!

6 Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportosítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

7 1. Módszer: Agglomeratív Hierarcikus Klaszterezés (Agglomerative Hierarchic Clustering): Vonjuk össze a két leghasonlóbb elemet egy csoportba. De mi a leghasonlóbb? A csoportosító változók értékeitől, mint koordinátáktól függ: Nearest neighbor-módszer: a két legközelebbi elemet von össze 1:(X1,Y1) 2:(X2,Y2) koordináták távolsága Pithagorasz tétellel: c =  (a 2 + b 2 ) D(1,2) =  ((X1-X2) 2 + (Y1-Y2) 2 )  Min (17.1) Ward-módszer: a két elem összevonva a lehető legkompaktabb csoportot alkossa Elemek csoportátlagtól mért távolságának Elemtagszámmal súlyozott négyzetösszege WSS =  i (D(Elem i,Csoportátlag) 2 *Elemtagszám i )  Min(17.2) Ismételjük az összevonogatást. Így m megfigyelést m-1 lépésben összevonhatunk 1 csoportba. Ennek persze nem sok értelme van, valamely közbülső lépésben meg kellene állni. Mi a legjobb csoportszám? Az összevonással eltűntetett D vagy WSS kezdetben kicsi, De nagyon megugrik, mikor már különböző elemeket von össze Ezt lépésenként figyeljük egy „Scree Plot” nevű diagrammon Nem vonunk többet össze, ha ez hirtelen fölfele kezd menni! Az összevonogatás miatt csoportok fa-szerűen, hierarchiában tartalmaznak majd alcsoportokat. Ezt a hierarchiát a „Dendogram Plot” mutatja. Hogyan működik a fogyasztók csoportosítása? (X1,Y1) (X2,Y2)a=X1-X2 b=Y1-Y2 D(1,2)

8 A Ward-módszer grafikai szemlélete működés közben Csoport WSS Scree Plot Dendogram Plot Megfigyelés Lépés A megfigyelések Kor Jövedelem Állj! A legkompaktabban összevonható elemekkel kezdi Egy már meglévő csoportot is összevonhat egy elemmel ha ez a legkompaktabb

9 Hogyan működik a fogyasztók csoportosítása? 2. Módszer: K-közép klaszterezés (K-Mean Clustering) Előre tujuk hogy hány (k db) csoportot szeretnénk csinálni. Ennek megfelelően, felveszünk k db csoportcentrumot a csoportosító változók szerinti random értékű koordinátákként Ezután lépésenként mozoghatnak a csoportcentrumok, oly módon, hogy minél több megfigyeléshez kerüljenek közel, egymástól viszont minél távolabb legyenek A távolság Euklideszi (Euclidean) távolságként definiált: D(1,2) =  ((X1-X2) 2 + (Y1-Y2) 2 )(17.3) Az algritmus akkor áll le, ha a centrumok összesített elmozdulása egy lépésben nem ér el egy határértéket  dinamikus egyensúly jön létre, Ljapunov-stabil állapot (Ljapunov-stability) Ezek után, a megfigyeléseket a hozzájuk legközelebbi csoportcentrumhoz csatoljuk, így jönnek létre a csoportok

10 A K-közép klaszterezés működésének grafikus szemlélete Először véletlen koordinátákként felveszünk három csoportcentrumot Ezek a megfigyelésekhez közeledve és egymástól távolodva mozognak Amíg a Ljapunov-stabil állapotot el nem érik Ezután a megfigyeléseket a legközelebbi centrumhoz csatoljuk A megfigyelések Kor Jövedelem Lépés Mozgás Ljapunov Plot Állj!

11 A hierarchikus és K-közép klaszterezések összehasonlítása 1 Hierarchikus klaszterezés Előnyei: Nem kell tudni előre a csoportok számát, jó esetben az algoritmus maga adja meg a scree ploton Nem kompakt alakú, térben elnyújtott csoportokat (Spurious Clusters) is detektálni tud a Nearest Neighbor módszerrel (pl. „kifli” alakú klaszterek) A Ward-módszer inkább kompakt alakú csoportokat tud azonosítani A csoportok közt hierarchiát állít fel, azok alcsoportokra szeletelhetők Hátrányai Nagyon szélsőérték érzékeny, a kieső megfigyelések (Outlier) eltorzítják az algoritmust és így elég egyenlőtlen méretű csoportok születnek (néhány megfigyelésből álló, töredék minicsoportok megjelenése az eredményben tipikus tünet erre) Magas a számolásigénye, a megfigyelések számával négyzetesen arányosan nő, ezért az SPSS itt max megfigyelést kezel

12 katt A szélsőséges értékek kiszűrése az adatbázisból A hierachikus klaszterezés lefuttatása elött, szélsőséges értékű megfigyeléseket célszerű kiszűrni a mintából: Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg a AdatbazisMinta.sav fájlt AdatbazisMinta.sav A Data|Select cases menüvel indítsuk el a megfigyelések kiválasztását (Select Cases) Ezután a „kiválasztás, ha a feltételt kielégíti” (Select if condition satisfied) pontra kattintsunk Az gombra kattintva egy képletszerkesztő ablakban definiálhatjuk a feltételt A bal oldali változólistából ►gombra kattintva hozhatunk be változókat a képletszerkesztőbe Ezekre, =, <> relációkkal adhatunk meg különféle alsó-felső korlátokat A jobboldali listából különféle matematikai- statisztikai függvényeket hozhatunk be ►gombra kattintva Az egyes változókra vonatkozó feltételeket zárójelekkel () és logikai operátorokkal kapcsolhatjuk össze (AND: &, OR: |, NOT: /) Jelöljük meg a „ki nem választott megfigyelések kiszűrve” (Unselected cases are filtered) pontot Az gomb megnyomásával indítsuk a szűrést katt

13 A hierarchikus és K-közép klaszterezések összehasonlítása 3 K-közép klaszterezés Előnyei: Kevésbé szélsőérték érzékeny A csoportok mérete kiegyenlítettebb Alacsony számolásigény, a megfigyelések számával lineárisan nő, az SPSS-ben a bevont megfigyelések száma nem korlátozott Hátrányai: Előre ismerni kell a csoportok számát. Ha nem találjuk el: Vagy nem alakul ki a Ljapunov-stabil állapot Vagy nagyon egyenlőtlen méretű csoportok jönnek létre Kizárólag kompakt alakú, n-dimenziós konvex sökszögtestekkel, konvex poliéderekkel (Convex Polyhedron) elhatárolható csoportokat tud azonosítani: Mivel a csoporttagságról az dönt, hogy a megfigyelés mely centrumhoz esik közelebb Ezért a csoporthatár a két centrumot összekötő szakaszt felező merőleges hipersík lesz A csoportot határoló hipersíkok konvex poliédert alkotnak Nincs a csoportok közt hierarchia, azok nem bonthatóak

14 Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportsítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

15 Az Autószobrászat Bt. kérdőívén (lásd KerdoivMinta.doc ) 13db változó foglalkozik azzal, hogy a fiatalok az autók mely jellemzőit milyen fontosak tartják. Ezek alapján fogjuk egyelőre ismeretlen számú csoportba sorolni a 130 válaszadót: KerdoivMinta.doc Mintapélda

16 Agglomeratív hierarchikus klaszterezés SPSS-ben 1 Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt AdatbazisMinta.sav Az Analyze| Classify| Hierarchical Cluster menüvel válasszuk a csoportok kiszámítását Erre megjelenik a Hierarchikus Klaszteranalízis (Hierachical Cluster Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 13db csoportosító változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt shift +húz shift +húz katt

17 Agglomeratív hierarchikus klaszterezés SPSS-ben 2 A gombra kattintva jelöljük be, hogy aglomerációs sorrendet (Agglomeration Schedule) kérünk. A gombra kattintva kérjünk Dendogrammot, az Icicle-t pedig állítsuk None-ra. A gombra kattinta szabályozzuk a csoportosítási módszert. A Cluster method-ot állítsuk Ward Method-ra, Standardize-t pedig Standard deviation of 1-ra A gombra kattintva szabályozzuk az eredmények adatbázisba mentését. A Range of Solutions-t jelöljük be, a határokat állítsuk 2-re, illetve 9-re Az gombbal in- dítsuk a szá- molást katt

18 A beállítások néhány kérdése: Miért kérünk előre 2-9 csoportra csoporttagságot a megfigyelésekhez? Nem tudjuk előre eldönteni, hány csoport van valójában az adatbázisban Ez csak az utolsó lépésnél derül ki, amikor meg tudjuk vizsgálni a scree plotot Ezért számoltatunk vele több verziót előre A feleslegeseket majd letöröljük Miért kell a változókat sztenderdizálni (Standardize)? Ha a változók nem összehasonlítható mértékegységekben mértek (pl. Gyerekszám, db, Magasság, cm), a nagyobb számértékű változó csúnyán megvezetné a távolságok kiszámítását. Ezért minden változóértéket beosztunk az adott változó szórásával, vagyis a változók szórását 1-re állítjuk A szórásal való osztás eltűnteti a mérték- egységek torzító hatását a távolságszámításból! Sorsz.GyerekMagas Átlag Szórás

19 Az előadás tartalma A fogyasztók eltérő igényű csoportjainak meghatározása A fogyasztók csoportosításának szükségessége Példa a fogyasztók csoportjaira A csoportsítás változói A csoportosítás működése Agglomeratív hierarchikus klaszterezés Nearest-neighbor módszer Ward-módszer K-közép klaszterezés A hirerachikus és k-közép klaszterezések összehasonlítása Mintapélda Agglomeratív hierarchikus klaszterezés SPSS-ben A beállítások néhány kérdése A csoportosítás feldolgozása Excelben K-közép klaszterezés SPSS-ben

20 A csoportosítás feldolgozása Excelben 1 A számítási eredmények mindig egy Output Window nevű külön ablakban jelennek meg Ennek baloldalán egy tartalomjegyzék van, amire kattintva eléretjük a különféle eredményeket A jobboldalán pedig mindig a kiválasztott eredmény táblázat jelenik meg Mivel az SPSS egyáltalán nem tudja könnyen érthető formában megjeleníteni a csoportosítási eredményeket, az eredménytáblát átmásoljuk egy Csoportok.xls nevű Excel munkalapra, ami elvégzi ezt Csoportok.xls Indítsuk el az Excelt, és Fájl|Megnyitás (File|Open) menüvel nyissuk meg ezt a fájlt!

21 A csoportosítás feldolgozása Excelben 2 Először átmásoljuk az összevonás miatti lépésenkénti infóvesztést: Az Output Window| Agglomeration Scedule nevű részét válasszuk ki egérkattintással Dupla kattintással jelöljük ki az eredménytáblázatot, és görgessünk a legaljára Shift + egérhúzással válasszuk ki a 4. oszlop utolsó 14db elemét (ezek az utolsó összevonási lépésekhez tartozó infóvesztések) Ctrl+C billentyűkombinációval másoljuk őket a vágólapra, ami egy láthatatlan tároló prog- ramok közti adatmozgáshoz Ezek egy oszlopban vannak, a Excel munkalapra pedig egy sorba és fordított sorrendben kellene kerülniük, ezért a következőképp másolunk: Ctrl+V-vel bemásoljuk az Excel egy üres helyére shift +húz shift +húz katt + katt katt + katt Adatok|Rendezés|Csökkenő (Data|Sort| Descending) menüvel megfordítjuk a sorrendet Ctrl+C-vel vágólapra másoljuk az új sorrendben Szerkesztés|Irányított beillesztés|Csak értéket +Transzponálva (Edit|Paste Special| Values +Transpose) menüvel a helyére illesszük sor/ oszlop fodítással (transzponálva), csak értékként, hogy a munkalap formázásai ne menjenek tönkre! katt

22 A csoportosítás feldolgozása Excelben 3 Ezután megnézzük az infóvesztési könyökdiagrammot, hol van rajta a legnagyobb törés (ha nincs törés, a csoportosítás rossz, és más változókkal újra meg kell ismételni): pl. 3 csoport összevonása után, 2 és 1 csoportnál nagyon felugrik az infóvesztés, ezért három csoportot hagyunk meg. A fogyasztóknak három jelentősebb csoportja lesz! Ezt a diagrammon a kis zászló odahúzásával jelöljük: katt +húz katt +húz Az SPSS közben lementette az adatbázisba minden megfigyeléshez a csoporttagságát, 2-9 csoportig terjedő megoldásokban. Ezek közül a 3 csoportosra (Clu3_1) lesz csak szükség, a többit a változólistában kijelölve Del megnyomásával törölhetjük A csoporttagság-változónak adjunk rendes nevet és címkét katt +Del katt +Del katt +Del katt +Del

23 K-közép klaszterezés SPSS-ben 1 Tegyük fel, hogy a korábbi piaci tapasztalatok alapján tudjuk, hogy 3 csoport van Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájltAdatbazisMinta.sav Az Analyze| Classify| K-Means Cluster menüvel válasszuk a csoportok kiszámítását Erre megjelenik a K-közép Klaszteranalízis (K-Means Cluster Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 13db csoportosító változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre Adjuk meg, hogy a csoportok száma (Number of Clusters) = 3 Jelöljük meg, hogy módosítsa az induló csoportcentrumokat, és utána osztályozza a megfigyeléseket (Iterate and classify) katt shift +húz shift +húz

24 K-közép klaszterezés SPSS-ben 2 Az SPSS az induló kasz- ter centromokat automatikusan ran- dom módon választja ki. De ha pl. a konvergenciával problémáink van- nak a gombbal megadha- tunk egy fájlt az induló klaszter cen- trumok kézi beállitásával. Ebben ugyanolyan nevű csoportosító válto- zókak kell lenni ugyanolyan sorrendben. Az gombbal állíthatjuk a max. lépésszámot (legyen 100), a konvergencia küszöbértékét (0 teljes megállást követel), a mozgóátlagok (Running means) hasz- nálata iteráció közben csökkenti a centrumok ide-oda ugrálását A gommbal állíthatjuk a cso- porttagság változóba mentését Az gombbal indítunk. Az Output window| Iteration history-ban megnézzük, hogy konvergált-e, és hány lépésben A lementett csoporttagság változónak rendes nevet és címkét adunk katt

25 Szakirodalom K-közép klaszterezés: Elméleti bevezető: Elméleti bevezető: ans.html ans.html Részletes algoritmusa: Használata Stata-ban: Visual basic programkódja: Online bibliográfia: Notes/bibliography/pattern624.htmlhttp://iris.usc.edu/Vision- Notes/bibliography/pattern624.html Hierarchikus klaszterezés: Elméleti bevezető: Elméleti bevezető: archical.html archical.html Online bibliográfia: Notes/bibliography/pattern614.html#Iterative,%20Hierarchical%20Clu stering%20Techniqueshttp://iris.usc.edu/Vision- Notes/bibliography/pattern614.html#Iterative,%20Hierarchical%20Clu stering%20Techniques


Letölteni ppt "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 17. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."

Hasonló előadás


Google Hirdetések