Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 19. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.

Hasonló előadás


Az előadások a következő témára: "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 19. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."— Előadás másolata:

1 Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 19. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /

2 Az előadás tartalma A Diszkriminancia analízis alkalmazása A fogyasztók csoport-tagságának előrejelzése A klaszterezések eredményének tesztelése A Diszkriminancia analízis A Diszkriminancia analízis grafikai szemléltetése A Diszkriminancia analízis működése A Diszkriminancia analízis tesztelése Mintapélda: Autószobrászat Bt. Diszkriminancia analízis SPSS-ben Diszkriminancia eredmények feldolgozása Excelben A Territoriális térképek fogalma A Territoriális térképek grafikai szemlélete Territoriális térképek SPSS-ben Territoriális térképek Excelben

3 A fogyasztók csoport-tagság előrejelzésének jelentősége 1 A hűségkártya (Loyalty Card): olyan vevők számára kibocsátott vonalkódos-, mágneses-, chipkártya, amely lehetővé teszi olcsó, gyors, tömeges azonosításukat, esetleg a kapott kedvezmények, privilégiumok adatait is tárolja (ezüst/ arany/ platina kártya) Előnyei: A kártyára történő feliratkozáskor szocio-demográfiai infókat szerezhetünk meg a vevőtől: a jövőbeli kedvezmények fejében átadja bizonyos személyes adatait, úgy hogy másnak nem adhatjuk tovább: Ez lehetővé teszi a vásárlások és a kapott kedvezmények vevőre, üzletre, eladóra, termékfajtára, mennyiségekre, időben történő nyomonkövetését Fogyasztói kártya igénylő adatlap, XY Kft. Vezetéknév:KovácsKeresztnév:JánosIrányítószám:7865 Település:BerényUtca:PetőfiHázszám:8 Nem:FérfiKor:46Iskolai végzettség:Főiskola Családi állapot:NősGyerekek száma:2Foglalkozás:Mérnök Havi jövedelem:0-50EFt50-100EFt EFt EFt300EFt felett Igénylési dátum:03-Jan-03Üzletkód:114Eladókód:1123

4 A fogyasztók csoport-tagság előrejelzésének jelentősége 2 Ezen infók elemzésével lehetővé válik személyre becélzott termékkínálat, árazás és promóciós akciók: egyedi árengedmények (sales), kuponok (coupon), árukapcsolás (bounding), ezzel magamhoz tudom kötni a vevőt a versenyben Hátrányai: A kártyák kibocsátása, a kártyaolvasokolvasók és más hardverek, szoftverek óriási beruházási költséget jelentenek egy áruházlánc esetén Az adatok megszerzése fejében kiadott árengedmények egy az egyben csökkentik a profitot A kulcskérdés: Előre kell jelezni, kinek érdemes kedvezményeket adni, ki fog ezért többet venni profitabilis cikkekből. Ha mindenkinek vakon szórom a kedvezményeket, soha nem térül meg a beruházás A megadott szocio-demográfiai profilból meg kellene becsülni, hogy egy újonnan csatlakozó vevő melyik piaci szegmensbe fog tartozni, mit lehet kezdeni vele. Ezt Diszriminancia analízissel tehetjük meg.

5 A klaszterezések eredményének tesztelése A faktoranalízisen alapuló csoportosítás kivételével az eddig tanult klaszterezési módszerek (hierarchikus, k-közép) mind heurisztikák (Heuristics): Olyan algoritmusok, ahol nincs rá matematikai biztosíték, hogy optimális megoldást érnek el (a legtöbb bonyolult nagyméretű gyakorlati problémának csak heurisztikus megoldása létezik) Egy adott megoldás távolsága az optimálistól nem tesztelhető objektíven, csak közelítő mértékekkel: A hierachikus klaszterezésnél a scree plot törésének élessége adott információt a csoportosítás minőségére A k-közép klaszterezésnél a konvergencia eléréséhez szükséges minimális lépésszám Így a Diszkriminancia analízis másik fontos felhasználási területe az lesz, hogy a klaszterezések eredményének – a megalkotott csoportosításnak – minőségét tesztelje

6 Az előadás tartalma A Diszkriminancia analízis alkalmazása A fogyasztók csoport-tagságának előrejelzése A klaszterezések eredményének tesztelése A Diszkriminancia analízis A Diszkriminancia analízis grafikai szemléltetése A Diszkriminancia analízis működése A Diszkriminancia analízis tesztelése Mintapélda: Autószobrászat Bt. Diszkriminancia analízis SPSS-ben Diszkriminancia eredmények feldolgozása Excelben A Territoriális térképek fogalma A Territoriális térképek grafikai szemlélete Territoriális térképek SPSS-ben Territoriális térképek Excelben

7 A Diszkriminancia analízis alapötlete A Diszkriminancia analízis (Discriminant analysis): Egy korábbi j=1..m megfigyelést tartalmazó adatbázisban: Egy előre megadott csoportosításnál (Grouping variable) a k=1..c csoportokba – amelyek egyenként j k =1..m k megfigyelésből állnak – tartozást (pl. piaci szegmensek) igyekszik megmagyarázni, Bizonyos v i i=1..n független magyarázó változók (Independent variables) bevonásával (pl. szocio-demográfiai változók) Minden csoporthoz egy - a csoport dominanciájának erősségét jelző - lineáris diszkriminancia függvényt (Discriminant function) definiál, amely a független változókból, a ki meredekségi együtthatókból (Coefficients) és egy b k konstansból áll: k=1..c(19.1) Például: D Szegm1 = -3.6×Kor +4.5×Jövedelem -1.1×Iskola – 37.9 D Szegm2 = +7.4×Kor -1.5×Jövedelem +1.8×Iskola – 45.8 D Szegm3 = -0.08×Kor -2.3×Jövedelem +8.1×Iskola – 61.3 Egy új megfigyelés csoporttagságát úgy jelzi előre, hogy független változói értékeit behelyettesíti az összes diszkriminancia függvénybe, és amelyik ezek közül maximális lesz, ahhoz a csoporthoz csatolja: (19.2)

8 D1D1 D1D1 a 12 a 11 b1b1 b1b1 V1V1 V2V2 DkDk D2D2 D2D2 a 22 a 21 D3D3 D3D3 b3b3 b3b3 a 22 a 21 A Diszkriminancia analízis grafikai szemléltetése 3 csoport esetén Ezt feltételezzük a csoportok eloszlásáról: Közel azonos méretűek Normális, de legalábbis kompakt eloszlásúak („gombóc”-alak) Lineáris határok mentén elkülönülníthetők A v 1, v 2 magyarázó változók függetlenek (különben a csoportok alakja elnyújtott (Spurious) lenne) Minden csoport fölé defi- niálunk egy D k lineáris függvényt, ami megmutatja, hogy a csoport mennyire domináns az adott (v 1, v 2 ) koordináta felett. Akié a legnagyobb függvény, azé ez a hely. A csoportok közti lineáris határok a függvény-hipersíkok metszésénél a- lakulnak ki. Ezért a Diszkriminancia analízis csak konvex sokszög (Convex poly- hedron) alakú térrészekbe tud szeparálni. Így lehetnek félreklasszifikált elemek.

9 A Diszkriminancia analízis működése 1 A csoportok lehető legjobb elhatárolásához szükséges a ki, b k k=1..c, i=1..n együtthatókat a Fischer-  algoritmussal keresik meg: Úgy állítja be a D k, k=1..c diszkriminancia függvények a k = {a ki, i=1..n} együtthatóit, Hogy a független változók összesített varianciája a csoportok közt (Between group variance) nagy, a csoportokon belül (Within groups variance) pedig kicsi legyen, vagyis arányuk, a maximális legyen: (19.3) Lássuk a képlet egyes részeinek magyarázatát: Több változó variancáját csak akkor lehetne simán összeadással aggregálni, ha azok tökéltesen függetlenek egymástól. Mivel azonban a független változók a valóságban sosem teljesen függetlenek, a varianciáik összegéhez még hozzá kell adni a páronkénti kovarianciák összegét. Vagyis, az összesített varianciát ez eseben a variancia-kovarianci mátrix (Variance-covariance matrix) összege fejezi ki. A teljes minta variancia-kovariancia mátrixa: (19.4)

10 A Diszkriminancia analízis működése 2 A k-adik csoport variancia-kovariancia mátrixa: (19.5) A csoportokon belüli összesített variancia-kovariancia mátrixa: (19.6) A csoportok közti variancia-kovariancia mátrixa: B = T - W (19.7) A mátrixok elemeit azonban nem simán adjuk össze, hanem a keresett együtthatókkal súlyozva. A mátrixalgebrában egy mátrix súlyozott összegzése a következőképpen néz ki: a súlyvektor transzponáltja (sor-oszlop fordítottja) × mátrix × súlyvektor: (19.8) Ezért szerepelnek ezek a műveletek a (19.3) formulában. A Fisher- maximalizálását analitikus úton oldjuk meg, (19.3)-at deriváljuk szerint és ezt egyenlővé tesszük 0-val: (W -1 B – E) a k = 0 (19.9) ahol: E – egységmátrix, a főátlójában 1-ek vannak, a többi 0

11 A Diszkriminancia analízis működése 3 (19.9) visszavezeti a problémát a kvadratikus mátrixok sajátérték-sajátvektor problémájának megoldására Az optimális a k vektor: A W -1 B kvadratikus mátrix (ez mátrix-algebrailag fejezi ki a B csoportközi/ W csoporton belüli varianciák arányát) Legnagyobb sajátértékéhez (Eigenvalue) (ami maga a Fisher-féle ) tartozó Sajátvektorként (Eigenvector) áll elő. a k vektor elemei lesznek a legerősebb (a legtöbb varianciát megmagyarázó) diszkriminancia függvény együtthatói Ezután levonjuk W -1 B -ből a megmagyarázott varianciát, és a számolás megismétlődik a többi csoportra, amelyeknek sorban egyre gyengébb diszkriminancia függvényeket kapunk, egyre kisebb sajátértékekkel Az algoritmus a b k konstansok értékét az a k vektorok ismeretében határozza meg, a lineáris regressziónál tárgyaltakhoz hasonlóan.

12 A Diszkriminancia analízis tesztelése A független változók lépésenkénti kiválasztása (Stepwise Discriminant Analysis): Nem biztos, hogy több független változó bevonása jobban megmagyarázza a csoportbatartozást, mint kevesebb. A Stepwise algoritmus egy, a variancia analízisnél már ismertetetthez hasonló F-próba segítségével vizsgálja, hogyan hat az adott változó bevonása a csoportok elkülönülésére: a magas F-értékűeket bevonja, az alacsony F-értékűeket kirakja az elemzésből A Diszkriminancia analízis tesztelése: A teljes modell hatékonyságának tesztelésére a csoportok elkülönülését mérő Wilks- mutató szolgál. Ez a W csoportokon belüli variancia és a T teljes variancia aránya: = W / T(19.10) ennek 0.25 alá kell esnie, de 0.1 alatt igazán megbízhatók az eredmények A másik eszköz a keresztvalidált klasszifikációs mátrix (Cross-validated Classification Matrix): Véletlenszerűen két csoportra osztja az adatbázis megfigyeléseit A tanító mintán (Learning sample) lefuttatja a Diszkriminancia analízist A teszt mintán (Test sample) az elkészült modell segítségével megbecsülteti csoporttagságokat, majd összeveti őket a tényleges tagságokkal, egy táblázatban összesítve, hogy hány %-ban találta el az eredeti csoportot, illetve hány %-ban tévesztette össze mással Egy új megfigyelés csoportbatartozás-becslésének megbízhatósága: r = D k’ / D k’’ – a maximális diszkriminancia érték/ a következő(19.11)

13 Az előadás tartalma A Diszkriminancia analízis alkalmazása A fogyasztók csoport-tagságának előrejelzése A klaszterezések eredményének tesztelése A Diszkriminancia analízis A Diszkriminancia analízis grafikai szemléltetése A Diszkriminancia analízis működése A Diszkriminancia analízis tesztelése Mintapélda: Autószobrászat Bt. Diszkriminancia analízis SPSS-ben Diszkriminancia eredmények feldolgozása Excelben A Territoriális térképek fogalma A Territoriális térképek grafikai szemlélete Territoriális térképek SPSS-ben Territoriális térképek Excelben

14 Az Autószobrászat Bt. kérdőívén (lásd KerdoivMinta.doc ) található 13db változó alapján 3 csoportba sorolták a fiatalokat: idealisták, racionálisak, tuningolók. Egyrészt, tudni szeretnék, hogy mennyire hatékony ez a csoportosítás, másrészt a potenciális ügyfelek közül az alábbi 13 kérdés alapján meg szeretnék becsülni, ki eshet a számukra legérdekesebb „tuningoló” csoportba:KerdoivMinta.doc Mintapélda

15 Diszkriminancia analízis SPSS-ben 1 Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt AdatbazisMinta.sav Az Analyze| Classify| Discriminant menüvel válasszuk a diszkriminancia analízist Erre megjelenik a Diszkriminancia analízis (Discriminant Analysis) ablak. Itt a bal oldali változólistában egérkattintással jelöljük ki a cluimp3 csoporttagság változót Majd a ►gomb megnyomásával válasszuk ki csoporttagság változónak (Grouping variable) A gombra kattintva adjuk meg a csoporttagság-kódok alsó és felső értékhatárait (1 és 3) A bal oldali változólistában Shift + egérhúzással jelöljük ki a 13db csoportosító változót Majd a ►gomb megnyomásával válasszuk ki őket független változónak (Independents) Állítsuk be a lépésenkénti független változó bevonást (Use Stepwise method) katt shift +húz shift +húz katt

16 Diszkriminancia analízis SPSS-ben 2 A gombra kattintva állítsuk be a Fisher- féle diszkriminancia függvények számolását A gombra kattintva állíthatjuk a stepwise algoritmust: jelöljük meg a Wilks- tesztet, és az F-próbánál a valószínűségek használatát (Use probability of F) A gombra kattintva állíthatjuk a klasszifikációt: az elsődleges valószínűségeket a csoportméretekből számítsa (Compute from group sizes), kérjünk keresztvalidációt (Leave-one-ot classification), klasszifikációs mátrixot (Summary table), territoriális térképet (Territorial map), csoport-térképet (Combined groups) A gombra kattintva állíthatjuk az eredmények mentését. Jelöljük ki az előre- jelzett csoporttagságok (Predicted group membersip) változóba mentését Az gombbal indítsuk a számolást katt

17 Diszkriminancia eredmények feldolgozása Excelben 1 Mivel az SPSS az eredményeket nem tudja rendesen megjeleníteni, ezeket a csoprtosítás adatait már tartalmazó Csoportok.xls munkalapon jelenítjük meg: Csoportok.xls Másoljuk át az Output window| Wilk’s lambda részéből a teszt értékét (itt nem túl jó, de még elmegy) a munkalap Wilks- cellájába Másoljuk át az Output window| Classification matrix| Cross- validated részéből a %-okat (a 77% és 79% nem túl jó, de még elmegy) a munkalap Klasszifiká- ciós tábláza- tába, csak szövegként katt katt + katt katt + katt katt + katt katt + katt shift +húz shift +húz katt

18 Diszkriminancia eredmények feldolgozása Excelben 2 Másoljuk át az Output window| Classifiction function coefficients részéből a magyarázó vátozók neveit a meredekségi koefficienseket a konstansokat a munkalap Diszkriminancia függvények táblázatába Ez tartalmazza a diszkriminancia függvényeket (Cannonic Dsicriminant Functions) katt + katt katt + katt shift +húz shift +húz shift +húz shift +húz shift +húz shift +húz katt

19 Diszkriminancia eredmények feldolgozása Excelben 4 A munkalap ezek után becslést tud adni egy új megfi- gyelés csoporttag- ságára. Az SPSS közben minden megfigye- léshez lementette az előrejelzett cso- porttagságot egy változóba, amit elnevezünk Az Analyze| Descriptives| Frequencies menüvel számítsuk ki ennek gyakorisági táblázatát, és ezt másoljuk a munkalap Extrapolált csoportok táblázatába. A hozzá tartozó tortadiagrammot összevethetjük az eredetivel, mennyire egyeznek meg. katt katt + katt katt + katt shift +húz shift +húz Diszkriminancia függvény értékek a teszteléshez

20 Az előadás tartalma A Diszkriminancia analízis alkalmazása A fogyasztók csoport-tagságának előrejelzése A klaszterezések eredményének tesztelése A Diszkriminancia analízis A Diszkriminancia analízis grafikai szemléltetése A Diszkriminancia analízis működése A Diszkriminancia analízis tesztelése Mintapélda: Autószobrászat Bt. Diszkriminancia analízis SPSS-ben Diszkriminancia eredmények feldolgozása Excelben A Territoriális térképek fogalma A Territoriális térképek grafikai szemlélete Territoriális térképek SPSS-ben Territoriális térképek Excelben

21 A Territoriális térképek fogalma Egy bonyolult, sok csoportot tartalmazó csoportosítás esetén, a csoportok a gombóc diagrammon eltakarhatják egymást Próbálhatunk ugyan más változókat kirakni a diagramm tengelyeire, hátha azok jobban elkülönülő nézetet adnak, de egyrészt ez hoszadalmas (n változó esetén n×(n-1) próbálgatás), másrészt, lehet hogy egyáltalán nincsenek olyan változók, amelyek szerint az összes csoport jól elkülönül Jó lenne egy olyan diagramm, amin az összes csoport automatikusan a lehető legjobban elkülönül Tengely1: Tradíció Tengely2: Gyorsaság

22 A Territoriális térképek grafikai szemlélete A csoportok territoriális térképe (Territorial Map): Egy a csoportok cenrumait és határait mutató (X, Y) koordináta rendszer Aminek koordináta tengelyei az első két legerősebb diszkriminancia függvény meredekségi együtthatói alkotta irányvektorok Ezért a csoportokat a lehető legjobban elkülönülő nézetben mutatja V1V1 V2V2 V3V3 D1D1 D1D1 D2D2 D2D2 <>90° a 11 a 12 a 13 a 21 a 22 a 23 Most nem a független válto- zók felől nézzük a diszkriminancia függ- vényeket, hanem ezeken keresztül nézünk minden mást! A diszkriminancia függvények – mivel sajátvektorokból jönnek létre – tulajdonképpen olyan „csoport-elkülönülési faktorokként” is felfoghatók, melyek az eredeti független változók súlyozott összegeként állnak elő, és a faktorokhoz hasonlóan saját nevet is adhatunk nekik a súlyok alapján.

23 A Territoriális térképek számítása Hogyan lehet a csoportcentrumok és a csoporthatárok kordinátáit átszámolni a független változók koordináta rendszeréből a territoriális térképbe? Ehhez az SPSS először sztenderdizálja a két legerősebb diszkriminancia függvény együtthatóit (Standardized Cannonic Discriminant Function): (19.12) Majd ezek mátrixát invertálva kapja meg az SPSS a strukturális mátrixot (Structure Matrix). Ennek segítségével tudja a független változók koordinátáit diszkriminancia koordinátákká transzformálni Itt az egy változóhoz tartozó súlyok maximumai (csillaggal jelölve) alapján rendelhetjük hozzá a változókat a diszriminancia tengelyekhez, És nevezzük el a diszriminancia tengelyeket hozzárendelt változók jelentése alapján. katt Function 1Function 2 Divatos karosszéria Nagy és eros motor Kedvezo fogyasztás Biztonsági felszerelés Tartsa az értékét Garanciák megléte Nekem tetszo szín Alacsony futott km

24 Territoriális térképek SPSS-ben Az SPSS két diagrammon (Territorial Map, Combined Clusters Plot) is megjeleníti, de egyik sem fékevesztett grafikai minőségéről és informativitásáról híresült el: A fejlettebb Combined Clusters Plot- ról hiányznak a csoporthatárok A Territorial Map ezeket primitív karakteres grafikán megjeleníti, de a csoportcentrumok helyén kívül semmi más infót nem tartalmaz Mindegyik csak az első 2 diszkriminancia függvény-tengelyt mutatja, és ezeket sem lehet elnevezni.

25 A Territoriális térképek Excelben 1 Az SPSS hiányosságai miatt az Excel munkalap saját territoriális térképezővel rendelkezik Az Output window| Structure matrix részből másoljuk át a magyarázó változók neveit és az együtthatókat a munkalap Struktúrális mátrix táblázatába A táblázatban a súlyok abszolút oszlopmaximumait színezzük narancssárgára, ez rendeli hozzá az adott magyarázó változót az adott diszriminancia tengelyhez, A diszriminancia tengelye- ket nevezzük el a hozzá- rendelt változók jelentése alapján a zöld cellákban. katt shift +húz shift +húz shift +húz shift +húz katt + katt katt + katt

26 Territoriális térképek Excelben 2 Ezután megjelenik a territoriális térkép Kattintsunk rá az egyik csoport- centrumra Nyomjuk meg a szüke nyomógombot A diagramm feliratai erre frissülnek A kész elemzést lásd: CsoportokMinta.xls CsoportokMinta.xls katt

27 Territoriális térképek Excelben 3 A territoriális térkép egy CT (Computer- tomográf) diagrammon jelenik meg Ez egy 2+1 dimenziós diagramm, Ahol egy gördítősáv segítségével rétegenként nézhetjük végig a két dimenziós térkép alakulását A Z tengelyre rakott harmadik legerősebb diszkriminancia függvény különböző szintjeinél Mivel elméletileg mindig eggyel kevesebb diszkriminancia tengelyt lehet létrehozni a térképen, mint ahány csoport van, így 3 csoport esetén, a térkép 2D-s, a gördítősáv ekkor nem működik húz

28 VikiKati Laci Ibi Feri Total Viki 61.9%9.5%19.0%4.8% 100.0% Kati 10.5%31.6%10.5%21.1%26.3%100.0% Laci 28.6%0.0%52.4%9.5% 100.0% Ibi 9.5%23.8%9.5%47.6%9.5%100.0% Feri 0.0%9.5%14.3%19.0%57.1%100.0% Real segment Predicted segment Viki Laci Feri Showman? Társadalmi elfogadásra törő 19% Ibi Kati 28.6% 19.0% 21.3% 26.3% 23.8% Territoriális térképek Excelben 4 Igen hatásos megjelenítési eszköz, ha a klasszifikációs mátrixról a nagyobb csoport tévesztési %-okat felvezetjük a csoportok territoriumait összekötő nyilakra (a munkalap ezt nem teszi meg automatikusan) A mellékelt példa azt mutatja, hogyan helyezkedik el öt politikus a válaszadók fejében a „showmanság” és „társadalmi elfogadásra törés” különbözőségi faktorok szerint, illetve pozíciójuk mennyire összetéveszthető egy másik politikuséval Ez az adott politikus pozíciójának marketing eszközökkel történő támadhatóságát jelzi

29 Szakirodalom Diszkriminancia analízis: Elméleti bevezető: Elméleti bevezető: mbi.ucla.edu/~parag/multivar/da.htmhttp://www.doe- mbi.ucla.edu/~parag/multivar/da.htm Elméleti bevezető: Használata Stata-ban: Használata BMD-ben: Használata SPSS-ben: Diszkriminancia analízis és logisztikus regresszió összehasonlítása:


Letölteni ppt "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 19. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."

Hasonló előadás


Google Hirdetések