16. Előadás Dr. Pauler Gábor, Egyetemi Docens

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining
16. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /3725

A fogyasztói magatartás rejtett mozgatórugóinak elemzése
Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

Vannak a fogyasztónak olyan jellemzői, amelyek nem mérhetők közvetlenül, vagy nem kérdezhetünk rá direkt kérdéssel: 1. Pl. „Mennyivel kevesebb vajkrémet venne, ha a boltomban felemelném 10 Forinttal az árát?”  Nem tudja megmondani!!! Biztos, hogy valahogy reagálna az árváltozásra, de nem kérdezheted meg tőle, hogy mennyire árérzékeny (nem is tudja, mi ez a fogalom, azt hinné, hogy a smucigságát kutatod). Pedig a profit tervezéséhez ezt nagyon fontos lenne kideríteni! 2. Pl. „Ön alkoholista?”  Ezt tudja, de nem akarja megmondani!!! A piacelemzéshez ezt is jó lenne tudni (pl. „alföldi kannásbor”-eladások!!!). Indirekt kérdésekkel kell körbejárni: Vannak-e komoly májproblémái? Úgy érzi, hogy nem tud kijönni a fizetéséből? Mi jut eszébe arról a szóról, hogy vilmoskörte? Úgy érzi, hogy családja és környezete nem törődik az Ön problémáival?

A faktorok fogalma Ha az indirekt kérdésekre adott válaszok értékei közti szoros együttmozgás (Correlation): a különböző megfigyeléseket vizsgálva tendenciózusan egyszerre vesznek fel Egyformán magas vagy alacsony értékeket: pozitív kapcsolat Pont ellentétes, magas és alacsony értékeket: negatív kapcsolat Ez egy mögöttes ismeretlen hatótényező hatására utal A Rejtett hatótényező, vagy Faktor (Factor) az együttmozgó változók pozitív/negatív súlyokkal súlyozott összege: Pl.: Alkoholizmus = +3.5×(Májprobléma 1..6) ×(OtthoniBunyó 1..6) – 3.6×(Jólszituáltság 1..6)

Változók együttmozgásának mérése 1
Tegyük fel, hogy j = 1..m megfigyelésünk van két változó xj, yj, j = 1..m szerint, amelyek legalább intervallum skálán mértek Kovarianciának (Covariance) nevezzük a két változó saját!!! átlaguktól mért eltérései szorzatainak számtani átlagát: (16.1) > 0, ha a két változó együtt mozog (ha x nagy, y is nagy) < 0, ha a két változó ellentétesen mozog (ha x nagy, y kicsi lesz) ≈ 0, ha a két változó közt nincs kapcsolat (ha x nagy, y bármennyi lehet) Miért van ez így? Mert a kovariancia szorzásokon alapul: Ha x átlag feletti értékei társulnak y átlag feletti értékeivel, az átlag alattiak meg az átlag alattival, akkor pozitív különbséget szorzunk pozitívval, vagy negatívat különbséget negatívval, a szorzatok pozitívak lesznek, ezek átlaga is pozitív! Ha x átlag feletti értékei társulnak y átlag alatti értékeivel, akkor pozitív különbséget szorzunk negatívval, a szorzatok negatívak lesznek, ezek átlaga is negatív! Ha x, y rendszertelenül mozognak, a két fenti eset keveredik, a szorzatok hol pozitívak lesznek, hol negatívak, így az átlaguk 0 lesz! Megfigy. Cov(x,y)>0 Cov(x,y)<0 Megfigy. Cov(x,y)≈0 Megfigy.

A kovariancia mérőszám értékelése: Mivel a szorzás szimmetrikus művelet (a tényezői felcserélhetők lesznek), a kovariancia is szimmetrikus: Cov(x,y) = Cov(y,x) .Így azonban csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) Különféle minták kovarianciája nem igazán összehasonlítható egymással, mert a kovariancia értéke erően függ a résztvevő változókértékeinek szóródásától: pl. egy 100-as kovariancia lehet nagyon gyenge kapcsolat, ha milliós eltéréseket tartalmazó változók közt számoljuk, de lehet nagyon erős ha a változók értékeinek szóródása csak száz valahány körüli. Mindezek miatt a kovarianciát önmagában ritkán használjuk a gyakorlatban Ahhoz, hogy a kovariancia igazán használható legyen változók kapcsolatának mérésére, az értékét valahogy normalizálni kellene A normalizáció korábban azt jelentette, hogy a változókból kivonjuk az átlagukat (ez már megtörténik a kovarianciában) Ezután pedig elosztjuk a különbséget a szórásukkal:

A korreláció (Pearson Correlation, Product Moment Correlation) a kovariancia osztása x és y változók szórásának szorzatával: (16.2) Értéke maximum +1, ha a két változó teljesen együtt mozog Értéke maximum -1, ha a két változó teljesen ellentétesen mozog Értéke 0, ha a két változó közt nincs kapcsolat A korreláció mérőszám értékelése: Mivel a kovariancia is szimmetrikus, a korreláció is az lesz: Corr(x,y) = Corr(y,x) Csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) Különféle minták korrelációja jól összehasonlítható, mert el van tüntetve belőle a változók értékeinek szóródása Az xi i=1..n változók korrelációs mátrixa (Correlation Matrix) a változók egymással páronként alkotott korrelációit (Corr(xi,xl), i,l=1..n) tartalmazó számtáblázat Főátlőjában mindig 1-ek vannak, mert önmagával minden változó tökéletesen korrelál A mátrix mindig szimmetrikus a főátlóra, mert a korreláció szimmetrikus mérőszám A mátrixot számoszlopokra (Vector) bonthatjuk, és oszlopvektorokként ábrázolhatjuk a változók koordináta rendszerében

A korrelációs mátrix grafikai szemlélete
Eredeti változók Eredeti megfigyelések „Rögbilabda” eloszlás Korelációs mátrix Oszlopvektorok-ra bontás Korrelációs koordináta rendszer Korrelációs oszlopvektor ábrázolva A korrelációs mátrix grafikailag egy pici, aranyos sündisznóra emlékeztet, kiálló tüskékkel CORR X1 X2 1.0 0.5

A Faktorok kialakítása
Az együttmozgó változók korrelációs vektorai összefekszenek Az algoritmus ilyen összefekvő vektorcsoportokat keres a süni frizurájában (N változó esetén ez N vektorból áll) A vektorcsoportokat megpróbálja lefedni egy-egy „sajátvektor”-ral, (ez lesz a faktor) A sajátvektor egyes változók szerinti koordinátái adják meg a változók +/- súlyait a faktorban A sajátvektor hossza a „sajátérték”, a faktor jelentőségével egyenesen arányos A sajátvektorok egymástól páronként függetlenek, a korrelációjuk nulla Grafikailag merőle-gesek egymásra

A faktorok rotációjának grafikai szemlélete
A rotáció (Rotation) grafikailag a faktor-vektorköteg elforgatása a diagramban Varimax Rotáció (Varimax Rotation): a faktorok merőlegesek maradnak, a nagy faktorsúlyokat növeli, a kicsiket csökkenti A faktorokat igyekszik a nagy súlyú változókhoz közelíteni Könnyebben interpretálható eredmények!

Mintapélda A faktor értéke minden megfigyelt ember esetén kiszámítható az indirekt változókból, és később pontosan úgy használhatjuk fel pl. a fogyasztói csoportok jellemzésénél, mintha a kérdőíven gyűjtöttük volna be direkt kérdésként (ami persze lehetetlen). De hogyan számíthatók ki indirekt változók adott csoportjából a faktorok? Pl. Az Autószobrászat Bt. kérdőívén (lásd: KerdoivMinta.doc ) 8 darab autókkal kapcsolatos attitüd kérdést gyűjtött be 130 embertől 1..6 skálán, ezekből lesznek az indirekt változók, amik mögött keressük a rejtett hatótényezőket:

Faktoranalízis SPSS-ben 1
Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt Az Analyze|Data reduction|Factor menüvel válasszuk a faktorok kiszámítását Erre megjelenik a Faktoranalízis (Factor Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 8db attitüd változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt katt katt katt shift +húz katt

Faktoranalízis SPSS-ben 2
A gombra kattintva kérhetjük a tesztek kiszámítását. Itt jelöljük be a KMO-tesztet Az gombra kattintva állíthatjuk be, hogy hány faktort bontsunk ki. N db változóból elvileg N db faktor bontható ki, de ezek messze nem ugyanolyan fontosak. A faktor fontosságát a sajátártéke (Eigenvalue) jelzi. Jelöljük ki, hogy az 1 feletti sajátértékűeket bontsa ki A gombra kattintva állíthat- juk a rotációt. Ez egy technika, ami könnyebben értelmezhetővé teszi az eredményeket. Jelöljük be a Varimax rotációt. A gombra kattintva állíthatjuk az elkészült faktorok mentését. Jelöljük be, hogy változóként ment- se őket az adatbázisba (Save as Variables) Az gombbal indítsuk a számolást! katt katt katt katt katt katt katt katt

Feldolgozás Excelben 1 A számítási eredmények mindig egy Output Window nevű külön ablakban jelennek meg Ennek baloldalán egy tartalomjegyzék van, amire kattintva eléretjük a különféle eredményeket A jobboldalán pedig mindig a kiválasztott eredmény táblázat jelenik meg Mivel az SPSS – olcsó szoftver lévén – nem tudja könnyen érthető formában megjeleníteni az eredményeket, néhány eredménytáblát átmásolunk egy Faktorok.xls nevű Excel munkalapra, ami elvégzi ezt Indítsuk el az Excelt, és Fájl|Megnyitás (File|Open) menüvel nyissuk meg ezt a fájlt!

Feldolgozás Excelben 2 Először másoljuk át a faktorok sajátértékeit:
Jelöljük ki kattintással az Output Window-ban a Teljes magyarázott bizonytalanság (Total Variance Explained) pontot Ezután dupla kattintással jelöljük ki az eredménytáblát, ami bekereteződik Majd Shift + egérhúzással jelöljük ki a 8db sajátértéket (Initial eigenvalues, Total) egymás alatt Ctrl+C billentyűkombináció megnyomásával másoljuk ezt a vágólapra (ez egy láthatatlan tároló, amivel különféle programok közt másolhatunk adatokat) Mivel a sajátértékek egy oszlopot alkotnak, még az Excel munkalapon egy sorba kerülnek, nem lehet közvetlenül a helyükre másolni őket katt + katt katt shift +húz Így először másoljuk be őket az Excel munkalap egy üres helyére oszlopként Ctrl+V-vel Majd innen másoljuk őket a vágó- lapra megint Ctrl+C-vel Az Excel Szerkesztés|Irányított beillesztés...|Csak értéket, Transzponálva (Edit|Paste Special...|Values only, Transpose) menüjével illeszthetjük őket végleges helyükre, úgy hogy a transzponálás közben megfordítja a sorokat/oszlopokat Azért illesztjük őket be csak értékként, hogy ne rontsák el a munkalap formázásait

Döntés a kibontott faktorok számáról
Ezután nézzük meg az Excel munkalapon a faktorok sajátértékeit ábrázoló könyökdiagrammot (Factor Scre Plot) Látható, hogy az első négy faktor sajátértéke van 1 felett, utánuk egy meredek letörés következik (lásd: zöld vonal), tehát a további faktorok elhanyagolható fontosságúak, ezért csak az első négyet bontjuk ki. Ezután - az előbbiekben ismertetetthez hasonló módszerrel – átmásoljuk, hogy a kibontott faktorok mekkora részt magyaráznak meg a bizonytalanságból (% of Variance)

A Faktoranalízis tesztelése
A kibontott faktorok által magyarázott összes bizonytalanságnak – amely az Excel munkalapról olvasható le – illik meghaladnia az 50%-ot (ez itt 67.11%, tehát egész jó) Hasonlóképpen, az Output Window| KMO and Bartlett’s Test nevű részében a KMO-teszt értékének meg kell haladnia a 0.5-öt és illik közel lennie 1-hez. Ezt az értéket is másoljuk át (itt ez 0.653, ami nem túl fényes, de még elfogadható) Ha ezek követelmények nem teljesülnek, akkor a faktorok kiszámítása nem megbízható, és újra kell kezdeni, más változók felhasználásával!

Feldolgozás Excelben 3 Ha a tesztek rendben vannak, másoljuk át az Output Window|Rotated Component Matrix nevű részéből a változók neveit, és a komponensekben (faktorokban) elért súlyait A másolás ugyanúgy megy, mint az előbb, kivéve, hogy nem kérünk transzponálást, mert a sorok-oszlopok most jól állnak

Faktorsúlyok rendezése
A következő lépésben próbálunk minden változót egy adott faktorhoz csatolni, aszerint hogy melyik faktornál van a legnagyobb súlya abszolút értékben! (pozítiv vagy negatív). Így soronként keressük a táblában legnagyobb abszolút értékű elemet, amit megjelölünk: Pirossal, ha pozitív Kékkel, ha negatív (ekkor a változó előtti cellába odaírjuk a „nem” szót, mert a faktorban pont az ellenkezőjét fogja jelenteni) Narancssárgával, ha pozitív, de a súly nem éri el az 50%-ot, vagy van hozzá közeli abszolút értékű más elem: poztív határeset Világoskékkel a negatív határeseteket jelöljük Ezután a változókat sorba rendezzük, úgy, hogy az egyes faktorokhoz sorolt változók megjelölt súlyai abszolút érték szerint csökkenjenek

A faktorok elnevezése és további használata
Ezután elnevezzük a faktorokat a hozzácsatolt változók jelentése és fontossága alapján: Mivel az első faktorban az autó díszítése és a tulajdonos stílusának tükrözése a fontos, ezt elnevezzük „Tunning mániá”-nak. A második faktorban a divatosság és a dinamizmus fontos, ezért „Divatkövetés”-nek nevezzük, stb. Az SPSS beírja a 4 új faktort az adatbázisba, elég idétlen nevekkel. A változólistában adjunk nekik rendes változónevet és címkét! Ettől kezdve úgy használhatók – pl. a fogyasztói csoportok jellemzésénél - mintha direkt kérdéssel kérdeztük volna le őket. A 0 mindig a faktor átlagos értéke, a pozitívak az átlagnál magasabbak, a negatívak alacsonyabbak (A kész elemzést lásd a FaktorokMinta.xls fájlban!)

Szakirodalom Faktoranalízis:
Elméleti bevezető: Elméleti bevezető: Statsoft bevezető: Használata SAS-ban: Használata SPSS-ben: Animált bemutató az SPSS használatáról:

16. Előadás Dr. Pauler Gábor, Egyetemi Docens

Hasonló előadás

Az előadások a következő témára: "16. Előadás Dr. Pauler Gábor, Egyetemi Docens"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

16. Előadás Dr. Pauler Gábor, Egyetemi Docens

Hasonló előadás

Az előadások a következő témára: "16. Előadás Dr. Pauler Gábor, Egyetemi Docens"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés