Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.

Hasonló előadás


Az előadások a következő témára: "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."— Előadás másolata:

1 Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /

2 Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

3 A fogyasztói magatartás rejtett mozgatórugóinak elemzése Vannak a fogyasztónak olyan jellemzői, amelyek nem mérhetők közvetlenül, vagy nem kérdezhetünk rá direkt kérdéssel: 1. Pl. „Mennyivel kevesebb vajkrémet venne, ha a boltomban felemelném 10 Forinttal az árát?”  Nem tudja megmondani!!! Biztos, hogy valahogy reagálna az árváltozásra, de nem kérdezheted meg tőle, hogy mennyire árérzékeny (nem is tudja, mi ez a fogalom, azt hinné, hogy a smucigságát kutatod). Pedig a profit tervezéséhez ezt nagyon fontos lenne kideríteni! 2. Pl. „Ön alkoholista?”  Ezt tudja, de nem akarja megmondani!!! A piacelemzéshez ezt is jó lenne tudni (pl. „alföldi kannásbor”-eladások!!!). Indirekt kérdésekkel kell körbejárni: –Vannak-e komoly májproblémái? –Úgy érzi, hogy nem tud kijönni a fizetéséből? –Mi jut eszébe arról a szóról, hogy vilmoskörte? –Úgy érzi, hogy családja és környezete nem törődik az Ön problémáival?

4 A faktorok fogalma Ha az indirekt kérdésekre adott válaszok értékei közti szoros együttmozgás (Correlation): a különböző megfigyeléseket vizsgálva tendenciózusan egyszerre vesznek fel –Egyformán magas vagy alacsony értékeket: pozitív kapcsolat –Pont ellentétes, magas és alacsony értékeket: negatív kapcsolat Ez egy mögöttes ismeretlen hatótényező hatására utal A Rejtett hatótényező, vagy Faktor (Factor) az együttmozgó változók pozitív/negatív súlyokkal súlyozott összege: Pl.: Alkoholizmus = +3.5×(Májprobléma 1..6) ×(OtthoniBunyó 1..6) – 3.6×(Jólszituáltság 1..6)

5 Változók együttmozgásának mérése 1 Tegyük fel, hogy j = 1..m megfigyelésünk van két változó x j, y j, j = 1..m szerint, amelyek legalább intervallum skálán mértek Kovarianciának (Covariance) nevezzük a két változó saját!!! átlaguktól mért eltérései szorzatainak számtani átlagát: (16.1) –> 0, ha a két változó együtt mozog (ha x nagy, y is nagy) –< 0, ha a két változó ellentétesen mozog (ha x nagy, y kicsi lesz) –≈ 0, ha a két változó közt nincs kapcsolat (ha x nagy, y bármennyi lehet) Miért van ez így? Mert a kovariancia szorzásokon alapul: –Ha x átlag feletti értékei társulnak y átlag feletti értékeivel, az átlag alattiak meg az átlag alattival, akkor pozitív különbséget szorzunk pozitívval, vagy negatívat különbséget negatívval, a szorzatok pozitívak lesznek, ezek átlaga is pozitív! –Ha x átlag feletti értékei társulnak y átlag alatti értékeivel, akkor pozitív különbséget szorzunk negatívval, a szorzatok negatívak lesznek, ezek átlaga is negatív! –Ha x, y rendszertelenül mozognak, a két fenti eset keveredik, a szorzatok hol pozitívak lesznek, hol negatívak, így az átlaguk 0 lesz! Megfigy. Cov(x,y)>0 Cov(x,y)<0 Megfigy. Cov(x,y) ≈ 0 Megfigy.

6 Változók együttmozgásának mérése 2 A kovariancia mérőszám értékelése: –Mivel a szorzás szimmetrikus művelet (a tényezői felcserélhetők lesznek), a kovariancia is szimmetrikus: Cov(x,y) = Cov(y,x).Így azonban csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) –Különféle minták kovarianciája nem igazán összehasonlítható egymással, mert a kovariancia értéke erően függ a résztvevő változókértékeinek szóródásától: –pl. egy 100-as kovariancia lehet nagyon gyenge kapcsolat, ha milliós eltéréseket tartalmazó változók közt számoljuk, de lehet nagyon erős ha a változók értékeinek szóródása csak száz valahány körüli. –Mindezek miatt a kovarianciát önmagában ritkán használjuk a gyakorlatban Ahhoz, hogy a kovariancia igazán használható legyen változók kapcsolatának mérésére, az értékét valahogy normalizálni kellene –A normalizáció korábban azt jelentette, hogy a változókból kivonjuk az átlagukat (ez már megtörténik a kovarianciában) –Ezután pedig elosztjuk a különbséget a szórásukkal:

7 Változók együttmozgásának mérése 3 A korreláció (Pearson Correlation, Product Moment Correlation) a kovariancia osztása x és y változók szórásának szorzatával: (16.2) –Értéke maximum +1, ha a két változó teljesen együtt mozog –Értéke maximum -1, ha a két változó teljesen ellentétesen mozog –Értéke 0, ha a két változó közt nincs kapcsolat A korreláció mérőszám értékelése: –Mivel a kovariancia is szimmetrikus, a korreláció is az lesz: Corr(x,y) = Corr(y,x) Csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) –Különféle minták korrelációja jól összehasonlítható, mert el van tüntetve belőle a változók értékeinek szóródása Az x i i=1..n változók korrelációs mátrixa (Correlation Matrix) a változók egymással páronként alkotott korrelációit (Corr(x i,x l ), i,l=1..n) tartalmazó számtáblázat –Főátlőjában mindig 1-ek vannak, mert önmagával minden változó tökéletesen korrelál –A mátrix mindig szimmetrikus a főátlóra, mert a korreláció szimmetrikus mérőszám –A mátrixot számoszlopokra (Vector) bonthatjuk, és oszlopvektorokként ábrázolhatjuk a változók koordináta rendszerében

8 Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

9 A korrelációs mátrix grafikai szemlélete Eredeti változók Eredeti megfigyelések „Rögbilabda” eloszlás Korelációs mátrix Oszlopvektorok -ra bontás Korrelációs koordináta rendszer Korrelációs oszlopvektor ábrázolva A korrelációs mátrix grafikailag egy pici, aranyos sündisznóra emlékeztet, kiálló tüskékkel CORRX1 X2 X X

10 A Faktorok kialakítása Az együttmozgó változók korrelációs vektorai összefekszenek Az algoritmus ilyen összefekvő vektorcsoportokat keres a süni frizurájában (N változó esetén ez N vektorból áll) A vektorcsoportokat megpróbálja lefedni egy-egy „sajátvektor”-ral, (ez lesz a faktor) A sajátvektor egyes változók szerinti koordinátái adják meg a változók +/- súlyait a faktorban A sajátvektor hossza a „sajátérték”, a faktor jelentőségével egyenesen arányos A sajátvektorok egymástól páronként függetlenek, a korrelációjuk nulla Grafikailag merőle- gesek egymásra

11 A faktorok rotációjának grafikai szemlélete A rotáció (Rotation) grafikailag a faktor- vektorköteg elforgatása a diagramban Varimax Rotáció (Varimax Rotation): a faktorok merőlegesek maradnak, a nagy faktorsúlyokat növeli, a kicsiket csökkenti A faktorokat igyekszik a nagy súlyú változókhoz közelíteni Könnyebben interpretálható eredmények!

12 Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

13 Mintapélda A faktor értéke minden megfigyelt ember esetén kiszámítható az indirekt változókból, és később pontosan úgy használhatjuk fel pl. a fogyasztói csoportok jellemzésénél, mintha a kérdőíven gyűjtöttük volna be direkt kérdésként (ami persze lehetetlen). De hogyan számíthatók ki indirekt változók adott csoportjából a faktorok? Pl. Az Autószobrászat Bt. kérdőívén (lásd: KerdoivMinta.doc ) 8 darab autókkal kapcsolatos attitüd kérdést gyűjtött be 130 embertől 1..6 skálán, ezekből lesznek az indirekt változók, amik mögött keressük a rejtett hatótényezőket:KerdoivMinta.doc

14 Faktoranalízis SPSS-ben 1 Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt AdatbazisMinta.sav Az Analyze|Data reduction|Factor menüvel válasszuk a faktorok kiszámítását Erre megjelenik a Faktoranalízis (Factor Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 8db attitüd változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt shift +húz shift +húz

15 Faktoranalízis SPSS-ben 2 A gombra kattintva kérhetjük a tesztek kiszámítását. Itt jelöljük be a KMO-tesztet Az gombra kattintva állíthatjuk be, hogy hány faktort bontsunk ki. N db változóból elvileg N db faktor bontható ki, de ezek messze nem ugyanolyan fontosak. A faktor fontosságát a sajátártéke (Eigenvalue) jelzi. Jelöljük ki, hogy az 1 feletti sajátértékűeket bontsa ki A gombra kattintva állíthat- juk a rotációt. Ez egy technika, ami könnyebben értelmezhetővé teszi az eredményeket. Jelöljük be a Varimax rotációt. A gombra kattintva állíthatjuk az elkészült faktorok mentését. Jelöljük be, hogy változóként ment- se őket az adatbázisba (Save as Variables) Az gombbal indítsuk a számolást! katt

16 Feldolgozás Excelben 1 A számítási eredmények mindig egy Output Window nevű külön ablakban jelennek meg Ennek baloldalán egy tartalomjegyzék van, amire kattintva eléretjük a különféle eredményeket A jobboldalán pedig mindig a kiválasztott eredmény táblázat jelenik meg Mivel az SPSS – olcsó szoftver lévén – nem tudja könnyen érthető formában megjeleníteni az eredményeket, néhány eredménytáblát átmásolunk egy Faktorok.xls nevű Excel munkalapra, ami elvégzi eztFaktorok.xls Indítsuk el az Excelt, és Fájl|Megnyitás (File|Open) menüvel nyissuk meg ezt a fájlt!

17 Feldolgozás Excelben 2 Először másoljuk át a faktorok sajátértékeit: Jelöljük ki kattintással az Output Window-ban a Teljes magyarázott bizonytalanság (Total Variance Explained) pontot Ezután dupla kattintással jelöljük ki az eredménytáblát, ami bekereteződik Majd Shift + egérhúzással jelöljük ki a 8db sajátértéket (Initial eigenvalues, Total) egymás alatt Ctrl+C billentyűkombináció megnyomásával másoljuk ezt a vágólapra (ez egy láthatatlan tároló, amivel különféle programok közt másolhatunk adatokat) Mivel a sajátértékek egy oszlopot alkotnak, még az Excel munkalapon egy sorba kerülnek, nem lehet közvetlenül a helyükre másolni őket katt shift +húz shift +húz katt + katt katt + katt Így először másoljuk be őket az Excel munkalap egy üres helyére oszlopként Ctrl+V-vel Majd innen másoljuk őket a vágó- lapra megint Ctrl+C-vel Az Excel Szerkesztés|Irányított beillesztés...|Csak értéket, Transzponálva (Edit|Paste Special...|Values only, Transpose) menüjével illeszthetjük őket végleges helyükre, úgy hogy a transzponálás közben megfordítja a sorokat/oszlopokat Azért illesztjük őket be csak értékként, hogy ne rontsák el a munkalap formázásait

18 Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

19 Ezután nézzük meg az Excel munkalapon a faktorok sajátértékeit ábrázoló könyökdiagrammot (Factor Scre Plot) Látható, hogy az első négy faktor sajátértéke van 1 felett, utánuk egy meredek letörés következik (lásd: zöld vonal), tehát a további faktorok elhanyagolható fontosságúak, ezért csak az első négyet bontjuk ki. Ezután - az előbbiekben ismertetetthez hasonló módszerrel – átmásoljuk, hogy a kibontott faktorok mekkora részt magyaráznak meg a bizonytalanságból (% of Variance) Döntés a kibontott faktorok számáról

20 A Faktoranalízis tesztelése A kibontott faktorok által magyarázott összes bizonytalanságnak – amely az Excel munkalapról olvasható le – illik meghaladnia az 50%-ot (ez itt 67.11%, tehát egész jó) Hasonlóképpen, az Output Window| KMO and Bartlett’s Test nevű részében a KMO-teszt értékének meg kell haladnia a 0.5-öt és illik közel lennie 1-hez. Ezt az értéket is másoljuk át (itt ez 0.653, ami nem túl fényes, de még elfogadható) Ha ezek követelmények nem teljesülnek, akkor a faktorok kiszámítása nem megbízható, és újra kell kezdeni, más változók felhasználásával!

21 Feldolgozás Excelben 3 Ha a tesztek rendben vannak, másoljuk át az Output Window|Rotated Component Matrix nevű részéből a változók neveit, és a komponensekben (faktorokban) elért súlyait A másolás ugyanúgy megy, mint az előbb, kivéve, hogy nem kérünk transzponálást, mert a sorok-oszlopok most jól állnak

22 Faktorsúlyok rendezése A következő lépésben próbálunk minden változót egy adott faktorhoz csatolni, aszerint hogy melyik faktornál van a legnagyobb súlya abszolút értékben! (pozítiv vagy negatív). Így soronként keressük a táblában legnagyobb abszolút értékű elemet, amit megjelölünk: –Pirossal, ha pozitív –Kékkel, ha negatív (ekkor a változó előtti cellába odaírjuk a „nem” szót, mert a faktorban pont az ellenkezőjét fogja jelenteni) –Narancssárgával, ha pozitív, de a súly nem éri el az 50%-ot, vagy van hozzá közeli abszolút értékű más elem: poztív határeset –Világoskékkel –Világoskékkel a negatív határeseteket jelöljük Ezután a változókat sorba rendezzük, úgy, hogy az egyes faktorokhoz sorolt változók megjelölt súlyai abszolút érték szerint csökkenjenek

23 A faktorok elnevezése és további használata Ezután elnevezzük a faktorokat a hozzácsatolt változók jelentése és fontossága alapján: –Mivel az első faktorban az autó díszítése és a tulajdonos stílusának tükrözése a fontos, ezt elnevezzük „Tunning mániá”-nak. –A második faktorban a divatosság és a dinamizmus fontos, ezért „Divatkövetés”-nek nevezzük, stb. Az SPSS beírja a 4 új faktort az adatbázisba, elég idétlen nevekkel. A változólistában adjunk nekik rendes változónevet és címkét! Ettől kezdve úgy használhatók – pl. a fogyasztói csoportok jellemzésénél - mintha direkt kérdéssel kérdeztük volna le őket. A 0 mindig a faktor átlagos értéke, a pozitívak az átlagnál magasabbak, a negatívak alacsonyabbak (A kész elemzést lásd a FaktorokMinta.xls fájlban!)FaktorokMinta.xls

24 Szakirodalom Faktoranalízis: Elméleti bevezető: Elméleti bevezető: Statsoft bevezető: Használata SAS-ban: Használata SPSS-ben: earch='factor%20analysis%20spss‘ earch='factor%20analysis%20spss Animált bemutató az SPSS használatáról: n/SPSSoutline.htm n/SPSSoutline.htm


Letölteni ppt "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."

Hasonló előadás


Google Hirdetések