16. Előadás Dr. Pauler Gábor, Egyetemi Docens

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Események formális leírása, műveletek
Microsoft Excel 3. óra Előadó: Jánosik Tamás.
Adatelemzés számítógéppel
Táblázatkezelés - függvények
Kvantitatív Módszerek
Készítette: Szinai Adrienn
Rangszám statisztikák
Készítette: a Dalai Láma
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Valószínűségszámítás
Gazdaságelemzési és Statisztikai Tanszék
Matematika II. 2. előadás Geodézia szakmérnöki szak 2012/2013. tanév Műszaki térinformatika ágazat őszi félév.
Földrajzi összefüggések elemzése
Egy f  R[x] polinom cS -beli helyettesítési értéke
Táblázat kezelő programok
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
A megoldás főbb lépései:
Összefüggés vizsgálatok
Mérési pontosság (hőmérő)
Gazdaságelemzési és Statisztikai Tanszék
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Faktor = „jellemző”, „háttérváltozó” A faktoranalízis (FA) alapjában a változók csoportosítására, redukciójára.
Ozsváth Károly NYME ACSJK Testnevelési Tanszék. Fábián Gy. – Zsidegh M.: A testnevelési és sporttudományos kutatások módszertana, p. (SPSS: p.,
A középérték mérőszámai
Matematika III. előadások MINB083, MILB083
Bekezdésformázás Nevem: Berkes András Speciális kategória
Gazdasági informatikából megkaptuk a félévi feladatot!!! Mindenki nagy örömére… 0. hét.
Főkomponens és faktor analízis
Microsoft Excel Diagramok.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Egytényezős variancia-analízis
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Alapszint 2.  Készíts makrót, ami a kijelölt cellákat egybenyitja, a tartalmat vízszintesen és függőlegesen középre igazítja és 12 pontos betűméretűre.
Szükségünk lesz valamilyen spreadsheet / táblázat kezelő programra
Kvantitatív Módszerek
Prezentáció a prezentációról
Többváltozós adatelemzés
Többváltozós adatelemzés
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Lineáris regresszió.
Adatleírás.
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 4. hét
Faktoranalízis az SPSS-ben
Gazdasági viszonyszámok képzése IKT eszközök felhasználásával
Statisztikai alapfogalmak
Kördokumentumok 1..
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Licensz vizsga Újvidék, Kandidátus: FARKAS ANDOR
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Korreláció-számítás.
A számítógépes elemzés alapjai
17. Előadás Dr. Pauler Gábor, Egyetemi Docens
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 11. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 13. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.
A számítógépes elemzés alapjai
Korreláció, regresszió
Haladó Pénzügyek Vezetés szervezés MSC I. évfolyam I
TEVA SZOFTVER BEMUTATÓ
Térbeli gazdasági folyamatok tényezőkre bontása
Dr. Varga Beatrix egyetemi docens
18. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens
Speciális szóródás: Koncentráció
Haladó Pénzügyek Vezetés szervezés MSC I. évfolyam I
5. Kalibráció, függvényillesztés
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edu

A fogyasztói magatartás rejtett mozgatórugóinak elemzése Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

A fogyasztói magatartás rejtett mozgatórugóinak elemzése Vannak a fogyasztónak olyan jellemzői, amelyek nem mérhetők közvetlenül, vagy nem kérdezhetünk rá direkt kérdéssel: 1. Pl. „Mennyivel kevesebb vajkrémet venne, ha a boltomban felemelném 10 Forinttal az árát?”  Nem tudja megmondani!!! Biztos, hogy valahogy reagálna az árváltozásra, de nem kérdezheted meg tőle, hogy mennyire árérzékeny (nem is tudja, mi ez a fogalom, azt hinné, hogy a smucigságát kutatod). Pedig a profit tervezéséhez ezt nagyon fontos lenne kideríteni! 2. Pl. „Ön alkoholista?”  Ezt tudja, de nem akarja megmondani!!! A piacelemzéshez ezt is jó lenne tudni (pl. „alföldi kannásbor”-eladások!!!). Indirekt kérdésekkel kell körbejárni: Vannak-e komoly májproblémái? Úgy érzi, hogy nem tud kijönni a fizetéséből? Mi jut eszébe arról a szóról, hogy vilmoskörte? Úgy érzi, hogy családja és környezete nem törődik az Ön problémáival?

A faktorok fogalma Ha az indirekt kérdésekre adott válaszok értékei közti szoros együttmozgás (Correlation): a különböző megfigyeléseket vizsgálva tendenciózusan egyszerre vesznek fel Egyformán magas vagy alacsony értékeket: pozitív kapcsolat Pont ellentétes, magas és alacsony értékeket: negatív kapcsolat Ez egy mögöttes ismeretlen hatótényező hatására utal A Rejtett hatótényező, vagy Faktor (Factor) az együttmozgó változók pozitív/negatív súlyokkal súlyozott összege: Pl.: Alkoholizmus = +3.5×(Májprobléma 1..6) + 2.7 ×(OtthoniBunyó 1..6) – 3.6×(Jólszituáltság 1..6)

Változók együttmozgásának mérése 1 Tegyük fel, hogy j = 1..m megfigyelésünk van két változó xj, yj, j = 1..m szerint, amelyek legalább intervallum skálán mértek Kovarianciának (Covariance) nevezzük a két változó saját!!! átlaguktól mért eltérései szorzatainak számtani átlagát: (16.1) > 0, ha a két változó együtt mozog (ha x nagy, y is nagy) < 0, ha a két változó ellentétesen mozog (ha x nagy, y kicsi lesz) ≈ 0, ha a két változó közt nincs kapcsolat (ha x nagy, y bármennyi lehet) Miért van ez így? Mert a kovariancia szorzásokon alapul: Ha x átlag feletti értékei társulnak y átlag feletti értékeivel, az átlag alattiak meg az átlag alattival, akkor pozitív különbséget szorzunk pozitívval, vagy negatívat különbséget negatívval, a szorzatok pozitívak lesznek, ezek átlaga is pozitív! Ha x átlag feletti értékei társulnak y átlag alatti értékeivel, akkor pozitív különbséget szorzunk negatívval, a szorzatok negatívak lesznek, ezek átlaga is negatív! Ha x, y rendszertelenül mozognak, a két fenti eset keveredik, a szorzatok hol pozitívak lesznek, hol negatívak, így az átlaguk 0 lesz! Megfigy. Cov(x,y)>0 Cov(x,y)<0 Megfigy. Cov(x,y)≈0 Megfigy.

Változók együttmozgásának mérése 2 A kovariancia mérőszám értékelése: Mivel a szorzás szimmetrikus művelet (a tényezői felcserélhetők lesznek), a kovariancia is szimmetrikus: Cov(x,y) = Cov(y,x) .Így azonban csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) Különféle minták kovarianciája nem igazán összehasonlítható egymással, mert a kovariancia értéke erően függ a résztvevő változókértékeinek szóródásától: pl. egy 100-as kovariancia lehet nagyon gyenge kapcsolat, ha milliós eltéréseket tartalmazó változók közt számoljuk, de lehet nagyon erős ha a változók értékeinek szóródása csak száz valahány körüli. Mindezek miatt a kovarianciát önmagában ritkán használjuk a gyakorlatban Ahhoz, hogy a kovariancia igazán használható legyen változók kapcsolatának mérésére, az értékét valahogy normalizálni kellene A normalizáció korábban azt jelentette, hogy a változókból kivonjuk az átlagukat (ez már megtörténik a kovarianciában) Ezután pedig elosztjuk a különbséget a szórásukkal:

Változók együttmozgásának mérése 3 A korreláció (Pearson Correlation, Product Moment Correlation) a kovariancia osztása x és y változók szórásának szorzatával: (16.2) Értéke maximum +1, ha a két változó teljesen együtt mozog Értéke maximum -1, ha a két változó teljesen ellentétesen mozog Értéke 0, ha a két változó közt nincs kapcsolat A korreláció mérőszám értékelése: Mivel a kovariancia is szimmetrikus, a korreláció is az lesz: Corr(x,y) = Corr(y,x) Csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) Különféle minták korrelációja jól összehasonlítható, mert el van tüntetve belőle a változók értékeinek szóródása Az xi i=1..n változók korrelációs mátrixa (Correlation Matrix) a változók egymással páronként alkotott korrelációit (Corr(xi,xl), i,l=1..n) tartalmazó számtáblázat Főátlőjában mindig 1-ek vannak, mert önmagával minden változó tökéletesen korrelál A mátrix mindig szimmetrikus a főátlóra, mert a korreláció szimmetrikus mérőszám A mátrixot számoszlopokra (Vector) bonthatjuk, és oszlopvektorokként ábrázolhatjuk a változók koordináta rendszerében

A fogyasztói magatartás rejtett mozgatórugóinak elemzése Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

A korrelációs mátrix grafikai szemlélete Eredeti változók Eredeti megfigyelések „Rögbilabda” eloszlás Korelációs mátrix Oszlopvektorok-ra bontás Korrelációs koordináta rendszer Korrelációs oszlopvektor ábrázolva A korrelációs mátrix grafikailag egy pici, aranyos sündisznóra emlékeztet, kiálló tüskékkel CORR X1 X2 1.0 0.5

A Faktorok kialakítása Az együttmozgó változók korrelációs vektorai összefekszenek Az algoritmus ilyen összefekvő vektorcsoportokat keres a süni frizurájában (N változó esetén ez N vektorból áll) A vektorcsoportokat megpróbálja lefedni egy-egy „sajátvektor”-ral, (ez lesz a faktor) A sajátvektor egyes változók szerinti koordinátái adják meg a változók +/- súlyait a faktorban A sajátvektor hossza a „sajátérték”, a faktor jelentőségével egyenesen arányos A sajátvektorok egymástól páronként függetlenek, a korrelációjuk nulla Grafikailag merőle-gesek egymásra

A faktorok rotációjának grafikai szemlélete A rotáció (Rotation) grafikailag a faktor-vektorköteg elforgatása a diagramban Varimax Rotáció (Varimax Rotation): a faktorok merőlegesek maradnak, a nagy faktorsúlyokat növeli, a kicsiket csökkenti A faktorokat igyekszik a nagy súlyú változókhoz közelíteni Könnyebben interpretálható eredmények!

A fogyasztói magatartás rejtett mozgatórugóinak elemzése Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

Mintapélda A faktor értéke minden megfigyelt ember esetén kiszámítható az indirekt változókból, és később pontosan úgy használhatjuk fel pl. a fogyasztói csoportok jellemzésénél, mintha a kérdőíven gyűjtöttük volna be direkt kérdésként (ami persze lehetetlen). De hogyan számíthatók ki indirekt változók adott csoportjából a faktorok? Pl. Az Autószobrászat Bt. kérdőívén (lásd: KerdoivMinta.doc ) 8 darab autókkal kapcsolatos attitüd kérdést gyűjtött be 130 embertől 1..6 skálán, ezekből lesznek az indirekt változók, amik mögött keressük a rejtett hatótényezőket:

Faktoranalízis SPSS-ben 1 Indítsuk el az SPSS-t A File|Open menüvel nyissuk meg az AdatbazisMinta.sav fájlt Az Analyze|Data reduction|Factor menüvel válasszuk a faktorok kiszámítását Erre megjelenik a Faktoranalízis (Factor Analysis) ablak. Itt a bal oldali változólistában Shift + egérhúzással jelöljük ki a 8db attitüd változót Majd a ►gomb megnyomásával válasszuk ki őket elemzésre katt katt katt katt shift +húz katt

Faktoranalízis SPSS-ben 2 A gombra kattintva kérhetjük a tesztek kiszámítását. Itt jelöljük be a KMO-tesztet Az gombra kattintva állíthatjuk be, hogy hány faktort bontsunk ki. N db változóból elvileg N db faktor bontható ki, de ezek messze nem ugyanolyan fontosak. A faktor fontosságát a sajátártéke (Eigenvalue) jelzi. Jelöljük ki, hogy az 1 feletti sajátértékűeket bontsa ki A gombra kattintva állíthat- juk a rotációt. Ez egy technika, ami könnyebben értelmezhetővé teszi az eredményeket. Jelöljük be a Varimax rotációt. A gombra kattintva állíthatjuk az elkészült faktorok mentését. Jelöljük be, hogy változóként ment- se őket az adatbázisba (Save as Variables) Az gombbal indítsuk a számolást! katt katt katt katt katt katt katt katt

Feldolgozás Excelben 1 A számítási eredmények mindig egy Output Window nevű külön ablakban jelennek meg Ennek baloldalán egy tartalomjegyzék van, amire kattintva eléretjük a különféle eredményeket A jobboldalán pedig mindig a kiválasztott eredmény táblázat jelenik meg Mivel az SPSS – olcsó szoftver lévén – nem tudja könnyen érthető formában megjeleníteni az eredményeket, néhány eredménytáblát átmásolunk egy Faktorok.xls nevű Excel munkalapra, ami elvégzi ezt Indítsuk el az Excelt, és Fájl|Megnyitás (File|Open) menüvel nyissuk meg ezt a fájlt!

Feldolgozás Excelben 2 Először másoljuk át a faktorok sajátértékeit: Jelöljük ki kattintással az Output Window-ban a Teljes magyarázott bizonytalanság (Total Variance Explained) pontot Ezután dupla kattintással jelöljük ki az eredménytáblát, ami bekereteződik Majd Shift + egérhúzással jelöljük ki a 8db sajátértéket (Initial eigenvalues, Total) egymás alatt Ctrl+C billentyűkombináció megnyomásával másoljuk ezt a vágólapra (ez egy láthatatlan tároló, amivel különféle programok közt másolhatunk adatokat) Mivel a sajátértékek egy oszlopot alkotnak, még az Excel munkalapon egy sorba kerülnek, nem lehet közvetlenül a helyükre másolni őket katt + katt katt shift +húz Így először másoljuk be őket az Excel munkalap egy üres helyére oszlopként Ctrl+V-vel Majd innen másoljuk őket a vágó- lapra megint Ctrl+C-vel Az Excel Szerkesztés|Irányított beillesztés...|Csak értéket, Transzponálva (Edit|Paste Special...|Values only, Transpose) menüjével illeszthetjük őket végleges helyükre, úgy hogy a transzponálás közben megfordítja a sorokat/oszlopokat Azért illesztjük őket be csak értékként, hogy ne rontsák el a munkalap formázásait

A fogyasztói magatartás rejtett mozgatórugóinak elemzése Az előadás tartalma A fogyasztói magatartás rejtett mozgatórugóinak elemzése A faktorok fogalma A változók együttmozgásának mérése A korrelációs mátrix grafikai szemlélete A faktorok megalkotása A rotáció grafikai szemlélete Mintapélda Faktoranalízis SPSS-ben Feldolgozás Excelben Döntés a kibontott faktorok számáról A Faktorsúlyok rendezése A faktorok elnevezése és további használata

Döntés a kibontott faktorok számáról Ezután nézzük meg az Excel munkalapon a faktorok sajátértékeit ábrázoló könyökdiagrammot (Factor Scre Plot) Látható, hogy az első négy faktor sajátértéke van 1 felett, utánuk egy meredek letörés következik (lásd: zöld vonal), tehát a további faktorok elhanyagolható fontosságúak, ezért csak az első négyet bontjuk ki. Ezután - az előbbiekben ismertetetthez hasonló módszerrel – átmásoljuk, hogy a kibontott faktorok mekkora részt magyaráznak meg a bizonytalanságból (% of Variance)

A Faktoranalízis tesztelése A kibontott faktorok által magyarázott összes bizonytalanságnak – amely az Excel munkalapról olvasható le – illik meghaladnia az 50%-ot (ez itt 67.11%, tehát egész jó) Hasonlóképpen, az Output Window| KMO and Bartlett’s Test nevű részében a KMO-teszt értékének meg kell haladnia a 0.5-öt és illik közel lennie 1-hez. Ezt az értéket is másoljuk át (itt ez 0.653, ami nem túl fényes, de még elfogadható) Ha ezek követelmények nem teljesülnek, akkor a faktorok kiszámítása nem megbízható, és újra kell kezdeni, más változók felhasználásával!

Feldolgozás Excelben 3 Ha a tesztek rendben vannak, másoljuk át az Output Window|Rotated Component Matrix nevű részéből a változók neveit, és a komponensekben (faktorokban) elért súlyait A másolás ugyanúgy megy, mint az előbb, kivéve, hogy nem kérünk transzponálást, mert a sorok-oszlopok most jól állnak

Faktorsúlyok rendezése A következő lépésben próbálunk minden változót egy adott faktorhoz csatolni, aszerint hogy melyik faktornál van a legnagyobb súlya abszolút értékben! (pozítiv vagy negatív). Így soronként keressük a táblában legnagyobb abszolút értékű elemet, amit megjelölünk: Pirossal, ha pozitív Kékkel, ha negatív (ekkor a változó előtti cellába odaírjuk a „nem” szót, mert a faktorban pont az ellenkezőjét fogja jelenteni) Narancssárgával, ha pozitív, de a súly nem éri el az 50%-ot, vagy van hozzá közeli abszolút értékű más elem: poztív határeset Világoskékkel a negatív határeseteket jelöljük Ezután a változókat sorba rendezzük, úgy, hogy az egyes faktorokhoz sorolt változók megjelölt súlyai abszolút érték szerint csökkenjenek

A faktorok elnevezése és további használata Ezután elnevezzük a faktorokat a hozzácsatolt változók jelentése és fontossága alapján: Mivel az első faktorban az autó díszítése és a tulajdonos stílusának tükrözése a fontos, ezt elnevezzük „Tunning mániá”-nak. A második faktorban a divatosság és a dinamizmus fontos, ezért „Divatkövetés”-nek nevezzük, stb. Az SPSS beírja a 4 új faktort az adatbázisba, elég idétlen nevekkel. A változólistában adjunk nekik rendes változónevet és címkét! Ettől kezdve úgy használhatók – pl. a fogyasztói csoportok jellemzésénél - mintha direkt kérdéssel kérdeztük volna le őket. A 0 mindig a faktor átlagos értéke, a pozitívak az átlagnál magasabbak, a negatívak alacsonyabbak (A kész elemzést lásd a FaktorokMinta.xls fájlban!)

Szakirodalom Faktoranalízis: Elméleti bevezető: http://www.psych.cornell.edu/Darlington/factor.htm Elméleti bevezető: http://www.chem.duke.edu/~reese/tutor1/factucmp.html Statsoft bevezető: http://www.statsoftinc.com/textbook/stfacan.html Használata SAS-ban: http://www.utexas.edu/cc/docs/stat53.html Használata SPSS-ben: http://www.sussex.ac.uk/Users/andyf/teaching/rm2/factor.pdf#search='factor%20analysis%20spss‘ Animált bemutató az SPSS használatáról: http://www.janda.org/workshop/factor%20analysis/SPSS%20run/SPSSoutline.htm