Kvantitatív módszerek Készítette: Dr. Kosztyán Zsolt Tibor kzst@vision.vein.hu http://vision.vein.hu/~kzst/oktatas/km/index.htm 7. Üdvözlök minden kedves Kollégát! A mai napon folytatjuk a többváltozós statisztikai elemzésekkel kapcsolatos tanulmányunkat.
Modellek x11 y11 x1 X1 a b y1 Y1 x12 y12 x2 y2 x3 y1t x1n xm1 yp1 Xm ym xn xm2 Yp yp2 ypq c xmk (lineáris) regressziós modell kovariancia-analízis X és Y sokszor nem mérhető közvetlenül. => Főkomponens analízis, faktor analízis. Nem csupán a modellredukció a fontos, hanem a modell helyességének vizsgálata is! Az előző órán a többváltozós regresszió-analízissel és kovariancia-analízissel foglalkoztunk. A módszer alkalmazhatósága során feltétel volt, hogy mind a magyarázó, mind pedig a magyarázott változók magas mérési szinten (legalább intervallumskálán) legyenek „mérve”. A magyarázó változók és a magyarázott változók között nincs kapcsolat és a becslés hibájának várható értéke 0. Szórása állandó és normális eloszlást követ. Bár a regresszió-analízis nagyon sok helyen használható, ahol konkrét kifejezhető értéket tudunk rendelni az egyes változókhoz (pl. kor, elvégzett iskolai osztályok száma, jövedelem stb. (lásd előző heti feladatot.)). Ez a hozzárendelés sokszor nagyon nehézkes. Így nem tudjuk közvetlenül mérni. Gondoljunk bele, hogyan mérnénk közvetlenül pl. a vállalat jóhírét vagy sikerességét. Esetleg az alkalmazottak elégedettségét? Ha közvetlenül kérdezünk rá egy ilyen területre, akkor legtöbbször csak azt a választ kaphatjuk: attól függ, honnan nézzük. A faktor és főkomponens-analízis segítségével választ tudunk arra a kérdésre adni, hogy vajon milyen tényezők (indikátorok) határozzák meg pl. az alkalmazottak elégedettségét, a vállalat sikerességét. Ezen indikátorok segítségével már konkrét értékeket lehet rendelni a vizsgálandó változókhoz (faktorokhoz). Ezután a faktorok közötti összefüggést már vizsgálhatjuk regresszió-analízissel. Sőt, majd később látni fogjuk, a faktorok helyes megválasztásával, illetve egy megfelelő módszer segítségével azt is el lehet majd érni, hogy ezek a változók korrelálatlanok legyenek, vagyis nincs multikollinearitás a magyarázó változók között. Azonban ezt a multikollinearitást nem mindig lehet elkerülni. Ekkor segítséget nyújthat számunkra az útelemzés, mellyel a továbbiakban részletesen foglalkozunk. d Az ok-okozati kapcsolatok felderítése a fontos => Útelemzés
Ok-okozati vizsgálatok Keresztmetszeti vizsgálatoknál nem lehet megnyugtatóan meghatározni az okot és okozatot! Módszer: Útelemzés Ahhoz, hogy a minden kétséget kizáróan el tudjam dönteni, hogy mi az ok és mi az okozat, longitudinális vizsgálatra van szükség. A keresztmetszeti vizsgálatok legnagyobb problémája, hogy nem lehet megnyugtatóan meghatározni, hogy mi az ok és mi az okozat. Sajnos az útelemzés sem ad mindig megnyugtató megoldást, ugyanis ahhoz, hogy minden kétséget kizáróan el tudjuk dönteni, hogy mi az ok és mi az okozat, longitudinális vizsgálatra van szükség. Ezen belül is a leggyakoribb ilyen vizsgálat a menedzsment területén az ún. panelvizsgálat, amikor több (legalább 2) keresztmetszeti vizsgálat eredményeit hasonlítjuk össze. Az útelemzés alkalmazása esetén is csak maximum arra kapunk magyarázatot, hogy mi lehet a magyarázó és mi a magyarázott változó, de ok-okozati összefüggést nem tudunk meghatározni. Ok-okozati összefüggést tehát csak két esetben állíthatunk: 1. logikailag az összefüggés nem cáfolható. 2. longitudinális vizsgálat alátámasztotta az összefüggés meglétét.
Útelemzés Többszörös lineáris regresszió alkalmazása. c d Közvetlen Többszörös lineáris regresszió alkalmazása. Az utak erősségét is ki lehet számítani. Logikailag nehezen vitatható ok-okozati összefüggés kell. Csak nagyszámú mintaadatbázison alkalmazható. (min 200 elem) Közvetett Az útelemzés lényege, hogy többszörös regresszió-analízis segítségével megvizsgáljuk, hogy milyen közvetlen és közvetett hatások lehetségesek. Kiszámítjuk a lehetséges kapcsolatokat. Felírjuk a regressziós egyenleteket, majd a közvetett hatások kiértékelése érdekében behelyettesítjük az összefüggéseket az egyenletekbe. Itt nyilakat látunk a magyarázó és magyarázott változók között. => Logikailag nehezen vitatható ok-okozati összefüggés kell. Ráadásul a többszörös regresszió miatt nagyszámú mintaelemszám kell. A módszer segítségével megkapjuk (ok-okozati összefüggés esetén) a hatások erősségét és irányát is. !
További lehetőségek Érzékenység-vizsgálat Szimuláció Ezek azonban nem igazán használható módszerek, ugyanis a szimuláció nem biztos, hogy visszaadja a tényleges ok-okozati kapcsolatot. Az összefüggések irányának kiderítésére más módszerek is vannak. Az egyik lehetőség az érzékenységvizsgálat, mely egy felállított modell esetén a paraméterekben történő kismértékű változás esetén előrejelzi a kimenetben (magyarázott változókban) történő változást. A másik módszer ezzel nagyon hasonló. A megkapott modellt további – a regressziós egyenletbe nem bevont – esetekre alkalmazzuk. Megnézzük, hogy a modell mennyire tudja előre jelezni az összefüggések meglétét, illetve irányát. Sajnos azonban a társadalomtudományban kérdőívek kiértékelése alapján meghatározott modellek esetén nem igazán használhatók. Megoldást csak a longitudinális vizsgálatok jelenthetik, ahol legalább két ((időben is) független) mérést kell összehasonlítani. Megoldás: longitudinális vizsgálatok. Legalább két ((időben is) független) mérés összehasonlítása.
Modellredukció Főkomponens analízis a főkomponens-analízis egyik fő célja a változók számának a „csökkentése”, így a legnagyobb súlyú komponenseket választjuk ki és használjuk fel az adataink becslésére. Az egyes komponensek egymástól függetlenek lesznek, DE Általában nem a modellegyenletünk redukcióját, hanem egy másik (kevesebb) modellegyenletet (tartalmazó) redukált modellt kapunk. Az új magyarázó változók a főkomponensek lesznek. p1, p2,..,pk, ahol k<=n (n az eredeti modellünkben a magyarázó változók száma) Kérdés: A kapott főkomponensek mennyire korrelálnak az eredeti változókkal? Ha a korreláció értéke közel nulla, akkor az adott változó nem releváns, tehát elhagyható. Egy kérdőíves kiértékelésnél van néhány más probléma is, ami gyakran előfordul és megnehezíti a kiértékelő munkáját. Az egyik probléma, hogy egy mérendő paramétert közvetlenül nem tudunk jellemezni, hanem csak bizonyos tényezőkön keresztül. (ilyen lehet pl. a vállalat sikeressége, a dolgozók elégedettsége stb.) E probléma megoldásában segíthet a főkomponens és a faktoranalízis. A főkomponens egyik fő célja a változók számának csökkentése. Pl. ha a korábbi kutatások alapján azt mondjuk, hogy a dolgozók elégedettségét 35 tényező befolyásolja, akkor joggal merülhet fel a kérdés, hogy ezen változók közül mi az, ami „releváns” pl. egy adott vállalatnál. A módszer első lépésként n változó esetén (pl. n db kérdés válaszai alapján) n dimenziós térben értelmezett adatokat transzformálja át úgy, hogy n darab főkomponenst határoz meg, ahol az adatok varianciájának legnagyobb részét az első, majd a második legnagyobb varianciát a második (és így tovább…) főkomponens határozza meg. Ezek alapján azokat a főkomponenseket elhagyhatjuk, amelyek varianciája (információtartalma) pl. egy adott érték alatt van. Fontos viszont megjegyezni, hogy általában nem a modellegyenletünk redukcióját, hanem egy másik (kevesebb) modellegyenletet (tartalmazó) redukált modellt kapunk. Vagyis ezután meg kell vizsgálni, hogy az eredeti modell változói és a főkomponensek korrelálnak-e és mely főkomponensekkel. Ha főkomponens-változót elhagyunk, akkor tulajdonképpen egy vetítést fogunk végrehajtani. Itt látható erre egy példa. Az új magyarázó változók a főkomponensek lesznek. p1, p2,..,pk, ahol k<=n (n az eredeti modellünkben a magyarázó változók száma) Kérdés: A kapott főkomponensek mennyire korrelálnak az eredeti változókkal? Ha a korreláció értéke közel nulla, akkor az adott változó nem releváns, tehát elhagyható. Ha a korreláció értéke magas, akkor annak a főkomponens változónak egy indikátora lehet.
A főkomponens analízis értékelése A főkomponens analízis előnyei. Bizonyítható, hogy a főkomponens-analízissel érhető el a legkisebb információveszteség. A főkomponensek és a modellváltozók korrelációs vizsgálatával meghatározhatók, hogy mik a releváns és mik a nem releváns változók. A főkomponens analízis hátrányai: A főkomponensek értelmezése gyakran nehézkes. Nem nézi a kimenetet! A főkomponens analízis előnye, hogy a főkomponens-analízissel érhető el a legkisebb információveszteség. A főkomponensek és a modellváltozók korrelációs vizsgálatával meghatározhatók, hogy mik a releváns és mik a nem releváns változók. Hátránya, hogy a főkomponensek értelmezése gyakran nehézkes. Ráadásul nem nézi a kimenetet. Vagyis lehet, hogy egy főkomponens nem lesz magyarázó változója a modellnek. (Lásd később!)
A faktoranalízis x11 y11 X1 Y1 x12 y12 A faktoranalízis a megfigyelt változók számának „csökkentésére” használatos. E fogalom alatt a változók dimenziószámának csökkentését értjük, holott a „változók összevonása” kifejezés lenne a helyesebb. A változók számát csökkenteni úgy kívánjuk, hogy a műveletvégzés a lehető legkevesebb információveszteséggel járjon, vagyis a transzformált sokaságról az eredeti sokaságéval azonos következtetéseket lehessen levonni. Az eljárás arra is felvilágosítást ad, hogy mely változók a fontos, illetve kevésbé fontos (elhagyható) változók a vizsgált jelenségre vonatkozóan. y1t x1n xm1 yp1 Xm xm2 Yp yp2 ypq xmk A főkomponens-analízishez nagyon hasonlít a faktoranalízis. A fenti „faktormodellt” „kettévágjuk”. Külön vizsgáljuk a bemenetet (magyarázó változók) és a kimenetet (magyarázott változók). Ha mind a magyarázó oldalon, mind a magyarázott oldalon vannak olyan változók, amelyeket közvetlenül nem tudunk mérni (X1, X2,…, Xm), akkor ezeket ún. látens változóknak nevezzük. Ezeket a változókat indikátorokkal jellemezzük, értéküket pedig faktoranalízissel határozzuk meg. Olyan indikátorokat keresünk, amely csak egy adott faktorváltozóval korrelál. (Amelyik többel (közös indikátorok), elhagyjuk a változók közül). A faktoranalízis is a megfigyelt változók számának „csökkentésére” használatos. E fogalom alatt a változók dimenziószámának csökkentését értjük, holott a „változók összevonása” kifejezés lenne a helyesebb, hiszen az indikátorok segítségével fogjuk mérni a látens változókat. A változók számát csökkenteni úgy kívánjuk, hogy a műveletvégzés a lehető legkevesebb információveszteséggel járjon, vagyis a transzformált sokaságról az eredeti sokaságéval azonos következtetéseket lehessen levonni. (Éppen ezért a faktor-analízis legtöbb esetben a főkomponens-analízisre támaszkodik). Az eljárás arra is felvilágosítást ad, hogy mely változók a fontos, illetve kevésbé fontos (elhagyható) változók a vizsgált jelenségre vonatkozóan. (A főkomponens analízishez hasonlóan). Ha több faktorváltozónk van, akkor elképzelhető, hogy nem rendelhető egy adott változó egyik-vagy másik változóhoz egyértelműen. Az is elképzelhető, hogy a változók ortogonalitása sem tartható fent. Ebből kifolyólag viszont nehézkes lehet a faktorváltozók értelmezése (interpretálása).
A faktoranalízis alkalmazása feltáró jellegű kutatások során Már van egy modellünk. A nem mérhető (látens) változókat szeretnénk vizsgálni. Nem tudjuk még, hogy milyen látens faktorok húzódnak meg a modellünk mögött. Rá kell jönnünk, hogy hány faktorral írható le az egyenlet. Ráadásul ezeknek a „látens” változóknak még értelmet is kell adnunk! Meg kell találnunk, hogy mely faktorokba vonhatók össze a magyarázó változók. Nagyon hosszadalmas! A faktoranalízist általában akkor használjuk, ha már van egy modellünk. A nem mérhető (látens) változókat szeretnénk vizsgálni. A faktoranalízist abban az esetben is alkalmazhatjuk, hogyha nem tudjuk még, hogy milyen látens faktorok húzódnak meg a modellünk mögött. Ebben az esetben: Rá kell jönnünk, hogy hány faktorral írható le az egyenlet. Ráadásul ezeknek a „látens” változóknak még értelmet is kell adnunk! Meg kell találnunk, hogy mely faktorokba vonhatók össze a magyarázó változók. Ez viszont rendkívül hosszadalmas folyamat lehet.
7. Köszönöm a megtisztelő figyelmet! A következő órán folytatjuk a többváltozós statisztikai módszerek megismerését.