Kvantitatív módszerek Készítette: Dr. Kosztyán Zsolt Tibor kzst@vision.vein.hu http://vision.vein.hu/~kzst/oktatas/km/index.htm 6. Üdvözlök minden kedves kollégát! A mai előadáson elkezdjük a magasabb szintű matematikai statisztikai módszerek megismerését!
Matematikai statisztika A statisztikai megfigyelés véletlen tömegjelenségekre irányul. A statisztikai minta véletlen jelenségre vonatkozó véges számú megfigyelés eredménye. Események bekövetkezésének, illetve be nem következésének hosszú megfigyelés során valószínűsége van. A mai előadáson tehát a matematika statisztikai módszerekkel foglalkozunk. A statisztikai megfigyelés véletlen tömegjelenségekre irányul, de a statisztikai minta véletlen jelenségre vonatkozó véges számú megfigyelés eredménye. Kihasználjuk, hogy az események bekövetkezésének, illetve be nem következésének hosszú megfigyelés során valamilyen valószínűsége van.
Hipotézisvizsgálat A statisztika egyik fő alkalmazási területe a döntések alátámasztása statisztikai hipotézisek vizsgálatával. Null-hipotézis (H0): különbség hiányát állítja Alternatív hipotézis (Hl): különbség meglétét állítja Az első terület, amit áttekintünk, az a hipotézisvizsgálat kérdésköre. A statisztika egyik fő alkalmazási területe a döntések alátámasztása statisztikai hipotézisek vizsgálatával. A nullhipotézis valamilyen különbség hiányát állítja, míg az ezzel szemben lévő alternatív hipotézis a különbség meglétét feltételezi.
Hipotézisvizsgálat A nullhipotézis ismeretében egy próbastatisztikát számítunk, amelynek ismerjük az eloszlását. Az eloszlást ismerve megmondhatjuk, milyen valószínűséggel kaphatunk egy próbastatisztika értéket, ha a hipotézis igaz. Ha a valószínűség kicsi, a hipotézist elvetjük, azaz valószínűtlen, hogy H0 igaz lenne. A nullhipotézisünket úgy teszteljük, hogy egy próbastatisztikát számítunk, amelynek ismerjük az eloszlását. Az eloszlást ismerve megmondhatjuk, milyen valószínűséggel kaphatunk egy próbastatisztika értéket, ha a hipotézis igaz. Ha a valószínűség kicsi, a hipotézist elvetjük, azaz valószínűtlen, hogy H0 igaz lenne.
Hipotézisvizsgálat Elsőfajú hiba: H0 igaz, de elvetjük A hiba elkövetési valószínűségét szignifikancia-szintnek nevezzük (p=0,05) 95%, hogy H0 igaz Másodfajú hiba: H0 nem igaz, de elfogadjuk. Milyen hibát véthetünk a hipotézisvizsgálat során? Az első fajú hiba azt jelöli, hogy mennyi annak a valószínűsége, hogy H0 igaz, de mégis elvetjük. Ekkor a hiba elkövetési valószínűségét szignifikancia-szintnek nevezzük. Pl p=0,05 szignifikancia-szinten 95% a valószínűsége annak, hogy H0 igaz. A másodfajú hiba azt a valószínűséget jelöli, hogy H0 nem igaz, de mi mégis elfogadjuk. Az ábrán látható, hogy milyen nullhipotézis – alternatív hipotézis állításaink vannak. Baloldali tesztek Kétoldali tesztek Jobboldali tesztek H0 = H1 < H0 = H1 ≠ H0 = H1 >
Statisztikai próbák Parametrikus próbák: normál eloszlású minták két mintát kell összevetnünk Átlagok azonosak-e: kétmintás t-próba Szórások azonosak-e: F-próba Nem parametrikus próbák: teszt alkalmazása nem függ a változók eloszlásától; függetlenség- és homogenitás vizsgálat – c2 próba, KS-próba Mit szoktunk tesztelni a hipotézisvizsgálatok során? Pl. Két mintát kell összevetnünk. Átlagok azonosak-e, vagy sem. Szórások azonosak-e. Nem parametrikus próbák esetén pl. azt vizsgálhatjuk, hogy egy valószínűségi változó vajon egy adott eloszlást követ-e vagy sem?
Összefüggés-vizsgálat Több megfigyelt tényező hogyan függ egymástól Ellenőrzött, laboratóriumi körülmények között az összefüggés függvénykapcsolatként írható le. A társadalomtudomány területén előforduló jelenségek annyira bonyolultak, hogy az események bekövetkezése sokszor a véletlentől is függ. A következőkben két, illetve több változó közötti összefüggések meglétét vizsgáljuk. Ellenőrzött, laboratóriumi körülmények között az összefüggés függvénykapcsolatként írható le. Azonban a társadalomtudomány területén előforduló jelenségek annyira bonyolultak, hogy az események bekövetkezése sokszor a véletlentől is függ.
Összefüggés-vizsgálat Sztochasztikus kapcsolat: a független változó értéke nem határozza meg egyértelműen a függő változó értékét, (pl. véletlenszerűen ingadozik egy legvalószínűbb érték körül.) A legtöbb esetben a társadalomtudomány területén a nem függvényszerű, sztochasztikus kapcsolatok fordulnak elő a leggyakrabban. A független változó értéke nem határozza meg egyértelműen a függő változó értékét, (pl. véletlenszerűen ingadozik egy legvalószínűbb érték körül.)
Összefüggés-vizsgálat Egyik változó változásával a másik milyen irányba és mennyit változik? REGRESSZIÓ-ANALÍZIS Két változó között milyen irányú és mennyire szoros kapcsolat van? KORRELÁCIÓ-ANALÍZIS Az összefüggések vizsgálata során két területtel foglalkozunk. Regresszió-, illetve korreláció elemzéssel. A regresszió-analízis esetén azt vizsgáljuk, hogy az egyik változó változásával a másik milyen irányba és mennyit változik? A korreláció-elemzésnél azt vizsgáljuk, hogy két változó között milyen irányú és mennyire szoros kapcsolat van?
Regresszió-analízis Két változó kapcsolatát leíró függvényt kapjuk eredményül. Sokszor feltételezünk ok-okozati kapcsolatot, de a vizsgálat nem bizonyítja azt! Grafikusan pontdiagramra fektetett egyenes, ha lineáris összefüggést feltételezünk. Először a regresszió-analízissel foglalkozunk. Itt két változó kapcsolatát leíró függvényt kapjuk eredményül. De nem célunk a két változó közötti kapcsolat erősségének meghatározása. Sokszor feltételezünk ok-okozati kapcsolatot, de a vizsgálat nem bizonyítja azt! Ha lineáris összefüggést feltételezünk, akkor tulajdonképpen grafikusan pontdiagramra fektetett egyenes meghatározása a cél.
Regresszió-analízis Itt látható a becsült egyenes és annak egyenlete. Az ordináta (x) tengelyen látható a csapadék mennyisége (mm-ben), az abszcissza (y) tengelyen pedig a terméshozam t/ha-ban. Itt a csapadékot magyarázó, vagy független változónak nevezzük, a terméshozamot pedig magyarázott, vagy függő változónak. A regresszió-elemzés megmutatja, hogy milyen mértékben magyarázza csapadék a terméshozamot. (Vegyük észre, hogy itt ok-okozati kapcsolatot is feltételeztünk!)
1. példa Lássunk példát a regresszió-elemzés lépéseire.
Regresszió-analízis - SPSS Az elemzést végezzük el az SPSS rendszerben!
Regresszió-analízis - SPSS H1 SSR SSE SST Lássuk, mit is kaptunk eredményül! Az egyik legfontosabb táblázat a modell összegzését bemutató táblázat. R a determinációs, vagy korrelációs együtthatót jelöli, melynek értéke -1 és 1 között lehet. Ennek négyzete azt mutatja meg, hogy a varianciák hány %-át magyarázza meg a modell. Röviden a magyarázóképességet jelöli. A korrigált R2-et többváltozós esetben használjuk, ugyanis ha a modellparaméterek számát növeljük, ezáltal önmagában növekszik R2 értéke. Ezt korrigálja ez a mutató. A hiba szórása jelenik meg az utolsó oszlopban (a hiba várható értéke 0). A következő táblázat a modell szignifikanciáját vizsgálja F-próbával. Megvizsgáljuk, hogy az eltérések közül mennyi tulajdonítható a modellnek (SSR), mennyi nem (SSE) és mennyi az eltérések összege. Itt is megjelenik a hiba szórásnégyzete, varianciája. Viszont számunkra a legfontosabb mutató mégsem ez, hanem: Az, hogy 99,6 annak a valószínűsége, hogy a modellünk szignifikáns. Az F-próba H0 hipotézise szerint ugyanis azt mondja, a modellparamétereink együtthatói mind 0-k. Ellenhipotézis pedig az, hogy van legalább egy, ami nem nulla. Itt a konstanst nem számítva egy együtthatónk van, a béta 1. Vegyük észre, hogy itt a kicsi szignifikancia-érték H1-nek kedvez! Az utolsó táblázatunk az együtthatókra vonatkozó táblázat. Itt láthatjuk, hogy az egyes paraméterek szignifikanciáját vizsgáljuk. H0 azt jelöli, hogy az együtthatónk értéke 0. A konstans esetén ez beigazolódott, míg a magyarázó változónk együtthatóját tekintve (szerencsére) nem. Itt is azt jelenti a kis érték, hogy az az adott paraméter szignifikáns. Az együtthatóinkat tekintve a béta értékek becslése is megjelenik a táblázatban. H0 H1
Determinációs együttható négyzete: “Residual” “Regression” “Total” Ahogyan azt az előző fólián is láthattuk, a determinációs együttható négyzete (vagy ahogyan röviden szoktuk mondani R2) a regressziós modell segítségével magyarázott eltérésnégyzetek (SSR) és a teljes eltérésnégyzet-összeg hányadosa. A korrigált R2-re többváltozós regressziós modell esetén van szükségünk, hiszen ekkor a magyarázóképesség pusztán azzal is nőhet, hogy egyre több modellváltozót vonunk be a modellünkbe.
R2 = SSR/SST Grafikusan szemléltetés során is magyarázható a determinációs együttható: Egy adott mért pont esetén az átlagtól (vízszintes vonal) való eltérés a következő tényezőkből tevődik össze. Egyrészt a modell által szolgáltatott érték és az átlag különbsége (ezt magyarázza a modell), valamint a modell által szolgáltatott és a tényleges érték különbsége, ami nem más mint a maradványérték, vagy más néven a reziduum. Ha ez a reziduális érték kicsi, akkor a pontok „rásimulnak” az egyenesre, és a determinációs érték nagy lesz, hiszen SSR értéke SST-hez fog közelíteni.
Regresszió-analízis A regressziós egyenes a vizsgálati tartományon belül érvényes, azon túl, hosszabb távon nem alkalmas predikciós célokra A regressziós egyenes egyenlete: Y=függő/magyarázott változó X=független/magyarázó változó Kapcsolat lehet pozitív ↗↗ , vagy negatív↗↘ Egyenes illesztése legkisebb négyzetek módszerével történik. Fontos megjegyezni, hogy a regressziós egyenes a vizsgálati tartományon belül érvényes, azon túl, hosszabb távon nem alkalmas predikciós célokra A regressziós egyenletben y a függő, magyarázott változót, x a független, vagy más néven magyarázó változót jelöli. Ha a determinációs együttható pozitív, akkor együttmozgásról beszélünk. Vagyis az x magasabb értéke esetén y is magasabb értékkel becsülhető. Negatív kapcsolat esetén a determinációs együttható negatív. Ekkor, ha x magasabb értékkel rendelkezik, akkor y alacsonyabb értékkel becsülhető. A regressziós egyenes illesztése legkisebb négyzetek módszerével történik.
Regresszió-analízis alkalmazhatóságának feltételei E(u)=0 VAR(u)=s2 A hibatagok függetlenek egymástól. x és u függetlenek. u ~ N(0,s) A regresszió-analízis alkalmazhatóságának feltétele itt látható a fólián. Ezek közül az első azt mondja ki, hogy a hiba várható értéke 0. (Nem vétettünk szisztematikus hibát). Ez pl. akkor fordulhat elő, ha a konstanst nem engedjük meg a modellegyenletünkben. A második feltétel az, hogy a variancia állandó. Más néven a hiba homoszkedasztikus. Nincs heteroszkedaszticitás. Az 5. feltétel teljesülésének az 1-2 alapfeltétele. Pluszként jelenik meg a normalitás követelménye, vagyis, hogy a hiba normális eloszlást kövessen. A hibatagok függetlenek legyenek egymástól. (Nincs autokorreláció), valamint x és u függetlenek legyenek egymástól.
Normalitás feltétel Ha a normalitás feltétele nem teljesül, akkor F-, és t-próbát nem lehet alkalmazni. Ekkor viszont a modell szignifikanciája nem vizsgálható megnyugtató módon. Kevés mintaelemre nehéz normalitásvizsgálatot végezni. Legjobb módszer a grafikus elemzés. Ennek eredménye látható itt az ábrán.
Homoszkedaszticitás A varianciák állandóságát is nehéz megmutatni ilyen kevés elemnél. Ezért a regresszió-analízis feltételei teljesülésének vizsgálatához legalább 30 elemű mintára van szükségünk.
A standard lineáris modell A többszörös lineáris összefüggések általános matematikai egyenlete: fent. A hibatagok nulla várható értékű, konstans varianciájú, korrelálatlan valószínűségi változók, amelyek normális eloszlást követnek.
Többváltozós regresszió-analízis Lineáris-e a regresszió? Mit jelent a korrelációs együttható értéke? Milyen feltételek mellett használható a lineáris regressziós modell? x1 y1 Nem feltétlen, de legtöbb esetben jó közelítésként használható. Ha a linearitás nem teljesül, akkor át kell konvertálni olyan modellé, amely kölcsönösen egyértelmű az eredeti modellünkre. Az alkalmazhatóság feltételei megegyeznek a lineáris regressziós modell alkalmazásának feltételeivel. x2 y2 x3 R=1 esetén: LINEÁRIS függvénykapcsolat a magyarázó és a magyarázott változók között! R=0 esetén: nincs LINEÁRIS függvénykapcsolat a magyarázó és a magyarázott változók között! R=-1 esetén: (negatív) LINEÁRIS függvénykapcsolat van x és y között! yn xk Lássunk egy példát a többváltozós regressziós modellre! Ebben a példában k darab magyarázó és n darab magyarázott változó van. A modell szerint a magyarázó változók között nincs összefüggés. Ugyanez feltételezhető a magyarázott változó esetén is. Éppen ezért egyszerre csak egy magyarázott változót tekintünk. A többi magyarázott változót majd egy másik alkalommal vizsgáljuk. Így tehát n darab magyarázott változó esetén n darab regresszió-analízist kell végeznünk. Azok a változók, melyek nem szignifikánsak, kihullanak a modellből. Így megkapjuk, hogy hol találunk összefüggéseket a vizsgált magyarázott és a magyarázó változók között. Nem kaptunk összefüggést? Ez több okra is visszavezethető. Pl. nem biztos, hogy lineáris volt a regresszió. Gondoljunk pl. a munkavállaló kora és a jövedelme közötti összefüggésre! Egy ideig növekszik a jövedelem az életkor előrehaladásával. Azonban ez a növekedés a nyugdíjas évek közeledtével és főleg azután megfordul. Csökkenés lesz belőle. Lehet olyan intervallumon vizsgálódni, amikor a kor és a jövedelem között nem találunk kapcsolatot, pedig van, csak nem lineáris. Nem feltétlen teljesül tehát a linearitás. Azonban lehetőségünk van a modell transzformációjára. Pl. az előbbi esetben célszerű külön kapcsolatot keresni az 50-55 éves korig a jövedelem és a kor között, míg ilyen összefüggést, csak fordított irányú kapcsolatot fel tudunk állítani az 55 éves kor felett lévő megkérdezettek esetében. A vizsgálat végén kapunk egy korrelációs, vagy detereminációs együtthatót. Ha R értéke 1 lenne, akkor mondhatnánk, hogy pozitív lineáris függvénykapcsolat van a magyarázó és a magyarázott változók között. -1 esetén negatív lineáris függvénykapcsolatról beszélhetünk. 0 esetén pedig azt mondjuk, hogy nincs lineáris függvénykapcsolat a magyarázó és a magyarázott változók között. A lineáris szót valamennyi esetben kiemeltem, mert a lineáris regresszió csak lineáris kapcsolatot mér. Társadalomtudományi kutatásokban a determinációs együttható -1 és 1 között nem nulla értékű változó legtöbbször. Ekkor azt mondjuk, hogy a magyarázó és a magyarázott változók között sztochasztikus kapcsolat áll fent. Vizsgáljuk meg, milyen feltételeknek kell teljesülnie a lineáris regresszió használatához. A kétváltozós eset feltételrendszere egy újabb taggal bővült. A 6. pont azt mondja, hogy a magyarázó változók között nincs összefüggés. Más néven nincs multikollinearitás. E(ui)=0, i :=1,2,…,n (szisztematikus hibát nem vétettünk) var(ui)=s2, i :=1,2,…,n (nincs heteroszkedaszticitás) ui és uj függetlenek minden i-re és j-re (nincs autokorreláció) xi determinisztikus nem valószínűségi változó ui ~N(0,s2), i :=1,2,…,n az xj-k között nincs lineáris összefüggés (nincs multikollinearitás)
Többváltozós regresszió-analízis Magyarázó változók redukálása: Miért? Hogyan? Összes lehetséges megoldás FORWARD eljárás BACKWARD eljárás STEPWISE eljárás Kevesebb magyarázó változó → Kisebb a hiba varianciája. DE! torzított lesz a becslés! Fokozatos „beléptetés”. Mindig a legnagyobb parciális korrelációval rendelkező változót veszi be. Ahogyan azt az előző fólián is már bemutattam, nem biztos, hogy minden változónk releváns lesz. Ezért el kell/el lehet hagyni az egyenletből. Miért? Ha kevesebb lesz a magyarázó változónk, akkor kisebb lesz a hiba varianciája. Azonban vigyáznunk kell, mert torzított lehet a becslés. Hogyan redukáljunk? Egyrészt meg lehetne keresni az összes megoldást. Erre azonban nincs remény, mert itt látható, hogy ez mennyi variációs lehetőséget eredményezne. Ezért valamilyen közelítő heurisztikus eljárást fogunk alkalmazni. Az első ilyen a FORWARD eljárás, ahol a legnagyobb parciális korrelációval rendelkező változót veszi be a modellbe. Ezáltal fokozatosan építi fel a magyarázó változók segítségével a modellt. A BACKWARD eljárásnál a teljes modellből indulunk, de a legkisebb parciális korrelációval rendelkező változót elhagyjuk. A STEPWISE eljárás esetén minden iterációban léphetnek be és léphetnek ki is elemek. Viszont a probléma nem lineáris. Nem biztos, hogy optimális lesz a megoldás. A 3 eljárás akár teljesen más eredményre is vezethet. Fokozatos „kiléptetés”. Mindig a legkisebb parciális korrelációval rendelkező változót veszi ki. Minden iterációban léphetnek be és léphetnek ki is elemek. Viszont a probléma nem lineáris. Nem biztos, hogy optimális lesz a megoldás.
2. példa Mi hat a jövedelemre? Feltételezhetjük pl., hogy Az iskolai végzettség/elvégzett iskolai osztályok A munkavállaló neme A munkavállaló kora ? Modell egyenlet: FOJOV=b0+b1ISKOSZT+b2NEME+b3KOR+u Nézzünk meg egy másik példát! Vizsgáljuk meg, hogy milyen tényezők hatnak a jövedelemre! Feltételezhetjük pl., hogy az iskolai végzettség/elvégzett iskolai osztályok száma, a munkavállaló neme és a kora befolyásolja a jövedelmet. Ezen kívül a későbbiekben még kereshetünk más magyarázó változót is. Ekkor a modell-egyenlet a következőképpen írható fel. (lásd fent) A regresszió-elemzés alapfeltétele, hogy a változók magas szinten (arány, vagy intervallumskálán mértek). A munkavállaló neme (férfi vagy nő) viszont nominális. Ezt a változót a regresszió-analízisben kétértékű dummy-változónak nevezzük. Ugyanis a két lehetséges értéket kódoljuk. Lehet ez pl. a személyi szám első száma. Férfiak esetén 1, a nők esetén 2. Mi az együttmozgást szeretnénk meghatározni, így pozitív együttható esetén a nők jövedelme lesz magasabb, negatív együttható érték esetén a férfiaké. Dummy-változó
Beállítás – SPSS-ben Lássuk, hogyan végezzük el a számítást SPSS-ben. Válasszuk ki a magyarázott/függő változót, ami a fő jövedelem. Az iskolai végzettség, a nem és kor a magyarázó változó. Rajzoltassuk ki a programmal a normalitás vizsgálathoz szükséges ábrákat! A regressziós módszer esetén válasszuk a BACKWARD eljárást, így a nem szignifikáns változóink kiesnek a modellből.
Eredmények (1) Valamennyi magyarázó változó szükséges! Kicsi a magyarázó képesség! A modellünk és a magyarázó változóink is szignifikánsak! Vizsgáljuk meg a kapott eredményeket! Vegyük észre, hogy valamennyi változónk bennmaradt a modellben, hiszen a BACKWARD eljárás használata ellenére egyetlen változó sem került onnan ki. A modellünk és a magyarázó változóink is szignifikánsak. (A konstans nem, de az nem magyarázó változó együtthatója). Nézzük meg az együtthatókat! Az elvégzett osztályok száma és a megkérdezettek kora pozitívan befolyásolja a jövedelmet. A kor mellett lévő kis érték arra utalhat, hogy az összefüggés nem feltétlen lineáris. (Ez a magyarázóképességre is negatívan hathat). A nem esetén az együttható negatív értéke arra utal, hogy a nők kevesebbet keresnek, mint a férfiak. Valamennyi modellegyütthatónk szignifikáns. Viszont a magyarázóképességünk nagyon alacsony.
Eredmények (2) Nem normális eloszlást követ Nem homoszkedasztikus Ráadásul az alkalmazás feltételei sem teljesülnek. Nem normális eloszlást követ Nem homoszkedasztikus
Javítási lehetőségek A magyarázóképesség javítására: Új változók keresése (pl. a település típusa, foglalkoztatás Hogyan javíthatjuk kicsit a magyarázóképességet? Pl. megkeressük, hogy érdemes-e új magyarázó változókat bevonni a modellbe. Pl. vegyük be a település típusát, illetve a foglalkoztatást. Vegyük észre, hogy ezek mind nominális, illetve sorrendi változók. A település típusa pl. sorrendi változó, mert a település nagysága alapján kapott nagyobb, vagy kisebb értéket. A foglalkoztatás nominális változó. Nagyobb értéket kapott a vezető beosztású, szellemi foglalkozású, míg kisebb értéket a fizikai dolgozó.
Eredmények Nézzük meg, hogy minden paraméterünk továbbra is szignifikáns, ráadásul a korrigált R2 is javult.
Korreláció-elemzés Függ-e egymástól két változó? A változók normál eloszlásúak Korrelációs együttható, vagy determinációs tényező (r): Két adatsor (minta) közötti lineáris összefüggés erősségét mérő szám. A korrelációelemzés nagyon hasonlít a regresszió-elemzéshez. Itt azonban mindig csak két változó összefüggését vizsgáljuk. Feltételezzük, hogy a változók normál eloszlást követnek. Itt is lineáris összefüggést mérünk.
Korreláció-elemzés Pearson féle korrelációs együttható: r Nincs kapcsolat, ha értéke nulla, vagy ahhoz közeli. Az összefüggés jellemzésére az r számértéke alapján különböző fokozatokat állítottak fel. r=±1 1>|r|≥0,75 0,75>|r|≥0,5 0,5>|r|≥0,25 0,25>|r|≥0 r=0 Vegyük észre a hasonlóságot a korreláció és a regresszió-elemzés között! Ha a korrelációs együttható értéke 0, akkor nincs a két változó között lineáris kapcsolat. A korrelációs együttható szorosságát a következőképpen jellemezzük (lásd fent). Nagyon fontos különbség a regresszió-elemzés és a korreláció analízis között, hogy a korreláció elemzés során a változók közötti kapcsolat erősségét határozzuk meg, míg a regresszió elemzésnél a modellünk magyarázó változóinak „hatását” a magyarázott változókra. Függvénykapcsolat Nagyon szoros kapcs. Szoros kapcsolat Laza kapcsolat Nagyon laza kapcs. Nincs kapcsolat
Köszönöm a megtisztelő figyelmet! Köszönöm mindenkinek a megtisztelő figyelmét!
6.