Többváltozós adatelemzés

Többváltozós adatelemzés
6. előadás

Többváltozós regressziószámítás
Alapeset: Egy eredményváltozó, legalább intervallum skálán mért változó Egy vagy több magyarázó változó, mindegyike legalább intervallum szinten mért változó Ideális esetben a magyarázó változók függetlenek, de ez a gyakorlatban nem teljesül Eredményváltozó normális eloszlású Feltételes variancia állandó (homoszkedaszticitás)

Regressziós modellek csoportosítása
Idősor Determinisztikus idősorelemzés (trendszámítás, szezonindexek) Sztochasztikus idősorelemzés (ARMA, ARIMA, VAR, ARCH, GARCH) Keresztmetszeti elemzések A kettő kominációja is előfordul egyre több helyen

Regressziós modellek csoportosítása
Előrejelző modellek Az eredményváltozó értékét szeretnénk minél pontosabban előre jelezni. Pl. infláció, kamatláb előrejelzése (ha tudom, hogy mennyi lesz a kamat jövöre, abból hasznot tudok húzni még akkor is, ha nem tudom megmagyarázni, hogy mitől annyi) Magyarázó modellek Nem az eredményváltozó pontos előrejelzése a cél, hanem az eredményváltozó és a magyarázó változók közötti összefüggés feltérképezése (pl. a többletjövedelmet inkább az oktatásba, vagy inkább az egyészségügybe kell befektetni)

Paraméterbecslés Az eredményváltozó és a magyarázóváltozók között lineáris összefüggést tételezek fel: Y=b0+b1*X1+b2*X2+b3*X3+…+b4*X4+e A b együtthatók meghatározása legkisebb négyzetek módszerével történik: b=(XTX)-1XTy

Paraméterbecslés A becslés előállítása lineáris algebrai műveletsor, eloszlásra tett feltételezést nem igényel A becslés nem állítható elő, ha a (XTX) mátrix inverze nem állítható elő Az inverz csak abban az esetben nem állítható elő, ha a magyarázó változók lineárisan összefüggők (tökéletes multikollinearitás)

Működési kiadás tagintézmények nélkül (tisztított adatok)

Becsült együtthatók értelmezése
Ceteris paribus elv Minden más változatlansága mellett Pl.: normál tanuló csoportok esetén a becsült együttható 2654

Korrelációs mátrix

Becsült paraméter csak a normál tancsoportok esetére

Illeszkedés jósága Regressziós egyenes hiányában minden megfigyelés esetén a sokasági átlag a ’becslés’. Ekkor az átlagos négyzetes eltérés a változó varianciája. Regressziós egyenes esetén kiszámoljuk a regressziós egyenestől vett négyzetes eltérést. Azt nézzük, hogy a regressziós egyenes mennyivel csökkenti a változó varianciáját A programcsomagok az ún. R2 mutatószámot közlik. A mutatószám azt méri, hogy a regressziós egyenes a variancia hány százalékát magyarázza.

Illeszkedés jósága Konstans megléte esetén az R2 muató értéke 0 és 1 között van. Minél nagyobb a mutató értéke, annál jobb az illeszkedés. A mutató 1 értéke a tökéletes illeszkedést jelzi. Amennyiben nincs konstans a modellben a mutató értéke lehet negatív is.

Illeszkedés jósága

Illeszkedés jósága R2 mutató értéke: -22,24

Illeszkedés jósága Az SPSS programcsomag máshogy számolja az R2 mutatót, ha nincs konstans a modellben. A két különféle számítás eredménye nem vethető össze!

Illeszkedés jósága Az R2 mutató értéke növekszik a változók számával. Amennyiben a változók száma megegyezik a megfigyelések számával, a mutató értéke 1. Hüvelykujj szabály: a megfigyelések száma legyen legalább 5X akkora, mint a változók száma. Korrigált R2 (adjusted R square) a változók számával korrigálja az R2 mutató értékét. Új változót akkor érdemes felvenni, ha a korrigált R2 mutató is növekszik Az R2 mutató gyöke a az eredményváltozó eredeti és becsült értékei közötti korreláció.

Illeszkedés jósága

Modell tesztelése Amennyiben a kapott modellt tesztelni szeretnénk szükséges az eloszlásra tett feltételezésekkel élnünk. Az ‘általános’ feltételezés az eltérésváltozó (és ezáltal az eredményváltozó) normalitása és homoszkedaszticitása A feltételeken azért lehet valamelyest lazítani

Modell tesztelése Ún. omnibusz teszt: az összes változó (a konstanson kívül) becsült együtthatója 0, a 0-tól csak a véletlen hatására különbözik. Ez az ún. globális F teszt.

Modell tesztelése

Modell tesztelése Változók hatását parciálisan is tudjuk tesztelni.
Az ún. t teszt során az a nulhipotézis, hogy a vizsgált változó együtthatója 0, és csak a véletlennek köszönhetően lett a becslés ettől különböző

Modell tesztelése A nem szignifikáns változókat a modellből el kell távolítani. Az eltávolítást az t-teszt értékei alapján történik. Ha a modellből elhagyunk egy változót, akkor többi változó becsült együtthatója és szignifikancia szintje változhat.

Modell tesztelése

Modellezés

Változószelekciós eljárások
A szignifikáns változók kiválasztásához vannak ún. változószelekciós eljárások: Bacward: induláskor berakja a modellbe az összes változót és a nem szignifikáns változókat folyamatosan kiszedi Forward: Ameddig talál szignifikáns változót, beteszi a modellbe Stepwise: Ha talál szignifikáns változót beteszi a modellbe, ha viszont nem szignifikáns változó van a modellben kiveszi azt

Változószelekciós eljárások stepwise

Változószelekciós eljárások backward

Lineáris kombináció A regresszió érzéketlen a lineáris kombinációra
Amennyiben valamelyik változót lineáris módon transzformáljuk, csak a változó becsült együtthatója változik a transzformációnak megfelelően, sem a szignifikancia szintek, sem az előrejelzés nem változik Ha sztenderdizált változókra építünk modellt, akkor az együtthatók nagyságából arra lehet következtetni, hogy mennyire erős hatása van a változónak

Lineáris kombináció

Lineáris kombináció tancsop_szum2=tancsop_szum/2+100
kiadas= *tancsop_szum tancsop_szum=2*tancsop_szum2-200 kiadas= *(2*tancsop_szum2-200) kiadas= * *tancsop_szum2 kiadas= *tancsop_szum2

Lineáris kombináció A regresszió érzéketlen a lineáris kombinációra
Amennyiben a modellben lévő változókat trancsformáljuk lineárisan, a modell érzéketlen a transzformációra abban az értelemben, hogy a becsült együtthatók a transzfomációnak megfelelően változnak, az eredményváltozó becsült értékeki nem változnak, de a változók szignifikancia szintje ebben az esetben már változhatnak

Lineáris kombináció tancsop_szum=tancsop_tobbi+tancsop_normal+tancsop_nemzet+ +,,,+tancsop_eretts_utani2 kiadás= *tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*tancsop_tobbi tancsop_tobbi=tancsop_szum-tancsop_normal-tancsop_nemzet-,,, kiadas= *tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*(tancsop_szum-tancsop_normal-,,) kiadas=17961+( )*tancsop_normal+( )*tancsop_nemzet+ +,,,+1964*tancsop_szum kiadas= *tancsop_normal+1000*tancsop_nemzet+

Új változó felvétele Egy új változó felvétele a modellbe a modellt lényegesen megváltoztathatja A változás amiatt történik, mert összefüggés van a magyarázó változók között Ha egy változó becsült együtthatója nem nagyon változik új változó felvételével, vagy régi elhagyásával azt mondjuk, hogy robosztus változó

Új változó felvétele

Kategória változó felvétele a modellbe
Kategória változókat ún. dummy változók segítségével lehet szerepeltetni a modellben A változó kategóriái közül kinevezünk 1-et kontrolcsoportnak, a többit hozzá viszonyítjuk Eggyel kevesebb dummy változót kell bevezetni, mint ahány kategóriája van a változónak.

Kategória változók szerepeltetése

Kontrollcsoport: Budapest Kategória: dummy1 dummy2 Budapest Megyei jogú város Egyéb település

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Többváltozós adatelemzés

Hasonló előadás

Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés