Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz
Többváltozós lineáris regressziós modell x1, x2, …, xp és y közötti kapcsolatot ábrázoló egyenes. Az y függ: x1, x2, …, xp – p db magyarázó változótól A véletlen ingadozásától (ε) β0, β1, …, βp regressziós együtthatóktól. Y = β0 + β1x1 + β2x2 +…+ βpxp +ε
A hibatagra vonatkozó feltételek Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
A magyarázó változókra vonatkozó feltételek Egymástól lineárisan függetlenek legyenek. (egyik magyarázó változót se lehessen a többi magyarázó változó lineáris kombinációjaként előállítani) Értékeik rögzítettek legyenek, ne változzanak mintáról mintára. Mérési hibát nem tartalmaznak. Nem korrelálnak a hibatényezővel.
Függő és független változókra vonatkozó feltétel Felt. sérülése Köv. Ellenőrzés Megjegyzés Függő és független változókra vonatkozó feltétel Linearitás Nem lineáris kapcsolat Becsült értékek sérülése Pontdiagram, r2 Független (egymástól) Multikollinearitás Megbízhatatlan becslés, magas st. hiba a regr. koefficiensnél F szignifikáns, t nem; Korrelációs mátrix; VIF-mutató Kizárólag többváltozós regr. esetében Hibatagokra vonatkozó feltétel Normális eloszlás Nem normális eloszlás F-teszt, t-teszt érvénytelen Reziduumok standardizált eloszlásának hisztogramjai Legkisebb négyzetek módszere kiküszöböli Nem korreláltak Autokorreláció Nem hatásos, nagy KI Reziduumok ábrázolása az idő / a megfigyelések sorrendjében; Durbin-Watson teszt Idősornál merülhet fel a probléma. Homoszke-daszticitás Hetero-szkedaszticitás; korrelál az Xi-vel Pontdiagram a standardizált reziduumok szórásáról Logaritmizálás vagy a súlyozottan LNM segít Forrás: Sajtos-Mitev [2006], 217.o.
Standard lineáris regressziós modell Ahol az előbb említett feltételek teljesülnek. Amennyiben a mintabeli adatok nem igazolják a feltételek teljesülését, bonyolultabb modellre és becslési eljárásokra van szükség.
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
1. M(ε) = 0 A hibatagok pozitív és negatív értékei kiegyenlítik egymást. Ha eltér a 0-tól, annak oka lehet, hogy kihagytunk a modellből egy szignifikáns magyarázó változót. Nehéz a gyakorlatban ellenőrizni. Ha feltételezzük, hogy a legkisebb négyzetek módszere érvényesül, akkor teljesül ez a feltétel.
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
2. Homoszkedaszticitás (Var(ε) = 2) A hibatag varianciája állandó. Ha nem: heteroszkedaszticitás Tesztelése: Grafikus – a becsült reziduumokat a kiválasztott magyarázó változó vagy az ŷ függvényében ábrázoljuk Statisztikai tesztek – Goldfeld-Quandt-féle teszt
Homoszkedaszticitás grafikus tesztelése xi xi xi ŷ ŷ ŷ Homoszkedasztikus hibatag Heteroszkedasztikus hibatag e – reziduum xi – becsült érték
Homoszkedaszticitás Goldfeld-Quandt-féle tesztelése H0: j2 = 2 H1: j2 ≠ 2 Lépései: Rangsor Független részminták ( , ahol r > 0, > p ) Regressziós függvények, reziduális szórásnégyzet (se2) F-próba: (a varianciák eloszlást követnek és ezek egymástól függetlenek) H0 F(α/2) F(1-α/2); ν1,ν2
SPSS (Feladat) 10 véletlenszerűen kiválasztott vállalat adatai a következők: y - árbevétel x1-vagyon x2-létszám 1 35 54 98 2 27 52 120 3 42 50 95 4 47 58 145 5 53 82 184 6 45 72 106 7 61 240 8 108 175 9 65 92 165 10 77 122 202
SPSS Analyze / Regression / Linear… - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizált reziduum Studentizált törölt reziduum Standardizált becsült érték (ZPRED) és a standardizált reziduum (ZRESID) viszonya – Homoszkedaszticitás?
Output A reziduumok varianciája ~konstans Homoszkedaszticitás
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
A hibatag értékei korrelálatlanok Egyszerű véletlen mintavétel esetében ez a feltétel automatikusan teljesül. Ha a modell idősoros adatokra épül, gyakran előfordul a hibatagok autokorreláltsága. Autokorreláció oka: Nem megfelelő függvénytípus. Nem véletlen jellegű mérési hiba. A modellben nem szerepel valamennyi lényeges magyarázó változó (nem tudjuk, hogy kell / túl rövid idősor / nincs adat).
Autokorreláció grafikus tesztelése A kihagyott változók miatt a reziduumok nem véletlenszerűek, hanem az egymást követő értékek között jelentős korreláció van. t t e Az autokorreláció a függvénytípus helytelen megválasztásának a következménye. t + KVANTITATÍV TESZTEK!
Autokorreláció tesztelése Durbin-Watson próbával H0: ρ = 0 korrelálatlan H1: ρ ≠ 0 autokorreláció Határai: Pozitív autokorreláció: Negatív autokorreláció: Bizonytalansági tartomány: nem tudunk dönteni Növelni kell a megfigyelések számát Új változót kell bevonni a modellbe - zavaró autokorreláció + zavaró autokorreláció 0 dl du 2 4-du 4-dl 4 Elfogadási tartomány
A Durbin-Watson próba döntési táblázata H1 Elfogadjuk H0:p=0 Elvetjük Nincs döntés p>0 Pozitív autokorreláció d>du d<dl dl<d<du p<0 Negatív autokorreláció d<4-du d>4-dl 4-dl<d<4-du du illetve dl értékét a Durbin-Watson táblázatból határozzuk meg Forrás: Kerékgyártó-Mundruczó [1999]
Durbin-Watson próba - SPSS Analyze / Regression / Linear… - Statistics
Durbin-Watson statisztika (5%-os szignifikanciaszint mellett) dL dU 15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21 16 1,10 1,37 0,98 0,86 1,73 0,74 1,93 0,62 2,15 17 1,13 1,38 1,02 0,90 1,71 0,78 1,90 0,67 2,10 18 1,16 1,39 1,05 1,53 0,93 1,69 1,87 0,71 2,06 19 1,18 1,40 0,97 1,68 1,85 0,75 2,02 20 1,20 1,41 1,00 1,83 0,79 1,99 21 1,22 1,42 1,03 1,67 1,81 0,83 1,96 22 1,24 1,43 1,15 1,66 0,96 1,80 1,94 23 1,26 1,44 1,17 0,99 1,79 1,92 24 1,27 1,45 1,19 1,55 1,01 1,78 25 1,29 1,21 1,12 1,04 1,77 1,89 26 1,30 1,46 1,14 1,65 1,06 1,76 1,88 27 1,32 1,47 1,56 1,86 28 1,33 1,48 29 1,34 1,74 1,84 30 1,35 1,49 1,28 1,57 1,07 31 1,50 1,23 1,09 32 1,31 1,11 1,82 33 1,51 1,58 34 35 1,52 36 1,59 37 1,25 1,72 38 39 1,60 40 50 1,63 60 1,62 70 1,64 1,70 80 1,61 90 100 Forrás: Statisztikai képletgyűjtemény
dl<d<du → nincs döntés 0 dl du 2 4-du 4-dl 4 0,95 1,54 2,46 3,05 1,381 dl<d<du → nincs döntés →Be kell venni még változót a modellbe / Növelni kell a megfigyelések számát!
A hibatagra vonatkozó feltételek ellenőrzése Várható értéke 0 M(ε) = 0 Varianciája konstans Var(ε) = 2 A hibatag értékei nem autokorreláltak. Normális eloszlású valószínűségi változó.
A hibatag eloszlása normális Tesztelése: Grafikusan – a reziduumokat várható értékük függvényében ábrázoljuk haranggörbe – normális eloszlás Kvantitatív módszerekkel – illeszkedésvizsgálat - próba Ferdeségi, csúcsossági mérőszámokkal
Illeszkedésvizsgálat H0: Pr(εj) = Pj (normális eloszláshoz tartozó megfelelő valószínűségi érték) H1: Jj: Pr(εj) ≠ Pj Ha < H0 –t fogadjuk el
Grafikus tesztelés - SPSS Analyze / Regression / Linear… - Plots Függő változó Standardizált becsült érték Standardizált reziduum Törölt reziduum Korrigált becsült érték Studentizált reziduum Studentizált törölt reziduum Hisztogram
Output A harang alakú standard normális eloszlás középértéke 0, szórása 1. Közelítőleg NORMÁLIS (de nem egyértelműen)
2. megoldás Analyze / Regression / Linear… - SAVE
Normális eloszlás grafikus tesztelése 2. - SPSS Graphs / Histogram - Display normal curve A normális eloszlásgörbe harang alakú. Közelítőleg normális eloszlás.
Nonparametric Test Analyze / Nonparametric Test / 1-Samle K-S... H0 - normális eloszlás H1 - nem normális eloszlás
Output Ha a szignifikanciaszint (p) kisebb mint 5% (0,05), elutasítjuk a nullhipotézist. Most nagyobb 0,05-nél, vagyis elfogadjuk, hogy normális eloszlású a görbe. Normális eloszlású
Köszönöm a figyelmet!