Lineáris regressziós modellek Multikollinearitás Dummy változók kezelése
Vizsgálandó alapjellemzők Mekkora a modell magyarázó ereje? (determinációs együttható) Szignifikáns-e az okok kapcsolata az okozattal? Mekkora a becslés standard hibája? (reziduális szórás) Milyen a modell illeszkedése? Minden változót célszerű a modellben szerepeltetni? Hány magyarázóváltozót célszerű használni? Mi a modell egyenlete, hogyan értelmezhetők a regressziós paraméterek?
Regressziós modellek problematikái
Standard lineáris regressziós modell feltételei Hibatag várható értéke nulla. A hibatag különböző megfigyelésekhez tartozó értékei egymástól függetlenek. A hibatag konstans varianciájú (reziduális szórásnégyzet). Tényezőváltozók lineárisan függetlenek
A multikollinearitás fogalma A tényezőváltozók lineárisan függetlenségének hiánya. Extrém multikollinearitás Extrém multikollinearitáshoz közeli esetek, amikor is egyes becsült paraméterek varianciái nagymértékben növekednek a hibatag szórásnégyzetéhez képest. A tényezőváltozók együttmozgása Mik a következményei? Regressziós paraméterek varianciái nőnek Nem beszélhetünk parciális hatásokról
Példa (m=2)
Detektálási eljárások és mérőszámok A tényezőváltozók korrelációs mátrixának vizsgálata Minden magyarázóváltozóra VIF-mutató. Ha ez öt feletti, akkor van multikollinearitás.
Módszerek a multikollinearitás káros hatás csökkentésére Tényezőváltozók elhagyása a modellből A minta elemszámának növelése Külső információk felhasználása Főkomponensanalízis
Egyéb figyelmet kívánó jelenségek Változók normális eloszlásúk Outlierrekre érzékeny a regresszió
Dummy változók kezelése regressziós modellekben (1) Dummy változó: Kétértékű változó: 0 és 1. Pld: Y: havi nettó kereset (e Ft) X1: életkor (év) X2: Nem: 0-férfi; 1-nő Kereset=50+5*x1-20*x2 Mit jelentenek ekkor a regressziós paraméterek?
Dummy változók kezelése regressziós modellekben (2) Y: havi nettó kereset (e Ft) X1: életkor (év) X2: Nem: 0-férfi; 1-nő Kereset=50+5*x1-20*x2 Milyen egyenlettel jellemezhetőek a férfiak? Milyen egyenlettel jellemezhetőek a nők? Mit állíthatunk a 2 egyenlet meredekségéről? Jogos-e ez a feltevés, hogyan oldható fel ez a probléma? ->interakciós hatás
Dummy változók kezelése regressziós modellekben (3) Y: havi nettó kereset (e Ft) X1: életkor (év) X2: Nem: 0-férfi; 1-nő Kereset=50+5*x1-20*x2-2*x1*x2 Milyen egyenlettel jellemezhetőek a férfiak? Milyen egyenlettel jellemezhetőek a nők?