Többváltozós adatelemzés 7. előadás
Regressziós modell vizsgálata Megfigyelések hatása a becsült együtthatókra Eltérésváltozó viselkedése Magyarázó változók közötti összefüggés (multikollinearitás) Eredményváltozó szórásának változása (heteroszkedaszticitás)
Regressziós modell
Megfigyelések hatása a becsült együtthatókra b_kalap=(XTX)-1XTy y_kalap=X*b_kalap=X(XTX)-1XTy=H*y H mátrix angol neve: ‘hat matrix’ Ez teremt kapcsolatot a megfigyelt és becsült értékek között
Megfigyelések hatása a becsült együtthatókra A mátrix diagonális elemei egy adott megfigyelés hatását mutatják. A diagonális elemek összege p+1 (változók száma a konstanst is beleértve), tehát az átlagos érték (p+1)/n. Egy megfigyelést akkor tartunk jelentős befolyással bírónak, ha értéke nagyobb, mint az átlag kétszerese
Megfigyelések hatása a becsült együtthatókra Az SPSS programcsomag az ún. centralizált leverage értékeket közli, ami az eredeti értékekből levon 1/n –t A mi esetünkben (2p+1)/n=0,22
Regressziós modell
Regressziós modell outlierek nélkül
Megfigyelések hatása a becsült együtthatókra Mivel változott a hat mátrix, ezért változnak a leverage értékek is
Megfigyelések hatása a becsült együtthatókra Cook féle D statisztika Minden megfigyelésre számítható Azt vizsgálja, hogy ha az i-edik megfigyelést kihagyjuk a regressziós illesztésnél, mennyire változnak a becsült együtthatók Hüvelykujj szabály: a mutató 1-nél nagyobb értékeire kell odafigyelni
Megfigyelések hatása a becsült együtthatókra
Eltérésváltozó eloszlása
Studentizált reziduálisok A megfigyelések azonos szórása még akkor sem biztosított, ha az elméletileg megalapozott Ezért szokták a reziduálisokat studentizálni: ri=ei/[s*sqrt(1-hii)], ahol s az eltérésváltozó szórása külső/belső studentizálás (a szórás kiszámításánál figyelembe vesszük-e az i-edik eltérést)
Studentizált eltérések
Magyarázó változók egymásra hatása Multikollinearitás Ideális esetben a magyarázó változók korrelálatlanok Ha a magyarázó változók korrelálatlanok, akkor egy új változó bevonása nem változtatja meg a többi változó becsült együtthatóját Ha a magyarázó változók korrelálatlanok, nehéz szétválasztani a változók hatását
Kísérlet X1, X2 változók sztenderd normális eloszlásúak Y=20*X1-10*X2+zaj Három különböző eset X1, X2 független X1, X2 között közepes korreláció van X1, X2 között magas korreláció van
Korreláció hatása a becsült együtthatókra
Korreláció hatása a t értékekre
Honnan lehet észrevenni ‘furcsa’ végeredmény: pl. a becsült együttható a ellentétes előjelű Tolerancia, VIF Kondíciós index
Tolerancia, VIF Azt méri, hogy a magyarázó változók mennyire magyarázzák egymást. Regressziós modellt illesztünk, ahol az egyik magyarázó változót (mint eredményváltozót) magyarázzuk a többi magyarázó változó segítségével. Egy mínusz az illesztett regresszió R négyzete a tolerancia
Tolerancia, VIF
Tolerancia, VIF VIF = 1/ Tolerancia Pl.: 1,425= 1 / 0,702 Hüvelykujj szabály: ha a tolerancia kisebb 0,2-nél (VIF nagyobb 5-nél) multikollinearitásra utal
Kondíciós index Egzakt multikollinearitás esetén az (XT*X)-1 invertálása nem végezhető el. Ha az invertálás nem végezhető el, a (XT*X)-1 mátrix invertálása, akkor ez azt jelenti, hogy a sajátértékek között van 0. Amennyiben az invertálás elvégezhető, kérdés, hogy mennyire ‘stabil’ az inverz mátrix
Példa Egzakt multikollinearitás Nem egzakt multikollinearitás
Inverzmátrix Inverz mátrix Inverz mátrix
Kondíciós index Az (XT*X)-1 mátrix sajátértékeit vizsgáljuk. Ha az összes sajátérték 1, akkor a magyarázó változók korrelálatlanok Ha a sajátértékek között van 0-hoz közeli érték, akkor a magyarázó változók között erős összefüggés van Kondíciós index: sqrt(lambda_max / lambda_i) Ha a kondíciós index maximális értéke 15-nél nagyobb, akkor problémára utal, ha 30-nál nagyobb, komoly problémára utal
Kondíciós index
Multikollinearitás Mit lehet tenni? Nem sokat: a multikollinearitás adatprobléma és nem modellprobléma A legnagyobb probléma, hogy lényeges változókat kihagyunk a modellből. Ezért ha tudjuk növeljük az elemszámot. Változócsoportokat hozzunk létre Ha indokolható, hagyjunk el változókat. Ha előrejelzés a cél, nincs probléma
Heteroszkedaszticitás Az eredményváltozó szórása konstans (homoszkedaszticitás) Az eredményváltozó szórása (vagy a hibatagok) a magyarázó változók mentén konstans
Heteroszkedaszticitás
Heteroszkedaszticitás Mit lehet tenni? Változók transzformációja Pl. egy főre jutó jövedelem logaritmálás Másfajta becslési módszer (ökonometria)
Intervallumbecslés Ugyanolyan, a szerepe, mint a konfidencia intervallumnak paraméterbecslés esetén Minden megfigyelésre (sor) lehet az Y változó értékére intervallumbecslést adni Megkülönböztetjük hogy az Y változó átlagára adunk becslést, vagy pedig magára a változóra
Regressziós egyenes változékonysága
Predikciós intervallum Predikciós intervallum esetén az eredményváltozó átlagának ingadozásához hozzáadódik még az eredményváltozó ingadozása is
Predikciós intervallum