Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Többváltozós adatelemzés
7. előadás
2
Regressziós modell vizsgálata
Megfigyelések hatása a becsült együtthatókra Eltérésváltozó viselkedése Magyarázó változók közötti összefüggés (multikollinearitás) Eredményváltozó szórásának változása (heteroszkedaszticitás)
3
Regressziós modell
4
Megfigyelések hatása a becsült együtthatókra
b_kalap=(XTX)-1XTy y_kalap=X*b_kalap=X(XTX)-1XTy=H*y H mátrix angol neve: ‘hat matrix’ Ez teremt kapcsolatot a megfigyelt és becsült értékek között
5
Megfigyelések hatása a becsült együtthatókra
A mátrix diagonális elemei egy adott megfigyelés hatását mutatják. A diagonális elemek összege p+1 (változók száma a konstanst is beleértve), tehát az átlagos érték (p+1)/n. Egy megfigyelést akkor tartunk jelentős befolyással bírónak, ha értéke nagyobb, mint az átlag kétszerese
6
Megfigyelések hatása a becsült együtthatókra
Az SPSS programcsomag az ún. centralizált leverage értékeket közli, ami az eredeti értékekből levon 1/n –t A mi esetünkben (2p+1)/n=0,22
7
Regressziós modell
8
Regressziós modell outlierek nélkül
9
Megfigyelések hatása a becsült együtthatókra
Mivel változott a hat mátrix, ezért változnak a leverage értékek is
10
Megfigyelések hatása a becsült együtthatókra
Cook féle D statisztika Minden megfigyelésre számítható Azt vizsgálja, hogy ha az i-edik megfigyelést kihagyjuk a regressziós illesztésnél, mennyire változnak a becsült együtthatók Hüvelykujj szabály: a mutató 1-nél nagyobb értékeire kell odafigyelni
11
Megfigyelések hatása a becsült együtthatókra
12
Eltérésváltozó eloszlása
13
Studentizált reziduálisok
A megfigyelések azonos szórása még akkor sem biztosított, ha az elméletileg megalapozott Ezért szokták a reziduálisokat studentizálni: ri=ei/[s*sqrt(1-hii)], ahol s az eltérésváltozó szórása külső/belső studentizálás (a szórás kiszámításánál figyelembe vesszük-e az i-edik eltérést)
14
Studentizált eltérések
15
Magyarázó változók egymásra hatása
Multikollinearitás Ideális esetben a magyarázó változók korrelálatlanok Ha a magyarázó változók korrelálatlanok, akkor egy új változó bevonása nem változtatja meg a többi változó becsült együtthatóját Ha a magyarázó változók korrelálatlanok, nehéz szétválasztani a változók hatását
16
Kísérlet X1, X2 változók sztenderd normális eloszlásúak
Y=20*X1-10*X2+zaj Három különböző eset X1, X2 független X1, X2 között közepes korreláció van X1, X2 között magas korreláció van
17
Korreláció hatása a becsült együtthatókra
18
Korreláció hatása a t értékekre
19
Honnan lehet észrevenni
‘furcsa’ végeredmény: pl. a becsült együttható a ellentétes előjelű Tolerancia, VIF Kondíciós index
20
Tolerancia, VIF Azt méri, hogy a magyarázó változók mennyire magyarázzák egymást. Regressziós modellt illesztünk, ahol az egyik magyarázó változót (mint eredményváltozót) magyarázzuk a többi magyarázó változó segítségével. Egy mínusz az illesztett regresszió R négyzete a tolerancia
21
Tolerancia, VIF
22
Tolerancia, VIF VIF = 1/ Tolerancia Pl.: 1,425= 1 / 0,702
Hüvelykujj szabály: ha a tolerancia kisebb 0,2-nél (VIF nagyobb 5-nél) multikollinearitásra utal
23
Kondíciós index Egzakt multikollinearitás esetén az (XT*X)-1 invertálása nem végezhető el. Ha az invertálás nem végezhető el, a (XT*X)-1 mátrix invertálása, akkor ez azt jelenti, hogy a sajátértékek között van 0. Amennyiben az invertálás elvégezhető, kérdés, hogy mennyire ‘stabil’ az inverz mátrix
24
Példa Egzakt multikollinearitás Nem egzakt multikollinearitás
25
Inverzmátrix Inverz mátrix Inverz mátrix
26
Kondíciós index Az (XT*X)-1 mátrix sajátértékeit vizsgáljuk.
Ha az összes sajátérték 1, akkor a magyarázó változók korrelálatlanok Ha a sajátértékek között van 0-hoz közeli érték, akkor a magyarázó változók között erős összefüggés van Kondíciós index: sqrt(lambda_max / lambda_i) Ha a kondíciós index maximális értéke 15-nél nagyobb, akkor problémára utal, ha 30-nál nagyobb, komoly problémára utal
27
Kondíciós index
28
Multikollinearitás Mit lehet tenni?
Nem sokat: a multikollinearitás adatprobléma és nem modellprobléma A legnagyobb probléma, hogy lényeges változókat kihagyunk a modellből. Ezért ha tudjuk növeljük az elemszámot. Változócsoportokat hozzunk létre Ha indokolható, hagyjunk el változókat. Ha előrejelzés a cél, nincs probléma
29
Heteroszkedaszticitás
Az eredményváltozó szórása konstans (homoszkedaszticitás) Az eredményváltozó szórása (vagy a hibatagok) a magyarázó változók mentén konstans
30
Heteroszkedaszticitás
31
Heteroszkedaszticitás
Mit lehet tenni? Változók transzformációja Pl. egy főre jutó jövedelem logaritmálás Másfajta becslési módszer (ökonometria)
32
Intervallumbecslés Ugyanolyan, a szerepe, mint a konfidencia intervallumnak paraméterbecslés esetén Minden megfigyelésre (sor) lehet az Y változó értékére intervallumbecslést adni Megkülönböztetjük hogy az Y változó átlagára adunk becslést, vagy pedig magára a változóra
33
Regressziós egyenes változékonysága
34
Predikciós intervallum
Predikciós intervallum esetén az eredményváltozó átlagának ingadozásához hozzáadódik még az eredményváltozó ingadozása is
35
Predikciós intervallum
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.