Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Többváltozós adatelemzés

Hasonló előadás


Az előadások a következő témára: "Többváltozós adatelemzés"— Előadás másolata:

1 Többváltozós adatelemzés
7. előadás

2 Regressziós modell vizsgálata
Megfigyelések hatása a becsült együtthatókra Eltérésváltozó viselkedése Magyarázó változók közötti összefüggés (multikollinearitás) Eredményváltozó szórásának változása (heteroszkedaszticitás)

3 Regressziós modell

4 Megfigyelések hatása a becsült együtthatókra
b_kalap=(XTX)-1XTy y_kalap=X*b_kalap=X(XTX)-1XTy=H*y H mátrix angol neve: ‘hat matrix’ Ez teremt kapcsolatot a megfigyelt és becsült értékek között

5 Megfigyelések hatása a becsült együtthatókra
A mátrix diagonális elemei egy adott megfigyelés hatását mutatják. A diagonális elemek összege p+1 (változók száma a konstanst is beleértve), tehát az átlagos érték (p+1)/n. Egy megfigyelést akkor tartunk jelentős befolyással bírónak, ha értéke nagyobb, mint az átlag kétszerese

6 Megfigyelések hatása a becsült együtthatókra
Az SPSS programcsomag az ún. centralizált leverage értékeket közli, ami az eredeti értékekből levon 1/n –t A mi esetünkben (2p+1)/n=0,22

7 Regressziós modell

8 Regressziós modell outlierek nélkül

9 Megfigyelések hatása a becsült együtthatókra
Mivel változott a hat mátrix, ezért változnak a leverage értékek is

10 Megfigyelések hatása a becsült együtthatókra
Cook féle D statisztika Minden megfigyelésre számítható Azt vizsgálja, hogy ha az i-edik megfigyelést kihagyjuk a regressziós illesztésnél, mennyire változnak a becsült együtthatók Hüvelykujj szabály: a mutató 1-nél nagyobb értékeire kell odafigyelni

11 Megfigyelések hatása a becsült együtthatókra

12 Eltérésváltozó eloszlása

13 Studentizált reziduálisok
A megfigyelések azonos szórása még akkor sem biztosított, ha az elméletileg megalapozott Ezért szokták a reziduálisokat studentizálni: ri=ei/[s*sqrt(1-hii)], ahol s az eltérésváltozó szórása külső/belső studentizálás (a szórás kiszámításánál figyelembe vesszük-e az i-edik eltérést)

14 Studentizált eltérések

15 Magyarázó változók egymásra hatása
Multikollinearitás Ideális esetben a magyarázó változók korrelálatlanok Ha a magyarázó változók korrelálatlanok, akkor egy új változó bevonása nem változtatja meg a többi változó becsült együtthatóját Ha a magyarázó változók korrelálatlanok, nehéz szétválasztani a változók hatását

16 Kísérlet X1, X2 változók sztenderd normális eloszlásúak
Y=20*X1-10*X2+zaj Három különböző eset X1, X2 független X1, X2 között közepes korreláció van X1, X2 között magas korreláció van

17 Korreláció hatása a becsült együtthatókra

18 Korreláció hatása a t értékekre

19 Honnan lehet észrevenni
‘furcsa’ végeredmény: pl. a becsült együttható a ellentétes előjelű Tolerancia, VIF Kondíciós index

20 Tolerancia, VIF Azt méri, hogy a magyarázó változók mennyire magyarázzák egymást. Regressziós modellt illesztünk, ahol az egyik magyarázó változót (mint eredményváltozót) magyarázzuk a többi magyarázó változó segítségével. Egy mínusz az illesztett regresszió R négyzete a tolerancia

21 Tolerancia, VIF

22 Tolerancia, VIF VIF = 1/ Tolerancia Pl.: 1,425= 1 / 0,702
Hüvelykujj szabály: ha a tolerancia kisebb 0,2-nél (VIF nagyobb 5-nél) multikollinearitásra utal

23 Kondíciós index Egzakt multikollinearitás esetén az (XT*X)-1 invertálása nem végezhető el. Ha az invertálás nem végezhető el, a (XT*X)-1 mátrix invertálása, akkor ez azt jelenti, hogy a sajátértékek között van 0. Amennyiben az invertálás elvégezhető, kérdés, hogy mennyire ‘stabil’ az inverz mátrix

24 Példa Egzakt multikollinearitás Nem egzakt multikollinearitás

25 Inverzmátrix Inverz mátrix Inverz mátrix

26 Kondíciós index Az (XT*X)-1 mátrix sajátértékeit vizsgáljuk.
Ha az összes sajátérték 1, akkor a magyarázó változók korrelálatlanok Ha a sajátértékek között van 0-hoz közeli érték, akkor a magyarázó változók között erős összefüggés van Kondíciós index: sqrt(lambda_max / lambda_i) Ha a kondíciós index maximális értéke 15-nél nagyobb, akkor problémára utal, ha 30-nál nagyobb, komoly problémára utal

27 Kondíciós index

28 Multikollinearitás Mit lehet tenni?
Nem sokat: a multikollinearitás adatprobléma és nem modellprobléma A legnagyobb probléma, hogy lényeges változókat kihagyunk a modellből. Ezért ha tudjuk növeljük az elemszámot. Változócsoportokat hozzunk létre Ha indokolható, hagyjunk el változókat. Ha előrejelzés a cél, nincs probléma

29 Heteroszkedaszticitás
Az eredményváltozó szórása konstans (homoszkedaszticitás) Az eredményváltozó szórása (vagy a hibatagok) a magyarázó változók mentén konstans

30 Heteroszkedaszticitás

31 Heteroszkedaszticitás
Mit lehet tenni? Változók transzformációja Pl. egy főre jutó jövedelem logaritmálás Másfajta becslési módszer (ökonometria)

32 Intervallumbecslés Ugyanolyan, a szerepe, mint a konfidencia intervallumnak paraméterbecslés esetén Minden megfigyelésre (sor) lehet az Y változó értékére intervallumbecslést adni Megkülönböztetjük hogy az Y változó átlagára adunk becslést, vagy pedig magára a változóra

33 Regressziós egyenes változékonysága

34 Predikciós intervallum
Predikciós intervallum esetén az eredményváltozó átlagának ingadozásához hozzáadódik még az eredményváltozó ingadozása is

35 Predikciós intervallum


Letölteni ppt "Többváltozós adatelemzés"

Hasonló előadás


Google Hirdetések