Gazdaságstatisztika Korreláció- és regresszióelemzés 20. előadás
Hol járunk?
Nyitó gondolatok Eddig tömegjelenségek leírását mindig egy már bekövetkezett állapot valószínűségelméleti, matematikai statisztikai vizsgálatával végeztük el. A korreláció- és regresszió- számítás során arra keressük a választ, hogy egy adott állapot milyen tényezők hatására jött létre, az egyes tényezők milyen mértékben befolyásolják a jelenség alakulását, a tényezők milyen szoros kapcsolatban vannak egymással. Összefüggés-vizsgálat, azon belül sztochasztikus kapcsolatok vizsgálata a célunk.
Determinisztikus és sztochasztikus jelenségek Kezdeti, kiindulási feltételekből (peremfeltételekből) mennyire tudunk következtetni a vizsgált jelenség (esemény) végkimenetelére? Két lehetőség Ha a peremfeltételeket fel tudjuk tárni, és ismertek a jelenség lefolyásának szabályai is, és ezekből a jelenség végkimenetele nagy pontossággal megadható, akkor a jelenség determinisztikus. Más szavakkal, a peremfeltételek és a jelenség lefolyásának szabályai determinálják (egyértelműen meghatározzák) a jelenség kimenetelét. Pl. Ohm-törvénye. A peremfeltételeket nem ismerjük, vagy nem akarjuk feltárni, továbbá nem ismerjük a jelenség lefolyásának pontos törvényszerűségeit, ezért a jelenség pontos kimenetele nem határozható meg. Ezek a sztocasztikus jelenségek. Pl. BUX index alakulása.
Determinisztikus és sztochasztikus kapcsolatok A legegyszerűbb esetben két változó kapcsolatát vizsgáljuk X: magyarázó változó, Y: eredményváltozó Determinisztikus kapcsolat X determinálja Y-t, azaz X adott értékéhez Y meghatározott értéke tartozik Sztochasztikus kapcsolat X adott értékéhez Y-nak több lehetséges éréke is tartozhat A kapcsolat a P(Y|X) feltételes valószínűség eloszlásával ragadható meg A gyakorlatban az E(Y|X) feltételes várható értékkel és a V(Y|X) feltételes varianciával jellemezzük a kapcsolatot X értéke és Y átlagos értéke között van határozott kapcsolat. X és Y nem függetlenek, de nincs közöttük determinisztikus összefüggés. Y értékét X értéke és egyéb véletlen hatások is befolyásolják.
A sztochasztikus kapcsolat szemléltetése Empirikus regressziós függvények
Korreláció- és regressziószámítás Korrelációszámítás Az X magyarázó változó és az Y eredményváltozó közötti sztochasztikus kapcsolat erősségét korrelációszámítással határozzuk meg. (A kapcsolat intenzitásának és irányának mérése.) Regressziószámítás Az X magyarázó változó és az Y eredményváltozó közötti sztochasztikus kapcsolat (összefüggés) jellegét regressziószámítással határozzuk meg. (A kapcsolat jellegének feltárása, matematikai függvényekkel történő leírása.)
Sztochasztikus kapcsolat Nem lineáris kapcsolat Erős pozitív lineáris kapcsolat Nincs kapcsolat
A lineáris regressziószámítás alapjai Az ábra alapján pozitív lineáris sztochasztikus kapcsolat feltételezhető a két vizsgált változó között Melyik az az egyenes, amely a “legjobban” illeszkedik a ponthalmazra Mit jelent a “legjobban”?
A legkisebb négyzetek elve Az X magyarázó változó és az Y eredményváltozó közötti sztochasztikus kapcsolatot keressük: Y=f(X), f=? X és Y megfigyeléseiből adottak az (xi; yi) párok (i=1,..,n) A regressziós függvényt a legkisebb négyzetek módszere alapján határozzuk meg. Ez azt a követelményt jelenti, hogy az adott regressziós függvénytípus használata során a négyzetösszeg minimális, ahol a regressziós függvény helyettesítési értéke az helyen. Az különbségeket reziduumoknak nevezzük.
Elméleti lineáris regressziós modell eredményváltozó maradékváltozó magyarázó változó Becslés mintából:
Elméleti lineáris regressziós modell feltételei (1) Lineáris kapcsolat Magyarázó változó (X) nem valószínűségi változó Maradékváltozóra vonatkozó feltételek: M(X) = 0 Var(X) = 2 (homoszkedaszticitás) A maradékváltozó független a magyarázóváltozótól. X N(0,2)
Elméleti lineáris regressziós modell feltételei (2) x y yi xi
Empirikus lineáris regresszió Az (xi; yi) párokból álló mintából a becsült empirikus regressziós egyenes pontjainak és a minta pontjainak négyzetes távolságösszege minimális. Lehetséges “távolságok” : Merőleges: ezt nehéz kezelni Függőleges Ha a függőleges négyzetes távolságösszeget, azaz -t minimalizáljuk, akkor az első regressziós egyenest kapjuk. Vízszintes Ha a vízszintes négyzetes távolságösszeget minimalizáljuk, akkor a második regressziós egyenest kapjuk
Első- és második regressziós egyenes A két egyenes csak akkor esik egybe, ha a minta minden pontja egy egyenesre esik. Ilyenkor abszolút lineáris kapcsolatról beszélünk. A lineáris regresszió alkalmazása során általában az első regressziós egyenest használjuk. Első regressziós egyenes Második regressziós egyenes
Az epmirikus lineáris regressziós egyenes paramétereinek becslése (1) x y yi S ei2 minimum xi
Az epmirikus lineáris regressziós egyenes paramétereinek becslése (2) X és Y megfigyeléseiből adottak az (xi; yi) párok (i=1,..,n) Az első regressziós egyenes paramétereit szeretnénk becsülni, ehhez a legkisebb négyzetek módszere értelmében az függvényt (b0-tól és b1-től függő négyzetösszeg) kell minimalizálnunk. Belátható, hogy ez akkor minimális, ha E két egyenletet normálegyenleteknek nevezzük, megoldásuk adja az empirikus regressziós egyenes és paramétereit.
Az empirikus lineáris regressziós egyenes paramétereinek becslése (2) ahol , az xi, az yi értékek átlaga.
Az elméleti korrelációs együttható és becslése (1) Az X és Y valószínűségi változók kovarianciája: cov(X,Y) = M(XY)-M(X)M(Y) Ha X és Y függetlenek, cov(X,Y) = 0, de fordítva nem mindig igaz! Ha X és Y együttes eloszlása (kétváltozós) normális eloszlás, akkor cov(X, Y) = 0, pontosan akkor, ha X és Y függetlenek. Az X és Y valószínűségi változók elméleti korrelációs együtthatója (Pearson féle korrelációs együttható):
Az elméleti korrelációs együttható és becslése (2) X és Y közötti lineáris kapcsolat erősségét méri. Minél közelebb van az abszolút értéke 1-hez, annál szorosabb a lineáris kapcsolat. Ha R(X,Y) = 0, akkor X és Y korrelálatlanok. A korrelálatlanságból nem következik a függetlenség. Ha X és Y független, akkor R(X,Y) = 0. Ha X és Y együttes eloszlása (kétváltozós) normális eloszlás, akkor R(X, Y) = 0, pontosan akkor, ha X és Y függetlenek. R(X, Y) becslése mintából az empirikus korrelációs együttható:
A korrelációs együttható szignifikancia vizsgálata Hipotézisvizsgálat Ha H0 igaz, akkor az próbastatisztika DF=n-2 szabadságfokú t-eloszlást követ, ahol r=r(x,y). H0 elutasítása esetén a korrelációs együttható szignifikáns. Ez azt jelenti, hogy R(X, Y) értéke nagy valószínűséggel nem zérus. H0: R(X,Y) = 0 H1: R(X,Y) 0
Példa 14 év adatai alapján vizsgáljuk meg az 1ha szántóterületre vonatkoztatott műtrágya felhasználás (xi=kg/ha) és az évi búza termés átlagok (yi=q/ha) közötti kapcsolatok jellegét és szorosságát. i xi yi 1. 19,9 12,5 2. 31,9 17,0 3. 31,6 16,9 4. 41,4 19,1 5. 53,5 17,9 6. 58,7 15,6 7. 67,2 18,6 8. 70,4 21,7 9. 76,3 10. 101,3 25,9 11. 124,4 25,2 12. 136,2 27,1 13. 166,6 21,3 14. 195,0 30,7
Korrelációs együttható és lineáris regressziós egyenes becslése – példa A példa adatai: i xi yi 1. 19,9 12,5 -64,1 -8,3 4108,8 68,9 532,0 2. 31,9 17,0 -52,0 -3,8 2704,0 14,4 197,6 3. 31,6 16,9 -52,3 -3,9 2735,3 15,2 204,0 4. 41,4 19,1 -42,5 -1,7 1806,2 2,9 72,2 5. 53,5 17,9 -30,4 -2,9 924,2 8,4 88,2 6. 58,7 15,6 -25,2 -5,2 635,0 27,0 131,0 7. 67,2 18,6 -16,7 -2,2 278,9 4,8 36,7 8. 70,4 21,7 -13,5 0,9 182,2 0,8 -12,1 9. 76,3 -7,6 57,8 -6,8 10. 101,3 25,9 17,4 5,1 302,8 26,0 88,7 11. 124,4 25,2 40,5 4,4 1640,2 19,4 178,2 12. 136,2 27,1 52,3 6,3 39,7 329,5 13. 166,6 21,3 82,7 0,5 6839,3 0,2 41,3 14. 195,0 30,7 111,1 9,9 12343,2 98,0 1099,9 1174,3 291,2 37293,2 326,5 2980,4 r(x,y) szignifikancia vizsgálata Ho: R(X, Y)=0 DF=n-2=14-2=12 =0,05 tkrit =2,17 tsz>tkrit => H0-át elvetjük A lineáris regressziós egyenes paramétereinek becslése A regressziós egyenes egyenlete:
Az empirikus korrelációs együttható és a regressziós egyenes összefüggése Y-t a regressziós függvény és az e reziduum összegeként írtuk fel: Az összefüggés a szórásnégyzetekre is igaz: Tapasztalati (minta) adatokból: Determinációs együttható: azt fejezi ki, hogy a sztochasztikus kapcsolatban az eredményváltozó teljes varianciájának hányad része tulajdonítható a magyarázó változónak (x-nek) A teljes változékonyságnak az a része melyet a lineáris kapcsolaton keresztül x magyaráz A teljes változékonyságnak az a része melyet x nem magyaráz
Determinációs együttható kiszámítása – példa A mintapéldában az empirikus korrelációs együttható értéke: Ennek négyzete a determinációs együttható: Az eredményt úgy értelmezhetjük, hogy a termésátlagok változásában a műtrágya felhasználás 72 %-ban játszott szerepet.