Kvantitatív módszerek 4. Korreláció- és regressziószámítás I. Dr. Kövesi János egyetemi tanár
Determinisztikus és sztochasztikus kapcsolatok 56 Determinisztikus és sztochasztikus kapcsolatok A korreláció- és regresszió- számítás során arra keressük a választ, hogy egy adott állapot milyen tényezők hatására jött létre, az egyes tényezők milyen mértékben befolyásolják a jelenség alakulását, a tényezők milyen szoros kapcsolatban vannak egymással. A korrelációs és regressziós számítás a kapcsolatot jellemzi, de semmit nem mond az oksági viszonyról. Tehát két, vagy több változó közötti sztochasztikus kapcsolat megállapításából nem következik, hogy a változók oksági összefüggésben vannak, azaz, hogy egyik tényező változása oka a másik tényező változásának. Az oksági kapcsolatot csak alapos szakmai és statisztikai vizsgálattal lehet megállapítani.
A kapcsolat szemléltetése 57 A kapcsolat szemléltetése 3 2 1 - P o z i t í v k r e l á c ó R S q = 6 . 5 % Y 8 E + 9 X - 3 2 1 N e g a t í v k o r l á c i ó Y = 5 . 7 E 6 4 8 X R S q 9 % - 3 2 1 4 N e m l i n á r s k o c ó Y = . 9 5 8 + 6 7 X * R S q % - 2 1 3 N i n c s k o r e l á ó Y = 7 . 4 E + 8 X R S q % 3 2 1 - P o z i t í v k r e l á c ó R S q = 6 . 5 % Y 8 E + 9 X - 3 2 1 N e g a t í v k o r l á c i ó Y = 5 . 7 E 6 4 8 X R S q 9 % - 2 1 3 N i n c s k o r e l á ó Y = 7 . 4 E + 8 X R S q % - 3 2 1 4 N e m l i n á r s k o c ó Y = . 9 5 8 + 6 7 X * R S q %
Az előjel–korrelációs együttható 58-59 Az előjel–korrelációs együttható Feladat: 14 év adatai alapján vizsgáljuk meg az 1 ha szántóterületre vonatkoztatott műtrágya felhasználás (xi=kg/ha) és az évi búza termés átlagok (yi=q/ha) közötti kapcsolatok jellegét és szorosságát. 71 , 14 2 12 = - e r
A (lineáris) regresszió és korreláció 60 A (lineáris) regresszió és korreláció A regresszió számítás feladata a változók közötti összefüggés jellegének meghatározása. Ennek során a pontdiagramos ábrázolással érzékeltetett tendenciát valamilyen analitikusan ismert függvénnyel próbáljuk leírni. A regressziós függvényt a legkisebb négyzetek elve és módszere alapján határozzuk meg. Ez azt a követelményt támasztja, hogy az adott függvénytípust (egyenes, parabola, exponenciális, stb.) használata során a összeg minimális legyen. Az eltérések (rezidiumok) négyzeteinek összege jól jellemzi a ponthalmaz és a regressziós vonal kölcsönös viszonyát.
A (lineáris) regresszió és korreláció 63 A (lineáris) regresszió és korreláció A korrelációs együttható értéke nulla, ha X és Y függetlenek. Ez fordítva általában nem igaz: abból, hogy két valószínűségi változó korrelációs együtthatója nulla, nem feltétlenül következik, hogy a két változó független is egymástól (kivétel, ha X és Y együttes eloszlása normális). Ha a két változónál csak azt tudjuk, hogy r(x,y)=0, akkor korrelálatlannak nevezzük őket.
A (lineáris) korrelációs együttható 63 A (lineáris) korrelációs együttható Az elméleti korrelációs együtthatót a mintabeli, tapasztalati korrelációs együtthatóból becsülhetjük: ahol: és
64 Feladat: Számítsuk ki a mintapéldában szereplő változó korrelációs együtthatóját! Emlékeztetőül: az előjel – korrelációs együttható értéke 0,71 volt.
Auto- és keresztkorreláció idősorok elemzése 65 Auto- és keresztkorreláció idősorok elemzése 1 2 3 4 5 6 7 8 9 10 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 Autocorrelation 0,09 0,05 -0,06 -0,01 -0,05 -0,02 0,01 0,10 0,02 0,08 3,09 1,68 -2,11 -0,22 -1,65 -0,53 0,45 3,39 0,54 2,85 9,58 12,45 17,02 17,07 19,90 20,19 20,40 32,36 32,67 41,30 Lag Corr T LBQ BUX napi adatok autokorrelációja '94 -'99
Kvantitatív módszerek 11. Korreláció- és regressziószámítás II. Dr. Kövesi János
A (lineáris) korrelációs együttható 140 A (lineáris) korrelációs együttható A korrelációs együttható értéke nulla, ha X és Y függetlenek. Ez fordítva általában nem igaz: abból, hogy két valószínűségi változó korrelációs együtthatója nulla, nem feltétlenül következik, hogy a két változó független is egymástól (kivétel, ha X és Y együttes eloszlása normális). Ha a két változónál csak azt tudjuk, hogy R(X,Y)=0, akkor korrelálatlannak nevezzük őket.
A (lineáris) korrelációs együttható 141 A (lineáris) korrelációs együttható Az elméleti korrelációs együtthatót a mintabeli, tapasztalati korrelációs együtthatóból becsülhetjük: ahol: és
A (lineáris) korrelációs együttható szignifikancia vizsgálata 141 A (lineáris) korrelációs együttható szignifikancia vizsgálata Ho: R (X, Y) = 0 A két változó egymástól független normális eloszlású Ha H0 igaz, akkor r(x,y) alábbi függvénye DF=n-2 szabadság fokkal t - eloszlást követ: Ha adott mellett tsz>tkrit, akkor H0-t elvetjük és =1- megbízhatósággal állíthatjuk, hogy a két változó között sztochasztikus kapcsolat áll fenn.
A (lineáris) korrelációs együttható 141 A (lineáris) korrelációs együttható Feladat: Számítsuk ki a mintapéldában szereplő változó korrelációs együtthatóját és végezzük el a szignifikancia vizsgálatot! Ho: R (X, Y) = 0 DF= n-2 =14-2 = 12 =0,05 tkrit = 2,17 Mivel tsz tkrit, ezért a nullhipotézist elvetjük és nagy biztonsággal állíthatjuk, hogy a két változó között korrelációs (sztochasztikus) kapcsolat van. (Emlékeztetőül: az előjel – korrelációs együttható értéke 0,71 volt).
Az r(x,y) és a regressziós egyenes összefüggése 142 Az r(x,y) és a regressziós egyenes összefüggése Az r2 (x, y) – amelyet determinációs együtthatónak is neveznek – azt fejezi ki, hogy a sztochasztikus kapcsolatban a teljes változás hányad része tulajdonítható x-nek. Értékét %-os formában is megadhatjuk.
142 Feladat A mintapélda adatai alapján határozzuk meg a determinációs index értékét! Az eredményt úgy értelmezhetjük, hogy a termésátlagok változásában a műtrágya felhasználás 72%-ban játszott szerepet.
A regressziós becslés pontossága 143 A regressziós becslés pontossága Nyilvánvaló, hogy a sztochasztikus kapcsolat mérőszámaiból csak akkor vonhatunk le helyes következtetéseket, ha megfelelően nagy mintánk van. Így, az eredmények értékeléséhez hozzátartozik a mérőszámok hibájának vizsgálata is. A pontosság jellemzése céljából tehát most az a, b, paraméterek becslésének szórását (standard hibáját) kell meghatároznunk: 1. A regressziós együtthatók standard hibái (pontbecslés). 2. Konfidencia intervalluma becsült paraméterekre. 3. A lineáris kapcsolat szignifikancia vizsgálata. 4. Az átlagos, vagy az egyedi yi értékek becslése.
1. A regressziós együtthatók standard hibái (pontbecslés). 143 1. A regressziós együtthatók standard hibái (pontbecslés). A standard hibák azt mutatják meg, hogy végtelen sok n elemű mintát véve az alapsokaságból az egyes mintákból becsült b0 és b1 paraméterek átlagosan sb0 és sb1 egységgel szóródnak az alapsokasági regressziófüggvény körül.
2. Konfidencia intervallum a becsült paraméterekre 143 2. Konfidencia intervallum a becsült paraméterekre A becsült paraméterekre konfidencia intervallumokat is konstruálhatunk. Nagy minták esetén normális eloszlás táblázatot-, kis minták esetén a Student-eloszlás t- táblázatát használjuk (DF= n-2):
3. A lineáris kapcsolat szignifikancia vizsgálata 144 3. A lineáris kapcsolat szignifikancia vizsgálata t- próba segítségével azt is ellenőrizhetjük, hogy az Y és X változók között szignifikáns lineáris kapcsolat van-e. Nullhipotézisünk és ellenhipotézisünk: A próbastatisztika: A tkrit értéket szignifikancia szinten DF=n – 2 szabadsági foknál találjuk meg. Ha tsz tkrit, elvetjük Ho-t és valós lineáris összefüggést tételezünk fel X és Y között.
4. Az átlagos, vagy az egyedi yi értékek becslése 145 4. Az átlagos, vagy az egyedi yi értékek becslése
146 Feladat Korábban már többször foglalkoztunk a BUX havi hozamainak statisztikai elemzésével (leíró statisztika, hipotézisvizsgálatok). Az alábbi táblázat alapján vizsgáljuk meg, hogy az 1998. VII.-1999.VI. közötti időszakban a havi hozam (%) alapján kimutatható-e sztochasztikus kapcsolat a BUX és a Zwack hozamai között? Adjunk – előzetes – szakmai magyarázatot az eredményekre!
147 Feladat A diagram és/vagy a táblázat alapján határozzuk meg az előjel – korrelációs együtthatót! Határozzuk meg a tapasztalati korrelációs együtthatót és = 5 % mellett végezzük el a szignifikancia vizsgálatot! Következtetés: tsz > tkrit Ho: R(x,y) = 0 DF = 12-2 = 10 = 5% H0 nem igaz ! tkrit = 2,23
Feladat Következtetés: 147 Becsüljük meg a lineáris regressziófüggvény együtthatóit! Határozzuk meg a determinációs együtthatót és értelmezzük az eredményt! Következtetés: A Zwack hozamának változásában a BUX hozama 46,2 %-ban játszott szerepet.
Feladat 23 , 2 = t Következtetés: 148 Feladat Határozzuk meg a regressziós becslés pontosságát! se = 7,47 sb0 = 2,157 sb1 = 0,143 Készítsünk 95 %-os konfidencia intervallumot a becsült paraméterekre! = 5% 23 , 2 1 = - a t Int(1-α)(βo) = 1,47 4,841 Int(1-α)(β1) = 0,463 0,32 Ellenőrizzük = 5 % mellett, hogy a lineáris kapcsolat szginifikáns-e? DF = 10 tsz = 3,24 tkrit = 2,23 Következtetés: Mivel tsz >tkrit a H0 (β1=0) nem igaz, tehát x és y között szignifikáns lineáris kapcsolat van.