Két kvantitatív változó kapcsolatának vizsgálata
Egy KSH-vizsgálat adatai 55 50 45 Születési testhossz (cm) 40 35 1 2 3 4 5 Születési súly (kg)
Az előrejelzés problémája Ha az anya 50 kg súlyú, kb. hány kiló 10 éves gyermeke?
Előrejelzés egy egyenes segítségével 45 40 35 Gyerek tests. 10 év (kg) 30 25 20 40 50 60 70 80 Anya testsúlya (kg)
Melyik a legjobb előrejelző egyenes? 45 40 35 Gyerek tests. 10 év (kg) 30 25 20 40 50 60 70 80 Anya testsúlya (kg)
Az előrejelzés alapfogalmai Jósolt (függő) változó: Y Jósló (előrejelző, független) változó: X Lineáris előrejelzés (jóslás): Ŷ = a + bX Az x értékhez tartozó igazi Y-érték: y Az x értékhez tartozó előrejelzés: ŷ = a + bx Az előrejelzés hibája egy személynél: (y - ŷ)2 A legjobb előrejelzésnél E[(Y - Ŷ)2] minimális
Szokásos szóhasználat Legjobb előrejelző egyenes: regressziós egyenes Regressziós egyenes képlete, y = a + bx, a lineáris regressziós függvény Regressziós egyenlet meghatározása: regressziós feladat Regresszió hibája = hibavariancia: Res = E((Y - Ŷ)2) a és b paraméter: regressziós együtthatók
Példák lineáris regresszióra Változó Átlag Variancia Regressziós egyenlet X: SúlySzül 3,21 0,25 Y = 26,05 + 2,24X Y: Súly10 33,2 46,4 Res = 45,20 X: ThosszSzül 50,2 6,4 Y = 96,88 + 0,83X Y: Thossz10 138,7 41,5 Res = 37,09 X: Anyatesth 161,1 38,3 Y = 77,66 + 0,38X Y: Thossz10 138,7 41,5 Res = 36,02
Az Y kvantitatív változó előrejelzése X ismerete nélkül, illetve X ismeretében Y legjobb előrejelzése abban az esetben, ha nem tudunk semmit X-ről vagy más változókról: mY Ezen előrejelzés hibája: E[(Y - mY)2] = Var(Y) X-et is felhasználva a legkisebb hibájú előrejelzés: Ŷ = a + bX, az X változó Y-ra von. lineáris regressziós függvénye. Ezen előrejelzés hibája, az ún. hibavariancia: E[(Y - Ŷ)2] = Res
Milyen szoros az együttjárása Y-nak az X kvantitatív változóval? Minél informatívabb X az Y változóra nézve, annál kisebb lesz Res a Var(Y)-hoz viszonyítva, vagyis annál kisebb lesz a Res/Var(Y) hányados. Viszont annál nagyobb lesz a mutató, az X változónak az Y változóra vonatkozó lineáris determinációs együtthatója.
Alapösszefüggések a determinációs együtthatóra 0 £ Det(X,Y) £ 1 Det(X,Y) = 0 csakkor, ha Res = Var(Y). Ekkor X nem tartalmaz lineáris jellegű információt Y-ra nézve. Det(X,Y) = 1 csakkor, ha Res = 0. Ekkor Y hibamentesen előrejelezhető X által. X determinisztikusan meghatározza Y-t, éspedig lineáris függvény formájában.
A determinációs együttható Jól mutatja, hogy Y milyen mértékben függ lineárisan X-től, hogy X milyen mértékben határozza meg, “determinálja” Y-t. FONTOS: Det(X,Y) = Det(Y,X). Jelzi, hogy az X és az Y változó milyen mértékben határozza meg egymást, vagy másképpen: X és Y milyen szoros lineáris típusú kapcsolatban van egymással.
Két véletlen változó függetlensége DEFINÍCIÓ: Y független X-től, ha Y eloszlása ugyanaz bármely X = x mellett KÉRDÉS: Függ-e a személy magassága a nemétől?
Függ-e a születési testhossz a születési súlytól? És fordítva? 55 50 Születési testhossz (cm) 45 40 35 1 2 3 4 5 Születési súly (kg)
Függ-e az Y változó X-től? 1 80 Y Y 0,5 50 20 X 0,5 X 1 20 50 80
Függ-e az Y változó X-től? 2 X -3 3
A függetlenség kölcsönös FONTOS: Ha Y független X-től, akkor X is független Y-tól
Függetlenség és elméleti átlag Bármely X és Y kvantitatív változóra: E(X+Y) = E(X) + E(Y) Ha X és Y független egymástól, akkor E(X·Y) = E(X)·E(Y), vagyis ekkor E(X·Y) - E(X)·E(Y) = 0, de a megfordítás nem mindig igaz.
Két változó kovarianciája DEFINÍCIÓ: Cov(X,Y) = E(X·Y) - E(X)·E(Y) Ha X és Y független változók, akkor Cov(X,Y) = 0 A megfordítás nem mindig igaz, vagyis nulla kovariancia esetén X és Y nem biztos, hogy független egymástól.
Két kvantitatív változó korrelációs együtthatója Ha X vagy Y szórását megkétszerezzük, kétszeresére nő kovarianciájuk is. Szórásokkal leosztott, ún. “standardizált” kovariancia = korrelációs együttható:
Összefüggés a korrelációs együttható és a determinációs együttható között A korrelációs együttható négyzete mindig megegyezik a determinációs együtthatóval: [r(X,Y)]2 = Det(X,Y) r(X,Y) tehát az X és Y közti összefüggés mértékét jelzi, vagyis a lineáris típusú kapcsolat szorosságának mérőszáma.
A korrelációs együttható jellemzői -1 £ r(X,Y) £ 1 Ha X és Y független, akkor r(X,Y) = 0. Ha r(X,Y) = 0, vagyis ha X és Y korrelálatlan, akkor nem feltétlenül függetlenek, de biztos, hogy nincs köztük lineáris típusú összefüggés (U vagy fordított U alakú kapcsolatban persze lehetnek). Ha X és Y együttes eloszlása normális, azaz bármely rögzített X = x mellett Y normális, akkor a függetlenség és a korrelálatlanság ekvivalens.
Regresszió és korreláció kapcsolata Az elméleti korrelációs együttható szokásos jelölései: r(X,Y), rXY vagy r A lineáris regresszió képlete: Ŷ = a + bX vagy Ŷ = aYX + bYXX Ekkor sXbYX = sYr és zY = rzX
Két következmény Ha X értékét 1 egységgel növeljük, akkor Y értéke várhatóan bYX egységgel nő. Ha viszont sX egységgel növeljük, akkor Y értéke várhatóan rsY egységgel nő. r előjele összhangban van a regressziós egyenes irányával. Ha a regressziós egyenes emelkedő, akkor X és Y között pozitív a korreláció. Ha ereszkedő, akkor r negatív.
r = 0,5
r = -0,5
r = -0,9
r = -0,83
r = 0
A mintabeli korrelációs együttható Jelölése: rXY vagy r Egyik képlete: Ez az elméleti kovariancia mintabeli becslése osztva a két mintaszórás szorzatával. rXY az elméleti korr. eh. egyik pontbecslése.
Korrel. eh. vizsgálata t Feltétel: X és Y együttes eloszlása legyen normális X-minta H0: rXY = 0 t (f = n-2) 0,95 0,025 0,025 -t 0,05 t 0,05 t £ -t0,05 |t| < t0,05 t ³ t0,05 H1: rXY < 0 H0 H2: rXY > 0
Korrel. eh. vizsgálata rxy kiszámítása Feltétel: X és Y együttes eloszlása legyen normális X-minta H0: rXY = 0 A t-táblázat helyett használható az rXY eh. kritikus értékeinek táblázata is. rxy kiszámítása (f = n - 2) r £ -r0,05 |r| < r0,05 r ³ r0,05 H1: rXY < 0 H0 H2: rXY > 0