Dr. Varga Beatrix egyetemi docens Korreláció-számítás Dr. Varga Beatrix egyetemi docens
Két változó közötti kapcsolat Függetlenség: Az X ismérv szerinti hovatartozás ismerete nem ad semmilyen többletinformációt az Y szerinti hovatartozásról. Sztochasztikus: Az egyik ismérv hatással van a másikra, de nem határozza meg egyértelműen annak értékeit/változatait. Függvényszerű (determinisztikus): A vizsgált egységek X szerinti hovatartozásának ismeretében egyértelműen megmondható azok Y szerinti hovatartozása is. 2
A kapcsolat mérőszámai Két nominális változó közötti kapcsolatot az asszociációs mérőszámokkal jellemezzük . Ordinális típusú változók összefüggését a rangkorrelációs mutatók mérik. Arány skála típusú változók összefüggését korreláció- és regresszió-analízissel elemezzük. Intervallum/arány és nominális skálán mért változók közötti összefüggést H; 3
Korrelációs kapcsolat elemzése esetén a következő kérdésekre keressük a választ Van- e valamilyen összefüggés az ismérvek között? Milyen irányú az összefüggés Mennyire szoros a kapcsolat? Az egyik ismérv változása milyen hatással van a másik ismérv változására?
A mennyiségi ismérvek közötti kapcsolatot korrelációnak nevezzük. A korrelációszámítás: a mennyiségi ismérvek közötti kapcsolat szorosságának mérése. A regresszió-számítás: a mennyiségi ismérvek egymásra gyakorolt hatásának számszerűsítésével, e hatások irányának és mértékének megállapításával foglalkozik. 5
Ha a korrelációs kapcsolat mögött egyirányú okozati összefüggés van akkor: az ok szerepét betöltő ismérv a tényezőváltozó, (magyarázóváltozó), jele: x az okozat szerepét betöltő ismérv az eredményváltozó, jele: y
A korreláció fontosabb típusai 7
Korreláció hiánya A regresszió-függvény bármely X helyen azonos (közel azonos) értéket vesz fel. A függvény képe vízszintes vonal. Y független X-től, X nem befolyásolja Y értékét.
A korreláció hiánya N i n c s k o r e l á ó Y = 7 . 4 E + 8 X R S q % - 2 1 3 N i n c s k o r e l á ó Y = 7 . 4 E + 8 X R S q %
Függvényszerű kapcsolat A korreláció hiányának logikai ellentéte a függvényszerű kapcsolat. Egy adott X értékhez egyetlen Y érték tartozhat. A pontdiagram pontjai a regresszió-vonalhoz illeszkednek, A regresszió-vonal körül nincs szóródás.
Pozitív korreláció P o z i t í v k r e l á c ó R S q = 6 . 5 % Y 8 E + 3 2 1 - P o z i t í v k r e l á c ó R S q = 6 . 5 % Y 8 E + 9 X
Negatív korreláció N e g a t í v k o r l á c i ó Y = 5 . 7 E 6 4 8 X R - 3 2 1 N e g a t í v k o r l á c i ó Y = 5 . 7 E 6 4 8 X R S q 9 %
Nem lineáris korreláció - 3 2 1 4 N e m l i n á r s k o c ó Y = . 9 5 8 + 6 7 X * R S q %
A kapcsolat szorosságának mérőszámai
A kovariancia Az X és Y mennyiségi változók közötti kapcsolat irányát mutatja meg.
Kovariancia tulajdonságai A kovariancia nulla, ha a pozitív és a negatív előjelű eltérésszorzatok összege kiegyenlíti egymást. Kovariancia előjele a kapcsolat irányát mutatja. A kovariancia abszolút mértékének nincs határozott felső korlátja. A kovariancia a két változóban szimmetrikus, X és Y szerepe a formulában felcserélhető.
A korrelációs együttható A korrelációs együttható a lineáris korreláció szorosságának legfontosabb mérőszáma. A kapcsolat hiányát (korrelálatlanság) az r = 0 érték jelzi. Az r előjele a korreláció irányát mutatja. Tökéletes (függvényszerű) lineáris kapcsolatnak - az iránytól függően - az r = +1, illetve r = -1 értékek felelnek meg. A szélsőséges helyzetek között az együttható abszolút értéke a kapcsolat szorosságáról tájékoztat.
Korrelációs együttható
Determinációs együttható A determinációs együttható megmutatja, hogy a magyarázóváltozó hány %-ban befolyásolja az eredményváltozó szóródását. Jele: r2 A determinációs együttható jellemzi: A regressziós függvény illeszkedését, A modell magyarázó erejét.
A rangkorreláció Létezhetnek a statisztikai sokaság egységeinek olyan kvantitatív jellegű tulajdonságai, amelyek számszerűen egyáltalán nem, vagy csak nehezen mérhetők. A mutatószám értéke r-hez hasonlóan természetesen -1 és 1 között helyezkedik el. Ha a kétféle rangsorszám rendre megegyezik, akkor = 1, ha a sorszámok a két ismérv szerint következetesen ellentétesen alakulnak, akkor = -1.
A korrelációs hányados A görbevonalú kapcsolatok szorosságának mérőszáma. A mutatószám kialakításának gondolatmenete: csoportosítjuk a megfigyelt értékeket a tényezőváltozó értékei vagy osztályközei szerint, és kiszámítjuk az eredményváltozó részátlagait az egyes csoportokban.
A korrelációs hányados A korrelációs hányados négyzetét definiáltuk, mivel az csupán a kapcsolat intenzitását jelzi, irányát nem. Megoszlási viszonyszám jellegénél fogva a korrelációs hányados négyzete mindig nulla és egy közé esik. Előjelét nem értelmezzük, megállapodásszerűen pozitív számként kezeljük. A korrelációs hányadost nem szokták százalékos formában kifejezni. Általában y/x x/y tehát nem szimmetrikus az X és Y változókban. X csupán mint csoportképző ismérv szerepel .
Egy vállalat dolgozóinak keresete és havi megtakarítása Bér (Ft/fő) Havi megtakarítás (Ft/hó) 1 120000 13000 2 90000 10000 3 220000 35000 4 150000 18000 5 100000 12000 6 115000 12500 7 160000 20000 8 130000 13800 9 145000 14000 10 11800 Összesen 1330000 160100 dx -13000 -43000 87000 17000 -33000 -18000 27000 -3000 12000 dy -3010 -6010 18990 1990 -4010 -3510 3990 -2210 -2010 -4210 dxdy 39130000 258430000 1652130000 33830000 132330000 63180000 107730000 6630000 -24120000 138930000 2408200000 dx2 169000000 1849000000 7569000000 289000000 1089000000 324000000 729000000 9000000 144000000 13260000000 dy2 9060100 36120100 360620100 3960100 16080100 12320100 15920100 4884100 4040100 17724100 480729000
Kovariancia Értelmezés: a dolgozók keresete és a havi megtakarított összege közötti kapcsolat pozitív irányú.
Korrelációs együttható Dolgozó Bér (Ft/fő) Havi megtakarítás (Ft/hó) dx dy dxdy dx2 dy2 Összesen 1330000 160100 2408200000 13260000000 480729000 Értelmezés: a dolgozók keresete és a havi megtakarított összege közötti kapcsolat pozitív irányú és erős.
Determinációs együttható Értelmezés: a dolgozók keresete 90,98%-ban befolyásolja a havi megtakarított összeg szóródását.
Rangkorreláció Egy régió vállalatainak gazdálkodására vonatkozó adatok Régió 1 2 3 4 5 6 7 8 9 10 Árbevétel (MFt) 34 30 25 22 21 12 31 20 Nyereség (MFt) 16 10,5 11 x 10 8 7 6 5 2 3 1 9 4 y d -1 -3 -4 d2 16 15 Értelmezés: a vállalatok árbevétele és nyeresége között közepesnél szorosabb, pozitív irányú kapcsolat van.
Regresszió-számítás célja: A tényezőváltozónak (x) az eredményváltozóra (y) gyakorolt hatását valamilyen matematikai modell segítségével fejezzük ki.
A leggyakoribb regresszió-függvények lineáris regresszió, hatványkitevős regresszió, exponenciális regresszió, parabolikus regresszió, hiperbolikus regresszió
A kétváltozós lineáris regresszió modellje Legyen X egy tényezőváltozó és Y egy eredményváltozó. Tételezzük fel, hogy X lineáris törvényszerűség szerint fejti ki hatását Y-ra, illetve közrejátszik egy véletlen mozzanat is. A két változó kapcsolatának a formulája: regressziós együtthatók véletlen változó
Az ε véletlen változóról feltételezzük: várható értéke 0 szórása állandó εi változók páronként korrelálatlanok
A becsült regresszió függvény: Ahol: b0 és b1 a regressziós együtthatók becsült értékei
Regressziós együtthatók becslése A becsült regressziós együtthatók kiszámításához a legkisebb négyzetek módszerét alkalmazzuk.
b0 és b1 paraméterek becslései a legkisebb négyzetek módszerével: Szélső értéke adott helyen akkor lehet, ha
Ebből átalakítás után nyert normálegyenletek:
Azonos tevékenységet végző vállalkozások adatai ȳ=229,2/12=19,1 ẋ=66/12=5,5
Elaszticitási együttható Y relatív változása hányszorosa az X relatív változásának Lineáris regresszió esetén az elaszticitási együttható: Átlagos szinten:
Reziduális változó Sy = + Se A megfigyelt Y értékek eltérés négyzetösszege A regresszió által magyarázott eltérésnégyzetösszeg A reziduális eltérés (maradék) eltérésnégyzetösszege
Az Y szóródása csak a véletlentől függ A b1 előjelét rendeljük hozzá. A fenti összefüggésből a korrelációs hányadoshoz hasonló mérőszám definiálható, amely azonos a determinációs együtthatóval. Az Y ingadozását teljes mértékben a regresszióval magyarázzuk Az Y szóródása csak a véletlentől függ A b1 előjelét rendeljük hozzá.
A regressziós modell tesztelése H0: β1=0 a lineáris regresszió fennállásának tagadása H1: β1≠0 A H0 ellenőrzésére alkalmas próbafüggvény: (ν1=1 és ν2=n-2) Ha F<Fkrit H0-t elfogadjuk Ha F>Fkrit van szignifikáns kapcsolat
Variancia-analízis tábla kétváltozós regresszió-számításnál
A regressziós együttható (β1) tesztelése H0: β1=0 valójában nincs korreláció H1: β1≠0 A H0 ellenőrzésére alkalmas próbafüggvény: Ha |t|<t(1-α/2) H0-t elfogadjuk Ha |t|>t(1-α/2) H0-t elvetjük, van kapcsolat X és Y között
Student’s t-test Df 0,55 0,60 0,70 0,75 0,80 0,90 0,95 0,975 0,99 0,995 1 0,158 0,325 0,727 1,000 1,376 3,08 6,31 12,71 31,82 63,66 2 0,142 0,289 0,617 0,816 1,061 1,89 2,92 4,30 6,96 9,92 3 0,137 0,277 0,584 0,765 0,978 1,64 2,35 3,18 4,54 5,84 4 0,134 0,271 0,569 0,741 0,941 1,53 2,13 2,78 3,75 4,60 5 0,132 0,267 0,559 0,920 1,48 2,02 2,57 3,36 4,03 6 0,131 0,265 0,553 0,718 0,906 1,44 1,94 2,45 3,14 3,71 7 0,130 0,263 0,549 0,711 0,896 1,42 1,90 2,36 3,00 3,50 8 0,262 0,546 0,706 0,889 1,40 1,86 2,31 2,90 9 0,129 0,261 0,543 0,703 0,883 1,38 1,83 2,26 2,82 3,25 10 0,260 0,542 0,700 0,879 1,37 1,81 2,23 2,76 3,17 11 0,540 0,697 0,876 1,36 1,80 2,20 2,72 3,11 12 0,128 0,259 0,539 0,695 0,873 1,78 2,18 2,68 3,06 13 0,538 0,694 0,870 1,35 1,77 2,16 2,65 3,01 14 0,258 0,537 0,692 0,868 1,34 1,76 2,14 2,62 2,98 15 0,536 0,691 0,866 1,75 2,60 2,95 16 0,535 0,690 0,865 2,12 2,58 17 0,257 0,534 0,689 0,863 1,33 1,74 2,11 18 0,127 0,688 0,862 1,73 2,10 2,55 2,88 19 0,533 0,861 2,09 2,54 2,86 20 0,687 0,860 1,32 1,72 2,53 2,84 21 0,532 0,686 0,859 2,08 2,52 2,83 22 0,256 0,858 2,07 2,51 23 0,685 1,71 2,50 2,81 24 0,531 0,857 2,06 2,49 2,80 25 0,684 0,856 2,48 2,79 26 27 0,855 1,31 1,70 2,05 2,47 2,77 28 0,530 0,683 29 0,854 2,04 2,46 30 2,75 40 0,126 0,255 0,529 0,681 0,851 1,30 1,68 2,42 2,70 60 0,254 0,527 0,679 0,848 1,67 2,00 2,39 2,66 120 0,526 0,677 0,845 1,29 1,66 1,98 0,253 0,524 0,674 0,842 1,28 1,645 1,96 2,33
Regressziós becslés pontossága