Gazdaságstatisztika Korreláció- és regresszióelemzés 20. előadás.

Slides:



Advertisements
Hasonló előadás
I. előadás.
Advertisements

Kvantitatív Módszerek
Kvantitatív módszerek
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Földrajzi összefüggések elemzése
Csoportosítás megadása: Δx – csoport szélesség
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Regresszió és korreláció
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Valószínűségszámítás és statisztika előadások Gépész-Villamosmérnök szak BSc MANB030, MALB030 Bevezető.
Regresszióanalízis 10. gyakorlat.
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Kvantitatív módszerek
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Készítette: Kosztyán Zsolt Tibor
Kvantitatív módszerek
Az Alakfelismerés és gépi tanulás ELEMEI
szakmérnök hallgatók számára
STATISZTIKA II. 7. Előadás
3. előadás Heterogén sokaságok Szórásnégyzet-felbontás
Kvantitatív Módszerek
Kvantitatív módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 10. előadás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Lineáris regresszió.

Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
I. előadás.
TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Petrovics Petra Doktorandusz
Bevezetés a Korreláció & Regressziószámításba
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Többdimenziós valószínűségi eloszlások
A számítógépes elemzés alapjai
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Korreláció, regresszió
Lineáris regressziós modellek

Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
III. zárthelyi dolgozat konzultáció
III. előadás.
Dr. Varga Beatrix egyetemi docens
Valószínűségi változók együttes eloszlása
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Gazdaságstatisztika Korreláció- és regresszióelemzés 20. előadás

Hol járunk?

Nyitó gondolatok Eddig tömegjelenségek leírását mindig egy már bekövetkezett állapot valószínűségelméleti, matematikai statisztikai vizsgálatával végeztük el. A korreláció- és regresszió- számítás során arra keressük a választ, hogy egy adott állapot milyen tényezők hatására jött létre, az egyes tényezők milyen mértékben befolyásolják a jelenség alakulását, a tényezők milyen szoros kapcsolatban vannak egymással. Összefüggés-vizsgálat, azon belül sztochasztikus kapcsolatok vizsgálata a célunk.

Determinisztikus és sztochasztikus jelenségek Kezdeti, kiindulási feltételekből (peremfeltételekből) mennyire tudunk következtetni a vizsgált jelenség (esemény) végkimenetelére? Két lehetőség Ha a peremfeltételeket fel tudjuk tárni, és ismertek a jelenség lefolyásának szabályai is, és ezekből a jelenség végkimenetele nagy pontossággal megadható, akkor a jelenség determinisztikus. Más szavakkal, a peremfeltételek és a jelenség lefolyásának szabályai determinálják (egyértelműen meghatározzák) a jelenség kimenetelét. Pl. Ohm-törvénye. A peremfeltételeket nem ismerjük, vagy nem akarjuk feltárni, továbbá nem ismerjük a jelenség lefolyásának pontos törvényszerűségeit, ezért a jelenség pontos kimenetele nem határozható meg. Ezek a sztocasztikus jelenségek. Pl. BUX index alakulása.

Determinisztikus és sztochasztikus kapcsolatok A legegyszerűbb esetben két változó kapcsolatát vizsgáljuk X: magyarázó változó, Y: eredményváltozó Determinisztikus kapcsolat X determinálja Y-t, azaz X adott értékéhez Y meghatározott értéke tartozik Sztochasztikus kapcsolat X adott értékéhez Y-nak több lehetséges éréke is tartozhat A kapcsolat a P(Y|X) feltételes valószínűség eloszlásával ragadható meg A gyakorlatban az E(Y|X) feltételes várható értékkel és a V(Y|X) feltételes varianciával jellemezzük a kapcsolatot X értéke és Y átlagos értéke között van határozott kapcsolat. X és Y nem függetlenek, de nincs közöttük determinisztikus összefüggés. Y értékét X értéke és egyéb véletlen hatások is befolyásolják.

A sztochasztikus kapcsolat szemléltetése Empirikus regressziós függvények

Korreláció- és regressziószámítás Korrelációszámítás Az X magyarázó változó és az Y eredményváltozó közötti sztochasztikus kapcsolat erősségét korrelációszámítással határozzuk meg. (A kapcsolat intenzitásának és irányának mérése.) Regressziószámítás Az X magyarázó változó és az Y eredményváltozó közötti sztochasztikus kapcsolat (összefüggés) jellegét regressziószámítással határozzuk meg. (A kapcsolat jellegének feltárása, matematikai függvényekkel történő leírása.)

Sztochasztikus kapcsolat Nem lineáris kapcsolat Erős pozitív lineáris kapcsolat Nincs kapcsolat

A lineáris regressziószámítás alapjai Az ábra alapján pozitív lineáris sztochasztikus kapcsolat feltételezhető a két vizsgált változó között Melyik az az egyenes, amely a “legjobban” illeszkedik a ponthalmazra Mit jelent a “legjobban”?

A legkisebb négyzetek elve Az X magyarázó változó és az Y eredményváltozó közötti sztochasztikus kapcsolatot keressük: Y=f(X), f=? X és Y megfigyeléseiből adottak az (xi; yi) párok (i=1,..,n) A regressziós függvényt a legkisebb négyzetek módszere alapján határozzuk meg. Ez azt a követelményt jelenti, hogy az adott regressziós függvénytípus használata során a négyzetösszeg minimális, ahol a regressziós függvény helyettesítési értéke az helyen. Az különbségeket reziduumoknak nevezzük.

Elméleti lineáris regressziós modell eredményváltozó maradékváltozó magyarázó változó Becslés mintából:

Elméleti lineáris regressziós modell feltételei (1) Lineáris kapcsolat Magyarázó változó (X) nem valószínűségi változó Maradékváltozóra vonatkozó feltételek: M(X) = 0 Var(X) = 2 (homoszkedaszticitás) A maradékváltozó független a magyarázóváltozótól. X  N(0,2)

Elméleti lineáris regressziós modell feltételei (2) x y yi xi

Empirikus lineáris regresszió Az (xi; yi) párokból álló mintából a becsült empirikus regressziós egyenes pontjainak és a minta pontjainak négyzetes távolságösszege minimális. Lehetséges “távolságok” : Merőleges: ezt nehéz kezelni Függőleges Ha a függőleges négyzetes távolságösszeget, azaz -t minimalizáljuk, akkor az első regressziós egyenest kapjuk. Vízszintes Ha a vízszintes négyzetes távolságösszeget minimalizáljuk, akkor a második regressziós egyenest kapjuk

Első- és második regressziós egyenes A két egyenes csak akkor esik egybe, ha a minta minden pontja egy egyenesre esik. Ilyenkor abszolút lineáris kapcsolatról beszélünk. A lineáris regresszió alkalmazása során általában az első regressziós egyenest használjuk. Első regressziós egyenes Második regressziós egyenes

Az epmirikus lineáris regressziós egyenes paramétereinek becslése (1) x y yi S ei2 minimum xi

Az epmirikus lineáris regressziós egyenes paramétereinek becslése (2) X és Y megfigyeléseiből adottak az (xi; yi) párok (i=1,..,n) Az első regressziós egyenes paramétereit szeretnénk becsülni, ehhez a legkisebb négyzetek módszere értelmében az függvényt (b0-tól és b1-től függő négyzetösszeg) kell minimalizálnunk. Belátható, hogy ez akkor minimális, ha E két egyenletet normálegyenleteknek nevezzük, megoldásuk adja az empirikus regressziós egyenes és paramétereit.

Az empirikus lineáris regressziós egyenes paramétereinek becslése (2) ahol , az xi, az yi értékek átlaga.

Az elméleti korrelációs együttható és becslése (1) Az X és Y valószínűségi változók kovarianciája: cov(X,Y) = M(XY)-M(X)M(Y) Ha X és Y függetlenek, cov(X,Y) = 0, de fordítva nem mindig igaz! Ha X és Y együttes eloszlása (kétváltozós) normális eloszlás, akkor cov(X, Y) = 0, pontosan akkor, ha X és Y függetlenek. Az X és Y valószínűségi változók elméleti korrelációs együtthatója (Pearson féle korrelációs együttható):

Az elméleti korrelációs együttható és becslése (2) X és Y közötti lineáris kapcsolat erősségét méri. Minél közelebb van az abszolút értéke 1-hez, annál szorosabb a lineáris kapcsolat. Ha R(X,Y) = 0, akkor X és Y korrelálatlanok. A korrelálatlanságból nem következik a függetlenség. Ha X és Y független, akkor R(X,Y) = 0. Ha X és Y együttes eloszlása (kétváltozós) normális eloszlás, akkor R(X, Y) = 0, pontosan akkor, ha X és Y függetlenek. R(X, Y) becslése mintából az empirikus korrelációs együttható:

A korrelációs együttható szignifikancia vizsgálata Hipotézisvizsgálat Ha H0 igaz, akkor az próbastatisztika DF=n-2 szabadságfokú t-eloszlást követ, ahol r=r(x,y). H0 elutasítása esetén a korrelációs együttható szignifikáns. Ez azt jelenti, hogy R(X, Y) értéke nagy valószínűséggel nem zérus. H0: R(X,Y) = 0 H1: R(X,Y)  0

Példa 14 év adatai alapján vizsgáljuk meg az 1ha szántóterületre vonatkoztatott műtrágya felhasználás (xi=kg/ha) és az évi búza termés átlagok (yi=q/ha) közötti kapcsolatok jellegét és szorosságát. i xi yi 1. 19,9 12,5 2. 31,9 17,0 3. 31,6 16,9 4. 41,4 19,1 5. 53,5 17,9 6. 58,7 15,6 7. 67,2 18,6 8. 70,4 21,7 9. 76,3 10. 101,3 25,9 11. 124,4 25,2 12. 136,2 27,1 13. 166,6 21,3 14. 195,0 30,7

Korrelációs együttható és lineáris regressziós egyenes becslése – példa A példa adatai: i xi yi 1. 19,9 12,5 -64,1 -8,3 4108,8 68,9 532,0 2. 31,9 17,0 -52,0 -3,8 2704,0 14,4 197,6 3. 31,6 16,9 -52,3 -3,9 2735,3 15,2 204,0 4. 41,4 19,1 -42,5 -1,7 1806,2 2,9 72,2 5. 53,5 17,9 -30,4 -2,9 924,2 8,4 88,2 6. 58,7 15,6 -25,2 -5,2 635,0 27,0 131,0 7. 67,2 18,6 -16,7 -2,2 278,9 4,8 36,7 8. 70,4 21,7 -13,5 0,9 182,2 0,8 -12,1 9. 76,3 -7,6 57,8 -6,8 10. 101,3 25,9 17,4 5,1 302,8 26,0 88,7 11. 124,4 25,2 40,5 4,4 1640,2 19,4 178,2 12. 136,2 27,1 52,3 6,3 39,7 329,5 13. 166,6 21,3 82,7 0,5 6839,3 0,2 41,3 14. 195,0 30,7 111,1 9,9 12343,2 98,0 1099,9  1174,3 291,2 37293,2 326,5 2980,4 r(x,y) szignifikancia vizsgálata Ho: R(X, Y)=0 DF=n-2=14-2=12 =0,05 tkrit =2,17 tsz>tkrit => H0-át elvetjük A lineáris regressziós egyenes paramétereinek becslése A regressziós egyenes egyenlete:

Az empirikus korrelációs együttható és a regressziós egyenes összefüggése Y-t a regressziós függvény és az e reziduum összegeként írtuk fel: Az összefüggés a szórásnégyzetekre is igaz: Tapasztalati (minta) adatokból: Determinációs együttható: azt fejezi ki, hogy a sztochasztikus kapcsolatban az eredményváltozó teljes varianciájának hányad része tulajdonítható a magyarázó változónak (x-nek) A teljes változékonyságnak az a része melyet a lineáris kapcsolaton keresztül x magyaráz A teljes változékonyságnak az a része melyet x nem magyaráz

Determinációs együttható kiszámítása – példa A mintapéldában az empirikus korrelációs együttható értéke: Ennek négyzete a determinációs együttható: Az eredményt úgy értelmezhetjük, hogy a termésátlagok változásában a műtrágya felhasználás 72 %-ban játszott szerepet.