STATISZTIKA II. 8. Előadás

STATISZTIKA II. 8. Előadás
Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

Többváltozós regressziószámítás
Eddig a kétváltozós leíró lineáris modellt ismertük meg. A valóságban általában az eredményváltozót nem egy hanem több magyarázó változóval lehet jól leírni. (több változó szükséges a lényeges összefüggések leírására) Ha a magyarázó változók száma (k) több (k>1), akkor többváltozós lineáris modellről beszélünk:

Többváltozós regressziószámítás
A modellben az X-ek egymástól függetlenül ható tényezők (ha nincs multikollinearitás) . Ennek sérülése – a multikollinearitás – nem tartalmilag probléma, hanem rontja a becslés pontosságát. Az X-ek nem valószínűségi változók. Példák: Y: termelés X-ek: termelés tényezői Y: lakásár X-ek: alapterület, elhelyezkedés, kor, felszereltség Y: háztartások X-ek: fő, m2, felszereltség, vízfogyasztása virágok száma

A modell alakú, ahol y és ε vektorok n eleműek (n a megfigyelések száma), míg X oszlopainak és β elemeinek száma k+1, azaz az ismeretlen paraméterek száma. Az X mátrix első oszlopa csupa 1 elemből áll, ami konstans változót jelent, és a β0 tengelymetszet paraméter becsléséhez szükséges.

A β regressziós együtthatóvektor becslése (LKN módszerrel):
Kiindulva az , és az ezekből következő egyenletekből, az maradék négyzetösszeget kell minimalizálni a függvényében, azaz azt a paramétervektort keressük, amelyik mellett az négyzetösszeg minimális. A feladatot többváltozós szélsőérték-számítással megoldva azt kapjuk, hogy feltéve, hogy az mátrix inverze létezik.

Az mátrix tartalma: ahol az összegzés minden esetben i=1, 2, …, n-ig megy és a változónevek (x1, x2 stb.) az X adatmátrix egy-egy oszlopát jelölik. Látható, hogy az első sorban és oszlopban a megfigyelések megfelelő összegei, az átlókban azok négyzetösszegei szerepelnek. A mátrix további elemei a változók minden lehetséges szorzatösszegét tartalmazzák.

Az mátrix szerkezetéből látszik, hogy
négyzetes és szimmetrikus, sorainak és oszlopainak száma k+1, és a változók átlaga, varianciája, változók kovarianciája. A mátrix tulajdonságaitól függ az is, hogy létezik-e a Lineáris algebrából ismert, hogy ehhez a (k+1)*(k+1) méretű mátrix rangjának k+1-nek kell lennie. Ez akkor következik be, ha azaz a megfigyelések száma nem kisebb, mint a becsülni kívánt paraméterek száma (kevés információból sok paraméter nem becsülhető; 3*a paraméterek száma megfigyelések száma), és mind a változók, mind a megfigyelések lineárisan független rendszert alkotnak (ha a változók között függvényszerű kapcsolat van a becslést nem lehet elvégezni).

Az Excel Eszközök/Adatelemzés/Regresszió menüje.
A többváltozós regresszió paraméterei (azaz a elemei) parciális értelmezésűek. Ez annyit jelent, hogy az egyes együtthatók csak a j-edik változó közvetlen hatását tartalmazzák. A paraméter azt jelenti, hogy xj egységnyi növekedése mekkora változásával jár együtt, ha a többi x változót rögzítjük (ceteris paribus feltétel). Az egységet mindig az adott változó (xj, illetve y) mértékegységében kell érteni.(pl. lakásár: ezer Ft/m2, életkor: év)

A regressziós együtthatók mellett gyakran használjuk többváltozós esetben is az elaszticitási mutatószámokat, amelyek szintén parciális értelmezésűek. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó 1%-os növekedése (csökkenése) hány százalékos növekedéssel (csökkenéssel) jár együtt az eredményváltozóban, feltételezve, hogy az összes többi tényező nem változik (ceteris paribus). A kétváltozós eset alapján:

Az. jól mutatja a rugalmasság parciális jellegét
Az jól mutatja a rugalmasság parciális jellegét. Azt is mutatja, hogy az elaszticitás az xj-k különböző értékeinek függvénye, azaz nem állandó. Ha az elaszticitás függvény helyett konkrét számértékkel akarjuk jellemezni a jelenséget, meg kell adnunk, hogy melyik hely környezetében akarjuk értékelni az elaszticitás függvényt. Ha ez a hely például akkor az elaszticitás értéke: amely már egy százalékosan értelmezhető mutatószámot eredményez.

Az. függvényértékek becslése a korábbiakhoz hasonlóan történik az
Az függvényértékek becslése a korábbiakhoz hasonlóan történik az egyenletből. Készíthető interpoláció és extrapoláció is (a két változós esethez hasonlóan). A reziduumok vektorának előállítása: amely egy n elemű oszlopvektor, elemei az egyes megfigyelésekhez tartozó maradékok értékei. A maradékok szórásnégyzete (reziduális variancia): A négyzetgyöke a reziduális szórás azt mutatja, hogy megfigyeléseink átlagosan mennyivel térnek el a becsült regressziós egyenes megfelelő pontjaitól.

Példa: A cementtermelés magyarországi alakulása és az erre ható tényezők idősorai. Az Excel segítségével végezzük el a becslést.

Cementtermelés (ezer tonna) Épített lakások száma (darab)
Év Cementtermelés (ezer tonna) GDP volumenindex (1985=100) Épített lakások száma (darab) 1985 3678 100 72507 1986 3846 101,34 69428 1987 4153 105,7 57200 1988 3873 50566 1989 3857 106,38 51487 1990 3933 102,68 43771 1991 2529 90,27 33164 1992 2236 87,58 25807 1994 2793 89,6 20947 1995 2875 90,94 24718 1996 2747 92,28 28257 1997 2811 96,64 28130 1998 2999 20323 1999 2980 19287 2000 3326 111,07 21583 2001 3452 115,1 28054 2002 3510 119,13 31511 2003 3641 122,58 35543

Az Excel segítségével végezzük el a becslést:
A paraméterek értelmezése: Konstans: tengelymetszetet jelent, azaz azt, hogy mindkét magyarázó változó 0 értéke mellett mekkora cementtermelés lenne várható. Mivel ez irreális feltevés (távol van a megfigyeléseinktől), ilyen esetekben a tengelymetszet-paramétert nem értelmezzük. A 30,558 paraméter azt jelenti, hogy csupán a GDP növekedése (a lakásépítések számától függetlenül) úgy befolyásolja a cementtermelést, hogy 1 százalékponttal nagyobb GDP-növekedés a cementtermelés 30,6 ezer tonna növekedésével jár együtt. A másik paraméter úgy értelmezendő, hogy ha ezerrel több lakás épül, az a cementtermelés 21,2 ezer tonnával történő növekedését vonja maga után. Megnevezés Koefficiensek Tengelymetszet -617,138293 X változó 1 30, X változó 2 0,

Számíthatjuk az elaszticitásokat is:
pl. A cementtermelés GDP szerinti becsült parciális elaszticitása: ez függ attól, hogy melyik pontban vizsgáljuk. Az átlagpontban (x1átlag=101,6 és x2átlag=35958,3): Ha az időszak végi (legfrissebb) értékeket tekintjük (x1=122,6 és x2=35543), akkor Ez azt jelenti, hogy az időszak végére a cementtermelés érzékenyebb lett a GDP növekedési ütemére.

VARIANCIAANALÍZIS df SS Regresszió 2 4887061,7 Maradék 16 950080,8
A regressziót is számíthatjuk az Excel-lel. Ezek alapján a maradék négyzetösszeg: és innen a (korrigálatlan) reziduális szórásnégyzet: , aminek gyöke a reziduális szórás: Azaz a regressziós egyenes pontjai átlagosan 223,62 ezer tonnával térnek el a tényleges cementtermelési adatoktól. VARIANCIAANALÍZIS df SS Regresszió 2 ,7 Maradék 16 950080,8 Összesen 18 ,5

A pontosság és a kapcsolat mérése
A paraméterek becslése után meg kell állapítani, hogy: a becsült kapcsolat milyen erős, milyen szoros, vannak-e kölcsönös kapcsolatok a magyarázó változók között, mennyire tekinthető sikeresnek az illesztés Erre ad választ a korrelációszámítás. A számítás során a kétváltozós lineáris korrelációs együtthatóból indulunk ki, amelyet az y és az xj változó között r(y, xj )=ryj, az xj és az xl között r(xj , xl)=rjl módon jelölünk.

A pontosság és a kapcsolat mérése
Rendezzük a korrelációs együtthatókat mátrix formába: Ez a korrelációs mátrix, ami a kétváltozós korrelációs együtthatókat tartalmazza rendezett formában. A mátrix négyzetes, és mérete (k+1)*(k+1). Az eredményváltozó (y) megjelenik a mátrixban, de a konstans változó nincs benne (korrelációja bármely változóval értelmetlen, a nevezőben a konstans szórása nulla szerepelne). A mátrix szimmetrikus. Szoros kapcsolatban áll a kovarianciamátrixszal. Kovarianciamátrix - olyan négyzetes mátrix, amely több változó varianciáit és kovarianciáit tartalmazza szimmetrikus elrendezésben. A regressziószámításban az eredményváltozó és a magyarázó változók kovarianciamátrixát szokták használni.

A korrelációs mátrixban a kétváltozós korrelációs együtthatók a vizsgált változók közti minden közvetítőn keresztülgyűrűző kapcsolatok leírására szolgálnak. Mi kíváncsiak vagyunk a két változó közötti közvetlen kapcsolatra is, azaz a kapcsolatból kiszűrjük mindazt a hatást, ami más változók közvetítésével realizálódik. Parciális korrelációs együttható

Parciális korrelációs együttható:
valamely magyarázó változó és az eredményváltozó olyan korrelációs együtthatója, amelyből a többi változó zavaró hatását kiszűrték. Három változós esetben (két hatótényező van) Az y eredményváltozó és az x1 magyarázó változó közti ry1.2 parciális korrelációs együttható azt mutatja, hogy milyen szoros és milyen irányú a sztochasztikus kapcsolat y és x1 között akkor, ha csak a közvetlen kapcsolatot tekintjük, és kiiktatjuk az x2 -n keresztül érvényesülő közvetett hatásokat.

A parciális korrelációs együtthatók számítása általában a korrelációs mátrix inverzéből történik.
Jelöljük a korrelációs mátrix inverzének elemeit q-val: Ekkor az y és a j-edik magyarázó változó parciális korrelációs együtthatója:

A parciális korrelációs együtthatók előállíthatók az egyszerű korrelációs együtthatókból is elemi úton. Ha a magyarázó változók száma 2:

A többszörös determinációs együttható:
a kétváltozós eset determinációs együtthatójának többváltozós esetre történő kiterjesztése. A négyzetösszeg felbontásából származtatjuk: A második elem azt hangsúlyozza, hogy az y eredményváltozó és az összes többi változó kapcsolatát akarjuk jellemezni. Tartalma az, hogy a teljes regresszió által megmagyarázott eltérés négyzetösszeg hány százalékát teszi ki a teljes négyzetösszegnek. Hasonlít a H2 típusú mutatókhoz, értelmezhető PRE elv alapján, felfogható a modell magyarázó erejének is.

Az alapadatokból kiszámítása egyszerű.
Bármelyik kettő ismeretében a négyzetösszeg-felbontás alapján kalkulálható a determinációs együttható.

A korrelációs mátrixból:
Ahol qyy a korrelációs mátrix inverzének főátlóbeli eleme. A többszörös determinációs együttható előállítható közvetlenül a kétváltozós korrelációs együtthatókból. (két magyarázó változó esetén)

A többszörös korrelációs együtthatót a többszörös determinációs együttható pozitív előjelű négyzetgyökeként definiáljuk: Értéke arra utal, hogy a magyarázó változók és az eredményváltozó között milyen szoros a kapcsolat. A többszörös korrelációs együttható felírható egyszerű korrelációs együtthatóként is:

A multikollinearitás jellemzésekor az eredményváltozó és a magyarázó változók egy részhalmaza között keressük a kapcsolatot. Kereshetjük a j-edik magyarázó változó és a többi magyarázó változó közti teljes magyarázó erő leírását adó determinációs együtthatót is. A 2. esetben pl. az determinációs együtthatót keresve felírhatjuk a regressziót, majd ezt becsüljük és négyzetösszegeiből előállítjuk a megfelelő determinációs együtthatót.

Ha különböző számú magyarázó változót tartalmazó modellek illeszkedését hasonlítjuk össze a determinációs együttható nem jól használható. Szabadságfokkal korrigált mutatót kell alkalmazni!!!!

Példa: A KSH 2001-es kistérségi adatbázisából véletlenszerűen kiválasztott 15 kistérség adatai.

Egy főre jutó jövedelem Munkanélküliségi ráta
Kistérség Egy főre jutó jövedelem Iparosodás aránya Munkanélküliségi ráta (ezer Ft) (%) Sarkad 120,8 35,8 12,7 Szikszó 128,8 32 16,8 Szentes 177,3 29,9 7,8 Tét 181,6 39,9 6 Polgár 170,6 39,3 13,9 Törökszentmiklós 154,4 39,6 11,5 Kisbér 180,8 32,5 8 Rétság 175,8 43,6 8,9 Szob 230,4 41,7 5,2 Lengyeltóti 126,5 24 8,1 Mátészalka 117,4 30 13,7 Paks 246,9 41,6 7,7 Várpalota 238,1 62,3 6,7 Zalaegerszeg 241,4 43,5 4,9 Bácsalmás 134,3 26 11,7

A három változó közötti korrelációs mátrix:
Az ipar hatása erős pozitív (0,7118), a munkanélküliség hatása erős negatív (-0,7466), a kölcsönhatásuk közepes negatív (-0,3956).

A parciális korrelációs együtthatók számítása pl.
Az iparosodás és jövedelemképződés közötti közvetlen kapcsolat szoros és pozitív, de gyengébb mint a teljes kapcsolat (a munkanélküliség közvetett hatása miatt). nagyobb iparosodás kisebb munkanélküliség jövedelem növekedés

A determinációs együttható meghatározásához a négyzetösszeg-felbontást használjuk fel:
A többszörös determinációs együttható: Ez azt jelenti, hogy a kistérségi jövedelmek alakulását kb. 77%-ban tudjuk magyarázni a két változóval (a modell magyarázó ereje 77%-os). A többszörös korrelációs együttható ennek négyzetgyöke: Amely a tényleges és modellből becsült jövedelmek szoros kapcsolatát mutatja.

Útelemzés Valós esetekben a magyarázó változók nem korrelálatlanok, egyik elmozdulása szükségképp elmozdítja valamely másikat is, így a parciális hatások mellett közvetett hatások is jelentkeznek és ezeket is szükséges vizsgálni a regresszióban. pl. háztartások tejfogyasztása (eredményváltozó) egy főre jutó jövedelem és a háztartásban élő gyermekek száma (magyarázó változók) A két magyarázó változó nem független egymástól, mivel a gyermekek számának növekedésével csökken az egy főre jutó jövedelem. Az egy főre jutó jövedelem parciális regressziós együtthatója csak a közvetlen hatást mutatja (növekvő jövedelem növekvő fogyasztást okoz) Teljes hatás < közvetlen hatás !!!!!!

Útelemzés Legyen regressziónk most
A jövedelem és a tejfogyasztás közvetlen kapcsolatát a βy1 együttható fejezi ki. A teljes hatáshoz szükség van a másik ágon realizált hatások felmérésére. Az x1 és x2 közötti kapcsolatot a két magyarázó változó közötti regresszióból kapjuk meg: A β21 paraméter azt jelenti, hogy az egy egységgel magasabb egy főre jutó jövedelem mennyivel kisebb gyerekszámmal jár együtt átlagosan. tejfogyasztás egy főre jutó jövedelem gyermekek száma

Útelemzés A βy2 együttható azt mutatja, hogy eggyel nagyobb gyerekszám ceteris paribus mennyivel nagyobb fogyasztást okoz. Ezért, ha az egy főre jutó jövedelem közvetett hatását szeretnénk felmérni a fogyasztásra, a β21* βy2 szorzatot kell képeznünk. Ez azt jelenti, hogy az egy főre jutó jövedelem egységnyi növekedése a gyerekszámon keresztül hány egységgel növeli az egy főre jutó fogyasztást. A közvetlen és közvetett hatások összege adja meg a teljes hatást: Az ezt kifejező β1 paraméter az egy főre jutó jövedelem és az egy főre jutó tejfogyasztás közti kétváltozós regressziófüggvény meredekségi paramétere.

A nyilak a regressziós kapcsolatokat jelölik.
Az útelemzés sémája: A nyilak a regressziós kapcsolatokat jelölik. közvetlen hatás közvetett hatás Közvetlen hatás + Közvetett hatás = Teljes hatás

20 háztartás adatai Fogyasztás (liter) y Jövedelem (ezer Ft/fő) x1
Gyerekszám (fő) x2 5,4 27,3 3 : 6,4 73,5 2 42,2 5,5 30 7,1 21,5 4 20 háztartás adatai

Háromváltozós becsült regressziós függvény:
együtthatói parciális értelmezésűek Milyen regressziós összefüggés van a gyerekszám és az egy főre jutó jövedelem között? A teljes hatás: Kétváltozós regresszióval is megkaphatjuk ezt az értéket, ha a gyerekszám és a tejfogyasztás közötti kapcsolatot közvetlenül vizsgáljuk:

Proxyk, dummyk és minőségi változók
A regressziós modellekben megjelenhetnek magyarázó változóként diszkrét, ordinális szintű, nem megfigyelhető változók is. Proxy változó - nem megfigyelhető jelenség hatását pótló (helyettesítő) változó. A regressziószámításban jellemző módon a magyarázó változók pozíciójában jelenhet meg. Pl. nemzetközi politikai légkör leírására az aranyár vagy olajár, analitikus trendszámításnál a t időváltozó (a regresszió speciális esete),

Proxyk, dummyk és minőségi változók
Minőségi változók kezelése: minőségi ismérvnek két változata van: férfi – nő, vezető – beosztott, ….stb. (dummy – d – változó alkalmazása) lehetőségek: d=1 férfi d=0 nő d=0 férfi d=1 nő d=1/2 férfi d= –1/2 nő A paraméterek értelmezése más az egyes esetekben!!!!

Használt gépkocsik futásteljesítménye, ára és törésjellemzője
Sorszám Eladási ár Futott km. Töréskár (ezer Ft) (ezer km) (1= volt) 1 1450 10 2 1380 20 3 1320 30 4 1100 40 5 1030 50 6 1020 60 7 910 70 8 760 80 9 540 90 500 100 11 420 110 12 400 120 Használt gépkocsik futásteljesítménye, ára és törésjellemzője

A becslés eredménye: -79,13 jelentése az, hogy ha egy kocsinak volt töréskára az a kínálati árát 79 ezer Ft-tal csökkenti.

Ha kettőnél több változata van a minőségi ismérvnek (m kategória) akkor általában (a nullának tekintett referenciakategória mellett) m-1 számú változót használunk fel. Példa: A képzettség és a bér kapcsolata egy vállalatnál

Tanulásban töltött idő (év) Munkában töltött idő (év)
Középfokú végzettség Felsőfokú végzettség Tanulásban töltött idő (év) Végzettség Havi bér (Ft) y 19 12 1 ff 167500 26 kf 92260 28 93700 16 15 172200 : 81380 9 75400 17 82300 30 117000 Munkában töltött idő (év) KF FF

Regresszió megfogalmazása:
y= havi bruttó bér x= munkában töltött évek KF; FF= A dummyk az alapfokú végzettséghez (referenciakategóriához) képest adják az eredményt

STATISZTIKA II. 8. Előadás

Hasonló előadás

Az előadások a következő témára: "STATISZTIKA II. 8. Előadás"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

STATISZTIKA II. 8. Előadás

Hasonló előadás

Az előadások a következő témára: "STATISZTIKA II. 8. Előadás"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés