Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

STATISZTIKA II. 8. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.

Hasonló előadás


Az előadások a következő témára: "STATISZTIKA II. 8. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."— Előadás másolata:

1 STATISZTIKA II. 8. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

2 Eddig a kétváltozós leíró lineáris modellt ismertük meg. A valóságban általában az eredményváltozót nem egy hanem több magyarázó változóval lehet jól leírni. (több változó szükséges a lényeges összefüggések leírására) Ha a magyarázó változók száma (k) több (k>1), akkor többváltozós lineáris modellről beszélünk: Többváltozós regressziószámítás

3

4 A modellben az X-ek egymástól függetlenül ható tényezők (ha nincs multikollinearitás). Ennek sérülése – a multikollinearitás – nem tartalmilag probléma, hanem rontja a becslés pontosságát. Az X-ek nem valószínűségi változók. Példák: Y: termelés X-ek: termelés tényezői Y: lakásárX-ek: alapterület, elhelyezkedés, kor, felszereltség Y: háztartások X-ek: fő, m 2, felszereltség, vízfogyasztása virágok száma Többváltozós regressziószámítás

5 A modell alakú, ahol y és ε vektorok n eleműek (n a megfigyelések száma), míg X oszlopainak és β elemeinek száma k+1, azaz az ismeretlen paraméterek száma. Az X mátrix első oszlopa csupa 1 elemből áll, ami konstans változót jelent, és a β 0 tengelymetszet paraméter becsléséhez szükséges.

6 A β regressziós együtthatóvektor becslése (LKN módszerrel): Kiindulva az, és az ezekből következő egyenletekből, az maradék négyzetösszeget kell minimalizálni a függvényében, azaz azt a paramétervektort keressük, amelyik mellett az négyzetösszeg minimális. A feladatot többváltozós szélsőérték-számítással megoldva azt kapjuk, hogy feltéve, hogy az mátrix inverze létezik.

7 Az mátrix tartalma: ahol az összegzés minden esetben i=1, 2, …, n-ig megy és a változónevek (x 1, x 2 stb.) az X adatmátrix egy-egy oszlopát jelölik. Látható, hogy az első sorban és oszlopban a megfigyelések megfelelő összegei, az átlókban azok négyzetösszegei szerepelnek. A mátrix további elemei a változók minden lehetséges szorzatösszegét tartalmazzák.

8 Azmátrix szerkezetéből látszik, hogy négyzetes és szimmetrikus, sorainak és oszlopainak száma k+1, és a változók átlaga, varianciája, változók kovarianciája. A mátrix tulajdonságaitól függ az is, hogy létezik-e a Lineáris algebrából ismert, hogy ehhez a (k+1)*(k+1) méretű mátrix rangjának k+1-nek kell lennie. Ez akkor következik be, ha azaz a megfigyelések száma nem kisebb, mint a becsülni kívánt paraméterek száma (kevés információból sok paraméter nem becsülhető; 3*a paraméterek számamegfigyelések száma), és mind a változók, mind a megfigyelések lineárisan független rendszert alkotnak (ha a változók között függvényszerű kapcsolat van a becslést nem lehet elvégezni).

9 Az Excel Eszközök/Adatelemzés/Regresszió menüje. A többváltozós regresszióparaméterei (azaz a elemei) parciális értelmezésűek. Ez annyit jelent, hogy az egyes együtthatók csak a j-edik változó közvetlen hatását tartalmazzák. A paraméter azt jelenti, hogy x j egységnyi növekedésemekkora változásával jár együtt, ha a többi x változót rögzítjük (ceteris paribus feltétel). Az egységet mindig az adott változó (x j, illetve y) mértékegységében kell érteni.(pl. lakásár: ezer Ft/m 2, életkor: év)

10 A regressziós együtthatók mellett gyakran használjuk többváltozós esetben is az elaszticitási mutatószámokat, amelyek szintén parciális értelmezésűek. Az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága (elaszticitása) azt mutatja meg, hogy a megfelelő magyarázó változó 1%-os növekedése (csökkenése) hány százalékos növekedéssel (csökkenéssel) jár együtt az eredményváltozóban, feltételezve, hogy az összes többi tényező nem változik (ceteris paribus). A kétváltozós eset alapján:

11 Az jól mutatja a rugalmasság parciális jellegét. Azt is mutatja, hogy az elaszticitás az x j -k különböző értékeinek függvénye, azaz nem állandó. Ha az elaszticitás függvény helyett konkrét számértékkel akarjuk jellemezni a jelenséget, meg kell adnunk, hogy melyik hely környezetében akarjuk értékelni az elaszticitás függvényt. Ha ez a hely például akkor az elaszticitás értéke: amely már egy százalékosan értelmezhető mutatószámot eredményez.

12 Azfüggvényértékek becslése a korábbiakhoz hasonlóan történik azegyenletből. Készíthető interpoláció és extrapoláció is (a két változós esethez hasonlóan). A reziduumok vektorának előállítása: amely egy n elemű oszlopvektor, elemei az egyes megfigyelésekhez tartozó maradékok értékei. A maradékok szórásnégyzete (reziduális variancia): A négyzetgyöke a reziduális szórás azt mutatja, hogy megfigyeléseink átlagosan mennyivel térnek el a becsült regressziós egyenes megfelelő pontjaitól.

13 Példa: A cementtermelés magyarországi alakulása és az erre ható tényezők idősorai. Az Excel segítségével végezzük el a becslést.

14 Év Cementtermelés (ezer tonna) GDP volumenindex (1985=100) Épített lakások száma (darab) , , , , , , , , , , , , , , , , ,

15 Az Excel segítségével végezzük el a becslést: A paraméterek értelmezése: Konstans: tengelymetszetet jelent, azaz azt, hogy mindkét magyarázó változó 0 értéke mellett mekkora cementtermelés lenne várható. Mivel ez irreális feltevés (távol van a megfigyeléseinktől), ilyen esetekben a tengelymetszet- paramétert nem értelmezzük. A 30,558 paraméter azt jelenti, hogy csupán a GDP növekedése (a lakásépítések számától függetlenül) úgy befolyásolja a cementtermelést, hogy 1 százalékponttal nagyobb GDP- növekedés a cementtermelés 30,6 ezer tonna növekedésével jár együtt. A másik paraméter úgy értelmezendő, hogy ha ezerrel több lakás épül, az a cementtermelés 21,2 ezer tonnával történő növekedését vonja maga után. MegnevezésKoefficiensek Tengelymetszet-617, X változó 130, X változó 20,

16 Számíthatjuk az elaszticitásokat is: pl. A cementtermelés GDP szerinti becsült parciális elaszticitása: ez függ attól, hogy melyik pontban vizsgáljuk. Az átlagpontban (x 1 átlag=101,6 és x 2 átlag=35958,3): Ha az időszak végi (legfrissebb) értékeket tekintjük (x 1 =122,6 és x 2 =35543), akkor Ez azt jelenti, hogy az időszak végére a cementtermelés érzékenyebb lett a GDP növekedési ütemére.

17 A regressziót is számíthatjuk az Excel-lel. Ezek alapján a maradék négyzetösszeg: és innen a (korrigálatlan) reziduális szórásnégyzet:, aminek gyöke a reziduális szórás: Azaz a regressziós egyenes pontjai átlagosan 223,62 ezer tonnával térnek el a tényleges cementtermelési adatoktól. VARIANCIAANALÍZIS dfSS Regresszió ,7 Maradék ,8 Összesen ,5

18 A paraméterek becslése után meg kell állapítani, hogy: a becsült kapcsolat milyen erős, milyen szoros, vannak-e kölcsönös kapcsolatok a magyarázó változók között, mennyire tekinthető sikeresnek az illesztés Erre ad választ a korrelációszámítás. A számítás során a kétváltozós lineáris korrelációs együtthatóból indulunk ki, amelyet az y és az x j változó között r(y, x j )=r yj, az x j és az x l között r(x j, x l )=r jl módon jelölünk. A pontosság és a kapcsolat mérése

19 Rendezzük a korrelációs együtthatókat mátrix formába: Ez a korrelációs mátrix, ami a kétváltozós korrelációs együtthatókat tartalmazza rendezett formában. A mátrix négyzetes, és mérete (k+1)*(k+1). Az eredményváltozó (y) megjelenik a mátrixban, de a konstans változó nincs benne (korrelációja bármely változóval értelmetlen, a nevezőben a konstans szórása nulla szerepelne). A mátrix szimmetrikus. Szoros kapcsolatban áll a kovarianciamátrixszal. Kovarianciamátrix - olyan négyzetes mátrix, amely több változó varianciáit és kovarianciáit tartalmazza szimmetrikus elrendezésben. A regressziószámításban az eredményváltozó és a magyarázó változók kovarianciamátrixát szokták használni. A pontosság és a kapcsolat mérése

20 A korrelációs mátrixban a kétváltozós korrelációs együtthatók a vizsgált változók közti minden közvetítőn keresztülgyűrűző kapcsolatok leírására szolgálnak. Mi kíváncsiak vagyunk a két változó közötti közvetlen kapcsolatra is, azaz a kapcsolatból kiszűrjük mindazt a hatást, ami más változók közvetítésével realizálódik. Parciális korrelációs együttható

21 Parciális korrelációs együttható: valamely magyarázó változó és az eredményváltozó olyan korrelációs együtthatója, amelyből a többi változó zavaró hatását kiszűrték. Három változós esetben (két hatótényező van) Az y eredményváltozó és az x 1 magyarázó változó közti r y1.2 parciális korrelációs együttható azt mutatja, hogy milyen szoros és milyen irányú a sztochasztikus kapcsolat y és x 1 között akkor, ha csak a közvetlen kapcsolatot tekintjük, és kiiktatjuk az x 2 -n keresztül érvényesülő közvetett hatásokat.

22 A parciális korrelációs együtthatók számítása általában a korrelációs mátrix inverzéből történik. Jelöljük a korrelációs mátrix inverzének elemeit q-val: Ekkor az y és a j-edik magyarázó változó parciális korrelációs együtthatója:

23 A parciális korrelációs együtthatók előállíthatók az egyszerű korrelációs együtthatókból is elemi úton. Ha a magyarázó változók száma 2:

24 A többszörös determinációs együttható: a kétváltozós eset determinációs együtthatójának többváltozós esetre történő kiterjesztése. A négyzetösszeg felbontásából származtatjuk: A második elem azt hangsúlyozza, hogy az y eredményváltozó és az összes többi változó kapcsolatát akarjuk jellemezni. Tartalma az, hogy a teljes regresszió által megmagyarázott eltérés négyzetösszeg hány százalékát teszi ki a teljes négyzetösszegnek. Hasonlít a H 2 típusú mutatókhoz, értelmezhető PRE elv alapján, felfogható a modell magyarázó erejének is.

25 Az alapadatokból kiszámítása egyszerű. Bármelyik kettő ismeretében a négyzetösszeg-felbontás alapján kalkulálható a determinációs együttható.

26 A korrelációs mátrixból: Ahol q yy a korrelációs mátrix inverzének főátlóbeli eleme. A többszörös determinációs együttható előállítható közvetlenül a kétváltozós korrelációs együtthatókból. (két magyarázó változó esetén)

27 A többszörös korrelációs együtthatót a többszörös determinációs együttható pozitív előjelű négyzetgyökeként definiáljuk: Értéke arra utal, hogy a magyarázó változók és az eredményváltozó között milyen szoros a kapcsolat. A többszörös korrelációs együttható felírható egyszerű korrelációs együtthatóként is:

28 1.A multikollinearitás jellemzésekor az eredményváltozó és a magyarázó változók egy részhalmaza között keressük a kapcsolatot. 2.Kereshetjük a j-edik magyarázó változó és a többi magyarázó változó közti teljes magyarázó erő leírását adó determinációs együtthatót is. A 2. esetben pl. az determinációs együtthatót keresve felírhatjuk a regressziót, majd ezt becsüljük és négyzetösszegeiből előállítjuk a megfelelő determinációs együtthatót.

29 Ha különböző számú magyarázó változót tartalmazó modellek illeszkedését hasonlítjuk össze a determinációs együttható nem jól használható. Szabadságfokkal korrigált mutatót kell alkalmazni!!!!

30 Példa: A KSH 2001-es kistérségi adatbázisából véletlenszerűen kiválasztott 15 kistérség adatai.

31 Kistérség Egy főre jutó jövedelem Iparosodás aránya Munkanélküliségi ráta (ezer Ft)(%) Sarkad120,835,812,7 Szikszó128,83216,8 Szentes177,329,97,8 Tét181,639,96 Polgár170,639,313,9 Törökszentmiklós154,439,611,5 Kisbér180,832,58 Rétság175,843,68,9 Szob230,441,75,2 Lengyeltóti126,5248,1 Mátészalka117,43013,7 Paks246,941,67,7 Várpalota238,162,36,7 Zalaegerszeg241,443,54,9 Bácsalmás134,32611,7

32 A három változó közötti korrelációs mátrix: Az ipar hatása erős pozitív (0,7118), a munkanélküliség hatása erős negatív (-0,7466), a kölcsönhatásuk közepes negatív (-0,3956).

33 A parciális korrelációs együtthatók számítása pl. Az iparosodás és jövedelemképződés közötti közvetlen kapcsolat szoros és pozitív, de gyengébb mint a teljes kapcsolat (a munkanélküliség közvetett hatása miatt). nagyobb iparosodás kisebb munkanélküliségjövedelem növekedés

34 A determinációs együttható meghatározásához a négyzetösszeg- felbontást használjuk fel: A többszörös determinációs együttható: Ez azt jelenti, hogy a kistérségi jövedelmek alakulását kb. 77%- ban tudjuk magyarázni a két változóval (a modell magyarázó ereje 77%-os). A többszörös korrelációs együttható ennek négyzetgyöke: Amely a tényleges és modellből becsült jövedelmek szoros kapcsolatát mutatja.

35 Valós esetekben a magyarázó változók nem korrelálatlanok, egyik elmozdulása szükségképp elmozdítja valamely másikat is, így a parciális hatások mellett közvetett hatások is jelentkeznek és ezeket is szükséges vizsgálni a regresszióban. pl. háztartások tejfogyasztása (eredményváltozó) egy főre jutó jövedelem és a háztartásban élő gyermekek száma (magyarázó változók) A két magyarázó változó nem független egymástól, mivel a gyermekek számának növekedésével csökken az egy főre jutó jövedelem. Az egy főre jutó jövedelem parciális regressziós együtthatója csak a közvetlen hatást mutatja (növekvő jövedelem növekvő fogyasztást okoz) Teljes hatás < közvetlen hatás !!!!!! Útelemzés

36 Legyen regressziónk most A jövedelem és a tejfogyasztás közvetlen kapcsolatát a β y1 együttható fejezi ki. A teljes hatáshoz szükség van a másik ágon realizált hatások felmérésére. Az x 1 és x 2 közötti kapcsolatot a két magyarázó változó közötti regresszióból kapjuk meg: A β 21 paraméter azt jelenti, hogy az egy egységgel magasabb egy főre jutó jövedelem mennyivel kisebb gyerekszámmal jár együtt átlagosan. Útelemzés tejfogyasztás egy főre jutó jövedelemgyermekek száma

37 A β y2 együttható azt mutatja, hogy eggyel nagyobb gyerekszám ceteris paribus mennyivel nagyobb fogyasztást okoz. Ezért, ha az egy főre jutó jövedelem közvetett hatását szeretnénk felmérni a fogyasztásra, a β 21 * β y2 szorzatot kell képeznünk. Ez azt jelenti, hogy az egy főre jutó jövedelem egységnyi növekedése a gyerekszámon keresztül hány egységgel növeli az egy főre jutó fogyasztást. A közvetlen és közvetett hatások összege adja meg a teljes hatást: Az ezt kifejező β 1 paraméter az egy főre jutó jövedelem és az egy főre jutó tejfogyasztás közti kétváltozós regressziófüggvény meredekségi paramétere. Útelemzés

38 Az útelemzés sémája: A nyilak a regressziós kapcsolatokat jelölik. közvetlen hatás közvetett hatás Közvetlen hatás + Közvetett hatás = Teljes hatás

39

40 Fogyasztás (liter) y Jövedelem (ezer Ft/fő) x 1 Gyerekszám (fő) x 2 5,427,33 ::: 6,473,52 5,442,22 5,5303 7,121,54 20 háztartás adatai

41 Háromváltozós becsült regressziós függvény: együtthatói parciális értelmezésűek Milyen regressziós összefüggés van a gyerekszám és az egy főre jutó jövedelem között? A teljes hatás: Kétváltozós regresszióval is megkaphatjuk ezt az értéket, ha a gyerekszám és a tejfogyasztás közötti kapcsolatot közvetlenül vizsgáljuk:

42 A regressziós modellekben megjelenhetnek magyarázó változóként diszkrét, ordinális szintű, nem megfigyelhető változók is. Proxy változó - nem megfigyelhető jelenség hatását pótló (helyettesítő) változó. A regresszió­számításban jellemző módon a magyarázó változók pozíciójában jelenhet meg. Pl. nemzetközi politikai légkör leírására az aranyár vagy olajár, analitikus trendszámításnál a t időváltozó (a regresszió speciális esete), Proxyk, dummyk és minőségi változók

43 Minőségi változók kezelése: minőségi ismérvnek két változata van: férfi – nő, vezető – beosztott, ….stb. (dummy – d – változó alkalmazása) lehetőségek: 1.d=1 férfid=0 nő 2.d=0 férfid=1 nő 3.d=1/2 férfid= –1/2 nő A paraméterek értelmezése más az egyes esetekben!!!! Proxyk, dummyk és minőségi változók

44 Sorszám Eladási árFutott km.Töréskár (ezer Ft)(ezer km)(1= volt) Használt gépkocsik futásteljesítménye, ára és törésjellemzője

45 A becslés eredménye: -79,13 jelentése az, hogy ha egy kocsinak volt töréskára az a kínálati árát 79 ezer Ft-tal csökkenti.

46 Ha kettőnél több változata van a minőségi ismérvnek (m kategória) akkor általában (a nullának tekintett referenciakategória mellett) m-1 számú változót használunk fel. Példa: A képzettség és a bér kapcsolata egy vállalatnál

47 Tanulásban töltött idő (év) Végzettség Havi bér (Ft) y ff kf kf ff :::::: kf kf ff kf Munkában töltött idő (év) KF FF Középfokú végzettségFelsőfokú végzettség

48 Regresszió megfogalmazása: y= havi bruttó bér x= munkában töltött évek KF; FF= A dummyk az alapfokú végzettséghez (referenciakategóriához) képest adják az eredményt


Letölteni ppt "STATISZTIKA II. 8. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."

Hasonló előadás


Google Hirdetések