Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

STATISZTIKA II. 10. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.

Hasonló előadás


Az előadások a következő témára: "STATISZTIKA II. 10. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."— Előadás másolata:

1 STATISZTIKA II. 10. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

2 Az SLM modell feltételezései: F1: A magyarázó változók nem valószínűségi változók F2: A magyarázó változók lineárisan független rendszert alkotnak F3: Az eredményváltozó feltételes várható értéke lineáris függvény F4: A maradékváltozó normális eloszlású és állandó szórású F5: A maradékváltozó különböző értékei korrelálatlanok A modell feltételek vizsgálata

3 Az F1 ( a magyarázó változók nem valószínűségi változók ) feltétel a modell keretei között nem vizsgálható: a felhasználó dönti el, hogy a vizsgálat tárgya eleget tesz-e ennek. Nagy minták esetén közelítőleg érvényes Az F2 ( a magyarázó változók lineárisan független rendszert alkotnak ) jelenti az extrém multikollinearitást (ez ritka). A gyakorlatban a szoros kapcsolat figyelhető meg a magyarázó változók között – multikollinearitás A modell feltételek vizsgálata

4 A multikollinearitás úgy is megfogalmazható, hogy a magyarázó változók között korreláció van. Multikollineáris esetben mind a becslés, mind a paraméterek értelmezése megnehezedik, hiszen a magyarázó változók hatásait nem lehet egyértelműen szétválasztani. Minden változó hatása minden más változóban is megjelenik, a becslések bizonytalanná válnak (ceteris paribus elv nem igaz). A modell feltételek vizsgálata

5 Ez a mutató azt mutatja, hogy a j-edik változó becsült együtthatójának tényleges varianciája hányszorosa annak, ami a multikollinearitás teljes hiányának esete lenne. Ezért ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek (Variance Inflator Factor) VIF j mutatónak nevezzük. A modellfeltételek vizsgálata

6 Minimális értékét, az 1-et akkor veszi fel, amikor a megfelelő, azaz amikor a j-edik magyarázó változó nem korrelál a többivel. Látható, hogy ahogy nő az, úgy nő a VIF értéke is, mutatva, hogy a kollinearitás hányszorosára növeli a varianciával mért becslési hibát. Az esetben a mutató nem értelmezhető, ez a teljes vagy extrém multikollinearitás. A modellfeltételek vizsgálata

7 VIF értékei: 1 – 2gyenge 2 – 5 erős (zavaró) 5 felettnagyon erős (káros) Kezelése: A zavart okozó változókat elhagyni a modellből Az egymással nagyon szoros kapcsolatban levő változókat egy új változóba vagy változókba összevonjuk (főkomponens elemzés). Ridge regresszió (torzított, de kisebb varianciájú becslőfüggvényt ad, mint a legkisebb négyzetek becslőfüggvénye) A modell feltételek vizsgálata

8

9 A Suzuki gépkocsik árát leíró regressziós függvény (-9,74) -6,15 (-9,81) (1,30) futásteljesítmény kocsi életkora együtt a két változó Pozitív előjel ???

10 A Suzuki gépkocsik árát leíró regressziós függvény Öregebb kocsik több kilométert futottak Erős, zavaró multikollinearitás !!!!

11 Az F3 ( Az eredményváltozó feltételes várható értéke lineáris függvény ) közvetve az F4-en keresztül ellenőrizhető. Az F4 ( A maradékváltozó normális eloszlású és állandó szórású ) első része: A normalitás ellenőrzése azért fontos, mert erre az eloszlási eredményre épülnek az intervallumbecslések és a tesztek, ezért ha nem igaz, azaz a normalitás nem áll fenn, mind az intervallumbecslések, mind a paraméterekre vonatkozó tesztek félrevezetőek lesznek. A modell feltételek vizsgálata

12 Az általános illeszkedésvizsgálat – kicsi elemszám probléma Kis mintákra is jól közelítő eljárások: grafikus normalitás vizsgálat –reziduumokat hisztogrammal ábrázoljuk –Q – Q (quantile–quantile) és P – P (probability plot) grafikus tesztek hagyományos szignifikancia tesztek: –Kolmogorov-Szmirnov-teszt –Jarque-Bera-teszt A modell feltételek vizsgálata

13 Grafikus normalitásvizsgálat Normalitás vélelmezhető Normalitás kétséges

14 Ha a normalitás nem teljesül az intervallumbecslések és a tesztek félrevezető eredményt adnak. Ilyen esetben más modellt kell alkalmazni (más változókkal) transzformáció A modell feltételek vizsgálata

15 Az F4 ( A maradékváltozó normális eloszlású és állandó szórású ) második fele: A variancia legyen állandó, azaz független attól, hogy X illetve az Xj változók milyen értékeket vesznek fel. Ha ez teljesül a modell homoszkedasztikus, ha nem teljesül heteroszkedaszticitás problémája áll fenn. A modell feltételek vizsgálata

16

17

18 x y A heteroszkedaszticitás ábrázolása

19 Vizsgálatára számos teszt létezik Különböző esetek: Áttérés a tervgazdálkodásról a piacgazdaságra (idősoros regresszió) a maradékokban két jól elkülöníthető csoport (heteroszkedaszticitás), a csoportokon belül homoszkedaszticitás van. A lakosság jövedelem szerinti rétegzett mintavétele esetén csoportos heteroszkedaszticitás. Funkcionális heteroszkedaszticitás – a variancia valamely ismertváltozó szerint, annak mindenkori értékeivel együtt változik. A modell feltételek vizsgálata

20 Az F5 ( A maradékváltozó különböző értékei korrelálatlanok ) azaz a maradékok legyenek egymástól függetlenek. Az egymástól való függetlenség csak meghatározott sorrend esetén érvényes tulajdonság – olyan megfigyelések amikor a megfigyelések sorrendje kötött. A társadalmi-gazdasági elemzésekben az idősoros regressziónál fordul elő. A modell feltételek vizsgálata

21 Regressziónál kétféle adatbázis: Keresztmetszeti adatbázis (egy időpontra vagy időszakra vonatkozó adatok) pl. országok adatai, háztartások vagy személyek jövedelem és fogyasztási adatai Idősoros adatbázis (idősorok közötti regressziós kapcsolatot vizsgálunk) pl. egy nemzetgazdaság adatai különböző időpontokban. Fontos, hogy az idősorok sorrendje nem cserélhető fel. Az autokorreláció és tesztelése

22 Autokorreláció: Egy szokásos (lineáris) korreláció, csak éppen nem különböző, hanem azonos változók, máskor vagy máshol megfigyelt értékei között. Az autokorreláció leggyakoribb előfordulása az idősorokban figyelhető meg, ahol egy változó saját késleltetett értékeivel vett összefüggéseit méri. Hiánya azt jelenti, hogy a vizsgált változó időbeli alakulása nem magyarázható saját korábbi értékeivel – időbeli függetlenség Az autokorreláció és tesztelése

23 Egy tőzsdeindex az előző kereskedési naphoz képest erősödött (+) vagy gyengült (-). Ha a változatlanságot kizárjuk akkor egy két jelből álló sorozattal írható fel: +++ – – – – ++++ – + – + – – + Kérdés, hogy a jelek elrendeződéséből tudunk-e következtetni a következő napi változás irányára? – ez az elsőrendű korreláció kérdése is. Az autokorreláció és tesztelése

24 Ha a sorozatunk a következő: – – – – – – – – – – – – A szabály: a következő nap is ugyanolyan változás várható, mint az előző napon. Ezt a megfigyelések csak egyetlen egy esetben cáfolták. – erős elsőrendű pozitív autokorreláció van az idősorban (az idősor mindenkori értékéből jó hatásfokkal tudunk következtetni a következő értékre). Az autokorreláció és tesztelése

25 Ha a sorozatunk a következő: + – + – + – + – + – + – + – + – + – Az elsőrendű (egy időszakra vonatkozó) következtetés itt is lehetséges. A következő nap éppen ellentétes irányú változásra lehet számítani. – erős elsőrendű negatív autokorreláció van az idősorban (az idősor mindenkori értékéből jó hatásfokkal tudunk következtetni a következő értékre). Az autokorreláció és tesztelése

26 Ha két, három stb. időszakra akarunk következtetni az idősor valamely értékéből akkor másod-, harmadrendű stb. autokorrelációt keresünk. Ez bonyolultabb, mint az elsőrendű vizsgálata. ARIMA idősormodellek az autokorrelációból építkeznek. A regressziónál a maradékváltozó nem tartalmazhat autokorrelációt. Ha tartalmaz autokorrelációt: a varianciabecslés, az intervallumbecslések és a tesztek torzítottá válnak. Az autokorreláció és tesztelése

27 A Durbin-Watson-próba az elsőrendű autokorreláció tesztelésére alkalmas. A regressziós maradékokra épít és a maradékok sorrendje kötött (idősorok). Az i-t t-re (time) cseréljük. A t-edik megfigyelésre vonatkozó egyenlet a következő: A maradékváltozó elsőrendű autokorrelációjának felírása: Azt feltételezzük, hogy a maradékváltozó t-edik időpontbeli értéke (ε t ) a lineáris regressziós egyenletben saját késleltetett értéke és egy jó tulajdonságú (0 várható értékű, homoszkedasztikus, autokorrelálatlan, normális eloszlású) véletlen változó (η t ) segítségével írható fel. Ez az elsőrendű autoregresszív egyenlet. Az autokorreláció és tesztelése

28 Ha a elsőrendű autokorrelációs együttható 0, nincs elsőrendű autokorreláció. A Durbin-Watson-teszt nullhipotézise és ellenhipotézise: Felírható lenne a De nem közvetlenül a -t hanem annak egy transzformáltját teszteljük. Az autokorreláció és tesztelése

29 Definiáljuk a regressziós maradékokból a ún. Durbin-Watson-statisztikát. A számláló alapján, nagy minták esetén jól leírható a függvényében, hiszen: Ennek eloszlása – nem standard – a d=2 pontra szimmetrikus és (0, 4) intervallumban vehet fel értékeket. Az eloszlás általánosságban (x konkrét ismerete nélkül) nem határozható meg, de kvantiliseinek alsó és felső közelítő értékei (d L és d U ) táblázatosan megadhatók. Az autokorreláció és tesztelése

30 Ha a próbafüggvény (d) empirikus értéke a 0 – d L tartományba esik, a döntés az, hogy a maradékváltozó szignifikáns mértékű pozitív autokorrelációt tartalmaz. Ha a próbafüggvény empirikus értéke a d L – d U tartományba esik, e próba alapján nem tudunk dönteni, ezt a tartományt semleges zónának nevezzük. Ha a próbafüggvény empirikus értéke a d U – (4 - d U ) tartományba esik, a nullhipotézist, azaz a maradékváltozó elsőrendű autokorrelációtól való mentességét nem tudjuk elutasítani. Ennek a tartománynak a közepe 2. Az autokorreláció és tesztelése

31 Ha a próbafüggvény empirikus értéke a (4 - d U ) – (4 - d L ) tartományba esik, ismét semleges zónában vagyunk és nem tudunk dönteni. Ha a próbafüggvény empirikus értéke a (4 - d L ) – 4 tartományba esik, döntésünk szignifikáns negatív autokorreláció. Az autokorreláció és tesztelése

32 0dLdL dUdU 4 - d U 4 - d L 24 H 1 : pozitív autokorreláció H 1 : negatív autokorreláció H 0 : nincs autokorreláció ? ? A Durbin – Watson – teszt döntési szabálya

33

34 A teszt a negatív, illetve a pozitív autokorrelációt mindig az ellenkező oldalon mutatja. A alapján a jellemző autokorrelációs értékek (-1, 0, 1) a (4, 2, 0) formában jelennek meg a Durbin-Watson-tesztben. A semleges zónákba eső próbafüggvény értéke alapján nem tudunk dönteni: - szignifikanciaszintet változtatjuk meg, - más próbafüggvényt kell választanunk. Az autokorreláció és tesztelése

35 Év Cementtermelés (ezer tonna) GDP volumenindex (1985=100) Épített lakások száma (darab) , , , , , , , , , , , , , , , , ,

36 A cementtermelés háromváltozós egyenletének maradékait vizsgálva kiszámítottuk a maradékok elsőrendű autokorrelációs együtthatóját és a Durbin-Watson-statisztika értékét (d=1,8133). Látható, hogy az egyébként nagy mintákra érvényes közelítés, a összefüggés: jó közelítéssel itt is érvényes, hiszen A Durbin-Watson-teszt 5%-os táblázatából n=19 és k=2 paraméterek esetén d U =1,08 és d L =1,53 olvasható ki, ami azt jelenti, hogy a maradékokban 5%-os szinten nincs szignifikáns autokorreláció. Az autokorreláció és tesztelése Példa

37 Az autokorreláció jelenléte a maradékokban problémát okoz – védekezni kell ellene!!! Módosított modellbe olyan változók beépítése, amelyek „átveszik” az autokorrelációt, így az a véletlen elemekben nem jelenik meg. Ez legtöbbször újabb késleltetett változókat jelent a modellben. Olyan adattranszformáció alkalmazása, amely kiszűri azt a hibát. Tekintsük az regressziót, ahol a maradékváltozóra a elsőrendű autokorrelációs egyenlet érvényes. Az autokorreláció és tesztelése

38 Írjuk fel most t-1 időszakra, majd szorozzuk meg ρ-val, majd vonjuk ki a kiindulási egyenletből a második egyenletet: Az eredmény azt mutatja, hogy a változókból kivonva saját ρ-val szorzott késleltetett értékeit (ezt szokták elsőrendű autoregresszív transzformációnak nevezni), olyan alakot kapunk, amelyiknek a maradékváltozója az utolsó egyenlet értelmében η t, ami már rendelkezik a modellfeltételek által megkövetelt autokorreláció- mentességgel ezért alkalmas a paraméterek KLN becslésére. A ρ előre általában nem ismert, így a mintából kell becsülnünk. Az autokorreláció és tesztelése

39 A gyakorlatban a sűrű megfigyelésű (napi, heti) idősorok esetén gyakori az, hogy a megfigyelt adatok között igen erős, 1-hez közel álló elsőrendű autokorreláció tapasztalható, ami a regressziós maradékokban is megjelenhet. Ekkor a KLN becslés komoly hibaforrás lehet. Ilyenkor a ρ-t célszerű 1-nek tekinteni. Az autoregresszív transzformáció eredménye a következő: Így eltűnik a β 0 és a maradékváltozó lehetővé teszi a KLN becslést. A változók növekedésükkel (differenciáikkal) lépnek be az egyenletbe, ahol a meredekségi paraméter (β 1 ) eredeti formájában jelenik meg. Ez az eljárás, amikor a változók szintjei helyett azok szukcesszív differenciáira építenek regressziós modellt nagyon elterjedt. Az autokorreláció és tesztelése

40 A gyakorlatban a regressziós elemzésnél első feladat az eredményváltozó pontos meghatározása, az arra vonatkozó adatok összegyűjtése, összehasonlíthatóvá tétele, szerkesztése. A következő lépés a magyarázó változók kijelölése, a rájuk vonatkozó adatok összeállítása, valamint a regressziós függvény formájának (lineáris, exponenciális, hatvány, polinom) meghatározása. A változók körének és számának meghatározása – modellépítés

41 A magyarázó változók lehetséges körének kijelölése Lehetséges-e ezekre adatot gyűjteni? Proxy, dummy változók alkalmazása Több változó specifikálása Az összes változó felhasználása (beépítése a modellbe)? - szoros kapcsolatban levő változók zavarják egymást, parciális hatások torzulnak. Az összes fontos (szignifikáns) magyarázó változó szerepeltetése a modellben. Kialakítás 3 követelménye: –A modell valamennyi változója egy előre megadott (pl. 5%-os) szinten szignifikáns legyen. –Maga a modell (az ANOVA F-próbájával mérve) legyen egy előre megadott (pl. 5%-os) szinten szignifikáns –Illeszkedjék a lehető legjobban valamely kritérium szerint A változók körének és számának meghatározása – modellépítés

42 R 2 szelekcióra nem alkalmas, mivel egy újabb változó bevonása értékét növeli (esetleg változatlan marad). A szabadságfokkal korrigált R 2 (adjusted R 2 ) már alkalmas mutató: Képes két regressziós modell magyarázó erejét összehasonlítani. Egy modell esetén értelmetlen használni!!!!!! Számítógépes kereső eljárások (stepwise eljárások) alkalmazása – minden lépés után összehasonlítás Forward regresszió: alulról építkezik, legegyszerűbb modellből indul ki Backward regresszió: az összes lehetséges változóból épített modellből hagyja el a lényegtelen változókat. Ha mindhárom követelmény teljesül – optimális regressziónak nevezik. A változók körének és számának meghatározása – modellépítés

43 A termelési függvények: Mikrogazdasági elemzések – termelési tényezők, azaz inputok (pl. munka, tőke, föld) milyen mennyiségű kibocsátást (outputot) képesek előállítani. Ezek a termelési függvények általában alakúak, ahol a Q az előállított termelés mennyiségét X 1, X 2, … X k pedig a termelési tényezőket jelöli. Leggyakoribb a Cobb-Douglas-típusú termelési függvény alkalmazása – két tényezőt a tőkét (K) és munkát (L) vesz figyelembe, és hatványkitevős függvényt specifikál: Néhány nevezetes alkalmazás

44 Ez egy nemlineáris regressziós függvény. Probléma: Mivel mérjük a munkaráfordítást (idővel, bérrel, létszámmal) A tőkét milyen mutatóval reprezentáljuk Ez modell választási probléma!! A  1 és  2 paraméterek parciális (állandó) rugalmasságot fejeznek ki. Ez a függvény alapul szolgálhat a további szakmai elemzéseknek (előrejelzés, helyettesíthetőség elemzése, ráfordítás optimalizálás) Néhány nevezetes alkalmazás

45

46 A német gazdaság fejlődése jól modellezhető a klasszikus Cobb-Douglas-termelési függvénnyel. A becsült függvény a következő: és mind az F, mind az összes t érték minden szóbajöhető szignifikanciaszinten azt jelzi, hogy a modell, illetve az egyes változók helyesek. Néhány nevezetes alkalmazás

47 A visszatranszformált eredeti (hatványkitevős) alak: A két paraméter a munka, illetve a tőke szerinti (állandó) rugalmasságot mutatja. A létszám 1%-os növekedése ceteris paribus 0,41%-os növekedést indukál a GDP-ben. A rugalmassági paraméterek összege közel 1, ami azt jelenti, hogy a skálahozadék közel konstans. Néhány nevezetes alkalmazás

48 Autoregresszív modellek: Állományi típusú idősorok esetén az adat függ az előző időszaki adatoktól. Az ilyen idősorban autokorreláció van – autoregresszív egyenlet vagy modell A legegyszerűbb autoregresszív egyenlet: Alakú és hasonlít egy kétváltozós lineáris regressziós függvényre. Ez a modell kiindulópontja egy egész elemzési módszercsaládnak. ARMA (Autoregresszív Mozgó Átlagolású) alapú modellek – pl. több késleltetés, véletlenhatások sem a legegyszerűbbek, hanem időbeli kapcsolatot mutatnak, szóródásuk időben változó, összefüggnek az eredményváltozóval. Néhány nevezetes alkalmazás

49 HUF/EUR árfolyam

50 HUF/EUR árfolyam egyszerű autoregresszív modelljének keresése: január és augusztus között napi adatok alapján, 158 napra vonatkozóan. A késleltetés miatt csak 157 megfigyelés. Modellünk azt feltételezi, hogy az eredményváltozó jól leírható saját (1 nappal) késleltetett függvényeként lineáris regresszióval. Néhány nevezetes alkalmazás

51 A HUF/EUR árfolyam lineáris autoregresszív jellege

52 A becslés eredménye: Néhány nevezetes alkalmazás (68,86)

53 A HUF/EUR árfolyam időbeli alakulása és annak becslése megfigyelés becslés

54 ARMA modellek kiterjesztései: (ARIMA, SARIMA, ARCH, GARCH stb.) az idősorelemzés és a regressziószámítás külön, gyorsan fejlődő fejezetét képezik. Általános Lineáris Modell (GLM) Logisztikus regresszió – diszkrét eredményváltozós modellek Többegyenletes kiterjesztés – gazdaság, mint komplex jelenség modellezése – ökonometria Sokváltozós modellek – társadalmi jelenségekre Néhány nevezetes alkalmazás


Letölteni ppt "STATISZTIKA II. 10. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."

Hasonló előadás


Google Hirdetések