Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Készítette: Szappanos Lilla
Regressziószámítás Készítette: Szappanos Lilla
2
Regresszióanalízis A statisztikában a regressziószámítás során két vagy több véletlen változó között fennálló kapcsolatot modellezzük. Azt vizsgálja, hogy egy kitüntetett változó (amelyet eredmény, vagy függő változónak nevezünk), hogyan függ egy vagy több független változótól. Keressük a változók közötti kapcsolatot leíró függvényt. A modell tulajdonságai alapján megkülönböztetünk lineáris és nemlineáris regressziót, az adataink alapján pedig idősor, keresztmetszeti és panel regresszióanalízist.
3
Kétváltozós lineáris regressziós modell
Két mennyiségi változó kapcsolatát vizsgáljuk, mely két változó közül az X magyarázó változó magyarázza az Y eredményváltozó alakulását. Y = β 0 + β 1 X+ε ε ∼ N (0, σ2) ε : hiba, maradék feltesszük, hogy 0 átlagú és nincs kapcsolatban sem X-el, sem Y-nal A legkisebb négyzetek módszere alapján minimalizáljuk a reziduális négyzetösszeget.
4
Többváltozós lineáris regressziós modell
Az eredményváltozó több magyarázó változót ír le, „n” darab megfigyelés van. Y = β 0 + β 1 X 1 + β 2 X 2 + … + β n X n +ε A sokaságból „n” elemű mintát veszünk: xi – az i-vel jelölt mintában a magyarázóváltozó megfigyelt értéke, i = 1, , n. yi– az i-vel jelölt mintában az eredményváltozó megfigyelt értéke, i = 1, , n. 𝛽 0 , 𝛽 1 becslése legkisebb négyzetek módszerével: β1 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 −𝑛 𝑥 𝑦 𝑖=1 𝑛 𝑥 𝑖 2 −𝑛 ( 𝑥 ) β0 = 𝑦 − 𝛽 1 𝑥
5
s*e = 𝑖=1 𝑛 𝑒 𝑖 2 𝑛 se = 𝑖=1 𝑛 𝑒 𝑖 2 𝑛−2
A regressziós becslés során elkövetett hiba mérőszáma a mintán belüli reziduális szórás: s*e = 𝑖=1 𝑛 𝑒 𝑖 2 𝑛 Azt mutatja meg, hogy a megfigyelések átlagosan mennyivel térnek el a becsült regressziós egyenes pontjaitól. A korrigált változata, a korrigált reziduális szórás, a sokasági szórás torzítatlan becslése: se = 𝑖=1 𝑛 𝑒 𝑖 2 𝑛−2
6
El( 𝑦 ; x) = 𝜕 𝑦 𝜕𝑥 ∙ 𝑥 𝑦 = 𝛽 1 ∙ 𝑥 𝑦 = 𝛽 1 ∙𝑥 𝛽 0 + 𝛽 1 ∙𝑥
Az elaszticitás (rugalmasság) azt méri, hogy az X változó 1%-os növekedése hány százalékos növekedést/csökkenést eredményez az Y változónál. Az elaszticitás kiszámítása a becsült eredményváltozóra: El( 𝑦 ; x) = 𝜕 𝑦 𝜕𝑥 ∙ 𝑥 𝑦 = 𝛽 1 ∙ 𝑥 𝑦 = 𝛽 1 ∙𝑥 𝛽 𝛽 1 ∙𝑥
7
Korreláció: azt mutatja meg, hogy a két változó milyen szoros és milyen irányú kapcsolatban van egymással. r = 𝑑 𝑥 𝑑 𝑦 𝑑 𝑥 2 ∙ 𝑑 𝑦 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 ∙ 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 ) = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 −𝑛 𝑥 𝑦 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 ∙ 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 ) 2 | r| ≈ 1 - szoros, közel lineáris függvényszerű kapcsolat; r ≈ 0 - lineáris kapcsolat hiánya (korrelálatlanság); r > 0 - a változók egy irányba mozognak; r < 0 - a változók ellentétes irányba mozognak.
8
A determinációs együttható azt mutatja, hogy a regressziós modellel az yi adatokban meglévő variancia hány százaléka szüntethető meg: R2 = 𝑆𝑆𝑅 𝑆𝑆𝑇 =1− 𝑆𝑆𝐸 𝑆𝑆𝑇 SST - teljes négyzetösszeg (a magyarázó változóktól nem függ, csak az eredményváltozótól); SSE - belső négyzetösszeg, a hiba okozta négyzetösszeg; SSR - külső négyzetösszeg, regressziós vagy magyarázott négyzetösszeg. R2 ≈ 1 - jó illeszkedés, nagy magyarázó erő; R2 ≈ 0 - gyenge modellteljesítmény. Kétváltozós lineáris esetben: R2 = r2
9
Standard lineáris modell feltételek
Nagy része a hibatagokra vonatkozik: 0 a várható értékük Homoszkedaszticitás: varianciájuk konstans, mindig mindenhol állandó érték, X-től független Normális eloszlásúak A hibatagok függetlenek: a különböző megfigyelésekből adódóan nincs semmilyen függőség köztük Az X-ek megfigyelt értékei lineárisan függetlenek
10
Multikollinearitás VIFj= 𝟏 𝟏− 𝑹 𝒋 𝟐
Cél: a függő változókkal elmagyarázni a független változókat. Úgy is megfogalmazható, hogy a magyarázó változók között korreláció van. Multikollineáris esetben mind a becslés, mind a paraméterek értelmezése megnehezedik, hiszen a magyarázó változók hatásait nem lehet egyértelműen szétválasztani. Minden változó hatása minden más változóban is megjelenik, a becslések bizonytalanná válnak (ceteris paribus elv nem igaz). Ez a mutató azt mutatja, hogy a j-edik változó becsült együtthatójának tényleges varianciája hányszorosa annak, ami a multikollinearitás teljes hiányának esete lenne. Ezért ezt a mutatószámot a j-edik változóhoz tartozó variancianövelő tényezőnek (Variance Inflator Factor) VIFj mutatónak nevezzük. VIFj= 𝟏 𝟏− 𝑹 𝒋 𝟐
11
Minimális értékét, az 1-et akkor veszi fel, amikor a megfelelő Rj2=0, azaz amikor a j-edik magyarázó változó nem korrelál a többivel. Látható, hogy ahogy nő az Rj2, úgy nő a VIF értéke is, mutatva, hogy a kollinearitás hányszorosára növeli a varianciával mért becslési hibát. Az Rj2=1 esetben a mutató nem értelmezhető, ez a teljes vagy extrém multikollinearitás.
12
Függetlenség vizsgálat Durbin – Watson - próba
Az elsőrendű autokorreláció tesztelésére alkalmas, hibatagok autokorreláltságát vizsgálja. d = 𝑖=2 𝑛 ( 𝑒 𝑖 − 𝑒 𝑖−1 ) 2 𝑖=2 𝑛 𝑒 𝑖 2 Ennek eloszlása – nem standard – a d=2 pontra szimmetrikus és (0, 4) intervallumban vehet fel értékeket. Az eloszlás általánosságban nem határozható meg, de kvantiliseinek alsó és felső közelítő értékei (dL és dU) táblázatosan megadhatók.
13
Ha a próbafüggvény empirikus értéke a 0 – dL tartományba esik, a döntés az, hogy a maradékváltozó szignifikáns mértékű pozitív autokorrelációt tartalmaz. Ha a próbafüggvény empirikus értéke a dL – dU, vagy a (4 - dU) – (4 - dL) tartományba esik, e próbák alapján nem tudunk dönteni, ezeket a tartományokat semleges zónáknak nevezzük. Ha a próbafüggvény empirikus értéke a dU – (4 - dU) tartományba esik, a nullhipotézist elfogadjuk. Ennek a tartománynak a közepe 2. Ha a próbafüggvény empirikus értéke a (4 - dL) – 4 tartományba esik, döntésünk szignifikáns negatív autokorreláció.
14
A próbafüggvény elfogadása és elutasítása
15
Ha a teszt alapján nem tudunk döntést hozni, vagyis a próbafüggvény értéke a semleges zónák valamelyikébe esik, akkor több lehetőséggel is élhetünk: A modell paramétereinek a becslését újra el kell végezni, de nagyobb minta alapján. Meg kell változtatni a szignifikancia-szintet úgy, hogy döntési helyzetbe kerüljünk. Más próbafüggvényt kell alkalmazni.
16
Néhány nevezetes alkalmazás
A termelési függvények: mikrogazdasági elemzések – termelési tényezők, azaz inputok (pl. munka, tőke, föld) milyen mennyiségű kibocsátást (outputot) képesek előállítani. Autoregresszív modellek: állományi típusú idősorok esetén az adat függ az előző időszaki adatoktól -> az ilyen idősorban autokorreláció van – autoregresszív egyenlet vagy modell. ARMA (Autoregresszív Mozgó Átlagolású) alapú modellek – pl. több késleltetés, véletlenhatások sem a legegyszerűbbek, hanem időbeli kapcsolatot mutatnak, szóródásuk időben változó, összefüggnek az eredményváltozóval.
17
ARMA modellek kiterjesztései
Az idősorelemzés és a regressziószámítás külön, gyorsan fejlődő fejezetét képezik. Általános Lineáris Modell (GLM) Logisztikus regresszió – diszkrét eredményváltozós modellek Többegyenletes kiterjesztés – gazdaság, mint komplex jelenség modellezése – ökonometria Sokváltozós modellek – társadalmi jelenségekre
18
Köszönöm a figyelmet!
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.