STATISZTIKA II. 7. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék
Regressziószámítás A regresszió: a változók közötti kapcsolat elemzésének elterjedt eszköze. Alapesetben azt vizsgálja, hogy egy kitüntetett, a vizsgálat tárgyát képező változó, amelyet eredményváltozónak (vagy függő változónak) nevezünk, hogyan függ egy vagy több ún. magyarázó (vagy független) változótól.
Regressziószámítás A regresszió számításkor: keressük azt a függvényt, amelyik leírja a magyarázó változó(k) és az eredményváltozó kapcsolatát, értelmezzük a függvény paramétereit és egyéb jellemzőit, elemezzük az egyes befolyásoló tényezők hatását, a kapcsolat szorosságát, az előrejelzés lehetőségeit.
Regressziószámítás Sok modellt lehet felépíteni attól függően, hogy mit tudunk vagy mit tételezünk fel a változókról és azok kapcsolatáról. Egy egyszerű modell: Itt csak annyit feltételezünk, hogy: van két változónk (magas mérési szintűek – intervallumskála), közöttük nagyjából lineáris kapcsolat van.
Regressziószámítás Eredményváltozó Magyarázó változó Kétváltozós leíró (szemléletű) lineáris modell Hiba (0 átlagú)
Regressziószámítás A regressziószámítás megalkotója és első alkalmazója Francis Galton angol természettudós volt, aki biológiai vizsgálatai során fogalmazta meg az átlaghoz való visszatérés (regression to mean) elvét, melyet apák és fiaik testmagasságának kapcsolatára alkalmazott. Lényege, hogy magasabb apák fiai tendenciaszerűen („átlagosan”) magasabbaknak bizonyultak, azaz a fiúk „visszatértek” az apáikhoz. Ekkor számolt először függvényt a két megfigyelés-sorozat között, és ezt nevezte el regressziós függvénynek.
Apák és fiúk testmagassága (cm) Sorszám Apák Fiúk 1 175 182 2 165 171 3 181 190 4 167 5 169 177 6 187 7 158 8 185 201 9 172 180 11 179 12 166
Regressziószámítás A közgazdaságtanban: Árak és a keresett (kínált) mennyiségek kapcsolata Jövedelem és a fogyasztás kapcsolata Valamely sportágra költött ráfordítások és az ág eredményességi mutatóinak kapcsolata A társadalom-kutatásokban: A társadalmi rétegződés folyamatát A házasságok és a válások okait Lakosság időmérlegének egyes kérdéseit
Ha a magyarázó változók száma (k) több (k>1), akkor többváltozós lineáris modellről beszélünk:
Feltételezzük, hogy valamennyi változóra n számú megfigyelésünk van, amelyeket célszerűen vektorokba, illetve mátrixba rendezhetünk:
k: a magyarázó változók száma, az y vektor i-edik eleme az eredményváltozó i-edik megfigyelését jelöli, a β vektor j-edik eleme a magyarázó változó együtthatója, az ε vektor i-edik eleme pedig az i-edik megfigyeléshez tartozó maradékváltozó, az X mátrix sorai megfigyeléseket (i=1, 2, …, n), oszlopai magyarázó változókat (j=1, 2, …, k) jelölnek, az első oszlop csupa 1 értéke a konstanshoz, mint „0”-dik változóhoz tartozó „megfigyelés”, a mátrix n sorból és k+1 oszlopból áll.
Regressziószámítás
Regressziószámítás Reziduális négyzetösszeg Σ
Klasszikus legkisebb négyzetek módszerrel készült becslés (KLN) – Ordinary Least Squares (OLS) A kapott paraméterek az adott megfigyelésekből számított, becsült regressziós együtthatók. A fontosabb jelentése az, hogy a magyarázó változó egységnyi növekedése átlagosan hány egységnyi növekedéssel / csökkenéssel jár együtt a becsült eredményváltozóban. a konstans együttható, vagy tengelymetszet paraméter (intercept) jelentése az, hogy ha a magyarázó változó 0 értéket vesz fel, a modell szerint mekkora lesz az eredményváltozó értéke.
Elaszticitás - rugalmasság Elaszticitás - rugalmasság. Olyan mutatószám, mely megadja, hogy a magyarázó változó egy százalékos elmozdulása hány százalékos és milyen irányú elmozdulással jár együtt az eredményváltozóban. ár és jövedelem rugalmassági együttható rugalmas ( I1I <) fogyasztás (közszükségleti cikkek) rugalmatlan ( I1I >) fogyasztás (luxuscikkek)
extrapoláció interpoláció y interpoláció extrapoláció extrapoláció Megfigyelési tartomány x
A megfigyelések és a becsült függvényértékek különbségét adják meg. A becsült regressziós függvény segítségével a megfigyelési pontokban meghatározhatjuk a reziduumok értékeit: A megfigyelések és a becsült függvényértékek különbségét adják meg. reziduum maradék változó Mintából számított érték meghatározott tulajdonságokkal (ei) rendelkező ismeretlen (εi) (valószínűségi változó)
Sum of Squares of the Errors kis IeiI értékek= jó illeszkedés nagy IeiI értékek = gyenge illeszkedés Sum of Squares of the Errors reziduális szórás:
REZIDUÁLIS SZÓRÁS
Az r a két változó kapcsolatszorosságának mérőszáma. kovariancia Az r korrelációs együttható olyan -1 és +1 között elhelyezkedő mutatószám, amelyik 1-hez közeli abszolút értékei szoros, közel lineáris függvényszerű kapcsolatot, 0 körüli értékei a lineáris kapcsolat hiányát (az ún. korrelálatlanságot) jelentik. Az r a két változó kapcsolatszorosságának mérőszáma.
teljes négyzetösszeg: regressziós vagy magyarázott négyzetösszeg: maradék vagy hiba négyzetösszeg:
Determinációs együttható - az eredményváltozónak a regresszió által magyarázott és teljes eltérésnégyzetösszegei hányadosaként számítható mutatószám. Jelölése R2 Az R2 százszorosa megmutatja, hogy a regressziós modellel az y adatokban meglévő variancia (bizonytalanság) hány százaléka szüntethető meg
SSR ( SST