Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.

Hasonló előadás


Az előadások a következő témára: "STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."— Előadás másolata:

1 STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

2 Ha a lineáris közelítés nem megfelelő nem lineáris regressziót kell alkalmazni. Megjegyzések: Elvileg bármelyik függvényt alkalmazhatjuk Lehetnek változóiban vagy paramétereiben nem lineáris modellek –Csak változóiban nem lineáris modellek visszavezethetők lineárisra Kezelésük, értelmezésük nehezebb Nemlineáris regresszió

3 Gyakori nemlineáris regressziós függvények sematikus alakjai X Y YY XX jövedelem és az élelmiszerek fogyasztása minőség és a termék ár műtrágya felhasználás és a termésátlag Nem monoton függvény

4 Nemlineáris modellek kezelése: 1.a modell linearizálása tranzformációval, 2.eredeti nemlineáris modell alkalmazása (számítástechnikai eszközök jelentősége, Statisztikai programok alkalmazása). Nemlineáris regresszió

5 Exponenciális regresszió alapfüggvénye: mind változójában, mind paramétereiben nemlineáris (inkább trendfüggvényként alkalmazzák). Ha egy ν multiplikatív maradékváltozót feltételezünk (1 körül ingadozik), akkor az egyenlet mindkét oldal logaritmálása után a következő ez az egyszeresen logaritmikus vagy féllogaritmikus függvény. A β 1 az x növekedéséhez kapcsolódó átlagos y növekedést jelenti (ekvidisztáns x változó esetén ad jól értelmezhető eredményt). A β 0 az x=0 értéknél az y várható értékét mutatja. Nemlineáris regresszió

6 Hatványkitevős regresszió függvénye: gyakrabban alkalmazzák, mint az előzőt, mind változójában, mind paramétereiben nemlineáris, logaritmálás után lineáris alakra hozható: mindkét változónak vettük a logaritmusát kettős logaritmikus (double logarithmic) függvény Nemlineáris regresszió

7 A becsült egyenletre felírjuk az elaszticitás függvényt: Ez azt mutatja, hogy ennél a függvénynél az elaszticitás állandó és megegyezik a kitevőben szereplő paraméterrel. Ez azt jelenti, hogy a magyarázó változó 1 %-kal nagyobb értékéhez százalékos azonos irányú elmozdulás tartozik a becsült eredményváltozóban. konstans elaszticitású függvény A paraméter jelentése: az x=1 helyen mutatja az eredményváltozó értékét. Nemlineáris regresszió

8 Képzettség és bér kapcsolata– hatványkitevős regresszió linearizálással Sorszám Tanulásban töltött idő (év) Havi kereset (y) (Ft) ln yln x ,032, ,432, ,452, ,062, ,152, ,002, ,532, ,472, ,312, ,232, ,322, ,672, ,982, ,202, ,332,48

9 Mindkét változó logaritmusát képezzük, majd ezekre lineáris regressziót illesztünk. ebből az eredeti hatványkitevős forma: A becsült egyenlet: A tanulással töltött évek 1 %-os növekedése 1,47%-kal nagyobb keresetet okoz. A β 0 paramétert nem értelmezzük. Nemlineáris regresszió

10 Az oktatásban töltött évek és a havi bér kapcsolata

11 Ha nem linearizáljuk a függvényt akkor más eredményt kapunk. SPSS-ben megoldva: A két függvény azonos x-ek esetén közeli eredményeket ad: x=12-nélx=16-nál Nemlineáris regresszió

12 Ország GDP/fő (x) (USD, vásárlóerőparitáson) Internet kapcsolat (y) (tízezer lakosra)ln xln y Ausztria ,306,57 Belgium ,265,31 Bulgária ,894,20 Csehország ,695,61 Franciaország ,245,99 Görögország ,885,14 Horvátország ,264,22 Írország ,435,98 Lengyelország ,355,32 Lettország ,185,19 Litvánia ,315,32 Magyarország ,595,88 Nagy-Britannia ,286,30 Németország ,185,75 Olaszország ,174,74 Portugália ,825,39 Románia ,853,14 Spanyolország ,055,40 Szlovákia ,475,36 Szlovénia ,885,37

13 Az egyes országok gazdasági fejlettsége és az internet elterjedése közötti kapcsolatot vizsgáljuk 2003-ban. A linearizált alakból történt becslés eredménye: Ha az egy főre jutó GDP 1 %-kal magasabb akkor ez 1,16 %-kal növeli az internettel rendelkező háztartások arányát. SPSS-szel megoldva: a rugalmassági paraméter lassuló növekedést mutat, mivel 1-nél kisebb értékű. Az ellentétes eredmény miatt szakmailag kell eldöntenünk melyik a jobb !!! (a lineáris regresszió elemzés is felmerülhet) az első függvény, mivel gyorsuló ütemben növeli az internet használatot Nemlineáris regresszió ?

14 A gazdasági fejlettség és az internet kapcsolata

15 A polinomiális regresszió függvény: csak a változókban nemlineáris. A hatványokat előre kitudjuk számítani, így többváltozós lineáris regresszióvá alakítható x=x 1, x 2 =x 2, x l =x l ; a maradékváltozóval együtt a következő alakban írható fel: Előny: Az eddigi nemlineáris függvények közül a polinom adja a legkényelmesebben használható függvényformát. Hátrány: Nehéz tárgyi értelmet adni a nemlineáris tagoknak és együtthatóiknak (négyzetes, köbös stb.). Fokszám növelés!!!!!!!! Nemlineáris regresszió

16 Nemlineáris esetekben a kapcsolat szorosságának mérésére a korrelációs indexet (0 - 1) használjuk: Az I mutató analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Ha az illeszkedés jó 1-hez közeli az értéke Ha rossz az illeszkedés alacsony az értéke (a maradék négyzetösszeg viszonylag nagy). Nem mutatja meg a kapcsolat irányát!!!!! Lineáris esetben megegyezik az előjel nélküli lineáris korrelációs együtthatóval. Nemlineáris regresszió

17 Egy 1996-os vizsgálat a gazdasági fejlettség és a városi népesség aránya közötti összefüggést vizsgálta. Nemlineáris regresszió

18 Ország Arány (y) (%) GDP/fő (x) (USD/fő) Banglades16202 Barbados Burkina Faso15357 Közép-afrikai Köztársaság47457 Csehország Etiópia12122 Finnország Grúzia Hong Kong India26275 Irán Libanon Líbia Litvánia Malajzia Észak-Korea Hollandia

19 Gazdasági fejlettség és a városi népesség aránya

20 A polinomiális (kvadratikus) regressziófüggvény egyenlete: a legfejlettebb országokban már megfordul az arány. A függvény az x=15250 USD/fő pontban éri el a maximumát (a gazdagok kiköltöznek a városokból). A regresszió pontosságát jellemezve a négyzetösszegek így a korrelációs index: közepesnél alig valamivel erősebb a kapcsolat. (másik mintavétel??) Nemlineáris regresszió

21 A nemlineáris modelleknél is előfordulhat, hogy egyetlen magyarázó változóval nem írható le a jelenség. A többváltozós esetekben is a leggyakoribb a hatványkitevős (kettős logaritmikus alak): A ν multiplikatív maradékváltozó 1 körül ingadozik. A függvény paramétereinek becslése a legkisebb négyzetek módszerével történik, eredeti formájában nemlineáris szélsőérték-számítással, vagy linearizált alakban a normálegyenlet-rendszer megoldásával. Statisztikai programcsomagok felhasználása A makrogazdasági elemzésekben termelési függvényekként alkalmazzák ezeket. Nemlineáris regresszió

22 Ennek a függvénynek is sajátja az állandó (parciális) rugalmasság azaz az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága állandó: Nemlineáris regresszió

23 A regresszióban használt adatok minták vagy teljes körű sokasági megfigyelések lehetnek. A számítógépes programok eleve valószínűségi (mintavételi) hátteret feltételeznek a regressziós modellekben. A standard lineáris modell (SLM) feltételrendszere: F1: A magyarázó változók nem valószínűségi változók, hanem a különböző mintákon állandónak tekinthetők. F2: A magyarázó változók megfigyelt értékei lineárisan független rendszert alkotnak. F3: Az eredményváltozó feltételes (adott X-ek esetén feltételezett) várható értéke lineáris függvénye a magyarázó változóknak: Standard lineáris modell (SLM)feltételrendszere

24 A standard lineáris modell (SLM) feltételrendszere (folytatás): F4: A regressziós maradékot kifejező változó (maradékváltozó) feltételes eloszlása normális, 0 várható értékkel és állandóvarianciával, azaz F5: A maradékváltozó különböző X-ekhez tartozó értékei korrelálatlanok: Standard lineáris modell (SLM)feltételrendszere

25 F1: A magyarázó változók nem valószínűségi változók, hanem a különböző mintákon állandónak tekinthetők. Kontrolált kísérletSztochasztikus magyarázó változójú kísérlet árpa termésátlag, műtrágya, szántás mélység előre rögzített véletlenszerű kiválasztás mennyiség és mélységeltérő mennyiség és mélység F2: A magyarázó változók megfigyelt értékei lineárisan független rendszert alkotnak. Ha lineáris kapcsolat van a függvény paraméterei nem határozhatók meg (nem becsülhetők) egyértelműen, parciális paramétereik nem számíthatók. F3: Az eredményváltozó feltételes (adott X-ek esetén feltételezett) várható értéke lineáris függvénye a magyarázó változóknak. A változók között lineáris kapcsolat van. Standard lineáris modell (SLM) feltételrendszerének magyarázata

26 F4: A regressziós maradékot kifejező változó (maradékváltozó) feltételes eloszlása normális A maradékváltozó általában több, a modellben nem specifikált tényező hatásának eredője, ezért közelítőleg normális eloszlást (hibaeloszlást) követ. F5: A maradékváltozó különböző X-ekhez tartozó értékei korrelálatlanok Az X különböző értékeihez tartozó maradékváltozók függetlenek legyenek. A gyakorlatban a feltételek tisztán ritkán teljesülnek!! Standard lineáris modell (SLM) feltételrendszerének magyarázata

27 Az első lépés a β paraméterek (pont)becslése, amit számítógéppel végzünk. A pontbecslések torzítatlanok és konzisztensek. A második lépésben becsülni lehet a függvényértékeket:, majd ezek segítségével a reziduumok vektorát:. A harmadik lépésben a reziduális variancia becslése következik: de ez torzított. Becslések a standard lineáris modellben

28 Ezért helyette a torzítatlan becslőfüggvényt, a korrigált reziduális varianciát használjuk: Kétváltozós esetben a kapható. A becsült paraméterek varianciája (standard hibája) miatt számítanunk kell a paraméterek kovarianciamátrixát is. Elméleti értéke Becslések a standard lineáris modellben

29 Becsült értéke a magyarázóváltozók megfigyeléseiből, valamint a variancia s e 2 becsléseiből előállítható, és a számítógépes csomagok kiszámítják. A j-edik főátló elem a j-edik regressziós paraméter varianciája. Így a paraméterbecslés standard hibája: A j-edik becsült együttható eloszlása normális, a következő paraméterekkel: A becsült varianciát illetve standard hibát felhasználva: Becslések a standard lineáris modellben

30 Ez azt jelenti, hogy az SLM feltételeinek fennállásakor a becsült paraméterek egyszerű transzformáltja Student-féle t-eloszlást követ. Az 1-α megbízhatóságú konfidenciaintervallum a j-edik regressziós együtthatóra: kétváltozós esetben a szf=n-2. Az együtthatók intervallumánál fontosabb a függvényértékek intervallumának becslése. Az intervallum közepének pontbecslésekor egy x 1*, x 2*,…, x k* =x * T helyen keressük a becsült függvényértéket, akkor az Becslések a standard lineáris modellben

31 torzítatlanul becsli a sokasági függvényértéket, azaz. Az intervallumbecsléshez elő kell állítani varianciáját, illetve a standard hibáját. Kétváltozós esetben: többváltozós esetben: A konfidenciaintervallum: Becslések a standard lineáris modellben minimális, ha:

32 Megadja azokat a határokat amelyek az esetek (1-α)* 100 %-ában lefedik az elméleti regressziós függvény x * ponthoz tartozó értékét.

33 A hipotézisvizsgálatot a regresszióban két területen használjuk: 1.A paraméterek ill. a modell megfelelő-e? 2.A kiinduló feltételek teljesülnek-e? A 2.-at kellene előbb, de ez nem lehetséges csak az 1. után!!!!! A hipotézisvizsgálat többletet ad a leíró elemzéshez képest. Most a paraméterek és az egész modell tesztelését vizsgáljuk. Hipotézisvizsgálat a standard lineáris modellben

34 A paraméterek szeparált tesztelésekor a nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig, hogy nem az: A nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót. A paraméterek szeparált tesztelése

35 A próbafüggvény a nullhipotézis alatt (fennállása esetén): A regressziós együtthatók szeparált tesztelésére alkalmazott t-próba elvégzéséhez el kell készíteni a j- edik paraméter becslését, meg kell határozni a becsült standard hibát, és a kettő hányadosát kell képezni. Ha az empirikus t-érték abszolút értékben kicsi (az elméleti értéknél kisebb), akkor a nullhipotézis nem utasítható el, ellenkező esetben a nullhipotézist elvetjük, és a j-edik változót adott α szinten fontos (szignifikáns) magyarázó változónak tekintjük. A paraméterek szeparált tesztelése

36 Ezt a próbát regressziós t-próbának vagy parciális t- próbának nevezzük. Minden paraméterre el kell végezni külön-külön a próbát. Így képet kapunk arról, hogy az egyes változók lényeges mértékben járulnak-e hozzá az eredményváltozó magyarázatához. A próba alkalmazható akkor is, ha nem a, hanem valami más, nullhipotézist akarunk vizsgálni. Ekkor -t írunk a baloldalra. A konstansra általában nem végezzük el a próbát, de megtartjuk a modellben. A paraméterek szeparált tesztelése

37 Azt vizsgáljuk, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ezt a varianciaanalízissel teszteljük. A magyarázó változók sokasági együtthatói mind 0-k, azaz Ellenhipotézisünk az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz A modell egészének tesztelése

38 A nullhipotézis itt azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt mondja ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet (nem kell) eleve elutasítani. Ezért a varianciaanalízis logikailag megelőzi a parciális t-próbát, mivel ha megállapítjuk hogy rossz a modell nem kell a paramétereket elemezni. A varianciaanalízis próbája a globális F-próba: Ha a számított érték nagyobb vagy egyenlő, mint a táblázatban lévő érték akkor az adott α szignifikanciaszinten a modell nem utasítható el, azaz legalább egy lényeges kapcsolatot megragad. A modell egészének tesztelése

39 Illeszkedés tesztjének is felfogható (goodness of fit), nagy R 2 esetén utasítja el a nullhipotézist

40

41 A modell egészének tesztelését a varianciaanalízis F-próbájával végezzük. A p-érték (empirikus szignifikanciaszint) igen kicsi, ezért azt mondhatjuk, hogy a modell elfogadható (magyarázza a gépkocsi árakat). Ha az egyes változókat is vizsgáljuk: 5%-os szinten a t 0,975 (9)=2,26 a második magyarázó változó (dummy) értéke kisebb a kritikus értéknél. 10%-os szinten a t 0,95 (9)=1,86 miatt már elfogadható a teljes modell. A modell egészének tesztelése


Letölteni ppt "STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."

Hasonló előadás


Google Hirdetések