Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.

Hasonló előadás


Az előadások a következő témára: "STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."— Előadás másolata:

1 STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

2 Ha a lineáris közelítés nem megfelelő nem lineáris regressziót kell alkalmazni. Megjegyzések: Elvileg bármelyik függvényt alkalmazhatjuk Lehetnek változóiban vagy paramétereiben nem lineáris modellek –Csak változóiban nem lineáris modellek visszavezethetők lineárisra Kezelésük, értelmezésük nehezebb Nemlineáris regresszió

3 Gyakori nemlineáris regressziós függvények sematikus alakjai X Y YY XX jövedelem és az élelmiszerek fogyasztása minőség és a termék ár műtrágya felhasználás és a termésátlag Nem monoton függvény

4 Nemlineáris modellek kezelése: 1.a modell linearizálása tranzformációval, 2.eredeti nemlineáris modell alkalmazása (számítástechnikai eszközök jelentősége, Statisztikai programok alkalmazása). Nemlineáris regresszió

5 Exponenciális regresszió alapfüggvénye: mind változójában, mind paramétereiben nemlineáris (inkább trendfüggvényként alkalmazzák). Ha egy ν multiplikatív maradékváltozót feltételezünk (1 körül ingadozik), akkor az egyenlet mindkét oldal logaritmálása után a következő ez az egyszeresen logaritmikus vagy féllogaritmikus függvény. A β 1 az x növekedéséhez kapcsolódó átlagos y növekedést jelenti (ekvidisztáns x változó esetén ad jól értelmezhető eredményt). A β 0 az x=0 értéknél az y várható értékét mutatja. Nemlineáris regresszió

6 Hatványkitevős regresszió függvénye: gyakrabban alkalmazzák, mint az előzőt, mind változójában, mind paramétereiben nemlineáris, logaritmálás után lineáris alakra hozható: mindkét változónak vettük a logaritmusát kettős logaritmikus (double logarithmic) függvény Nemlineáris regresszió

7 A becsült egyenletre felírjuk az elaszticitás függvényt: Ez azt mutatja, hogy ennél a függvénynél az elaszticitás állandó és megegyezik a kitevőben szereplő paraméterrel. Ez azt jelenti, hogy a magyarázó változó 1 %-kal nagyobb értékéhez százalékos azonos irányú elmozdulás tartozik a becsült eredményváltozóban. konstans elaszticitású függvény A paraméter jelentése: az x=1 helyen mutatja az eredményváltozó értékét. Nemlineáris regresszió

8 Képzettség és bér kapcsolata– hatványkitevős regresszió linearizálással Sorszám Tanulásban töltött idő (év) Havi kereset (y) (Ft) ln yln x 11916750012,032,94 2129226011,432,48 3129370011,452,48 41617220012,062,77 51918860012,152,94 6125990011,002,48 71510150011,532,71 8129600011,472,48 9128138011,312,48 10127540011,232,48 11178230011,322,83 121511700011,672,71 131616002011,982,77 14157315011,202,71 15128370011,332,48

9 Mindkét változó logaritmusát képezzük, majd ezekre lineáris regressziót illesztünk. ebből az eredeti hatványkitevős forma: A becsült egyenlet: A tanulással töltött évek 1 %-os növekedése 1,47%-kal nagyobb keresetet okoz. A β 0 paramétert nem értelmezzük. Nemlineáris regresszió

10 Az oktatásban töltött évek és a havi bér kapcsolata

11 Ha nem linearizáljuk a függvényt akkor más eredményt kapunk. SPSS-ben megoldva: A két függvény azonos x-ek esetén közeli eredményeket ad: x=12-nélx=16-nál Nemlineáris regresszió

12 Ország GDP/fő (x) (USD, vásárlóerőparitáson) Internet kapcsolat (y) (tízezer lakosra)ln xln y Ausztria2959171310,306,57 Belgium2848420310,265,31 Bulgária7274678,894,20 Csehország161242749,695,61 Franciaország2786640110,245,99 Görögország196311709,885,14 Horvátország10492689,264,22 Írország3380139510,435,98 Lengyelország114612049,355,32 Lettország96831799,185,19 Litvánia110362049,315,32 Magyarország146293589,595,88 Nagy-Britannia2908054510,286,30 Németország2639631510,185,75 Olaszország2617011410,174,74 Portugália183212209,825,39 Románia6974238,853,14 Spanyolország2326422210,055,40 Szlovákia130052129,475,36 Szlovénia196182159,885,37

13 Az egyes országok gazdasági fejlettsége és az internet elterjedése közötti kapcsolatot vizsgáljuk 2003-ban. A linearizált alakból történt becslés eredménye: Ha az egy főre jutó GDP 1 %-kal magasabb akkor ez 1,16 %-kal növeli az internettel rendelkező háztartások arányát. SPSS-szel megoldva: a rugalmassági paraméter lassuló növekedést mutat, mivel 1-nél kisebb értékű. Az ellentétes eredmény miatt szakmailag kell eldöntenünk melyik a jobb !!! (a lineáris regresszió elemzés is felmerülhet) az első függvény, mivel gyorsuló ütemben növeli az internet használatot Nemlineáris regresszió ?

14 A gazdasági fejlettség és az internet kapcsolata

15 A polinomiális regresszió függvény: csak a változókban nemlineáris. A hatványokat előre kitudjuk számítani, így többváltozós lineáris regresszióvá alakítható x=x 1, x 2 =x 2, x l =x l ; a maradékváltozóval együtt a következő alakban írható fel: Előny: Az eddigi nemlineáris függvények közül a polinom adja a legkényelmesebben használható függvényformát. Hátrány: Nehéz tárgyi értelmet adni a nemlineáris tagoknak és együtthatóiknak (négyzetes, köbös stb.). Fokszám növelés!!!!!!!! Nemlineáris regresszió

16 Nemlineáris esetekben a kapcsolat szorosságának mérésére a korrelációs indexet (0 - 1) használjuk: Az I mutató analóg a lineáris esetben a determinációs együtthatóból vont négyzetgyökkel. Ha az illeszkedés jó 1-hez közeli az értéke Ha rossz az illeszkedés alacsony az értéke (a maradék négyzetösszeg viszonylag nagy). Nem mutatja meg a kapcsolat irányát!!!!! Lineáris esetben megegyezik az előjel nélküli lineáris korrelációs együtthatóval. Nemlineáris regresszió

17 Egy 1996-os vizsgálat a gazdasági fejlettség és a városi népesség aránya közötti összefüggést vizsgálta. Nemlineáris regresszió

18 Ország Arány (y) (%) GDP/fő (x) (USD/fő) Banglades16202 Barbados456950 Burkina Faso15357 Közép-afrikai Köztársaság47457 Csehország567311 Etiópia12122 Finnország6015877 Grúzia564500 Hong Kong9414641 India26275 Irán571500 Libanon841429 Líbia825910 Litvánia696710 Malajzia432995 Észak-Korea601000 Hollandia8917245

19 Gazdasági fejlettség és a városi népesség aránya

20 A polinomiális (kvadratikus) regressziófüggvény egyenlete: a legfejlettebb országokban már megfordul az arány. A függvény az x=15250 USD/fő pontban éri el a maximumát (a gazdagok kiköltöznek a városokból). A regresszió pontosságát jellemezve a négyzetösszegek így a korrelációs index: közepesnél alig valamivel erősebb a kapcsolat. (másik mintavétel??) Nemlineáris regresszió

21 A nemlineáris modelleknél is előfordulhat, hogy egyetlen magyarázó változóval nem írható le a jelenség. A többváltozós esetekben is a leggyakoribb a hatványkitevős (kettős logaritmikus alak): A ν multiplikatív maradékváltozó 1 körül ingadozik. A függvény paramétereinek becslése a legkisebb négyzetek módszerével történik, eredeti formájában nemlineáris szélsőérték-számítással, vagy linearizált alakban a normálegyenlet-rendszer megoldásával. Statisztikai programcsomagok felhasználása A makrogazdasági elemzésekben termelési függvényekként alkalmazzák ezeket. Nemlineáris regresszió

22 Ennek a függvénynek is sajátja az állandó (parciális) rugalmasság azaz az eredményváltozónak a j-edik magyarázó változó szerinti parciális rugalmassága állandó: Nemlineáris regresszió

23 A regresszióban használt adatok minták vagy teljes körű sokasági megfigyelések lehetnek. A számítógépes programok eleve valószínűségi (mintavételi) hátteret feltételeznek a regressziós modellekben. A standard lineáris modell (SLM) feltételrendszere: F1: A magyarázó változók nem valószínűségi változók, hanem a különböző mintákon állandónak tekinthetők. F2: A magyarázó változók megfigyelt értékei lineárisan független rendszert alkotnak. F3: Az eredményváltozó feltételes (adott X-ek esetén feltételezett) várható értéke lineáris függvénye a magyarázó változóknak: Standard lineáris modell (SLM)feltételrendszere

24 A standard lineáris modell (SLM) feltételrendszere (folytatás): F4: A regressziós maradékot kifejező változó (maradékváltozó) feltételes eloszlása normális, 0 várható értékkel és állandóvarianciával, azaz F5: A maradékváltozó különböző X-ekhez tartozó értékei korrelálatlanok: Standard lineáris modell (SLM)feltételrendszere

25 F1: A magyarázó változók nem valószínűségi változók, hanem a különböző mintákon állandónak tekinthetők. Kontrolált kísérletSztochasztikus magyarázó változójú kísérlet árpa termésátlag, műtrágya, szántás mélység előre rögzített véletlenszerű kiválasztás mennyiség és mélységeltérő mennyiség és mélység F2: A magyarázó változók megfigyelt értékei lineárisan független rendszert alkotnak. Ha lineáris kapcsolat van a függvény paraméterei nem határozhatók meg (nem becsülhetők) egyértelműen, parciális paramétereik nem számíthatók. F3: Az eredményváltozó feltételes (adott X-ek esetén feltételezett) várható értéke lineáris függvénye a magyarázó változóknak. A változók között lineáris kapcsolat van. Standard lineáris modell (SLM) feltételrendszerének magyarázata

26 F4: A regressziós maradékot kifejező változó (maradékváltozó) feltételes eloszlása normális A maradékváltozó általában több, a modellben nem specifikált tényező hatásának eredője, ezért közelítőleg normális eloszlást (hibaeloszlást) követ. F5: A maradékváltozó különböző X-ekhez tartozó értékei korrelálatlanok Az X különböző értékeihez tartozó maradékváltozók függetlenek legyenek. A gyakorlatban a feltételek tisztán ritkán teljesülnek!! Standard lineáris modell (SLM) feltételrendszerének magyarázata

27 Az első lépés a β paraméterek (pont)becslése, amit számítógéppel végzünk. A pontbecslések torzítatlanok és konzisztensek. A második lépésben becsülni lehet a függvényértékeket:, majd ezek segítségével a reziduumok vektorát:. A harmadik lépésben a reziduális variancia becslése következik: de ez torzított. Becslések a standard lineáris modellben

28 Ezért helyette a torzítatlan becslőfüggvényt, a korrigált reziduális varianciát használjuk: Kétváltozós esetben a kapható. A becsült paraméterek varianciája (standard hibája) miatt számítanunk kell a paraméterek kovarianciamátrixát is. Elméleti értéke Becslések a standard lineáris modellben

29 Becsült értéke a magyarázóváltozók megfigyeléseiből, valamint a variancia s e 2 becsléseiből előállítható, és a számítógépes csomagok kiszámítják. A j-edik főátló elem a j-edik regressziós paraméter varianciája. Így a paraméterbecslés standard hibája: A j-edik becsült együttható eloszlása normális, a következő paraméterekkel: A becsült varianciát illetve standard hibát felhasználva: Becslések a standard lineáris modellben

30 Ez azt jelenti, hogy az SLM feltételeinek fennállásakor a becsült paraméterek egyszerű transzformáltja Student-féle t-eloszlást követ. Az 1-α megbízhatóságú konfidenciaintervallum a j-edik regressziós együtthatóra: kétváltozós esetben a szf=n-2. Az együtthatók intervallumánál fontosabb a függvényértékek intervallumának becslése. Az intervallum közepének pontbecslésekor egy x 1*, x 2*,…, x k* =x * T helyen keressük a becsült függvényértéket, akkor az Becslések a standard lineáris modellben

31 torzítatlanul becsli a sokasági függvényértéket, azaz. Az intervallumbecsléshez elő kell állítani varianciáját, illetve a standard hibáját. Kétváltozós esetben: többváltozós esetben: A konfidenciaintervallum: Becslések a standard lineáris modellben minimális, ha:

32 Megadja azokat a határokat amelyek az esetek (1-α)* 100 %-ában lefedik az elméleti regressziós függvény x * ponthoz tartozó értékét.

33 A hipotézisvizsgálatot a regresszióban két területen használjuk: 1.A paraméterek ill. a modell megfelelő-e? 2.A kiinduló feltételek teljesülnek-e? A 2.-at kellene előbb, de ez nem lehetséges csak az 1. után!!!!! A hipotézisvizsgálat többletet ad a leíró elemzéshez képest. Most a paraméterek és az egész modell tesztelését vizsgáljuk. Hipotézisvizsgálat a standard lineáris modellben

34 A paraméterek szeparált tesztelésekor a nullhipotézisünk az, hogy a j-edik sokasági paraméter értéke 0, ellenhipotézisünk pedig, hogy nem az: A nullhipotézis azt jelenti, hogy a j-edik magyarázó változó regressziós együtthatója 0, azaz a j-edik változó tetszőleges elmozdulása nem befolyásolja az eredményváltozót. A paraméterek szeparált tesztelése

35 A próbafüggvény a nullhipotézis alatt (fennállása esetén): A regressziós együtthatók szeparált tesztelésére alkalmazott t-próba elvégzéséhez el kell készíteni a j- edik paraméter becslését, meg kell határozni a becsült standard hibát, és a kettő hányadosát kell képezni. Ha az empirikus t-érték abszolút értékben kicsi (az elméleti értéknél kisebb), akkor a nullhipotézis nem utasítható el, ellenkező esetben a nullhipotézist elvetjük, és a j-edik változót adott α szinten fontos (szignifikáns) magyarázó változónak tekintjük. A paraméterek szeparált tesztelése

36 Ezt a próbát regressziós t-próbának vagy parciális t- próbának nevezzük. Minden paraméterre el kell végezni külön-külön a próbát. Így képet kapunk arról, hogy az egyes változók lényeges mértékben járulnak-e hozzá az eredményváltozó magyarázatához. A próba alkalmazható akkor is, ha nem a, hanem valami más, nullhipotézist akarunk vizsgálni. Ekkor -t írunk a baloldalra. A konstansra általában nem végezzük el a próbát, de megtartjuk a modellben. A paraméterek szeparált tesztelése

37 Azt vizsgáljuk, hogy a magyarázó változók összességükben kielégítően magyarázzák-e az eredményváltozót. Ezt a varianciaanalízissel teszteljük. A magyarázó változók sokasági együtthatói mind 0-k, azaz Ellenhipotézisünk az, hogy létezik legalább egy olyan együttható, amely sokasági szinten nem nulla, azaz A modell egészének tesztelése

38 A nullhipotézis itt azt jelenti, hogy a modellünk egészében rossz, míg az ellenhipotézis azt mondja ki, hogy van legalább egy változó a modellben, amit érdemes megtartani, tehát a modellt nem lehet (nem kell) eleve elutasítani. Ezért a varianciaanalízis logikailag megelőzi a parciális t-próbát, mivel ha megállapítjuk hogy rossz a modell nem kell a paramétereket elemezni. A varianciaanalízis próbája a globális F-próba: Ha a számított érték nagyobb vagy egyenlő, mint a táblázatban lévő érték akkor az adott α szignifikanciaszinten a modell nem utasítható el, azaz legalább egy lényeges kapcsolatot megragad. A modell egészének tesztelése

39 Illeszkedés tesztjének is felfogható (goodness of fit), nagy R 2 esetén utasítja el a nullhipotézist

40

41 A modell egészének tesztelését a varianciaanalízis F-próbájával végezzük. A p-érték (empirikus szignifikanciaszint) igen kicsi, ezért azt mondhatjuk, hogy a modell elfogadható (magyarázza a gépkocsi árakat). Ha az egyes változókat is vizsgáljuk: 5%-os szinten a t 0,975 (9)=2,26 a második magyarázó változó (dummy) értéke kisebb a kritikus értéknél. 10%-os szinten a t 0,95 (9)=1,86 miatt már elfogadható a teljes modell. A modell egészének tesztelése


Letölteni ppt "STATISZTIKA II. 9. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék."

Hasonló előadás


Google Hirdetések