Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Energiatervezési módszerek Egyváltozós regresszió-analízis, trend extrapoláció Többváltozós regresszió-analízis, ökonometria.

Hasonló előadás


Az előadások a következő témára: "Energiatervezési módszerek Egyváltozós regresszió-analízis, trend extrapoláció Többváltozós regresszió-analízis, ökonometria."— Előadás másolata:

1 Energiatervezési módszerek Egyváltozós regresszió-analízis, trend extrapoláció Többváltozós regresszió-analízis, ökonometria

2 Egyváltozós statisztikai analízis Statisztikai alapfogalmak Regresszióanalízis

3 Statisztikai alapfogalmak Statisztika: a tömegjelenségek leírásával és jellemzésével foglalkozó tudományág. Megállapításai és eredményei egyedi esetekre, egyénekre csak rendkívül korlátozottan és nagy hibahatárokkal vonatkoztathatók. A jelenségek leírásához többnyire elégséges a számtani alapműveletek használata. A jelenségek leírásán túlmenő statisztikai elemzések központi eleme a becslés, és a becsléshez kapcsolódó valószínűségek, hibahatárok elemzése. A populáció – magyarul alapsokaság – valamilyen ismertető jegyek, tulajdonságok alapján összetartozó egyedek összességét jelenti. A minta a populáció vizsgált része.

4 Statisztikai alapfogalmak Az adatok jellegük szerint lehetnek minőségi / megállapítható / kvalitatív, vagy mennyiségi / mérhető / kvantitatív adatok Az adatok értékük / értékkészletük szerint lehetnek: bináris, diszkrét, folytonos adatok. Az adatok a skála típusa szerint lehetnek: nominális / névleges skála (nominal, categorical) ordinális / sorrendi / rendező skála (orderes, ordered categorical) intervallumskála (interval) arányskála (proportional)

5 Statisztikai alapfogalmak Statisztikai adat a mérés eredménye, valamely statisztikai sokaság elemeinek száma vagy más számszerű jellemzője. Lehet közvetlenül mért alapadat (pl. GDP, energiafelhasználás) származtatott adat, alapadatok-ból számított mutató (pl. energiahatékonyság)

6 Statisztikai alapfogalmak Értékskála típusok Nominális skála: minőségi (és területi) ismérveknél. Mennyiségi értelmezésük nincs, csak az ismérvváltozatok azonosítására szolgálnak. Például: Nem: férfi (1), nő (2); Megye: Veszprém (19), Zala (20). Sorrendi skála: az egymást követő számok rangsort fejeznek ki, de nem jelentik azt, hogy az ismérv-értékek közötti távolság azonos. Például: versenyen elért helyezés Intervallum skála: nem csak a sorrend, hanem a számérték (távolság) is fontos. Például: hőmérsékletérték Arányskála: kötött kezdőpontú, mértékegység független, 0=az ismérv hiánya. Például: GDP, villamosenergia-fogyasztás.

7 Statisztikai alapfogalmak Változó és paraméter Paraméter: a vizsgált objektum/jelenség mért, számszerű jellemzője, sajátossága: számszerű, mennyiségi jellegű, egyetlen számmal jellemezhető, egyértelmű, pontos, értelmezhető. Változó: olyan jellemző, ami nem rendelkezik a paraméter ismérveivel Függő és független változók!

8 Statisztikai alapfogalmak Statisztika típusok Leíró statisztika (decriptives, basic statistic) a minta egyik változójának alapvető jellemzőit adja meg, leírja a mintát, annak jellemzőit [átlag, szórás, medián stb.] további vizsgálatok kiinduló adatai Középértékek átlag (számtani középérték) = mintaösszeg/elemszám medián: a nagyság szerint rendezett adatok közül a középső módusz: a leggyakrabban előforduló érték

9 Statisztikai alapfogalmak Szórások kiegészítő adatok a középértékek mellett az átlag körüli elhelyezkedést jellemzik Terjedelem (szélsőértékek) a legnagyobb és legkisebb elem különbsége Eloszlás az elemek előfordulási gyakorisága a szélsőértékek között Kvantilisek nagyság szerint sorbarendezett minta azonos elemszámú csoportjai [leggyakoribb: kvartilisek, azaz négy csoport]

10 Statisztikai alapfogalmak Szórás az adatok változékonyságának mérőszáma [standard eltérés (standard deviation), jelölése: s, SD] Variancia az adatok variálódását mutatja, az átlagtól való eltérések négyzeteinek összege osztva (n-1)-gyel. Jelölése: s 2,V Standard hiba (standard error): a populáció tényleges átlaga körül hogyan szóródnak a populációból vett különböző minták átlagai; a szórás és az elemszám négyzetgyökének hányadosa (SE) Variációs együttható (relatív szórás): az adatok átlaghoz viszonyított relatív változékonysága (különböző mennyiségek szórása összehasonlítható ezzel), a szórás és az átlag hányadosa

11 Statisztikai alapfogalmak Gyakoriság (frequency) az adott elem hányszor fordul elő a mintában osztályba sorolt adatok esetén: az osztály elemszáma osztályhatárok: egyértelmű besorolás a gyakoriság általában valamilyen mintázatot, eloszlást mutat (legtöbbször normáleloszlást) ábrázolása hisztogrammal

12 Korreláció Két mennyiség közötti lineáris kapcsolat nagysága (0..1) Tapasztalati szórás:

13 Matematikai (statisztikai) fogalmak Átlag (számtani): Szórás: Kovariancia: torzított becslés, n≥30korrigált szórás torzítatlan becslés, n<30 Átlagtól való átlagos eltérés együttmozgás

14 Matematikai (statisztikai) fogalmak Összeg: Négyzetösszeg: Négyzetes eltérés: Standard hiba Variációs együttható:

15 Matematikai (statisztikai) fogalmak Normális (Gauss-féle) eloszlás Sűrűségfüggvény (gyakoriság): Eloszlásfüggvény:

16 Statisztikai alapfogalmak - Példa Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek Hisztogram

17 Statisztikai alapfogalmak - Példa Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek Leíró statisztika elemszám: 118 terjedelem: 408..487 átlag: 439,6 módusz: 434 medián: 438 szórás: 19,31

18 Regressziószámítás Jelölések: eredmény- vagy függő változó: y vagy y (vektor) magyarázó- vagy független változó: x vagy X (mátrix) maradék vagy hiba: ε vagy ε (vektor) együtthatók: β vagy β (vektor) k számú változóval és változónként n megfigyeléssel:

19 Regressziószámítás Becsült lineáris regressziós fgv. (^: becsült paraméter) A becsült regressziós fgv. hibája: reziduum (maradék): Fontos!

20 Regressziószámítás Regressziós fgv. paramétereinek becslése Módszer:klasszikus legkisebb négyzetek módszere (Ordinary Least Squares, OLS) Célfüggvény: eltérések (reziduumok) négyzetösszege Cél: MIN(g)!

21 Regressziószámítás A regresszió „jóságát” meghatározó mutatók eltérések négyzetösszege: (sum of squares of residuals) regressziós (magyarázott) négyzetösszeg: (explained sum of squares) teljes négyzetösszeg: TSS=ESS+RSS determinációs együttható: (a korrelációs együttható négyzete)

22 Trend extrapolációs módszer Az extrapoláció bázisidőszaka meghatározza a jövőbeli értékeket. A függvény típusának megválasztása kritikus. Esetünkben exponenciális, de „ránézésre” lineáris is lehetne.

23 Trend extrapolációs módszer Bázisidőszak megválasztása: GDP 2005-2010

24 Trend extrapolációs módszer

25 Többváltozós statisztikai analízis Ökonometria

26 Mi az ökonometria? Az ökonometria feladata gazdasági-társadalmi jelenségek statisztikai modellezése. Milyen ismeretek szükségesek: matematika (algebra) statisztika Felhasznált módszer és eszköz: módszer: regressziószámítás eszköz: táblázatkezelő (MS Excel, OO Calc) és gretl. A gretl elérhető: http://gretl.sourceforge.net/

27 Modellalkotás A modellek jellemzői Modell = egyszerűsítő (torzított) lényegkiemelés Kényelmes eszközzel (matematikai módszer) vizsgálható Kulcskérdés: absztrakciós szint megválasztása Egyensúlyozás: kezelhetőség ↔ valósághűség Mire jók a modellek? elemzés előrejelzés

28 Modellalkotás Modellalkotás lépései 1.hipotézis felállítása (gondolkodási modell, célok és eszközök) 2.adatgyűjtés 3.matematikai modell megválasztása 4.modellparaméterek meghatározása (becslése) 5.validáció (ellenőrzés)

29 Hipotézisvizsgálat az adatforrás működési „mechanizmusát” egy véletlen eloszlás/függvénykapcsolat jellemzi, az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra/függvénykapcsolatra nézve ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket

30 Korreláció és kauzalitás, Szimultaneitás A statisztikai modell nem adja meg az ok  okozati kapcsolatot, ez az elemző feladata. A GDP változása ugyanolyan jól magyarázza a villamosenergia-felhasználást, mint fordítva. Mi az ok, mi az okozat? A korreláció nem implikál kauzalitást! A matematikai kapcsolat még nem jelent ok  okozati kapcsolatot. A változók kölcsönösen hatnak egymásra (HDI, GDP, energiafelhasználás)

31 Statisztikai próbák t-statisztika (egymintás t-próba): m: feltételezett (megadott) érték Nullhipotézis: Alternatív hipotézis: A nullhipotézist el kell vetni ha A változó relevanciájára irányuló t-próba

32 t-próba szabadságfokszignifikanciszint, α 0.10.050.010.001 16.3112.7163.66636.62 22.924.309.9331.60 32.353.185.8412.92 42.132.784.608.61 52.022.574.036.87 61.942.453.715.96 71.892.373.505.41 81.862.313.365.04 91.832.263.254.78 101.812.233.174.59 111.802.203.114.44 121.782.183.064.32 131.772.163.014.22 141.762.142.984.14 151.752.132.954.07 161.752.122.924.02 171.742.112.903.97 181.732.102.883.92 191.732.092.863.88 201.722.092.853.85 211.722.082.833.82 221.722.072.823.79 231.712.072.823.77 241.712.062.803.75 251.712.062.793.73 261.712.062.783.71 271.702.052.773.69 281.702.052.763.67 291.702.052.763.66 301.702.042.753.65 401.682.022.703.55 601.672.002.663.46 1201.661.982.623.37  1.651.962.583.29 Példa: sokaságból vett minta feltételezett normáleloszlás minta: 483, 502, 498, 496, 502, 483, 494, 491, 505, 486 átlag: 494 szignifikás-e (jellegzetes-e) az eltérés, valóban 500 az átlag? Nullhipotézis: az átlag = 500 szabadságfok: f=n-1 elemszám: 10 szórás: 8,05 t=2,36 Táblázatból: t 0,05 =2,26, mivel t≥t 0,05, ezért a sokaság átlaga nem 500, az eltérés szignifikáns

33 Statisztikai próba, p-érték A p-érték fogalma van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H 0 -t elfogadjuk H 0 -t elvetjük Nullhipotézis: H 0 : R 2 =0, azaz nincs kapcsolat a változók között.

34 Példa - Adatelemzés GDP-TPES (1990-2009): nem látszik kapcsolat Ez a szóródási diagram, vagy scatterplot.

35 Példa - Adatelemzés GDP-villamos energia (1990-2009): lineáris (?) kapcsolat

36 Példa - Eredmények βStd. hibat-statisztikap-érték const15326,43238,074,73320,00017*** GDP4,010530,4662238,6022<0,00001*** Mean dependent var 43028,30S.D. dependent var 351,920 SSR 87790511S.E. of regression 2208,450 R-squared 0,838685Adjusted R-squared 0,829723 F(1, 18)73,99734P-value(F) 8,59e-08 Log-likelihood-181,3261Akaike criterion 366,6522 Schwarz criterion 368,6436Hannan-Quinn 367,0409 rho 0,306655Durbin-Watson 1,326367 A GDP jó magyarázó változó A modell meggyőző erejű (a változás 83%-át magyarázza)

37 Példa2 – Kétváltozós regresszió vill.en.=f(GDP, árindex) létezik?

38 Példa2 - Eredmények CoefficientStd. Errort-ratiop-value const -4440,3811648,3-0,38120,70777 GDP4,838710,7431576,5110<0,00001 *** price_idx122,98660,2382,04170,05702* Mean dependent var 43028,30S.D. dependent var 51,920 Sum squared resid 79632667S.E. of regression 2164,318 R-squared 0,853675Adj. R-squared 0,836460 F(2, 17) 51,00601P-value(F) 6,55e-08 Log-likelihood-180,3508Akaike criterion 366,7016 Schwarz criterion 369,6888Hannan-Quinn 367,2847 rho 0,270488Durbin-Watson 1,375572 Az árindex még elfogadható (határeset) magyarázó változó. A modell jósága növekedett.

39 Regressziószámítás - Ellenőrzés Több változó  további ellenőrzés Változók közötti kapcsolat: egymást magyarázzák? Kollinearitás, multikollinearitás Variancianövelő tényező: VIF (variance inflation factor) : determinációs együttható a j-edik és a többi vált. között : tolerancia VIF≥1, 10 felett: erős kollinearitás

40 Példa2 – Kollienearitás ellenrőzése Variance Inflation Factors Minimum possible value = 1.0 Values > 10.0 may indicate a collinearity problem GDP 3,386 price_idx 3,386 A változók nem magyarázzák egymást, függetlenek.

41 Regressziószámítás - Ellenőrzés Korrigált determinációs együttható n: változók száma p: paraméterek száma R 2 : eredeti det. együttható Jellemzői: „bünteti” új változók bevonását negatív is lehet

42 Regressziószámítás - Ellenőrzés Akaike információs kritérium (AIC) n: a mintaelemszám RSS: a hibanégyzet összeg, DF error : a hiba szabadságfoka (n-p-1), p: a modell paraméterszáma Mivel a hibán (RSS) alapul, minél kisebb, annál jobb. Sok paraméter (p)  jól magyaráz (RSS csökken)  lényegkiemelő szerep csökken

43 Regressziószámítás - Ellenőrzés Normalitás vizsgálat A maradékoknak (e) normális eloszlásúnak kell lenniük! Eszközök (grafikus, vizuális eszközök): 1. maradékok sűrűségfüggvénye (gyakoriságok) 2. Q-Q plot (Q-Q diagram) 3. további eszközök (pl. P-P plot stb.)

44 Példa2 – Normalitás vizsgálat Normalitás vizsgálat – maradékok gyakorisága

45 Példa2 – Normalitás vizsgálat Normalitás vizsgálat – Q-Q plot Pontok illeszkedjenek az egyenesre!


Letölteni ppt "Energiatervezési módszerek Egyváltozós regresszió-analízis, trend extrapoláció Többváltozós regresszió-analízis, ökonometria."

Hasonló előadás


Google Hirdetések