Energiatervezési módszerek Egyváltozós regresszió-analízis, trend extrapoláció Többváltozós regresszió-analízis, ökonometria
Egyváltozós statisztikai analízis Statisztikai alapfogalmak Regresszióanalízis
Statisztikai alapfogalmak Statisztika: a tömegjelenségek leírásával és jellemzésével foglalkozó tudományág. Megállapításai és eredményei egyedi esetekre, egyénekre csak rendkívül korlátozottan és nagy hibahatárokkal vonatkoztathatók. A jelenségek leírásához többnyire elégséges a számtani alapműveletek használata. A jelenségek leírásán túlmenő statisztikai elemzések központi eleme a becslés, és a becsléshez kapcsolódó valószínűségek, hibahatárok elemzése. A populáció – magyarul alapsokaság – valamilyen ismertető jegyek, tulajdonságok alapján összetartozó egyedek összességét jelenti. A minta a populáció vizsgált része.
Statisztikai alapfogalmak Az adatok jellegük szerint lehetnek minőségi / megállapítható / kvalitatív, vagy mennyiségi / mérhető / kvantitatív adatok Az adatok értékük / értékkészletük szerint lehetnek: bináris, diszkrét, folytonos adatok. Az adatok a skála típusa szerint lehetnek: nominális / névleges skála (nominal, categorical) ordinális / sorrendi / rendező skála (orderes, ordered categorical) intervallumskála (interval) arányskála (proportional)
Statisztikai alapfogalmak Statisztikai adat a mérés eredménye, valamely statisztikai sokaság elemeinek száma vagy más számszerű jellemzője. Lehet közvetlenül mért alapadat (pl. GDP, energiafelhasználás) származtatott adat, alapadatok-ból számított mutató (pl. energiahatékonyság)
Statisztikai alapfogalmak Értékskála típusok Nominális skála: minőségi (és területi) ismérveknél. Mennyiségi értelmezésük nincs, csak az ismérvváltozatok azonosítására szolgálnak. Például: Nem: férfi (1), nő (2); Megye: Veszprém (19), Zala (20). Sorrendi skála: az egymást követő számok rangsort fejeznek ki, de nem jelentik azt, hogy az ismérv-értékek közötti távolság azonos. Például: versenyen elért helyezés Intervallum skála: nem csak a sorrend, hanem a számérték (távolság) is fontos. Például: hőmérsékletérték Arányskála: kötött kezdőpontú, mértékegység független, 0=az ismérv hiánya. Például: GDP, villamosenergia-fogyasztás.
Statisztikai alapfogalmak Változó és paraméter Paraméter: a vizsgált objektum/jelenség mért, számszerű jellemzője, sajátossága: számszerű, mennyiségi jellegű, egyetlen számmal jellemezhető, egyértelmű, pontos, értelmezhető. Változó: olyan jellemző, ami nem rendelkezik a paraméter ismérveivel Függő és független változók!
Statisztikai alapfogalmak Statisztika típusok Leíró statisztika (decriptives, basic statistic) a minta egyik változójának alapvető jellemzőit adja meg, leírja a mintát, annak jellemzőit [átlag, szórás, medián stb.] további vizsgálatok kiinduló adatai Középértékek átlag (számtani középérték) = mintaösszeg/elemszám medián: a nagyság szerint rendezett adatok közül a középső módusz: a leggyakrabban előforduló érték
Statisztikai alapfogalmak Szórások kiegészítő adatok a középértékek mellett az átlag körüli elhelyezkedést jellemzik Terjedelem (szélsőértékek) a legnagyobb és legkisebb elem különbsége Eloszlás az elemek előfordulási gyakorisága a szélsőértékek között Kvantilisek nagyság szerint sorbarendezett minta azonos elemszámú csoportjai [leggyakoribb: kvartilisek, azaz négy csoport]
Statisztikai alapfogalmak Szórás az adatok változékonyságának mérőszáma [standard eltérés (standard deviation), jelölése: s, SD] Variancia az adatok variálódását mutatja, az átlagtól való eltérések négyzeteinek összege osztva (n-1)-gyel. Jelölése: s 2,V Standard hiba (standard error): a populáció tényleges átlaga körül hogyan szóródnak a populációból vett különböző minták átlagai; a szórás és az elemszám négyzetgyökének hányadosa (SE) Variációs együttható (relatív szórás): az adatok átlaghoz viszonyított relatív változékonysága (különböző mennyiségek szórása összehasonlítható ezzel), a szórás és az átlag hányadosa
Statisztikai alapfogalmak Gyakoriság (frequency) az adott elem hányszor fordul elő a mintában osztályba sorolt adatok esetén: az osztály elemszáma osztályhatárok: egyértelmű besorolás a gyakoriság általában valamilyen mintázatot, eloszlást mutat (legtöbbször normáleloszlást) ábrázolása hisztogrammal
Korreláció Két mennyiség közötti lineáris kapcsolat nagysága (0..1) Tapasztalati szórás:
Matematikai (statisztikai) fogalmak Átlag (számtani): Szórás: Kovariancia: torzított becslés, n≥30korrigált szórás torzítatlan becslés, n<30 Átlagtól való átlagos eltérés együttmozgás
Matematikai (statisztikai) fogalmak Összeg: Négyzetösszeg: Négyzetes eltérés: Standard hiba Variációs együttható:
Matematikai (statisztikai) fogalmak Normális (Gauss-féle) eloszlás Sűrűségfüggvény (gyakoriság): Eloszlásfüggvény:
Statisztikai alapfogalmak - Példa Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek Hisztogram
Statisztikai alapfogalmak - Példa Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek Leíró statisztika elemszám: 118 terjedelem: átlag: 439,6 módusz: 434 medián: 438 szórás: 19,31
Regressziószámítás Jelölések: eredmény- vagy függő változó: y vagy y (vektor) magyarázó- vagy független változó: x vagy X (mátrix) maradék vagy hiba: ε vagy ε (vektor) együtthatók: β vagy β (vektor) k számú változóval és változónként n megfigyeléssel:
Regressziószámítás Becsült lineáris regressziós fgv. (^: becsült paraméter) A becsült regressziós fgv. hibája: reziduum (maradék): Fontos!
Regressziószámítás Regressziós fgv. paramétereinek becslése Módszer:klasszikus legkisebb négyzetek módszere (Ordinary Least Squares, OLS) Célfüggvény: eltérések (reziduumok) négyzetösszege Cél: MIN(g)!
Regressziószámítás A regresszió „jóságát” meghatározó mutatók eltérések négyzetösszege: (sum of squares of residuals) regressziós (magyarázott) négyzetösszeg: (explained sum of squares) teljes négyzetösszeg: TSS=ESS+RSS determinációs együttható: (a korrelációs együttható négyzete)
Trend extrapolációs módszer Az extrapoláció bázisidőszaka meghatározza a jövőbeli értékeket. A függvény típusának megválasztása kritikus. Esetünkben exponenciális, de „ránézésre” lineáris is lehetne.
Trend extrapolációs módszer Bázisidőszak megválasztása: GDP
Trend extrapolációs módszer
Többváltozós statisztikai analízis Ökonometria
Mi az ökonometria? Az ökonometria feladata gazdasági-társadalmi jelenségek statisztikai modellezése. Milyen ismeretek szükségesek: matematika (algebra) statisztika Felhasznált módszer és eszköz: módszer: regressziószámítás eszköz: táblázatkezelő (MS Excel, OO Calc) és gretl. A gretl elérhető:
Modellalkotás A modellek jellemzői Modell = egyszerűsítő (torzított) lényegkiemelés Kényelmes eszközzel (matematikai módszer) vizsgálható Kulcskérdés: absztrakciós szint megválasztása Egyensúlyozás: kezelhetőség ↔ valósághűség Mire jók a modellek? elemzés előrejelzés
Modellalkotás Modellalkotás lépései 1.hipotézis felállítása (gondolkodási modell, célok és eszközök) 2.adatgyűjtés 3.matematikai modell megválasztása 4.modellparaméterek meghatározása (becslése) 5.validáció (ellenőrzés)
Hipotézisvizsgálat az adatforrás működési „mechanizmusát” egy véletlen eloszlás/függvénykapcsolat jellemzi, az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra/függvénykapcsolatra nézve ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket
Korreláció és kauzalitás, Szimultaneitás A statisztikai modell nem adja meg az ok okozati kapcsolatot, ez az elemző feladata. A GDP változása ugyanolyan jól magyarázza a villamosenergia-felhasználást, mint fordítva. Mi az ok, mi az okozat? A korreláció nem implikál kauzalitást! A matematikai kapcsolat még nem jelent ok okozati kapcsolatot. A változók kölcsönösen hatnak egymásra (HDI, GDP, energiafelhasználás)
Statisztikai próbák t-statisztika (egymintás t-próba): m: feltételezett (megadott) érték Nullhipotézis: Alternatív hipotézis: A nullhipotézist el kell vetni ha A változó relevanciájára irányuló t-próba
t-próba szabadságfokszignifikanciszint, α Példa: sokaságból vett minta feltételezett normáleloszlás minta: 483, 502, 498, 496, 502, 483, 494, 491, 505, 486 átlag: 494 szignifikás-e (jellegzetes-e) az eltérés, valóban 500 az átlag? Nullhipotézis: az átlag = 500 szabadságfok: f=n-1 elemszám: 10 szórás: 8,05 t=2,36 Táblázatból: t 0,05 =2,26, mivel t≥t 0,05, ezért a sokaság átlaga nem 500, az eltérés szignifikáns
Statisztikai próba, p-érték A p-érték fogalma van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H 0 -t elfogadjuk H 0 -t elvetjük Nullhipotézis: H 0 : R 2 =0, azaz nincs kapcsolat a változók között.
Példa - Adatelemzés GDP-TPES ( ): nem látszik kapcsolat Ez a szóródási diagram, vagy scatterplot.
Példa - Adatelemzés GDP-villamos energia ( ): lineáris (?) kapcsolat
Példa - Eredmények βStd. hibat-statisztikap-érték const15326,43238,074,73320,00017*** GDP4,010530, ,6022<0,00001*** Mean dependent var 43028,30S.D. dependent var 351,920 SSR S.E. of regression 2208,450 R-squared 0,838685Adjusted R-squared 0, F(1, 18)73,99734P-value(F) 8,59e-08 Log-likelihood-181,3261Akaike criterion 366,6522 Schwarz criterion 368,6436Hannan-Quinn 367,0409 rho 0,306655Durbin-Watson 1, A GDP jó magyarázó változó A modell meggyőző erejű (a változás 83%-át magyarázza)
Példa2 – Kétváltozós regresszió vill.en.=f(GDP, árindex) létezik?
Példa2 - Eredmények CoefficientStd. Errort-ratiop-value const -4440, ,3-0,38120,70777 GDP4,838710, ,5110<0,00001 *** price_idx122,98660,2382,04170,05702* Mean dependent var 43028,30S.D. dependent var 51,920 Sum squared resid S.E. of regression 2164,318 R-squared 0,853675Adj. R-squared 0, F(2, 17) 51,00601P-value(F) 6,55e-08 Log-likelihood-180,3508Akaike criterion 366,7016 Schwarz criterion 369,6888Hannan-Quinn 367,2847 rho 0,270488Durbin-Watson 1, Az árindex még elfogadható (határeset) magyarázó változó. A modell jósága növekedett.
Regressziószámítás - Ellenőrzés Több változó további ellenőrzés Változók közötti kapcsolat: egymást magyarázzák? Kollinearitás, multikollinearitás Variancianövelő tényező: VIF (variance inflation factor) : determinációs együttható a j-edik és a többi vált. között : tolerancia VIF≥1, 10 felett: erős kollinearitás
Példa2 – Kollienearitás ellenrőzése Variance Inflation Factors Minimum possible value = 1.0 Values > 10.0 may indicate a collinearity problem GDP 3,386 price_idx 3,386 A változók nem magyarázzák egymást, függetlenek.
Regressziószámítás - Ellenőrzés Korrigált determinációs együttható n: változók száma p: paraméterek száma R 2 : eredeti det. együttható Jellemzői: „bünteti” új változók bevonását negatív is lehet
Regressziószámítás - Ellenőrzés Akaike információs kritérium (AIC) n: a mintaelemszám RSS: a hibanégyzet összeg, DF error : a hiba szabadságfoka (n-p-1), p: a modell paraméterszáma Mivel a hibán (RSS) alapul, minél kisebb, annál jobb. Sok paraméter (p) jól magyaráz (RSS csökken) lényegkiemelő szerep csökken
Regressziószámítás - Ellenőrzés Normalitás vizsgálat A maradékoknak (e) normális eloszlásúnak kell lenniük! Eszközök (grafikus, vizuális eszközök): 1. maradékok sűrűségfüggvénye (gyakoriságok) 2. Q-Q plot (Q-Q diagram) 3. további eszközök (pl. P-P plot stb.)
Példa2 – Normalitás vizsgálat Normalitás vizsgálat – maradékok gyakorisága
Példa2 – Normalitás vizsgálat Normalitás vizsgálat – Q-Q plot Pontok illeszkedjenek az egyenesre!