Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Kvantitatív módszerek
Készítette: Dr. Kosztyán Zsolt Tibor 1. Üdvözlök minden kedves kollégát! Engem Dr. Kosztyán Zsolt Tibornak hívnak. Kollégáimmal, Dr. Csizmadia Tiborral és Dr. Kovács Zoltán professzor úrral hárman fogjuk Önöknek ezt az órát tartani. A tananyaghoz tartozó segédletek letölthetők az itt látható webcímről. Itt található a tárggyal kapcsolatos követelményrendszer is. Ha bármi kérdésük van a tananyaggal kapcsolatban, akkor írjanak t a címre.
2
A Kvantitatív módszerek c. tárgy célja
Oktatási cél: A hallgatók megismerjék a legfontosabb mennyiségi módszereket, melyeket mind a termelésirányításban, mind a projektek, mind pedig a logisztika területén hatékonyan tudnak alkalmazni. Ezenkívül a hallgatók ismerkedjenek meg a legfontosabb statisztikai módszerekkel. A kvantitatív szó a mennyiségre utal. Vagyis a tárgy célja mennyiségi módszerek bemutatása, készség szintű elsajátítása. Ez egy alapozó tárgy; vagyis olyan ismereteket tanítunk itt a tárgy keretében, amelyek más tárgyaknál is többször előjönnek. Módszereket tanulunk, melyek majd a logisztikai, projekttervezési, termelésirányítási, pénzügyi tervezési, vagy éppen kutatási kérdések megválaszolásában segítenek majd.
3
A tárgy oktatói Előadók: Dr. Csizmadia Tibor (egyetemi adjunktus)
Dr. Kovács Zoltán (egyetemi tanár) Dr. Kosztyán Zsolt Tibor (egyetemi adjunktus, tárgyfelelős) Gyakorlatvezetők: Hegedűs Csaba (Ph.D hallgató) Kiss Judit (Ph.D hallgató) Ez a tantárgy egy integráló tárgy. Az egyes területeket a téma kiváló szakemberei fogják Önöknek oktatni. Dr. Csizmadia Tibor tanár úrral minőségmenedzsment c. tantárgyból is találkozni fognak. Meglátják, hogy itt olyan módszereket tanulnak tőle, melyeket pl. a statisztikai megfelelőségszabályozásban is lehet majd alkalmazni. Dr. Kovács Zoltán professzor úr szimulációs szoftvereket fog mutatni Önöknek. Az ott bemutatott eljárásokat mind a logisztika, mind a termelésmenedzsment területén sikerrel tudják majd alkalmazni. Jómagam matematikai-statisztikai témakörökben fogom Önöket oktatni. Nem utolsó sorban két doktorandusz hallgatómat is szeretném bemutatni. Hegedűs Csaba és Kiss Judit Ph.D hallgatókként a kvantitatív módszereken belül néhány nagyon érdekes kérdéssel foglalkoznak. Judit az ütemezéssel, míg Csaba a mérési bizonytalanságok kezelésével és azok felhasználásával a statisztikai folyamatszabályozások során. Ha bármelyik területhez kérdésük van, bátran forduljanak az illető oktatóhoz.
4
Tantárgyi tematika 1: Matematikai-statisztikai módszerek és elemzések (hipotézis vizsgálat, többváltozós regresszió számítás, keresztmetszeti és idősoros vizsgálatok problémái, kezelése) 2: Szimuláció: Monte Carlo módszerek. Szoftvercsomagok szolgáltatásai, alkalmazásuk a mennyiségi problémák megoldásánál. 3: Lineáris programozási feladatok alkalmazása (termelési és szállítási feladatok). Sorbanállási modellek. Készletgazdálkodási modellek kezelése. Előrejelzés KZST KZ Itt látható a részletes tematika. Az egyes rövidítések az illető kollégák neveit rövidítik. Az elméleti előadások mellett számítógépes gyakorlatok segítik a tananyag elsajátítását. CST
5
Matematikai statisztika
A statisztikai megfigyelés véletlen tömegjelenségekre irányul. A statisztikai minta véletlen jelenségre vonatkozó véges számú megfigyelés eredménye. Események bekövetkezésének, illetve be nem következésének hosszú megfigyelés során valószínűsége van. A mai előadáson tehát a matematika statisztikai módszerekkel foglalkozunk. A statisztikai megfigyelés véletlen tömegjelenségekre irányul, de a statisztikai minta véletlen jelenségre vonatkozó véges számú megfigyelés eredménye. Kihasználjuk, hogy az események bekövetkezésének, illetve be nem következésének hosszú megfigyelés során valamilyen valószínűsége van.
6
Hipotézisvizsgálat A statisztika egyik fő alkalmazási területe a döntések alátámasztása statisztikai hipotézisek vizsgálatával. Null-hipotézis (H0): különbség hiányát állítja Alternatív hipotézis (Hl): különbség meglétét állítja Az első terület, amit áttekintünk, az a hipotézisvizsgálat kérdésköre. A statisztika egyik fő alkalmazási területe a döntések alátámasztása statisztikai hipotézisek vizsgálatával. A nullhipotézis valamilyen különbség hiányát állítja, míg az ezzel szemben lévő alternatív hipotézis a különbség meglétét feltételezi.
7
Hipotézisvizsgálat A nullhipotézis ismeretében egy próbastatisztikát számítunk, amelynek ismerjük az eloszlását. Az eloszlást ismerve megmondhatjuk, milyen valószínűséggel kaphatunk egy próbastatisztika értéket, ha a hipotézis igaz. Ha a valószínűség kicsi, a hipotézist elvetjük, azaz valószínűtlen, hogy H0 igaz lenne. A nullhipotézisünket úgy teszteljük, hogy egy próbastatisztikát számítunk, amelynek ismerjük az eloszlását. Az eloszlást ismerve megmondhatjuk, milyen valószínűséggel kaphatunk egy próbastatisztika értéket, ha a hipotézis igaz. Ha a valószínűség kicsi, a hipotézist elvetjük, azaz valószínűtlen, hogy H0 igaz lenne.
8
Hipotézisvizsgálat Elsőfajú hiba: H0 igaz, de elvetjük
A hiba elkövetési valószínűségét szignifikancia-szintnek nevezzük (p=0,05) 95%, hogy H0 igaz Másodfajú hiba: H0 nem igaz, de elfogadjuk. Milyen hibát véthetünk a hipotézisvizsgálat során? Az első fajú hiba azt jelöli, hogy mennyi annak a valószínűsége, hogy H0 igaz, de mégis elvetjük. Ekkor a hiba elkövetési valószínűségét szignifikancia-szintnek nevezzük. Pl p=0,05 szignifikancia-szinten 95% a valószínűsége annak, hogy H0 igaz. A másodfajú hiba azt a valószínűséget jelöli, hogy H0 nem igaz, de mi mégis elfogadjuk. Az ábrán látható, hogy milyen nullhipotézis – alternatív hipotézis állításaink vannak. Baloldali tesztek Kétoldali tesztek Jobboldali tesztek H0 = H1 < H0 = H1 ≠ H0 = H1 >
9
Statisztikai próbák Parametrikus próbák: normál eloszlású minták
két mintát kell összevetnünk Átlagok azonosak-e: kétmintás t-próba Szórások azonosak-e: F-próba Nem parametrikus próbák: teszt alkalmazása nem függ a változók eloszlásától; függetlenség- és homogenitás vizsgálat – c2 próba, KS-próba Mit szoktunk tesztelni a hipotézisvizsgálatok során? Pl. Két mintát kell összevetnünk. Átlagok azonosak-e, vagy sem. Szórások azonosak-e. Nem parametrikus próbák esetén pl. azt vizsgálhatjuk, hogy egy valószínűségi változó vajon egy adott eloszlást követ-e vagy sem?
10
Összefüggés-vizsgálat
Több megfigyelt tényező hogyan függ egymástól Ellenőrzött, laboratóriumi körülmények között az összefüggés függvénykapcsolatként írható le. A társadalomtudomány területén előforduló jelenségek annyira bonyolultak, hogy az események bekövetkezése sokszor a véletlentől is függ. A következőkben két, illetve több változó közötti összefüggések meglétét vizsgáljuk. Ellenőrzött, laboratóriumi körülmények között az összefüggés függvénykapcsolatként írható le. Azonban a társadalomtudomány területén előforduló jelenségek annyira bonyolultak, hogy az események bekövetkezése sokszor a véletlentől is függ.
11
Összefüggés-vizsgálat
Sztochasztikus kapcsolat: a független változó értéke nem határozza meg egyértelműen a függő változó értékét, (pl. véletlenszerűen ingadozik egy legvalószínűbb érték körül.) A legtöbb esetben a társadalomtudomány területén a nem függvényszerű, sztochasztikus kapcsolatok fordulnak elő a leggyakrabban. A független változó értéke nem határozza meg egyértelműen a függő változó értékét, (pl. véletlenszerűen ingadozik egy legvalószínűbb érték körül.)
12
Összefüggés-vizsgálat
Egyik változó változásával a másik milyen irányba és mennyit változik? REGRESSZIÓ-ANALÍZIS Két változó között milyen irányú és mennyire szoros kapcsolat van? KORRELÁCIÓ-ANALÍZIS Az összefüggések vizsgálata során két területtel foglalkozunk. Regresszió-, illetve korreláció elemzéssel. A regresszió-analízis esetén azt vizsgáljuk, hogy az egyik változó változásával a másik milyen irányba és mennyit változik? A korreláció-elemzésnél azt vizsgáljuk, hogy két változó között milyen irányú és mennyire szoros kapcsolat van?
13
Regresszió-analízis Két változó kapcsolatát leíró függvényt kapjuk eredményül. Sokszor feltételezünk ok-okozati kapcsolatot, de a vizsgálat nem bizonyítja azt! Grafikusan pontdiagramra fektetett egyenes, ha lineáris összefüggést feltételezünk. Először a regresszió-analízissel foglalkozunk. Itt két változó kapcsolatát leíró függvényt kapjuk eredményül. De nem célunk a két változó közötti kapcsolat erősségének meghatározása. Sokszor feltételezünk ok-okozati kapcsolatot, de a vizsgálat nem bizonyítja azt! Ha lineáris összefüggést feltételezünk, akkor tulajdonképpen grafikusan pontdiagramra fektetett egyenes meghatározása a cél.
14
Regresszió-analízis Itt látható a becsült egyenes és annak egyenlete. Az ordináta (x) tengelyen látható a csapadék mennyisége (mm-ben), az abszcissza (y) tengelyen pedig a terméshozam t/ha-ban. Itt a csapadékot magyarázó, vagy független változónak nevezzük, a terméshozamot pedig magyarázott, vagy függő változónak. A regresszió-elemzés megmutatja, hogy milyen mértékben magyarázza csapadék a terméshozamot. (Vegyük észre, hogy itt ok-okozati kapcsolatot is feltételeztünk!)
15
1. példa Lássunk példát a regresszió-elemzés lépéseire.
16
Regresszió-analízis - SPSS
Az elemzést végezzük el az SPSS rendszerben!
17
Regresszió-analízis - SPSS
H1 SSR SSE SST Lássuk, mit is kaptunk eredményül! Az egyik legfontosabb táblázat a modell összegzését bemutató táblázat. R a determinációs, vagy korrelációs együtthatót jelöli, melynek értéke -1 és 1 között lehet. Ennek négyzete azt mutatja meg, hogy a varianciák hány %-át magyarázza meg a modell. Röviden a magyarázóképességet jelöli. A korrigált R2-et többváltozós esetben használjuk, ugyanis ha a modellparaméterek számát növeljük, ezáltal önmagában növekszik R2 értéke. Ezt korrigálja ez a mutató. A hiba szórása jelenik meg az utolsó oszlopban (a hiba várható értéke 0). A következő táblázat a modell szignifikanciáját vizsgálja F-próbával. Megvizsgáljuk, hogy az eltérések közül mennyi tulajdonítható a modellnek (SSR), mennyi nem (SSE) és mennyi az eltérések összege. Itt is megjelenik a hiba szórásnégyzete, varianciája. Viszont számunkra a legfontosabb mutató mégsem ez, hanem: Az, hogy 99,6 annak a valószínűsége, hogy a modellünk szignifikáns. Az F-próba H0 hipotézise szerint ugyanis azt mondja, a modellparamétereink együtthatói mind 0-k. Ellenhipotézis pedig az, hogy van legalább egy, ami nem nulla. Itt a konstanst nem számítva egy együtthatónk van, a béta 1. Vegyük észre, hogy itt a kicsi szignifikancia-érték H1-nek kedvez! Az utolsó táblázatunk az együtthatókra vonatkozó táblázat. Itt láthatjuk, hogy az egyes paraméterek szignifikanciáját vizsgáljuk. H0 azt jelöli, hogy az együtthatónk értéke 0. A konstans esetén ez beigazolódott, míg a magyarázó változónk együtthatóját tekintve (szerencsére) nem. Itt is azt jelenti a kis érték, hogy az az adott paraméter szignifikáns. Az együtthatóinkat tekintve a béta értékek becslése is megjelenik a táblázatban. H0 H1
18
Determinációs együttható négyzete:
“Residual” “Regression” “Total” Ahogyan azt az előző fólián is láthattuk, a determinációs együttható négyzete (vagy ahogyan röviden szoktuk mondani R2) a regressziós modell segítségével magyarázott eltérésnégyzetek (SSR) és a teljes eltérésnégyzet-összeg hányadosa. A korrigált R2-re többváltozós regressziós modell esetén van szükségünk, hiszen ekkor a magyarázóképesség pusztán azzal is nőhet, hogy egyre több modellváltozót vonunk be a modellünkbe.
19
R2 = SSR/SST Grafikusan szemléltetés során is magyarázható a determinációs együttható: Egy adott mért pont esetén az átlagtól (vízszintes vonal) való eltérés a következő tényezőkből tevődik össze. Egyrészt a modell által szolgáltatott érték és az átlag különbsége (ezt magyarázza a modell), valamint a modell által szolgáltatott és a tényleges érték különbsége, ami nem más mint a maradványérték, vagy más néven a reziduum. Ha ez a reziduális érték kicsi, akkor a pontok „rásimulnak” az egyenesre, és a determinációs érték nagy lesz, hiszen SSR értéke SST-hez fog közelíteni.
20
Regresszió-analízis A regressziós egyenes a vizsgálati tartományon belül érvényes, azon túl, hosszabb távon nem alkalmas predikciós célokra A regressziós egyenes egyenlete: Y=függő/magyarázott változó X=független/magyarázó változó Kapcsolat lehet pozitív ↗↗ , vagy negatív↗↘ Egyenes illesztése legkisebb négyzetek módszerével történik. Fontos megjegyezni, hogy a regressziós egyenes a vizsgálati tartományon belül érvényes, azon túl, hosszabb távon nem alkalmas predikciós célokra A regressziós egyenletben y a függő, magyarázott változót, x a független, vagy más néven magyarázó változót jelöli. Ha a determinációs együttható pozitív, akkor együttmozgásról beszélünk. Vagyis az x magasabb értéke esetén y is magasabb értékkel becsülhető. Negatív kapcsolat esetén a determinációs együttható negatív. Ekkor, ha x magasabb értékkel rendelkezik, akkor y alacsonyabb értékkel becsülhető. A regressziós egyenes illesztése legkisebb négyzetek módszerével történik.
21
Regresszió-analízis alkalmazhatóságának feltételei
E(u)=0 VAR(u)=s2 A hibatagok függetlenek egymástól. x és u függetlenek. u ~ N(0,s) A regresszió-analízis alkalmazhatóságának feltétele itt látható a fólián. Ezek közül az első azt mondja ki, hogy a hiba várható értéke 0. (Nem vétettünk szisztematikus hibát). Ez pl. akkor fordulhat elő, ha a konstanst nem engedjük meg a modellegyenletünkben. A második feltétel az, hogy a variancia állandó. Más néven a hiba homoszkedasztikus. Nincs heteroszkedaszticitás. Az 5. feltétel teljesülésének az 1-2 alapfeltétele. Pluszként jelenik meg a normalitás követelménye, vagyis, hogy a hiba normális eloszlást kövessen. A hibatagok függetlenek legyenek egymástól. (Nincs autokorreláció), valamint x és u függetlenek legyenek egymástól.
22
Normalitás feltétel Ha a normalitás feltétele nem teljesül, akkor F-, és t-próbát nem lehet alkalmazni. Ekkor viszont a modell szignifikanciája nem vizsgálható megnyugtató módon. Kevés mintaelemre nehéz normalitásvizsgálatot végezni. Legjobb módszer a grafikus elemzés. Ennek eredménye látható itt az ábrán.
23
Homoszkedaszticitás A varianciák állandóságát is nehéz megmutatni ilyen kevés elemnél. Ezért a regresszió-analízis feltételei teljesülésének vizsgálatához legalább 30 elemű mintára van szükségünk.
24
A standard lineáris modell
A többszörös lineáris összefüggések általános matematikai egyenlete: fent. A hibatagok nulla várható értékű, konstans varianciájú, korrelálatlan valószínűségi változók, amelyek normális eloszlást követnek.
25
Többváltozós regresszió-analízis
Lineáris-e a regresszió? Mit jelent a korrelációs együttható értéke? Milyen feltételek mellett használható a lineáris regressziós modell? x1 y1 Nem feltétlen, de legtöbb esetben jó közelítésként használható. Ha a linearitás nem teljesül, akkor át kell konvertálni olyan modellé, amely kölcsönösen egyértelmű az eredeti modellünkre. Az alkalmazhatóság feltételei megegyeznek a lineáris regressziós modell alkalmazásának feltételeivel. x2 y2 x3 R=1 esetén: LINEÁRIS függvénykapcsolat a magyarázó és a magyarázott változók között! R=0 esetén: nincs LINEÁRIS függvénykapcsolat a magyarázó és a magyarázott változók között! R=-1 esetén: (negatív) LINEÁRIS függvénykapcsolat van x és y között! yn xk Lássunk egy példát a többváltozós regressziós modellre! Ebben a példában k darab magyarázó és n darab magyarázott változó van. A modell szerint a magyarázó változók között nincs összefüggés. Ugyanez feltételezhető a magyarázott változó esetén is. Éppen ezért egyszerre csak egy magyarázott változót tekintünk. A többi magyarázott változót majd egy másik alkalommal vizsgáljuk. Így tehát n darab magyarázott változó esetén n darab regresszió-analízist kell végeznünk. Azok a változók, melyek nem szignifikánsak, kihullanak a modellből. Így megkapjuk, hogy hol találunk összefüggéseket a vizsgált magyarázott és a magyarázó változók között. Nem kaptunk összefüggést? Ez több okra is visszavezethető. Pl. nem biztos, hogy lineáris volt a regresszió. Gondoljunk pl. a munkavállaló kora és a jövedelme közötti összefüggésre! Egy ideig növekszik a jövedelem az életkor előrehaladásával. Azonban ez a növekedés a nyugdíjas évek közeledtével és főleg azután megfordul. Csökkenés lesz belőle. Lehet olyan intervallumon vizsgálódni, amikor a kor és a jövedelem között nem találunk kapcsolatot, pedig van, csak nem lineáris. Nem feltétlen teljesül tehát a linearitás. Azonban lehetőségünk van a modell transzformációjára. Pl. az előbbi esetben célszerű külön kapcsolatot keresni az éves korig a jövedelem és a kor között, míg ilyen összefüggést, csak fordított irányú kapcsolatot fel tudunk állítani az 55 éves kor felett lévő megkérdezettek esetében. A vizsgálat végén kapunk egy korrelációs, vagy detereminációs együtthatót. Ha R értéke 1 lenne, akkor mondhatnánk, hogy pozitív lineáris függvénykapcsolat van a magyarázó és a magyarázott változók között. -1 esetén negatív lineáris függvénykapcsolatról beszélhetünk. 0 esetén pedig azt mondjuk, hogy nincs lineáris függvénykapcsolat a magyarázó és a magyarázott változók között. A lineáris szót valamennyi esetben kiemeltem, mert a lineáris regresszió csak lineáris kapcsolatot mér. Társadalomtudományi kutatásokban a determinációs együttható -1 és 1 között nem nulla értékű változó legtöbbször. Ekkor azt mondjuk, hogy a magyarázó és a magyarázott változók között sztochasztikus kapcsolat áll fent. Vizsgáljuk meg, milyen feltételeknek kell teljesülnie a lineáris regresszió használatához. A kétváltozós eset feltételrendszere egy újabb taggal bővült. A 6. pont azt mondja, hogy a magyarázó változók között nincs összefüggés. Más néven nincs multikollinearitás. E(ui)=0, i :=1,2,…,n (szisztematikus hibát nem vétettünk) var(ui)=s2, i :=1,2,…,n (nincs heteroszkedaszticitás) ui és uj függetlenek minden i-re és j-re (nincs autokorreláció) xi determinisztikus nem valószínűségi változó ui ~N(0,s2), i :=1,2,…,n az xj-k között nincs lineáris összefüggés (nincs multikollinearitás)
26
Többváltozós regresszió-analízis
Magyarázó változók redukálása: Miért? Hogyan? Összes lehetséges megoldás FORWARD eljárás BACKWARD eljárás STEPWISE eljárás Kevesebb magyarázó változó → Kisebb a hiba varianciája. DE! torzított lesz a becslés! Fokozatos „beléptetés”. Mindig a legnagyobb parciális korrelációval rendelkező változót veszi be. Ahogyan azt az előző fólián is már bemutattam, nem biztos, hogy minden változónk releváns lesz. Ezért el kell/el lehet hagyni az egyenletből. Miért? Ha kevesebb lesz a magyarázó változónk, akkor kisebb lesz a hiba varianciája. Azonban vigyáznunk kell, mert torzított lehet a becslés. Hogyan redukáljunk? Egyrészt meg lehetne keresni az összes megoldást. Erre azonban nincs remény, mert itt látható, hogy ez mennyi variációs lehetőséget eredményezne. Ezért valamilyen közelítő heurisztikus eljárást fogunk alkalmazni. Az első ilyen a FORWARD eljárás, ahol a legnagyobb parciális korrelációval rendelkező változót veszi be a modellbe. Ezáltal fokozatosan építi fel a magyarázó változók segítségével a modellt. A BACKWARD eljárásnál a teljes modellből indulunk, de a legkisebb parciális korrelációval rendelkező változót elhagyjuk. A STEPWISE eljárás esetén minden iterációban léphetnek be és léphetnek ki is elemek. Viszont a probléma nem lineáris. Nem biztos, hogy optimális lesz a megoldás. A 3 eljárás akár teljesen más eredményre is vezethet. Fokozatos „kiléptetés”. Mindig a legkisebb parciális korrelációval rendelkező változót veszi ki. Minden iterációban léphetnek be és léphetnek ki is elemek. Viszont a probléma nem lineáris. Nem biztos, hogy optimális lesz a megoldás.
27
2. példa Mi hat a jövedelemre? Feltételezhetjük pl., hogy
Az iskolai végzettség/elvégzett iskolai osztályok A munkavállaló neme A munkavállaló kora ? Modell egyenlet: FOJOV=b0+b1ISKOSZT+b2NEME+b3KOR+u Nézzünk meg egy másik példát! Vizsgáljuk meg, hogy milyen tényezők hatnak a jövedelemre! Feltételezhetjük pl., hogy az iskolai végzettség/elvégzett iskolai osztályok száma, a munkavállaló neme és a kora befolyásolja a jövedelmet. Ezen kívül a későbbiekben még kereshetünk más magyarázó változót is. Ekkor a modell-egyenlet a következőképpen írható fel. (lásd fent) A regresszió-elemzés alapfeltétele, hogy a változók magas szinten (arány, vagy intervallumskálán mértek). A munkavállaló neme (férfi vagy nő) viszont nominális. Ezt a változót a regresszió-analízisben kétértékű dummy-változónak nevezzük. Ugyanis a két lehetséges értéket kódoljuk. Lehet ez pl. a személyi szám első száma. Férfiak esetén 1, a nők esetén 2. Mi az együttmozgást szeretnénk meghatározni, így pozitív együttható esetén a nők jövedelme lesz magasabb, negatív együttható érték esetén a férfiaké. Dummy-változó
28
Beállítás – SPSS-ben Lássuk, hogyan végezzük el a számítást SPSS-ben. Válasszuk ki a magyarázott/függő változót, ami a fő jövedelem. Az iskolai végzettség, a nem és kor a magyarázó változó. Rajzoltassuk ki a programmal a normalitás vizsgálathoz szükséges ábrákat! A regressziós módszer esetén válasszuk a BACKWARD eljárást, így a nem szignifikáns változóink kiesnek a modellből.
29
Eredmények (1) Valamennyi magyarázó változó szükséges!
Kicsi a magyarázó képesség! A modellünk és a magyarázó változóink is szignifikánsak! Vizsgáljuk meg a kapott eredményeket! Vegyük észre, hogy valamennyi változónk bennmaradt a modellben, hiszen a BACKWARD eljárás használata ellenére egyetlen változó sem került onnan ki. A modellünk és a magyarázó változóink is szignifikánsak. (A konstans nem, de az nem magyarázó változó együtthatója). Nézzük meg az együtthatókat! Az elvégzett osztályok száma és a megkérdezettek kora pozitívan befolyásolja a jövedelmet. A kor mellett lévő kis érték arra utalhat, hogy az összefüggés nem feltétlen lineáris. (Ez a magyarázóképességre is negatívan hathat). A nem esetén az együttható negatív értéke arra utal, hogy a nők kevesebbet keresnek, mint a férfiak. Valamennyi modellegyütthatónk szignifikáns. Viszont a magyarázóképességünk nagyon alacsony.
30
Eredmények (2) Nem normális eloszlást követ Nem homoszkedasztikus
Ráadásul az alkalmazás feltételei sem teljesülnek. Nem normális eloszlást követ Nem homoszkedasztikus
31
Javítási lehetőségek A magyarázóképesség javítására:
Új változók keresése (pl. a település típusa, foglalkoztatás Hogyan javíthatjuk kicsit a magyarázóképességet? Pl. megkeressük, hogy érdemes-e új magyarázó változókat bevonni a modellbe. Pl. vegyük be a település típusát, illetve a foglalkoztatást. Vegyük észre, hogy ezek mind nominális, illetve sorrendi változók. A település típusa pl. sorrendi változó, mert a település nagysága alapján kapott nagyobb, vagy kisebb értéket. A foglalkoztatás nominális változó. Nagyobb értéket kapott a vezető beosztású, szellemi foglalkozású, míg kisebb értéket a fizikai dolgozó.
32
Eredmények Nézzük meg, hogy minden paraméterünk továbbra is szignifikáns, ráadásul a korrigált R2 is javult.
33
Korreláció-elemzés Függ-e egymástól két változó?
A változók normál eloszlásúak Korrelációs együttható, vagy determinációs tényező (r): Két adatsor (minta) közötti lineáris összefüggés erősségét mérő szám. A korrelációelemzés nagyon hasonlít a regresszió-elemzéshez. Itt azonban mindig csak két változó összefüggését vizsgáljuk. Feltételezzük, hogy a változók normál eloszlást követnek. Itt is lineáris összefüggést mérünk.
34
Korreláció-elemzés Pearson féle korrelációs együttható: r
Nincs kapcsolat, ha értéke nulla, vagy ahhoz közeli. Az összefüggés jellemzésére az r számértéke alapján különböző fokozatokat állítottak fel. r=±1 1>|r|≥0,75 0,75>|r|≥0,5 0,5>|r|≥0,25 0,25>|r|≥0 r=0 Vegyük észre a hasonlóságot a korreláció és a regresszió-elemzés között! Ha a korrelációs együttható értéke 0, akkor nincs a két változó között lineáris kapcsolat. A korrelációs együttható szorosságát a következőképpen jellemezzük (lásd fent). Nagyon fontos különbség a regresszió-elemzés és a korreláció analízis között, hogy a korreláció elemzés során a változók közötti kapcsolat erősségét határozzuk meg, míg a regresszió elemzésnél a modellünk magyarázó változóinak „hatását” a magyarázott változókra. Függvénykapcsolat Nagyon szoros kapcs. Szoros kapcsolat Laza kapcsolat Nagyon laza kapcs. Nincs kapcsolat
35
Modellek x11 y11 x1 X1 a b y1 Y1 x12 y12 x2 y2 x3 y1t x1n xm1 yp1 Xm
ym xn xm2 Yp yp2 ypq c xmk (lineáris) regressziós modell kovariancia-analízis X és Y sokszor nem mérhető közvetlenül. => Főkomponens analízis, faktor analízis. Nem csupán a modellredukció a fontos, hanem a modell helyességének vizsgálata is! Az előző órán a többváltozós regresszió-analízissel és kovariancia-analízissel foglalkoztunk. A módszer alkalmazhatósága során feltétel volt, hogy mind a magyarázó, mind pedig a magyarázott változók magas mérési szinten (legalább intervallumskálán) legyenek „mérve”. A magyarázó változók és a magyarázott változók között nincs kapcsolat és a becslés hibájának várható értéke 0. Szórása állandó és normális eloszlást követ. Bár a regresszió-analízis nagyon sok helyen használható, ahol konkrét kifejezhető értéket tudunk rendelni az egyes változókhoz (pl. kor, elvégzett iskolai osztályok száma, jövedelem stb. (lásd előző heti feladatot.)). Ez a hozzárendelés sokszor nagyon nehézkes. Így nem tudjuk közvetlenül mérni. Gondoljunk bele, hogyan mérnénk közvetlenül pl. a vállalat jóhírét vagy sikerességét. Esetleg az alkalmazottak elégedettségét? Ha közvetlenül kérdezünk rá egy ilyen területre, akkor legtöbbször csak azt a választ kaphatjuk: attól függ, honnan nézzük. A faktor és főkomponens-analízis segítségével választ tudunk arra a kérdésre adni, hogy vajon milyen tényezők (indikátorok) határozzák meg pl. az alkalmazottak elégedettségét, a vállalat sikerességét. Ezen indikátorok segítségével már konkrét értékeket lehet rendelni a vizsgálandó változókhoz (faktorokhoz). Ezután a faktorok közötti összefüggést már vizsgálhatjuk regresszió-analízissel. Sőt, majd később látni fogjuk, a faktorok helyes megválasztásával, illetve egy megfelelő módszer segítségével azt is el lehet majd érni, hogy ezek a változók korrelálatlanok legyenek, vagyis nincs multikollinearitás a magyarázó változók között. Azonban ezt a multikollinearitást nem mindig lehet elkerülni. Ekkor segítséget nyújthat számunkra az útelemzés, mellyel a továbbiakban részletesen foglalkozunk. d Az ok-okozati kapcsolatok felderítése a fontos => Útelemzés
36
Ok-okozati vizsgálatok
Keresztmetszeti vizsgálatoknál nem lehet megnyugtatóan meghatározni az okot és okozatot! Módszer: Útelemzés Ahhoz, hogy a minden kétséget kizáróan el tudjam dönteni, hogy mi az ok és mi az okozat, longitudinális vizsgálatra van szükség. A keresztmetszeti vizsgálatok legnagyobb problémája, hogy nem lehet megnyugtatóan meghatározni, hogy mi az ok és mi az okozat. Sajnos az útelemzés sem ad mindig megnyugtató megoldást, ugyanis ahhoz, hogy minden kétséget kizáróan el tudjuk dönteni, hogy mi az ok és mi az okozat, longitudinális vizsgálatra van szükség. Ezen belül is a leggyakoribb ilyen vizsgálat a menedzsment területén az ún. panelvizsgálat, amikor több (legalább 2) keresztmetszeti vizsgálat eredményeit hasonlítjuk össze. Az útelemzés alkalmazása esetén is csak maximum arra kapunk magyarázatot, hogy mi lehet a magyarázó és mi a magyarázott változó, de ok-okozati összefüggést nem tudunk meghatározni. Ok-okozati összefüggést tehát csak két esetben állíthatunk: 1. logikailag az összefüggés nem cáfolható. 2. longitudinális vizsgálat alátámasztotta az összefüggés meglétét.
37
Útelemzés Többszörös lineáris regresszió alkalmazása.
c d Közvetlen Többszörös lineáris regresszió alkalmazása. Az utak erősségét is ki lehet számítani. Logikailag nehezen vitatható ok-okozati összefüggés kell. Csak nagyszámú mintaadatbázison alkalmazható. (min 200 elem) Közvetett Az útelemzés lényege, hogy többszörös regresszió-analízis segítségével megvizsgáljuk, hogy milyen közvetlen és közvetett hatások lehetségesek. Kiszámítjuk a lehetséges kapcsolatokat. Felírjuk a regressziós egyenleteket, majd a közvetett hatások kiértékelése érdekében behelyettesítjük az összefüggéseket az egyenletekbe. Itt nyilakat látunk a magyarázó és magyarázott változók között. => Logikailag nehezen vitatható ok-okozati összefüggés kell. Ráadásul a többszörös regresszió miatt nagyszámú mintaelemszám kell. A módszer segítségével megkapjuk (ok-okozati összefüggés esetén) a hatások erősségét és irányát is. !
38
További lehetőségek Érzékenység-vizsgálat Szimuláció
Ezek azonban nem igazán használható módszerek, ugyanis a szimuláció nem biztos, hogy visszaadja a tényleges ok-okozati kapcsolatot. Az összefüggések irányának kiderítésére más módszerek is vannak. Az egyik lehetőség az érzékenységvizsgálat, mely egy felállított modell esetén a paraméterekben történő kismértékű változás esetén előrejelzi a kimenetben (magyarázott változókban) történő változást. A másik módszer ezzel nagyon hasonló. A megkapott modellt további – a regressziós egyenletbe nem bevont – esetekre alkalmazzuk. Megnézzük, hogy a modell mennyire tudja előre jelezni az összefüggések meglétét, illetve irányát. Sajnos azonban a társadalomtudományban kérdőívek kiértékelése alapján meghatározott modellek esetén nem igazán használhatók. Megoldást csak a longitudinális vizsgálatok jelenthetik, ahol legalább két ((időben is) független) mérést kell összehasonlítani. Megoldás: longitudinális vizsgálatok. Legalább két ((időben is) független) mérés összehasonlítása.
39
Sztochasztikus folyamatok
A sztochasztikus folyamatoknál beszélhetünk folytonos és diszkrét idejű esetről. Egy sztochasztikus folyamat A T halmazt időnek nevezik. A sztochasztikus folyamatot folytonos idejű folyamatnak nevezzük, ha , és diszkrét idejű folyamatnak, ha A továbbiakban sztochasztikus folyamatokkal foglalkozunk. Egy sztochasztikus folyamat lehet folytonos vagy diszkrét. Mi most elsősorban a diszkrét folyamatokkal foglalkozunk.
40
Az idősorelemzés modelljei
Determinisztikus modell (előre meghatározott pályát követnek az idősorok) Leíró Hosszú távú hatások Véletlennel keveset foglalkozik Sztochasztikus idősorelemzés Rövid távú hatásokkal foglalkozik Véletlennek fontos szerepe van Az idősorelemzésnek többféle modellje ismert. A determinisztikus modell esetén azt vizsgáljuk, hogy az idősorok előre meghatározott pályát követnek-e. Hosszú távú hatásokat vizsgálunk. A véletlennel keveset foglalkozunk. A sztochasztikus idősorelemzésnél elsősorban a rövidtávú hatásokkal foglalkozunk, ahol a véletlennek is fontos szerepe van.
41
Idősor komponensei Trend vagy alapirányzat: az idősor alakulásának fő irányát mutatja meg. Szezonális vagy idényszerű ingadozás: szabályos időszakonként visszatérő, állandó periódushosszúságú hullámzás, amely mindig azonos irányban téríti el az idősor értékét az alapirányzattól. (pl. fagyifogyasztás) Ciklus: trend alatti vagy feletti tartósabb mozgás. Szabálytalan periodikus ingadozás, általában hosszabb idősoroknál figyelhető meg. (pl. gazdasági ciklusok) Véletlen ingadozás Egy idősort általában 4 komponensre szoktunk felbontani. A trend az idősor alakulásának fő irányát mutatja meg. Egy hosszabb távú tendenciát mutat. A szezonális idényszerű ingadozás szabályos időszakonként visszatérő, állandó periódushosszúságú hullámzás, amely mindig azonos irányban téríti el az idősor értékét az alapirányzattól. Ciklus a trend alatti vagy feletti tartósabb mozgás. Szabálytalan periodikus ingadozás általában hosszabb idősoroknál figyelhető meg. Illetve beszélhetünk véletlen ingadozásról is.
42
Az egyes komponensek közötti kapcsolat
Additív kapcsolat Multiplikatív kapcsolat: periódusok (pl. évek) perióduson belüli rövidebb időszakok(pl. negyedévek) Az egyes komponensek közötti kapcsolatokat additív, illetve multiplikatív modellek segítségével jellemezhetjük. Ha az idősorértékek pozitívak, akkor a multiplikatív modell logaritmizálva additív modellé alakítható.
43
Stacionaritás Az y jelenség időbeni lefutása: stabil, előre jelezhető,
nincs trendhatás Időfüggetlen: várható érték, variancia, autokovariancia A sztochasztikus modellezésnél feltesszük, hogy a folyamatok stacioner folyamatok, vagy stacionerré alakítható folyamatok (pl. trend kiszűrése után). A stacionaritás során feltesszük, hogy a folyamatunk stabil, előre jelezhető, nincs trendhatás, és a folyamat várható értéke, varianciája, autokovarianciája időfüggetlenek.
44
Idősor analízis – ARIMA-modellek
ARIMA(p,0,0)=AR(p) p-ed rendű autoregresszív folyamatok ARIMA(0,0,q)=MA(q) q-ad rendű mozgóátlag folyamatok Az ARIMA modellek alkalmazása idősor-elemzésre és előrejelzésre Box-Jenkins módszertanaként is ismeretes a szakirodalomban. Ezt a módszert az 1930-as években fejlesztették ki, de a modellek elméletét és gyakorlatát először George E. Box és Gwilym M. Jenkinst (1970) tárgyalta átfogó rendszerben, melyet később átdolgozott. A sztochasztikus idősori modellek integrált autoregresszív és mozgóátlag (rövidítve ARIMA) modellcsaládjának elnevezésében az AR az autoregresszív, az MA a mozgóátlag jelzőre, az I betű (integrated) pedig az összegzésre utal. Az autoregresszív (AR) modell, az idősor jelenlegi értékét, saját előző értékeinek függvényében fejezi ki, természetesen, mint sztochasztikus modell, kiegészülve a véletlen ingadozást reprezentáló változóval. p az AR folyamat rendjét jelöli. A mozgóátlag (MA) modell az idősor jelenlegi értékét, a jelenlegi és a múltbeli véletlen változók függvényében fejezi ki. q az MA folyamat rendjét jelöli.
45
Idősor analízis – ARIMA-modellek
ARIMA(p,0,q)=ARMA(p,q)=AR(p)+MA(q) p-ed rendű autoregresszív folyamatok + q-ad rendű mozgóátlag folyamatok Integrált autoregresszív és mozgóátlag folyamatok, ARIMA(p,d,q) modellek: Derivált idősor: Második derivált sor: j-edik derivált sor: A vegyes (ARMA) modell az idősor jelenlegi értékét, saját előző értékeinek, és a jelenlegi, illetve a múltbeli véletlen változók függvényében fejezi ki. Az autoregresszív integrált mozgóátlag (ARIMA) modell, a differencia képzéssel stacionáriussá transzformált, ún. d-ed rendű integrált [I(d)] idősorokra felírt ARMA modell. Itt láthatók, hogy hogyan lehet a folyamatot deriválni.
46
A modellkészítés menete (1)
Az ARIMA modellezés kiindulópontja annak megállapítása, hogy a vizsgálni kívánt idősorunk stacionárius-e, illetve, ha nem, akkor az, hogy alkalmas transzformációval stacionáriussá tehető-e. Ezzel eldöntöttük azt, hogy az adott idősorhoz illeszthető-e ARIMA modell; ha igen, milyen (d) dimenzióval rendelkezik. Az ARIMA(p,d,q) d-edik derivált sora ARMA(p,q) rendű folyamat! Hogyan illesztünk egy modellt az idősorunkra? Az ARIMA modellezés kiindulópontja annak megállapítása, hogy a vizsgálni kívánt idősorunk stacionárius-e, illetve, ha nem, akkor az, hogy alkalmas transzformációval stacionáriussá tehető-e. Ezzel eldöntöttük azt, hogy az adott idősorhoz illeszthető-e ARIMA modell; ha igen, milyen (d) dimenzióval rendelkezik. Az ARIMA(p,d,q) d-edik derivált sora ARMA(p,q) rendű folyamat lesz!
47
A modellkészítés menete (2)
A következő kérdés annak megválaszolása, hogy milyen típusú ARMA modell illesztésével próbálkozzunk, illetve milyen legyen az autoregresszivitás (p) és/vagy a mozgóátlagolás (q) rendje. Erre a kérdésre a választ a tapasztalati, vagy a transzformált idősor ACF és PACF értékei alapján adjuk meg. A modellezés ezen fázisát modellazonosításnak (identifikációnak) nevezi a szakirodalom. A következő kérdés annak megválaszolása, hogy milyen típusú ARMA modell illesztésével próbálkozzunk, illetve milyen legyen az autoregresszivitás (p) és/vagy,a mozgóátlagolás (q) rendje. Erre a kérdésre a választ a tapasztalati, vagy a transzformált idősor ACF és PACF értékei alapján adjuk meg. A modellezés ezen fázisát modellazonosításnak (identifikációnak) nevezi a szakirodalom.
48
ACF, PACF Autokovariancia függvény (AVF):
Autokorrelációs függvény (ACF): Parciális autokorrelációs függvény (PACF): Ahhoz, hogy egy modellbecslést el tudjunk végezni, szükségünk van az autokorrelációs és parciális autokorrelációs függvényekre. A képletek itt láthatók a fólián. Figyeljük meg, hogy Rk és R*k a parciális korrelációs függvény kiszámításánál csak az utolsó sorban tér el egymástól.
49
Modellbecslés ACF és PACF segítségével
Modell ACF PACF MA(q) q-ad rendű MA folyamat Eltűnik Lecseng a q. tag után AR(p): p-ed rendű AR folyamat Lecseng Eltűnik a p. tag után ARMA(p,q)=AR(p)+MA(q) Lecseng Lecseng ARMA(p,q)= AR(p)+MA(q) Eltűnik Eltűnik a q. tag után a p. tag után Sem AR, sem MA Nincs szig. Nincs szig. (fehér zaj vagy véletlen folyamat) érték érték Lássuk, hogyan használhatók identifikációra az előbb áttekintett függvények!
50
MA(1) 0<c1 0<c1 0>c1 0>c1 PACF ACF ACF PACF
MA(1) folyamat esetén a PACF lecseng. Az ACF-nek lesz a c1 előjelétől függően pozitív vagy negatív értéke. 0>c1 0>c1 ACF PACF
51
MA(2) 0<c1, 0<c2 0<c1, 0<c2 0<c1, 0>c2
ACF PACF MA(2)-nél is PACF lecseng, míg ACF-nek lesz 2 szignifikáns értéke. 0<c1, 0>c2 0<c1, 0>c2 ACF PACF
52
MA(2) 0>c1, 0<c2 0>c1, 0<c2 0>c1, 0>c2
ACF PACF Az ACF és a PACF függvény is a c paramétereitől függ. 0>c1, 0>c2 0>c1, 0>c2 ACF PACF
53
AR(1) 0<a1<1 0<a1<1 -1<a1<0 -1<a1<0 PACF ACF
AR(1) folyamatnál pont fordítva. Az ACF fog lecsengeni, míg a PACF-nek lesz egy szignifikáns értéke. ACF PACF
54
AR(2) 0<a1, 0<a2 0<a1, 0<a2 0>a1, 0<a2
ACF PACF 0>a1, 0<a2 0>a1, 0<a2 AR(2)-nél pedig 2 szignifikáns érték jelenik meg. ACF PACF
55
AR(2) 0<a1, 0>a2 0<a1, 0>a2 0>a1, 0>a2
ACF PACF 0>a1, 0>a2 0>a1, 0>a2 Előjeltől függően a szignifikáns értékek is változnak. ACF PACF
56
ARMA(1,1) 0<c1, 0>a1 0<c1, 0>a1 0<c1, 0<a1
ACF PACF 0<c1, 0<a1 0<c1, 0<a1 Ha AR és MA együttesen van jelen, akkor mindkét függvény lecseng, vagy egy idő után nem lesz szignifikáns. ACF PACF
57
ARMA(1,1) 0<c1, 0<a1 0<c1, 0<a1 0>c1, 0<a1
ACF PACF 0>c1, 0<a1 0>c1, 0<a1 A különböző előjelű paraméterek esetén az ACF és PACF függvények is változnak. ACF PACF
58
A modellkészítés menete (3)
Ezután a modellezés lépései alapvetően megfelelnek a már ismert lineáris regressziós modellezésnek. A választott modell paraméterbecslése után a modell ellenőrzése következik. A modell ellenőrzése során vizsgáljuk azt, hogy paraméterei szignifikánsak-e, illetve véletlen változóik fehér zaj folyamatot követnek-e. Ha identifikáltuk a folyamatot, akkor a modellezés lépései alapvetően megfelelnek a már ismert lineáris regressziós modellezésnek. A választott modell paraméterbecslése után a modell ellenőrzése következik. A modell ellenőrzése során vizsgáljuk azt, hogy paraméterei szignifikánsak-e, illetve véletlen változóik fehér zaj folyamatot követnek-e.
59
A modellkészítés menete (4)
Speciálisan az ARMA modelleknek van stacionaritási és invertibilitási feltétele is, melyek a modell paramétereinek értékére vonatkozó megszorításokként jelennek meg. Ezután döntünk arról, hogy felhasználható-e az illesztett modell elemzésre, előrejelzésre, vagy más modell választásával kell próbálkoznunk. Fontos, hogy speciálisan az ARMA modelleknek van stacionaritási és invertibilitási feltétele is, melyek a modell paramétereinek értékére vonatkozó megszorításokként jelennek meg. Ezután döntünk arról, hogy felhasználható-e az illesztett modell elemzésre, előrejelzésre, vagy más modell választásával kell próbálkoznunk.
60
Előrejelzés sztochasztikus modellekkel – példa
Az előrejelzésnél azonban figyelni kell arra, hogy az előrejelzés hibája is növekszik, minél inkább előretekintünk.
61
Köszönöm a megtisztelő figyelmet!
Köszönöm mindenkinek a megtisztelő figyelmét!
62
1.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.