Gazdaságstatisztika 14. előadás
STATISZTIKAI BECSLÉSEK Gazdaságstatisztika STATISZTIKAI BECSLÉSEK
Nyitó gondolatok Úgy tekintjük, hogy egy véletlentől függő mutatószám (változó), ún. statisztikai mutató matematikai modellje a valószínűségi változó. Pl. statisztikai mutatószám: testmagasság, életkor, stb. Ahhoz, hogy egy valószínűségi változó jellemzőit megismerjük, szükségünk van az eloszlásának ismeretére. Milyen jellegű az eloszlás (pl. normális, exponenciális, Poisson, stb.)? Ha a jellegét ismerjük, akkor milyen értékűek a paraméterei? A gyakorlatban, egy konkrét probléma esetén ha tudjuk, hogy a problémát leíró valószínűségi változó eloszlása milyen jellegű, akkor szükségünk van még a paramétereinek ismeretére. Mivel a paraméterek általában ismeretlenek, ezért azokat általában becsüljük. Gazdaságstatisztika
A becslésekről általában Kiindulás egy valószínűségi változó, egy ismeretlen paramétere -nek Cél becslése (“jó” becslése) Statisztikai megközelítés n számú független megfigyelést végzünk -re vonatkozóan, a megfigyelések (kísérletek) eredménye a minta. A minta felhasználásával előállítjuk az mintastatisztikát (röviden statisztikát) úgy, hogy Ekkor a paraméter egy becslése. Gazdaságstatisztika
A becslésekről általában A mintaelemek maguk is valószínűségi változók teljesen független, azonos eloszlású valószínűségi változók, eloszlásuk megegyezik eloszlásával. Mivel valószínűségi változók, így az statisztika is valószínűségi változó. Két becslési módszer Pontbecslés A paramétert az statisztika mintából kiszámított konkrét számértékével becsüljük, azaz a számegyenes egy pontjával. Intervallumbecslés Egy vagy több mintastatisztika eloszlásának ismeretében megadunk egy olyan intervallumot, amely az ismeretlen paramétert előre megadott (pl. 95%-os) valószínűséggel tartalmazza. Gazdaságstatisztika
Becslések tulajdonságai – torzítatlan becslés Egy valószínűségi változó valamely paraméterét általában több statisztikával becsülhetjük. Melyik a legmegfelelőbb becslés? Erre a becsléselmélet kritériumai (követelményei) adnak választ. Torzítatlan becslés Azt mondjuk, hogy az statisztika a paraméter torzítatlan becslése, ha várható értéke egyenlő -val: Például az statisztika, azaz a mintából számított számtani átlag, torzítatlan becslése a valószínűségi változó várható értékének. Gazdaságstatisztika
Becslések tulajdonságai – torzítatlan becslés Mivel egy teljesen független minta -re ezért, a valószínűségi változók azonos eloszlásúak, eloszlásuk megegyezik eloszlásával. Ebből következik, hogy Ezért az mintaátlag várató értéke a várható érték tulajdonságainak felhasználásával: tehát a mintaátlag a várható érték torzítatlan becslése. Hasonló módon belátható, hogy egy esemény relatív gyakorisága torzítatlan becslése az esemény valószínűségének. Gazdaságstatisztika
Becslések tulajdonságai – torzítatlan becslés Belátható, hogy az empirikus (tapasztalati) szórásnégyzet várható értéke azaz a tapasztalati variancia nem torzítatlan becslése a varianciának. Ugyanakkor az korrigált tapasztalati variancia és a várható érték tulajdonságait felhasználva Tehát a tapasztalati variancia az elméleti variancia torzítatlat becslése. (Ezért is használjuk a leíró statisztikában…) Gazdaságstatisztika
Becslések tulajdonságai – torzítatlan becslés Kockadobás esetén a dobott számérték – mint valószínűségi változó – elméleti várható értéke 3,5, elméleti szórása 1,7078. 50 db háromelemű minta tapasztalati és korrigált tapasztalati szórásai, valamint ezek átlagértékei Gazdaságstatisztika
Becslések tulajdonságai – konzisztens becslés Azt mondjuk, hogy az statisztika a paraméter konzisztens becslése, ha esetén Ez azt jelenti, hogy az mintastatisztika ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. Megjegyzés (kiegészítő anyag) Annak függvényében, hogy milyen a konvergencia (majdben biztos, vagy sztochasztikus) beszélhetünk erős, illetve gyenge konzisztenciáról. Belátható, hogy a következő becslések konzisztensek Várható érték becslése a mintaátlaggal Esemény valószínűségének becslése az esemény relatív gyakoriságával Szórás becslése a tapasztalati szórással Szórás becslése a korrigált tapasztalati szórással Gazdaságstatisztika
Becslések tulajdonságai – konzisztens becslés Kockadobás esetén a dobott érték tapasztalati és korrigált tapasztalati szórásának alakulása a minta nagyságának függvényében Gazdaságstatisztika
Becslések tulajdonságai – hatásos becslés Azt mondjuk, hogy az statisztika a paraméter hatásos becslése, ha ingadozása megfelelően kicsi. Két becslés közül a kevésbé ingadozót nevezzük hatásosabbnak. Az ingadozás mértéke a szórás, ezért a becslések ingadozását is a szórásukkal jellemezzük. Tehát két becslés közül a kisebb szórású becslést tekintjük hatásosabbnak, jobbnak. Előfordul, hogy a torzítatlan becslések között van olyan, amelyiknek a szórása az összes többi becslés szórásánál kisebb (adott n mellett). Ekkor ezt a minimális szórású, torzítatlan becslést hatásosnak nevezzük, és a többi becslés hatásfokát ehhez mérjük. Gazdaságstatisztika
Becslések tulajdonságai – hatásos becslés 5 elemű minták alapján a kockadobás számtani átlaga és mediánja egyaránt az elméleti várható érték küröl ingadozik, de az átlag kisebb szórással, mint a medián, ezért a számtani átlag a hatásosabb becslés. Gazdaságstatisztika
Becslések tulajdonságai – elégséges becslés Azt mondjuk, hogy az statisztika elégséges becslés a paraméterre, ha a mintaelemekből kinyerhető minden információt tartalmaz -ra vonatkozóan. Ez azt jelenti, hogy nincs más olyan becslés, amelyik a paraméterről több információt szolgáltatna, mint az elégségesnek minősülő becslés. Gazdaságstatisztika
A pontbecslés módszerei *, ** Maximum-likelihood módszer (a legnagyobb valószínűség elve) Az eljárás lényege az ún. likelihood függvény felállítása, amely nem más, mint a mintaelemek együttes sűrűségfüggvénye, s az ismeretlen paraméter becslésére azt a statisztikát használjuk, melyre ez a függvény maximális értéket vesz fel. Ez az egyik legjobb és leggyakrabban alkalmazott eljárás. A legkisebb négyzetek módszere A módszer lényege, hogy egy elméleti modellnek (ez lehet egy eloszlás vagy sűrűségfüggvény, de lehet egy egyszerű konstans függvény is) a paramétereit határozza meg úgy, hogy a tényleges és a becsült paraméterekkel illesztett modellek négyzetes eltérése, azaz az eltérések négyzetösszege minimális legyen. * Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985 ** Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996 Gazdaságstatisztika
A pontbecslés módszerei *, ** Grafikus paraméterbecslés Az előző matematikai eljárásokhoz képest, ez inkább a gyakorlat számára könnyebben kezelhetőbb eljárás. Pontossága a grafikus ábrázolás adta lehetőségektől függ, viszont egyszerűsége miatt sokszor jól használható. Lényege, hogy valamilyen módon (többnyire logaritmizálással) linearizáljuk az eloszlásfüggvényt, s az adatokat grafikusan ábrázolva az egyenes meredekségéből és/vagy tengelymetszetéből következtetünk az eloszlás ismeretlen paraméteré(ei)re. * Reimann J. – Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1985 ** Hunyadi L. – Mundruczó Gy. – Vita L.: Statisztika, Aula Kiadó, Budapest, 1996 Gazdaságstatisztika
Intervallumbecslések Konfidencia-intervallum a valószínűségi változó eloszlásfüggvényének egy ismeretlen paramétere n számú független megfigyelést végzünk -re vonatkozóan, a megfigyelések (kísérletek) eredménye a minta. A minta felhasználásával előállítjuk az mintastatisztikákat úgy, hogy . Ha , ahol kicsi szám, akkor az intervallumot a paraméterre vonatkozó megbízhatósági szintű konfidencia-intervallumnak nevezzük. a szignifikancia szint, tipikus értékei: 0,01; 0,05; 0,1. Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismert elméleti szórás esetén A valószínűségi változó normális eloszlású az ismeretlen várható értékkel, és ismert szórással, jelben: n számú független megfigyelést végzünk -re vonatkozóan, a megfigyelések (kísérletek) eredménye a minta. Képezzük a mintaelemek számtani átlagát (tudjuk, hogy ez pontbecslése a várható értéknek). Belátható, hogy a statisztika standard normális eloszlású valószínűségi változó. Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismert elméleti szórás esetén A standard normális eloszlás szimmetriája miatt célszerű a z-t tartalmazó konfidencia intervallumot a alakban megadni: ebből: és ahol a standard normális eloszlás eloszlásfüggvényének inverze. Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismert elméleti szórás esetén Azt kaptuk tehát, hogy Mivel így Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismert elméleti szórás esetén Az intervallum tehát megbízhatósági szintű konfidencia-intervallum a normális eloszlású valószínűségi változó várható értékére, ismert esetén. Megjegyzés A jegyzetben és a képletgyűjteményben az jelölés helyett jelöli a mintaelemek számtani átlagát, pedig a értéket: Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismert elméleti szórás esetén Az eddigiekben kétoldali intervallumról beszéltünk, mivel a gyakorlatban ez az elterjedtebb. Ha csak alsó, vagy csak felső határokat kívánunk becsülni, akkor a várható értékre vonatkozó megbízhatósági szintű egyoldali konfidencia-intervallunok: illetve Gazdaságstatisztika
Normális eloszlású valószínűségi változó várható értékének adott pontosságú becsléséhez szükséges minta nagyságának meghatározása ismert szórás esetén A összefüggésből Keressük azt az n értéket, amelyre a eltérés valószínűséggel kisebb az előre rögzített értéknél. Ha n értékét úgy választjuk meg, hogy teljesül, akkor is teljesül. Tehát a várható érték valószínűséggel -nál kisebb eltéréssel történő becsléséhez szükséges minta nagysága: Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismeretlen elméleti szórás esetén A valószínűségi változó normális eloszlású az ismeretlen várható értékkel, és ismeretlen szórással. n számú független megfigyelést végzünk -re vonatkozóan, a megfigyelések (kísérletek) eredménye a minta. Mivel a szórás ismeretlen, azt a mintából számított korrigált tapasztalati szórással becsüljük. Ekkor a statisztika n-1 szabadságfokú t-eloszlású (Student-eloszlású). a szabadságfokú t-eloszlásfüggvény inverzének helyettesítési értéke az helyen. Értékeit táblázat tartalmazza. Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó várható értékére ismeretlen elméleti szórás esetén Megjegyzés Ha n nagy, azaz n>30, akkor a statisztika jó közelítéssel standard normális eloszlású. Ekkor azaz, közelítő konfidencia-intervallum a várható értékre. Gazdaságstatisztika
Gosset William Sealey Gosset (1876 - 1937) „Student” néven publikálta írásait t-eloszlás = student eloszlás Gazdaságstatisztika
Sokasági arány becslése Vizsgált egyedek sokasági arányát jelölje P. A sokaság P-ed része rendelkezik bizonyos tulajdonsággal. Például: férfiak aránya a népességen belül, a selejtes termékek aránya P ismeretlen, de tudjuk, hogy P konzisztens, torzítatlan becslése a relatív gyakoriság, ahol n a mintaelemek száma, k a mintában lévő “kedevező” tulajdonságú egyedek száma. Belátható, hogy és . A varianciát az -nel becsülve, p ismeretében a binomiális eloszlás felhasználásával konfidencia-intervallum adható meg P-re. Másrészről, ha n elég nagy, akkor a Moivre-Laplace tétel következtében közelítőleg standard normális eloszlású, ezért ha Gazdaságstatisztika
Konfidencia-intervallum normális eloszlású valószínűségi változó szórásnégyzetére (sokasági variancia becslése) A valószínűségi változó normális eloszlású ismeretlen szórással. n számú független megfigyelést végzünk -re vonatkozóan, a megfigyelések (kísérletek) eredménye a minta. a mintából számított korrigált tapasztalati szórás és az n-1 szabadságfokú khi-négyzet eloszlásfüggvény inverzének helyettesítési értékei. Ezeket táblázat tartalmazza. Megjegyzés Ha n>30, akkor a khi-négyzet eloszlás közelíthető normális eloszlással. Ilyenkor Gazdaságstatisztika