Gazdaságstatisztika Becsléselmélet október 30. és november 5.
Sokaság: a vizsgálat tárgyát képező egységek összessége Minta: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye Mintavétel Következtetés Matematikai statisztika lényege A megfigyelési eredmények a minta elemei, a megfigyelések száma a minta nagysága vagy elemszáma. 2 Mintavétel: a statisztikai sokaságból információszerzés céljából véletlenszerűen egyedi elemeket emelünk ki A minta elemei az alapsokaság eloszlásával megegyező eloszlású valószínűségi változók.
Mintavétel Cél: következtetéseket vonjunk le a teljes sokaságra vonatkozóan a sokaság részleges megismerése által NEM A MINTA KONKRÉT JELLEMZÉSE ÉRDEKEL BENNÜNKET. A MINTA CSAK EGY ESZKÖZ, AMELYNEK SEGÍTSÉGÉVEL KÖVETKEZTETNI KÍVÁNUNK A SOKASÁGRA, ILL. ANNAK TULAJDONSÁGAIRA. Így részleges megfigyelések eredményéből következtetünk a teljes sokaságra A statisztikai mintavételek és az ebből származó adatokat felhasználó elemzések mindig tartalmaznak hibákat. A statisztikai hiba a statisztika szükségszerű velejárója, és fontos annak számszerűsítési képesssége. 3
Mintavételi hiba Mintavétellel kapcsolatos hibák két nagy csoportja: Adatgyűjtéshez kapcsolódó hibák: pl. definíciós hibák, nemválaszolási hibák, végrehajtási hibák – NEM MINTAVÉTELI HIBA A technika fejlődésével sokféle módon lehet ellene védekezni A teljes sokaság megismeréséről való lemondás ára – MINTAVÉTELI HIBA olyan eljárásokat keresünk, hogy ez a lehető legkisebb legyen A mintavételi hiba annál kisebb, minél nagyobb a minta. 4
Mintavételi hiba A mintából számított bármely mutató értéke mintáról mintára változik. A mintából számított értékek a megfelelő sokasági jellemző körül szóródnak. Ez a szóródás kisebb minták esetében nagyobb, nagyobb minták esetében kisebb. A mintavételi hiba a vizsgált mutató lehetséges mintákból számított értékeinek átlagos eltérését mutatja a megfelelő sokasági értéktől. 5
Adatfelvételi módok 6 Adatfelvétel Teljes körű – csak véges sokaság esetén (pl. népszámlálás) Részleges Kísérleti eredmények gyűjtése Mintavételes megfigyelés Egyéb részleges megfigyelés Véletlen(szerű) kiválasztás Nemvéletlen(szerű) kiválasztás ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye reprezentativitás Mintavételi hiba számszerűsítési képessége
Véletlen mintavételi eljárások Statisztikai minta definíciója: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye A véletlen mintavétel olyan kiválasztási eljárás, melynek során ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye. A mintavételi hiba számítása csak véletlen minta esetében lehetséges. A véletlen minta biztosítja a reprezentativitást. A reprezentativitás azt jelenti, hogy a minta összetétele csak a véletlen hatások miatt tér el a sokaságétól. visszatevéses egyszerű véletlen minta, visszatevés nélküli egyszerű véletlen minta, rétegzett minta, csoportos és többlépcsős minta 7
A visszatevéses egyszerű véletlen mintavétel esetén a sokaságból egyenlő valószínűséggel, a visszatevéses technika miatt egymástól függetlenül veszünk mintát. A visszatevés nélküli egyszerű véletlen mintavétel során a sokaságból egyenlő valószínűséggel veszünk mintát, de egy sokasági elem csak egyszer kerülhet a mintába, így a mintaelemek egymástól nem függetlenek. Minta elemszám: minél nagyobb a minta, annál megbízhatóbb a következtetés, mivel annál kisebb a véletlen szerepe Eredeti sokaság heterogeneitása: minél heterogénebb az alapsokaság, annál nagyobb a véletlen szerepe A rétegzett mintavétel esetében a sokaságot egy csoportképző ismérv szerint átfedésmentes, az egész sokaságot lefedő rétegekre bontjuk, majd minden rétegből egyszerű véletlen mintát veszünk. Véletlen mintavételi eljárások
Rétegzett (R) minta alkalmazása: Ha a sokaság véges és heterogén, s előzetes információink vannak arra nézve, hogy ezt a sokaságot hogyan lehet homogén csoportokba sorolni Feltétel a rétegképző ismérv és rétegenkénti listák ismerete A sokaságot homogén(ebb) részsokaságokra bontjuk (átfedésmentesen és teljesen), majd a rétegeken belül egymástól függetlenül egyszerű véletlen mintavételt végzünk. A csoportos és többlépcsős mintavétel alkalmazásakor olyan nyilvántartásból történik a kiválasztás, amely a sokaság egységeit nem elkülönítve, hanem természetes vagy mesterséges csoportokban tartalmazza. a csoportok közül választunk egyszerű véletlen mintát, majd a mintába került csoportok minden egysége bekerül a mintába. a csoportos minta annál megbízhatóbb, minél heterogénebbek a csoportok Véletlen mintavételi módok
A becslés elmélete (Majdnem) minden elméleti eloszlásnak van(nak) paramétere(i) Becslési eljárások: Pontbecslés: a becsülni kívánt elméleti paramétert egy értékkel becsüli Intervallumbecslés: előre meghatározott megbízhatósággal egy intervallumot ad a keresett sokasági paraméterre A becsülni kívánt sokasági paraméter jelölése: Θ Ezek a sokaság számunka ismeretlen konstans értékei, azaz értékük nem függ a véletlentől A becslés a sokaságból kivett véletlen minta alapján valósul meg: a mintaelemek függvénye, becslőfüggvény Véletlen minta esetén az aktuális minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is valószínűségi változó. A mintából számított pontbecslés:
Mintavétel – A becslés elmélete Minta-2 Minta-1 Minta-3 mintáról mintára változik maga is valósz. változó adott elméleti eloszlással, szórással stb. jellemezhető
A mintajellemzők fontosabb tulajdonságai Minden mintaelem és az azokból számított jellemző mintavételi ingadozásnak van kitéve: valószínűségi változók. A mintajellemzők eloszlása a mintavételi eloszlás. Véges N elemszámú sokaságot egyetlen Y ismérv szerint vizsgáljuk. A sokaság elemeit a megfelelő ismérvértékekkel együtt felsoroljuk: A mintát mindig elemeinek felsorolásával adjuk meg: Az egyes y i mintaelemek valószínűségi változók: várható értékével és varianciájával jellemezzük.
Becslés elmélete Mikor tekinthető a mintából számított mutató az ismeretlen elméleti paraméter jó becslésének? Mikor jobb egy becslés, mint a másik? Becslési kritériumok (Fisher kritériumok) Torzítatlanság Hatásosság Konzisztencia Elégségesség
Becslési kritériumok - torzítatlanság Torzítatlan a becslőfüggvény, ha annak várható értéke megegyezik a becsülni kívánt sokasági paraméterrel: Két torzított becslőfüggvény közül azt tekintjük jobbnak, amelyiknél kisebb a torzítás abszolút értéke. Nincs szisztematikus, egyirányú eltérés a becslés és a becsült paraméter között. f(x) torzítatlan torzított
Példa - Torzítatlan becslés F(x), f(x), M( ), D( ) …., S 1 *, S 2 *, S 3 *, S 1, S 2, S 3
Becslési kritériumok - Hatásosság Két becslés közül a kevésbé ingadozót tekintjük hatásosabbnak. f(x)
Hatásos becslés (Normális el.) F(x), f(x), M( )= , D( )= Me 1 Me 2 Me 3 torzítatlan konzisztens elégséges Me
Becslési kritériumok - konzisztencia Konzisztens a becslőfüggvény, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. A becslőfüggvény értékei nagy minta esetén jól közelítsék a megfelelő sokasági jellemzőt. f(x)
Becslési kritériumok - elégségesség A becslés elégséges, ha minden információt tartalmaz a paraméterre vonatkozóan. Nincs más olyan becslés, amely a paraméterről több információt szolgáltatna, mint az elégséges becslés.
Pontbecslés Analógia elve: a mintából a becsülni kívánt jellemzővel megegyező tartalmú mutatót számítunk Mi történik, ha az analógia nem működik? Becslőfüggvények alkalmazása: a becslőfüggvénybe helyettesítjük a minta konkrét értékeit pontbecslés Pontbecslés módszerei: Maximum-likelihood módszer Legkisebb négyzetek módszere Momentumok módszere Kvantilisek módszere Grafikus paraméterbecslés
Legkisebb négyzetek módszere Nem feltételezi a sokaság eloszlásának ismeretét, de azt igen, hogy van egy törvényszerűség, amely feltételezésünk szerint megfigyelési adatainkat előállította modell A LN módszere úgy határozza meg e modell paramétereit, hogy a tényleges és becsült paraméterrel illesztett modellek eltéréseinek négyzetösszege minimális legyen. A LN módszer a tényleges megfigyelések és a minta alapján becsült modell négyzetes távolságát minimálja. Eszköze a szélsőértékszámítás.
Maximum likelihood módszer (ML) Ismert sokasági eloszlást tételez fel, és e sokasági eloszlás ismeretlen paraméterét becsüli. Az LF mutatja meg, hogy adott eloszlás és különböző paraméterértékek esetében mennyire valószínű, hogy éppen a szóban forgó minta adódik a mintavétel eredményeképpen. Ez a valószerűség az ismeretlen paraméter(ek) függvénye: likelihood függvény (LF). LF ismeretében a feladat, olyan ismeretlen paraméter(eke)t keresni, amely(ek) mellett ez a függvény a maximumát veszi fel, azaz annak hihetősége, hogy az adott konkrét minta éppen abból az eloszlásból származik, a lehető legnagyobb.
Momentumok módszere Eloszlások paramétereinek becslésére szolgál. Feltétel: ismert a sokasági eloszlás A sokasági eloszlás paraméterei és momentumai kapcsolatba hozhatók egymással: a tapasztalati momentumokat a mintából kiszámítjuk, egyenlővé tesszük a paraméterekkel kifejezett sokasági momentumokkal, és következtetünk a sokasági paraméterekre. Másképpen: olyan sokasági momentumokat keres, amely mellett a sokaság és a minta megfelelő momentumai megegyeznek. Konzisztens becslőfüggvényeket eredményez.
Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt.
Intervallumbecslés Minta-2 Minta-1 Minta-3 mintáról mintára változik maga is valósz. változó adott elméleti eloszlással, szórással stb. jellemezhető Emlékeztető
Intervallumbecslés A pontbecslés csak véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik el. Hogy milyen sugarú környezetében? A mintavételi hibától függ. A pontbecslés intervallumbecsléssel egészíthető ki. A mintavételi hibát is figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk a becsülni kívánt sokasági paraméterre. Milyen széles legyen, hogy lefedje a becsülni kívánt sokasági paramétert? A mintastatisztika szóródásának mértéke függ a minta elemszámától. A mintavételi eloszlás ismeretében meg tudunk adni egy olyan intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza. A konfidencia-intervallum számításához ismernünk kell, hogy hogyan viselkedik a sokasági paramétert becslő függvényünk: mi a becslőfüggvény átlaga és szórása, és a becslőfüggvény, mint valószínűségi változó milyen eloszlást követ.
Intervallumbecslés Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait, és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági paraméterre. A konfidencia-intervallum is valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a becsülni kívánt sokasági paramétert vagy nem. Amennyiben a mintavételt újra és újra megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek (1-α) %- ában a sokasági jellemző a konfidencia-intervallumon belül lenne.
Intervallumbecslés – várható érték Normális el. M( )= , D( )= 0 ismert n elemű FAE mintából számított számtani átlaggal becsüljük Normális eloszlás (Mintavételi eloszlás)
Kvantitatív módszerek Várható érték ( ) becslése 2 -ás szabály f(x) 95,44% -2 0 / n +2 0 / n
Kvantitatív módszerek Várható érték ( ) becslése
Ha a sokaság elméleti szórása (σ 0 ) ismert, akkor az átlag mintavételi eloszlása alapján tetszőlegesen kicsiny α>0 számhoz meghatározható olyan z α/2 mennyiség, hogy Minél nagyobb az 1-α=ε megbízhatósági szint, annál szélesebb intervallumot kapunk. Az intervallum hossza függ a mintanagyságtól és a sokasági szórástól. A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük.
Várható érték egyoldali becslése Gazdaságstatisztika Csak a konfidencia-intervallum felső határának becslése: Csak a konfidencia-intervallum alsó határának becslése:
Intervallum szélessége Sokasági szórás Mintaszám Megbízhatósági szint
Példa Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 A gép által töltött tömeg normális eloszlású valószínűségi változó 4,5g szórással. Határozzuk meg 95%-os megbízhatósággal a termékek várható értékének konfidencia intervallumát! Megoldás: n=9
=0,95 =0,05 kétoldali becslés: /2=0,025 z /2 =1,96 Gazdaságstatisztika Példa Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg várható értéke 996,1711 gramm és 1002,051 gramm között van.
Példa Tegyük fel, hogy a töltési technológiát úgy kell beállítani, hogy a töltősúly hosszabb távon ne haladja meg az 1002 grammot. A minta alapján – 95%-os megbízhatósággal – teljesíti-e ezt a feltételt a töltőgép? Megoldás: egyoldali konfidencia intervallum n=9 =0,95 =0,05 egyoldali becslés z =1,645 Gazdaságstatisztika 95%-os megbízhatósággal a gép teljesíti a technológiai elvárást.
Várható érték becslése – ismeretlen alapsokasági szórás Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ 0 -t). Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel (torzítatlan becslés.) helyett Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal. Kvantitatív módszerek
Példa Tegyük fel, hogy az előző töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A grammokban mért töltési tömegek: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére! Megoldás: n=9 A σ 0 nem ismert, becsülnünk kell a minta korrigált tapasztalati szórásával: Gazdaságstatisztika
Példa ε= 0,95 =0,05 kétoldali becslés: /2=0,025 t /2 =2,306 (DF=9-1=8) Gazdaságstatisztika Szélesebb intervallum! σ 0 nem ismert, becsültük σ 0 ismert
Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: p = k/n Binomiális eloszlás M(p) = PD 2 (p) = P(1-P)/n Közelítjük normális eloszlással
Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24 db. 95%-os és 99%-os megbízhatósági szint mellett adjunk intervallumbecslést a sokasági arányra! Megoldás: n = 200 p = 24/200 = 0,12 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 z /2 = 1,96 Gazdaságstatisztika 95%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 7,5% és 16,5% között van.
Példa = 0,99 = 0,01 kétoldali becslés: /2 = 0,005 z /2 = 2,58 Gazdaságstatisztika α =1% 99%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 6,066% és 17,934% között van. α =5% Szélesebb intervallum!
Sokasági variancia becslése σ 2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor: változó n-1 szabadsági fokú χ 2 eloszlású követ. A χ 2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre!
Sokasági variancia becslése Kvantitatív módszerek Normális el. Normális el. M( )= , D 2 ( )= 2 mintából becsüljük, s 2 s* 2 s 2 vagy s* 2 mintából becsüljük, s 2 s* 2 s 2 vagy s* 2 2 -eloszlású (Mintavételi eloszlás) !! - csak pozitív értékekre értelmezett - nem szimmetrikus !! - csak pozitív értékekre értelmezett - nem szimmetrikus !!
Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat! Megoldás: n = 16 s* = 10 óra DF = n – 1 = 16 – 1 = 15 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 1 – /2 = 0,975 Gazdaságstatisztika 54,5 < 2 < 239,6 7,38 < < 15,5 95%-os megbízhatósági szinten a sokasági szórás 7,38 és 15,5 óra között van.
Mintaszám meghatározása Eddig feltételeztük, hogy rendelkezésünkre áll egy adott elemszámú minta: a minta alapján kiszámoltuk az elméleti paramétert adott valószínűséggel tartalmazó intervallum határait. Fordítva is eljárhatunk: mekkora mintára van szükség, hogy egy adott pontosságot (Δ-t) elérjünk. Adott Δ mellett megadható az n érték: Kvantitatív módszerek Δ
Példa Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 A gép által töltött tömeg normális eloszlású valószínűségi változó 4,5g szórással. Meghatároztuk 95%-os megbízhatósággal a termékek várható értékének konfidencia intervallumát. Mekkora mintára van szükségünk, ha a konfidencia intervallum sugarát felére kívánjuk csökkenteni?
Példa Megoldás: Gazdaságstatisztika
Példa Doboz töltőtömege (g)db Összesen60 Gazdaságstatisztika Egy élelmiszergyárban 1kg-os gyümölcskonzerveket csomagolnak automata töltőgéppel. A töltőtömeg eloszlása normálisnak tekinthető. A napi termelés ellenőrzésére 60 elemű véletlen mintát vettek. Az eredményeket az alábbi táblázat tartalmazza: Készítsünk 95%-os (majd 99%-os) megbízhatósággal becslést a töltőtömeg várható értékre, szórására, valamint az 1000 gramm alatti töltőtömegek arányára! A várható érték becslésekor, ha a mintát a maximális hibát a felére szeretnénk csökkenteni, mekkora mintaelemszámra lenne szükség?
Megoldás Várható érték becslése ε=0,95 – ismeretlen sokasági szórás, de n>30 Mi hiányzik hozzá? A standard normális eloszlás táblázatból: Gazdaságstatisztika Doboz töltőtömege (g)db Összesen60
Megoldás Gazdaságstatisztika 95%-os megbízhatósággal a töltőtömeg várható értéke 1000,994 gramm és 1007,006 gramm között van. Legyen most a megbízhatósági szint 99%. 99%-os megbízhatósággal a töltőtömeg várható értéke 1000,043 gramm és 1007,957 gramm között van. SZÉLESEBB AZ INTERVALLUM!!!!
Megoldás Most válaszoljuk meg a mintaelemszámmal kapcsolatos kérdést! 95%-os megbízhatóság mellett a maximális hiba (Δ): 99%-os megbízhatóság mellett a maximális hiba (Δ): Gazdaságstatisztika
Megoldás Szórás becslése ε=0,95 A chínégyzet eloszlás táblázat alapján (DF=59): Szórás becslése ε=0,99 Gazdaságstatisztika 95%-os megbízhatósággal a töltőtömeg szórása 9,998 gramm és 14,342 gramm között van. 99%-os megbízhatósággal a töltőtömeg szórása 9,516 gramm és 15,308 gramm között van. SZÉLESEBB INTERVALLUM
Megoldás Sokasági arány becslése ε=0,95 1000 gramm alatti töltések aránya a mintában: Sokasági arány becslése ε=0,99 Gazdaságstatisztika 95%-os megbízhatósággal az 1000 gramm alatti töltőtömeg aránya 18,4% és 41,6% között van. 99%-os megbízhatósággal az 1000 gramm alatti töltőtömeg aránya 14,7% és 45,3% között van. SZÉLESEBB INTERVALLUM
Megjegyzés Mekkora mintaelemszámra lenne szükségünk, ha a sokasági arány becslésénél az intervallumot a harmadára kívánjuk csökkenteni? 95%-os megbízhatóság mellett: 99%-os megbízhatóság mellett: Gazdaságstatisztika