Mintavétel és becslés 2016. október 25. és 27. Gazdaságstatisztika Mintavétel és becslés 2016. október 25. és 27.
Miről tanultunk eddig? Mi lesz ma? Mintavételi alapok Mintavételi és nem mintavételi hiba Véletlen mintavétel jelentősége Pontbecslés Intervallumbecslési eljárások Várható érték becslése Az alapsokasági szórás ismert Az alapsokasági szórás ismeretlen, azt a mintából kell becsülni Sokasági arány becslése Sokasági szórás becslése Hogyan határozható meg a szükséges minta elemszáma? Gazdaságstatisztika
Sokaság: a vizsgálat tárgyát képező egységek összessége Matematikai statisztika lényege Sokaság: a vizsgálat tárgyát képező egységek összessége Következtetés A minta elemei az alapsokaság eloszlásával megegyező eloszlású valószínűségi változók. Minta: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye Mintavétel Mintavétel: a statisztikai sokaságból információszerzés céljából véletlenszerűen egyedi elemeket emelünk ki
A becslés elmélete (Majdnem) minden elméleti eloszlásnak van(nak) paramétere(i) Becslési eljárások: Pontbecslés: a becsülni kívánt elméleti paramétert egy értékkel becsüli Intervallumbecslés: előre meghatározott megbízhatósággal egy intervallumot ad a keresett sokasági paraméterre A becsülni kívánt sokasági paraméter jelölése: Θ A sokaság ismeretlen konstans értékei, értékük nem függ a véletlentől A becslés a sokaságból kivett véletlen minta alapján valósul meg: A mintaelemek függvénye, becslőfüggvény Véletlen minta esetén az aktuális minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is valószínűségi változó. A mintából számított pontbecslés: Gazdaságstatisztika
A becslés elmélete mintáról mintára változik maga is valósz. változó Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető Gazdaságstatisztika
Becslési kritériumok Torzítatlanság Hatásosság Konzisztencia Elégséges A becslés várható értéke a becsülendő sokasági paraméter A becslés a szóban forgó paraméterérték körül ingadozik Asszimptotikusan torzítatlan becslések Hatásosság A becslés ingadozása (szórása) a becsülendő paraméter körül Konzisztencia A becslés ingadozása növelve a mintaszámot egyre csökken Elégséges Lényegében minden információt tartalmaz a becsülendő paraméterről Gazdaságstatisztika
Intervallumbecslés mintáról mintára változik maga is valósz. változó Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető Gazdaságstatisztika
Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt. Gazdaságstatisztika
Intervallumbecslés Ismerjük a pontbecslés valószínűség-elméleti tulajdonságait Az ismeretlen alapsokasági paramétert adott, nagy valószínűséggel tartalmazza A mintavételt megismételve, a szerkesztett konfidencia intervallum az ismeretlen alapsokasági paramétert az esetek 1−𝛼 százalékában tartalmazza Egy minta esetén 1−𝛼 valószínűséggel tartalmazza az intervallum az ismeretlen paramétert Az intervallum szélességét befolyásolja: Az alapsokasági szórás A megbízhatósági szint Minta elemszáma Feltétele: Alapsokaság eloszlása normális Gazdaságstatisztika
Várható érték becslése – ismert alapsokasági szórás A valószínűségi változó N(,0) eloszlású, ahol 0 szórás ismert A sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Az átlag eloszlása normális: A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük. Gazdaságstatisztika
Várható érték becslése – ismert alapsokasági szórás – egyoldali becslés Gazdaságstatisztika
Szorgalmi feladat megoldás Egy vasútvonalon egy hétig minden vonaton feljegyezték az utasok számát. Az eredményeket az alábbi táblázat tartalmazza: Adjunk 99%-os megbízhatósággal intervallumbecslést a vonaton utazók számának várható értékére! Utasok száma Vonatok száma 𝟎≤𝒙≤𝟑𝟎 6 𝟑𝟎<𝑿≤𝟔𝟎 12 𝟔𝟎<𝒙≤𝟗𝟎 28 𝟗𝟎<𝑿≤𝟏𝟐𝟎 30 𝟏𝟐𝟎<𝑿≤𝟏𝟓𝟎 16 𝟏𝟓𝟎<𝑿<≤𝟏𝟖𝟎 8
Szorgalmi feladat megoldása Ismert, hogy 𝒙 =93,6, illetve 𝝈 𝒐 =𝟑𝟖,𝟓. 𝜶=𝟎,𝟎𝟏 így 𝟏− 𝜶 𝟐 =𝟎,𝟗𝟗𝟓 𝑷 𝒙 − 𝒛 𝜶 𝟐 𝝈 𝒐 𝒏 <𝝁< 𝒙 + 𝒛 𝜶 𝟐 𝝈 𝒐 𝒏 =𝟏−𝜶 𝒛 𝜶/𝟐 =𝟐,𝟓𝟖 𝑷 𝟗𝟑,𝟔−𝟐,𝟓𝟖 𝟑𝟖,𝟓 𝟏𝟎𝟎 <𝝁<𝟗𝟑,𝟔+𝟐,𝟓𝟖 𝟑𝟖,𝟓 𝟏𝟎𝟎 =𝟎,𝟗𝟗 𝟖𝟑,𝟔𝟔𝟕<𝝁<𝟏𝟎𝟑,𝟓𝟑𝟑 99%-os megbízhatósággal a vonatok utazók számának várható értéke 83,667 és 103,533 fő között van. Gazdaságstatisztika
Várható érték becslése – ismeretlen alapsokasági szórás Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ0-t). Kis mintánk van, n<30. Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel ( 𝑠 ∗ , torzítatlan becslés.) 𝒛= 𝒙 −𝝁 𝝈/ 𝒏 helyett 𝒕= 𝒙−𝝁 𝒔 ∗ / 𝒏 , ami Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal A konfidencia intervallum:
A t-érték meghatározása Megbízhatósági szint Szabadságfok: DF=n-1 Gazdaságstatisztika
Várható érték becslés nagy minták esetében Feloldható a sokaság normalitására vonatkozó feltétel: Ha az alapsokaság szimmetrikus, n>30 Nem szimmetrikus alapsokaság esetében, n>100 A Student-féle t-eloszlás helyettesíthető standard normális eloszlással Gazdaságstatisztika
Példa Tegyük fel, hogy kávé töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A grammokban mért töltési tömegek egy 9 elemű minta alapján: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére! Megoldás: n=9 A σ0 nem ismert, becsülnünk kell a minta korrigált tapasztalati szórásával:
Példa ε= 0,95 =0,05 kétoldali becslés: /2=0,025 t/2=2,306 (DF=9-1=8) σ0 nem ismert, becsültük Szélesebb intervallum! σ0 ismert
Mintanagyság meghatározása Adottak a megbízhatósági és pontossági követelmények, és ennek tükrében kell a minta elemszámát meghatározni Gazdaságstatisztika
Példa Kávékivonatos példa – ismert elméleti szórás Mekkora mintára van szükségünk ahhoz, hogy a becslés hibáját a harmadára csökkentsük? Gazdaságstatisztika
Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: p = k/n p = k/n Binomiális eloszlás M(p) = P D2(p) = P(1-P)/n Közelítjük normális eloszlással
Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24 db. 95%-os és 99%-os megbízhatósági szint mellett adjunk intervallumbecslést a hibás égők sokasági arányára! Megoldás: n = 200 p = 24/200 = 0,12 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 z/2 = 1,96 95%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 7,5% és 16,5% között van.
Példa = 0,99 = 0,01 kétoldali becslés: /2 = 0,005 z/2 = 2,58 99%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 6,066% és 17,934% között van. α =1% Szélesebb intervallum! α =5%
Mintanagyság meghatározása Adottak a megbízhatósági és pontossági követelmények, és ennek tükrében kell a minta elemszámát meghatározni Gazdaságstatisztika
Példa Felvillanyozzuk Kft. – 95%-os megbízhatóság mellett csökkentsük a becslés hibáját a felére! Gazdaságstatisztika
Sokasági variancia becslése σ2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor a 𝑛−1 𝑠 ∗ 2 𝜎 2 változó n-1 szabadsági fokú χ2 eloszlású követ. A χ2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre! KIZÁRÓLAG NORMÁLIS ELOSZLÁSÚ ALAPSOKASÁG ESETÉN BECSÜLHETŐ!!!
Sokasági variancia becslése Normális el. !! M()=, D2()=2 - csak pozitív értékekre értelmezett - nem szimmetrikus !! mintából becsüljük, s2 vagy s*2 2-eloszlású (Mintavételi eloszlás)
Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat! Megoldás: n = 16 s* = 10 óra DF = n – 1 = 16 – 1 = 15 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 1 – /2 = 0,975 95%-os megbízhatósági szinten a sokasági szórás 7,38 és 15,5 óra között van. 54,5 < 2 < 239,6 7,38 < < 15,5
Alapsokasági szórás becslése nagy mintából A Chi-négyzet eloszlás értékei kifejezhetőek a standard-normális eloszlás értékei segítségével χ 𝟐 − 𝟐𝒗−𝟏 ~𝑵(𝟎,𝟏) Ez alapján a megfelelő értékek: Az alapsokaság eloszlásának normalitására vonatkozó feltétel nagy minták esetében sem oldható fel! Gazdaságstatisztika
Gyakorló feladat Egy kávéautomata ellenőrzése során az automata által adagolt eszpresszó kávé térfogatát vizsgálták. Korábbi tapasztalatok alapján az adagolt kávé térfogata normális eloszlású valószínűségi változónak tekinthető. A vizsgálat során 10 mérést végeztek, a mérési eredmények értékei ml-ben a következők voltak: 101; 97; 103; 99; 102; 98; 104; 101; 97; 100. Adjunk 95%-os megbízhatósági szintű intervallumbecslést az eszpresszó kávé várható adagolt térfogatára! Megoldás: várható érték becslése, ismeretlen elméleti szórással, a szórást a korrigált tapasztalati szórással becsüljük Gazdaságstatisztika
Gyakorló példa Számtani átlag: Korrigált tapasztalati szórás: Az eszpresszó kávé várható adagolt térfogata 95%-os valószínűséggel a (98,4544; 1019456) intervallumba esik. DF=n-1=9 Gazdaságstatisztika
Gyakorló példa Egy forgácsoló üzemben esztergált tengelyek átmérőjét vizsgálták. A vizsgálat során 30 darab tengely átmérőjét mérték meg. A tengelyek átmérőjének a mintából számított átlaga 55mm, korrigált tapasztalati szórása 0,2mm. A tengelyek átmérőjéről feltételezhető, hogy normális eloszlású valószínűségi változó. Adjunk 99%-os megbízhatósági szintű intervallumbecslést a.) a tengelyek várható átmérő méretére! b.) a tengelyek átmérőjének szórására! Megoldás: Konfidencia-intervallum a várható értékre Konfidencia-intervallum a sokasági szórásra Gazdaságstatisztika
Gyakorló példa Várható érték konfidencia intervalluma n=30 A tengelyek átmérőjének várható értéke 54,8994mm és 55,1006mm között van 99%-os megbízhatósággal. DF= n-1=30-1=29 Gazdaságstatisztika
Gyakorló példa Várható érték konfidencia intervalluma n=30 A tengelyek átmérőjének várható értéke 54,906mm és 55,0942mm között van 99%-os megbízhatósággal. Gazdaságstatisztika
Gyakorló példa Sokasági szórás konfidencia intervalluma: n=30 A tengelyek átmérőjének szórása 0,1489mm és 0,2973mm között van 99%-os megbízhatósággal. DF= n-1=30-1=29 Gazdaságstatisztika
Gyakorló példa Élettartam (hónap) Izzók száma (db) 0≤t<6 5 Megbízhatósági elemzések során a 60W-os izzók élettartamát vizsgálták. Összesen 60 darab izzó élettartamát figyelték meg, a megfigyelések eredményeit az alábbi gyakorisági táblázatban rögzítették. Az izzók élettartamáról feltételezhető, hogy normális eloszlást követ. Adjunk 95%-os megbízhatósági szintű intervallumbecslést a.) a legalább 18 hónap élettartamú izzók arányára! b.) a 12 hónapnál rövidebb Megoldás: sokasági arány becslése Élettartam (hónap) Izzók száma (db) 0≤t<6 5 6≤t<12 7 12≤t<18 18 18≤t<24 22 24≤t<30 30≤t<36 1 Gazdaságstatisztika
Gyakorló példa Élettartam (hónap) Izzók száma (db) 0≤t<6 5 Adjunk 95%-os megbízhatóságú intervallumbecslést a legalább 18 hónap élettartamú izzók arányára! Élettartam (hónap) Izzók száma (db) 0≤t<6 5 6≤t<12 7 12≤t<18 18 18≤t<24 22 24≤t<30 30≤t<36 1 A legalább 18 hónap élettartamú izzók aránya 95%-os valószínűséggel a 37,35% - 62,65% intervallumba esik. Gazdaságstatisztika
Gyakorló példa Élettartam (hónap) Izzók száma (db) 0≤t<6 5 Adjunk 95%-os megbízhatóságú intervallumbecslést a 12 hónapnál rövidebb élettartamú izzók arányára! Élettartam (hónap) Izzók száma (db) 0≤t<6 5 6≤t<12 7 12≤t<18 18 18≤t<24 22 24≤t<30 30≤t<36 1 A 12 hónap rövidebb élettartamú izzók aránya 95%-os valószínűséggel a 9,88% - 30,12% intervallumba esik. Gazdaságstatisztika
Köszönöm a figyelmet! Árva Gábor