Mintavétel és becslés 2015. október 27. és 29. Gazdaságstatisztika Mintavétel és becslés 2015. október 27. és 29.
Miről lesz ma szó? Mintavételi alapok Pontbecslés Véletlen mintavétel jelentősége Pontbecslés Intervallumbecslési eljárások Várható érték becslése Sokasági arány becslése Sokasági szórás becslése Gazdaságstatisztika
Sokaság: a vizsgálat tárgyát képező egységek összessége Matematikai statisztika lényege Sokaság: a vizsgálat tárgyát képező egységek összessége Következtetés A minta elemei az alapsokaság eloszlásával megegyező eloszlású valószínűségi változók. Minta: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye Mintavétel Mintavétel: a statisztikai sokaságból információszerzés céljából véletlenszerűen egyedi elemeket emelünk ki
Mintavétel – részleges megfigyelés Cél: következtetéseket vonjunk le a teljes sokaságra vonatkozóan a sokaság részleges megismerése által A MINTA CSAK ESZKÖZ A SOKASÁG TELJES MEGISMERÉSÉHEZ! De milyen a jó minta? Mintavételi és nem mintavételi hiba
Mintavételi hiba A mintából számított bármely mutató értéke mintáról mintára változik. A mintából számított értékek a megfelelő sokasági jellemző körül szóródnak. Ez a szóródás kisebb minták esetében nagyobb, nagyobb minták esetében kisebb. A mintavételi hiba a vizsgált mutató lehetséges mintákból számított értékeinek átlagos eltérését mutatja a megfelelő sokasági értéktől.
Adatfelvételi módok Adatfelvétel Teljes körű – csak véges sokaság esetén (pl. népszámlálás) Részleges Mintavételes megfigyelés Kísérleti eredmények gyűjtése Egyéb részleges megfigyelés Véletlen(szerű) kiválasztás Nemvéletlen(szerű) kiválasztás
Véletlen mintavétel Olyan kiválasztási eljárás, melynek során ismert vagy meghatározható a sokaság egyes elemeinek mintába kerülési esélye. Mintavételi hiba számszerűsítése Reprezentativitás biztosítása: a minta összetétele csak a véletlen hatások miatt tér el a sokaságétól Visszatevéses egyszerű véletlen mintavétel Visszatevés nélküli egyszerű véletlen mintavétel Rétegzett mintavétel Csoportos mintavétel Többlépcsős mintavétel Gazdaságstatisztika
Véletlen mintavétel Visszatevéses egyszerű véletlen mintavétel A sokaságból egyenlő valószínűséggel, a visszatevéses technika miatt egymástól függetlenül veszünk mintát. Inkább elméleti, mint gyakorlati jelentőség. Visszatevés nélküli egyszerű véletlen mintavétel A sokaságból egyenlő valószínűséggel veszünk mintát, a mintaelemek egymástól nem függetlenek. Következtetés pontosságát meghatározó tényezők: Minta elemszáma Sokaság heterogenitása Gazdaságstatisztika
Véletlen mintavétel Rétegzett mintavétel: a sokaságot egy csoportképző ismérv szerint rétegekre bontjuk, majd minden rétegből egyszerű véletlen mintát veszünk. Teljes lista Következtetés megbízhatóságát meghatározó tényező: Rétegek heterogenitása Rétegképző ismérv „jósága” Gazdaságstatisztika
Véletlen mintavétel Csoportos mintavétel: olyan nyilvántartásból történik a kiválasztás, amely a sokaság egységeit nem elkülönítve, hanem természetes vagy mesterséges csoportokban tartalmazza. Csoportképző ismérv Csoportok közül egyszerű véletlen mintavétel Következtetés megbízhatóságát meghatározó tényező: Csoport heterogenitása Többlépcsős mintavétel: csoportos általánosítása Gazdaságstatisztika
A becslés elmélete (Majdnem) minden elméleti eloszlásnak van(nak) paramétere(i) Becslési eljárások: Pontbecslés: a becsülni kívánt elméleti paramétert egy értékkel becsüli Intervallumbecslés: előre meghatározott megbízhatósággal egy intervallumot ad a keresett sokasági paraméterre A becsülni kívánt sokasági paraméter jelölése: Θ A sokaság ismeretlen konstans értékei, értékük nem függ a véletlentől A becslés a sokaságból kivett véletlen minta alapján valósul meg: a mintaelemek függvénye, becslőfüggvény Véletlen minta esetén az aktuális minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is valószínűségi változó. A mintából számított pontbecslés: Gazdaságstatisztika
A becslés elmélete mintáról mintára változik maga is valósz. változó Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető Gazdaságstatisztika
Becslés elmélete Mikor tekinthető a mintából számított mutató az ismeretlen elméleti paraméter jó becslésének? Mikor jobb egy becslés, mint a másik? Becslési kritériumok (Fisher kritériumok) Torzítatlanság Hatásosság Konzisztencia Elégségesség Gazdaságstatisztika
Becslési kritériumok - torzítatlanság Torzítatlan a becslőfüggvény, ha annak várható értéke megegyezik a becsülni kívánt sokasági paraméterrel: Nincs szisztematikus, egyirányú eltérés a becslés és a becsült paraméter között Két torzított becslőfüggvény közül azt tekintjük jobbnak, amelyiknél kisebb a torzítás abszolút értéke. torzítatlan torzított f(x) f(x) Gazdaságstatisztika
Példa - Torzítatlan becslés F(x), f(x), M(), D() …. , S1 , S1* , S2* , S2 , S3* , S3 Gazdaságstatisztika
Becslések tulajdonságai – torzítatlan becslés Kockadobás esetén a dobott számérték – mint valószínűségi változó – elméleti várható értéke 3,5, elméleti szórása 1,7078. 50 db háromelemű minta tapasztalati és korrigált tapasztalati szórásai, valamint ezek átlagértékei Gazdaságstatisztika
Becslési kritériumok - konzisztencia Konzisztens a becslőfüggvény, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. A becslőfüggvény értékei nagy minta esetén jól közelítsék a megfelelő sokasági jellemzőt. f(x) Gazdaságstatisztika
Becslések tulajdonságai – konzisztens becslés Kockadobás esetén a dobott érték tapasztalati és korrigált tapasztalati szórásának alakulása a minta nagyságának függvényében Gazdaságstatisztika
Becslési kritériumok - Hatásosság A becslések ingadozását a becslések szórásával mérjük. Két becslés közül a kevésbé ingadozót tekintjük hatásosabbnak. f(x) Gazdaságstatisztika
(Normális el.) Hatásos becslés Me1 Me2 Me3 F(x), f(x), M()=, D()= Me1 Me torzítatlan konzisztens Me2 elégséges Me3 Gazdaságstatisztika
Becslések tulajdonságai – hatásos becslés Az átlag kisebb szórással ingadozik, mint a medián, ezért a számtani átlag a hatásosabb becslés. Gazdaságstatisztika
Becslési kritériumok - elégségesség A becslés elégséges, ha minden információt tartalmaz a paraméterre vonatkozóan. Nincs más olyan becslés, amely a paraméterről több információt szolgáltatna, mint az elégséges becslés. Gazdaságstatisztika
A pontbecslés módszerei Maximum-likelihood módszer (a legnagyobb valószínűség elve) Ún. likelihood függvényt állít fel, amely a mintaelemek együttes sűrűségfüggvénye. Az ismeretlen paraméter becslésére azt a statisztikát használjuk, melyre ez a függvény maximális értéket vesz fel. Az eredeti eloszlás ismerete szükséges. A legkisebb négyzetek módszere Nem szükséges az eredeti eloszlás ismerete, de ismert a törvényszerűség, amely a megfigyeléseinket előállította. Cél ezen elméleti modell a paramétereit a meghatározása úgy, hogy a tényleges és a becsült paraméterekkel illesztett modellek négyzetes eltérése, azaz az eltérések négyzetösszege minimális legyen. Gazdaságstatisztika
A pontbecslés módszerei Grafikus paraméterbecslés A gyakorlat számára könnyebben kezelhetőbb eljárás. Pontossága a grafikus ábrázolás adta lehetőségektől függ, viszont egyszerűsége miatt sokszor jól használható. Lényege, hogy valamilyen módon (többnyire logaritmizálással) linearizáljuk az eloszlásfüggvényt, s az adatokat grafikusan ábrázolva az egyenes meredekségéből és/vagy tengelymetszetéből következtetünk az eloszlás ismeretlen paraméteré(ei)re. Gazdaságstatisztika
Intervallumbecslés mintáról mintára változik maga is valósz. változó Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető Gazdaságstatisztika
Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt. Gazdaságstatisztika
Intervallumbecslés A pontbecslés csak véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik el – mintavételi hiba! A pontbecslés intervallumbecsléssel egészíthető ki. A mintavételi hibát figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk a becsülni kívánt sokasági paraméterre. Milyen széles legyen, hogy lefedje a becsülni kívánt sokasági paramétert? A mintastatisztika szóródásának mértéke függ a minta elemszámától. A sokasági paramétert becslő függvényünk mintavételi eloszlása Ennek ismeretében meg tudunk adni egy olyan intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza – 100%-os biztonság nincs! Gazdaságstatisztika
Intervallumbecslés Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait, és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági paraméterre. A konfidencia-intervallum is valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a becsülni kívánt sokasági paramétert vagy nem. Amennyiben a mintavételt újra és újra megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek (1-α)%-ában a sokasági jellemző a konfidencia-intervallumon belül lenne. Gazdaságstatisztika
Intervallum szélessége Sokasági szórás intervallum szélessége Mintaszám Megbízhatósági szint Gazdaságstatisztika
Intervallum becslés – várható érték Normális el. M()=, D()=0 ismert n elemű FAE mintából számított számtani átlaggal becsüljük Normális eloszlás (Mintavételi eloszlás) Kvantitatív módszerek
Intervallumbecslés a normális eloszlás várható értékére ±2 szigmás szabály: Átrendezés után: Gazdaságstatisztika
Várható érték becslése – ismert alapsokasági szórás A valószínűségi változó N(,0) eloszlású, ahol 0 szórás ismert A sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Az átlag eloszlása normális: A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük. Gazdaságstatisztika
Várható érték becslése – ismert alapsokasági szórás – egyoldali becslés Gazdaságstatisztika
Példa Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 A gép által töltött tömeg normális eloszlású valószínűségi változó 4,5g szórással. Határozzuk meg 95%-os megbízhatósággal a termékek várható értékének konfidencia intervallumát! Megoldás: n=9 Gazdaságstatisztika
Példa =0,95 =0,05 kétoldali becslés: /2=0,025 z/2=1,96 Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg várható értéke 996,1711 gramm és 1002,051 gramm között van. Gazdaságstatisztika
Példa Tegyük fel, hogy a technológiát úgy kell beállítani, hogy a töltősúly hosszabb távon ne haladja meg az 1002 grammot. A minta alapján 95%-os megbízhatósággal teljesíti-e ezt a töltőgép? n=9 =0,95 =0,05 egyoldali becslés z=1,645 Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg várható értéke 1001,58 gramm alatt van, 95%-os megbízhatósággal teljesíti az elvárást. Gazdaságstatisztika
Példa Egy elektronikai gyártósoron egy alkatrész nyomtatott áramkörre történő beültetési pozíciójának x-irányú koordinátáját vizsgálták. Korábbi elemzésekből ismert, hogy az x-irányú beültetési pozíció normális eloszlású valószínűségi változó 0,03mm szórással. 10 mérést elvégezve az x-irányú beültetési koordináta átlaga 10,34mm-re adódott. Adjunk 95%-os megbízhatósági szintű intervallumbecslést az alkatrész x-irányú beültetési koordinátájának várható értékére!
Példa Adjunk 95%-os megbízhatósági szintű intervallumbecslést az alkatrész x-irányú beültetési koordinátájának várható értékére! Az x-irányú beültetési koordináta normális eloszlású ismeretlen μ várható értékkel és ismert σ0=0,03 mm elméleti szórással. n=10 95%-os megbízhatósági szinten az alkatrész x-irányú beültetési koordinátájának várható értéke 10,3214mm és 10,3586mm között van.
Mintanagyság meghatározása Adottak a megbízhatósági és pontossági követelmények, és ennek tükrében kell a minta elemszámát meghatározni Gazdaságstatisztika
Példa Kávékivonatos példa – ismert elméleti szórás Mekkora mintára van szükségünk ahhoz, hogy a becslés hibáját a harmadára csökkentsük? Gazdaságstatisztika
Példa Felvillanyozzuk Kft. – ismeretlen elméleti szórás Mekkora mintára van szükségünk ahhoz, hogy 99%-os megbízhatósággal kapjuk meg ugyanezt az intervallumot? Gazdaságstatisztika
Várható érték becslése – ismeretlen alapsokasági szórás Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ0-t). Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel (torzítatlan becslés.) helyett Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal.
Példa Tegyük fel, hogy az előző töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A grammokban mért töltési tömegek: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére! Megoldás: n=9 A σ0 nem ismert, becsülnünk kell a minta korrigált tapasztalati szórásával:
Példa ε= 0,95 =0,05 kétoldali becslés: /2=0,025 t/2=2,306 (DF=9-1=8) σ0 nem ismert, becsültük Szélesebb intervallum! σ0 ismert
Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: p = k/n p = k/n Binomiális eloszlás M(p) = P D2(p) = P(1-P)/n Közelítjük normális eloszlással
Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24 db. 95%-os és 99%-os megbízhatósági szint mellett adjunk intervallumbecslést a sokasági arányra! Megoldás: n = 200 p = 24/200 = 0,12 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 z/2 = 1,96 95%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 7,5% és 16,5% között van.
Példa = 0,99 = 0,01 kétoldali becslés: /2 = 0,005 z/2 = 2,58 99%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 6,066% és 17,934% között van. α =1% Szélesebb intervallum! α =5%
Mintanagyság meghatározása Adottak a megbízhatósági és pontossági követelmények, és ennek tükrében kell a minta elemszámát meghatározni Gazdaságstatisztika
Példa Felvillanyozzuk Kft. – 95%-os megbízhatóság mellett csökkentsük a becslés hibáját a felére! Gazdaságstatisztika
Sokasági variancia becslése σ2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor: változó n-1 szabadsági fokú χ2 eloszlású követ. A χ2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre!
Sokasági variancia becslése Normális el. !! M()=, D2()=2 - csak pozitív értékekre értelmezett - nem szimmetrikus !! mintából becsüljük, s2 vagy s*2 2-eloszlású (Mintavételi eloszlás)
Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat! Megoldás: n = 16 s* = 10 óra DF = n – 1 = 16 – 1 = 15 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 1 – /2 = 0,975 95%-os megbízhatósági szinten a sokasági szórás 7,38 és 15,5 óra között van. 54,5 < 2 < 239,6 7,38 < < 15,5
Gyakorló feladat Egy kávéautomata ellenőrzése során az automata által adagolt eszpresszó kávé térfogatát vizsgálták. Korábbi tapasztalatok alapján az adagolt kávé térfogata normális eloszlású valószínűségi változónak tekinthető. A vizsgálat során 10 mérést végeztek, a mérési eredmények értékei ml-ben a következők voltak: 101; 97; 103; 99; 102; 98; 104; 101; 97; 100. Adjunk 95%-os megbízhatósági szintű intervallumbecslést az eszpresszó kávé várható adagolt térfogatára! Megoldás: várható érték becslése, ismeretlen elméleti szórással, a szórást a korrigált tapasztalati szórással becsüljük Gazdaságstatisztika
Gyakorló példa Számtani átlag: Korrigált tapasztalati szórás: Az eszpresszó kávé várható adagolt térfogata 95%-os valószínűséggel a (98,4544; 1019456) intervallumba esik. DF=n-1=9 Gazdaságstatisztika
Gyakorló példa Egy forgácsoló üzemben esztergált tengelyek átmérőjét vizsgálták. A vizsgálat során 30 darab tengely átmérőjét mérték meg. A tengelyek átmérőjének a mintából számított átlaga 55mm, korrigált tapasztalati szórása 0,2mm. A tengelyek átmérőjéről feltételezhető, hogy normális eloszlású valószínűségi változó. Adjunk 99%-os megbízhatósági szintű intervallumbecslést a.) a tengelyek várható átmérő méretére! b.) a tengelyek átmérőjének szórására! Megoldás: Konfidencia-intervallum a várható értékre Konfidencia-intervallum a sokasági szórásra Gazdaságstatisztika
Gyakorló példa Várható érték konfidencia intervalluma n=30 A tengelyek átmérőjének várható értéke 54,8994mm és 55,1006mm között van 99%-os megbízhatósággal. DF= n-1=30-1=29 Gazdaságstatisztika
Gyakorló példa Várható érték konfidencia intervalluma n=30 A tengelyek átmérőjének várható értéke 54,906mm és 55,0942mm között van 99%-os megbízhatósággal. Gazdaságstatisztika
Gyakorló példa Sokasági szórás konfidencia intervalluma: n=30 A tengelyek átmérőjének szórása 0,1489mm és 0,2973mm között van 99%-os megbízhatósággal. DF= n-1=30-1=29 Gazdaságstatisztika
Gyakorló példa Élettartam (hónap) Izzók száma (db) 0≤t<6 5 Megbízhatósági elemzések során a 60W-os izzók élettartamát vizsgálták. Összesen 60 darab izzó élettartamát figyelték meg, a megfigyelések eredményeit az alábbi gyakorisági táblázatban rögzítették. Az izzók élettartamáról feltételezhető, hogy normális eloszlást követ. Adjunk 95%-os megbízhatósági szintű intervallumbecslést a.) a legalább 18 hónap élettartamú izzók arányára! b.) a 12 hónapnál rövidebb Megoldás: sokasági arány becslése Élettartam (hónap) Izzók száma (db) 0≤t<6 5 6≤t<12 7 12≤t<18 18 18≤t<24 22 24≤t<30 30≤t<36 1 Gazdaságstatisztika
Gyakorló példa Élettartam (hónap) Izzók száma (db) 0≤t<6 5 Adjunk 95%-os megbízhatóságú intervallumbecslést a legalább 18 hónap élettartamú izzók arányára! Élettartam (hónap) Izzók száma (db) 0≤t<6 5 6≤t<12 7 12≤t<18 18 18≤t<24 22 24≤t<30 30≤t<36 1 A legalább 18 hónap élettartamú izzók aránya 95%-os valószínűséggel a (0,3735; 0,6265) intervallumba esik. Gazdaságstatisztika
Gyakorló példa Élettartam (hónap) Izzók száma (db) 0≤t<6 5 Adjunk 95%-os megbízhatóságú intervallumbecslést a 12 hónapnál rövidebb élettartamú izzók arányára! Élettartam (hónap) Izzók száma (db) 0≤t<6 5 6≤t<12 7 12≤t<18 18 18≤t<24 22 24≤t<30 30≤t<36 1 A 12 hónap rövidebb élettartamú izzók aránya 95%-os valószínűséggel a 9,88% - 30,12% intervallumba esik. Gazdaságstatisztika