Alapsokaság (populáció) az a halmaz, amelyre (amelynek elemeire) vonatkozóan szeretnénk megállapításokat tenni az alapsokaság mérete lehet végtelen (egy kísérletet elvileg végtelen sokszor megismételhetünk), vagy véges, de olyan nagy, hogy nem tudjuk minden elemét megvizsgálni ha az alapsokaság minden elemét „megmérjük” nincs szükség statisztikára
Minta az alapsokaság részhalmaza mérete akkora, hogy minden elemét meg tudjuk vizsgálni Mindig fontos tudnunk, hogy a vizsgált minta milyen alapsokaságot reprezentál!
Feladat Mondj egy példát (lehetőleg a saját vizsgálataidból) összetartozó alapsokaságra és mintára!
Mire ügyeljünk a mintavétel során? a populáció minden eleme azonos valószínűséggel kerüljön a mintába az egyik elem kiválasztása ne befolyásolja a többi kiválasztását a minta elemei legyenek függetlenek
A statisztikai vizsgálat célja az alapsokaság valamilyen jellemzőjének becslése a mintából becslés az alapsokaságra vonatkozó hipotézis ellenőrzése a mintából becsült értékek alapján hipotézis vizsgálat
Becslés az alapsokaság jellemzői nem valószínűségi változók, hanem konstansok a mintából becsült értékek viszont valószínűségi változók
Milyen a jó becslés? torzítatlan konzisztens hatékony (efficiens) elégséges
Torzítatlan becslés Jelöljük az a paraméterre az minta alapján kapott becslést -nel A becslés torzítatlan, ha
Példák a torzítatlan becslésre a minta számtani átlaga a várhatóérték torzítatlan becslése egy esemény relatív gyakorisága torzítatlan becslése az esemény valószínűségének a korrigált empirikus szórásnégyzet torzítatlan becslése az alapsokaság varianciájának
Példák a torzított becslésre ez egy aszimptotikusan torzítatlan becslés, mert:
Példák a torzított becslésre Szimuláljuk a következő szituációt: a közösség két fajból áll, amelyek aránya 50-50%. A közösség diverzitása ln(2). Vegyünk 100 egyedből álló mintákat és becsüljük azokból a diverzitást! A mintákban az egyik faj egyedszáma X1=rbinom(100, 0.5), a második faj egyedszáma X2=100-X1. Számoljuk a minták diverzitását és ábrázoljuk az elméleti értékkel együtt!
Konzisztens becslés a becslés konzisztens, ha a minta méretének növekedésével aszimptotikusan konvergál a becsült értékhez, azaz tetszőlegesen kicsi pozitív esetén Tétel: Ha a becslés torzítatlan és varianciája a mintaméret emelésével konvergál 0-hoz, akkor a becslés konzisztens
Példák a konzisztens becslésre a minta számtani átlaga a várhatóérték konzisztens becslése egy esemény relatív gyakorisága konzisztens becslése az esemény valószínűségének a korrigált empirikus szórásnégyzet konzisztens becslése az alapsokaság varianciájának (, ha létezik a valószínűségi változó negyedik momentuma)
Hatékony (efficiens) becslés Ha egy paraméternek több torzítatlan becslése is létezik, akkor ezek közül a legkisebb varianciájút a paraméter efficiens becslésének nevezzük. A minta számtani átlaga a várhatóérték efficiens becslése
Elégséges becslés A becslés akkor elégséges, ha a becsült paraméterre vonatkozó minden információt tartalmaz, ami a mintából kiolvasható A minta számtani átlaga a várhatóérték elégséges becslése
A becslés módszerei legnagyobb valószínűség (maximum likelihood) módszere momentumok módszere
Maximum likelihood becslés Likelihood függvény: annak valószínűsége, hogy Y1, Y2, …, Yn megfigyelt értéke(ke)t kapjuk, ha a keresett a paraméter értéke . (Ez egy feltételes valószínűség). A becslés során a függvény maximumát keressük. Példa: Milyen p paraméternél a legvalószínűbb, hogy 100 független kísérletből 54-szer kapunk kedvező eredményt? Használjátok a binom.xls filet!
Maximum likelihood becslés 2 Több azonos eloszlású, független megfigyelt érték esetén a minta likelihood függvénye az egyes értékekre számolt likelihood függvények szorzata. Sokszor kényelmesebb a likelihood függvény logaritmusával számolni. Ez a log-likelihood függvény. A minta log-likelihood függvénye a független megfigyelt értékek log-likelihood függvényeinek összege.
Mintaátlag szórása A mintából számolt átlag valószínűségi változó, ezért van várhatóértéke és szórása. Várhatóértéke megegyezik az alapsokaság várhatóértékével. Ha a minta elemei függetlenek, akkor az összegük szórása átlaguké pedig
Mintaátlag eloszlása normális eloszlású valószínűségi változók esetén a mintaátlag is normális eloszlású tetszőleges más eloszlás esetén a minta elemszámának növekedésével az átlag eloszlása aszimptotikusan a normális eloszláshoz tart
Khi-négyzet eloszlás n darab független, standard normális eloszlású valószínűségi változó négyzeteinek összege n szabadsági fokú khi-négyzet eloszlású valószínűségi változó ha Y=N(m,s), akkor
Khi-négyzet eloszlás 2 ha a standard n normális eloszlású valószínűségi változók nem függetlenek, de közöttük csak lineáris összefüggések vannak, négyzeteik összege továbbra is khi-négyzet eloszlású valószínűségi változó, de az eloszlás szabadsági foka a független (egymásból nem levezethető) lineáris összefüggések számával csökken ha Y=N(m,s), akkor
A becsült szórásnégyzet eloszlása
Konfidencia intervallum az alapsokaság várhatóértéke egy fix érték becslése a mintaátlag viszont valószínűségi változó minden mintában más becslést kapunk a konfidencia intervallum a becsült érték körüli olyan intervallum, amit ha sok mintára kiszámolunk az esetek megadott (általában 95) százalékában tartalmazza a valós értéket
Konfidencia intervallum normális eloszlású változó várhatóértékére Ha az alapsokaság szórása ismert ahol ua/2 a standard normális eloszlás kritikus értéke a/2 szinten Ha a szórást a mintából becsüljük: ahol tn-1,a/2 az n-1 szabadsági fokú (Student-féle) t-eloszlás kritikus értéke a/2 szinten.
Feladat Az R-script segítségével szimulálj konfidencia intervallumokat a standard normális eloszlásból származó 10, 50 és 100 elemű mintákra. Vizsgáld meg, hogy hat-e a minta elemszáma azoknak az eseteknek a számára, amelyeknél a konfidencia intervallum nem fedi le a valódi átlagot! Mire hat a minta elemszáma?
Pontosság és megbízhatóság A konfidencia intervallum szélességét a becslés pontosságának nevezzük A konfidencia intervallumhoz tartozó 1-a értéket a becslés megbízhatóságának hívjuk. Rögzített mintaelemszám mellett a becslés megbízhatósága és pontossága fordítottan arányos A mintaszán növekedésével adott megbízhatóság mellett nő a becslés pontossága.