Kvantitatív módszerek Becsléselmélet október 7. és 9.
Kvantitatív módszerek A matematikai statisztika tárgya Sokaság Minta Mintavétel Következtetés F(x), M( ), D( ) …. F n (x), x, s, s* A vizsgálat tárgyát képező egységek összességét, halmazát statisztikai sokaságnak nevezzük. Statisztikai minta valamely változóra vonatkozó véges számú független megfigyelés eredménye.
A becslés elmélete (Majdnem) minden elméleti eloszlásnak van(nak) paramétere(i) Becslési eljárások: Pontbecslés: a becsülni kívánt elméleti paramétert egy értékkel becsüli Intervallumbecslés: előre meghatározott megbízhatósággal egy intervallumot ad a keresett sokasági paraméterre A becsülni kívánt sokasági paraméter jelölése: Θ Ezek a sokaság számunka ismeretlen konstans értékei, azaz értékük nem függ a véletlentől A becslés a sokaságból kivett véletlen minta alapján valósul meg: a mintaelemek függvénye, becslőfüggvény Véletlen minta esetén az aktuális minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is valószínűségi változó. A mintából számított pontbecslés: Kvantitatív módszerek
Mintavétel – A becslés elmélete Minta-2 Minta-1 Minta-3 mintáról mintára változik maga is valósz. változó adott elméleti eloszlással, szórással stb. jellemezhető
A mintajellemzők fontosabb tulajdonságai Minden mintaelem és az azokból számított jellemző mintavételi ingadozásnak van kitéve: valószínűségi változók. A mintajellemzők eloszlása a mintavételi eloszlás. Véges N elemszámú sokaságot egyetlen Y ismérv szerint vizsgáljuk. A sokaság elemeit a megfelelő ismérvértékekkel együtt felsoroljuk: A mintát mindig elemeinek felsorolásával adjuk meg: Az egyes y i mintaelemek valószínűségi változók: várható értékével és varianciájával jellemezzük. Kvantitatív módszerek
Becslés elmélete Mikor tekinthető a mintából számított mutató az ismeretlen elméleti paraméter jó becslésének? Mikor jobb egy becslés, mint a másik? Becslési kritériumok (Fisher kritériumok) Torzítatlanság Hatásosság Konzisztencia Elégségesség Kvantitatív módszerek
Becslési kritériumok - torzítatlanság Torzítatlan a becslőfüggvény, ha annak várható értéke megegyezik a becsülni kívánt sokasági paraméterrel: Két torzított becslőfüggvény közül azt tekintjük jobbnak, amelyiknél kisebb a torzítás abszolút értéke. Nincs szisztematikus, egyirányú eltérés a becslés és a becsült paraméter között. Kvantitatív módszerek f(x) torzítatlan torzított
Kvantitatív módszerek Példa - Torzítatlan becslés F(x), f(x), M( ), D( ) …., S 1 *, S 2 *, S 3 *, S 1, S 2, S 3
Kvantitatív módszerek
Becslési kritériumok - Hatásosság Két becslés közül a kevésbé ingadozót tekintjük hatásosabbnak. Kvantitatív módszerek f(x)
Kvantitatív módszerek Hatásos becslés (Normális el.) F(x), f(x), M( )= , D( )= Me 1 Me 2 Me 3 torzítatlan konzisztens elégséges Me
Kvantitatív módszerek
Becslési kritériumok - konzisztencia Konzisztens a becslőfüggvény, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. A becslőfüggvény értékei nagy minta esetén jól közelítsék a megfelelő sokasági jellemzőt. Kvantitatív módszerek f(x)
Kvantitatív módszerek
Becslési kritériumok - elégségesség A becslés elégséges, ha minden információt tartalmaz a paraméterre vonatkozóan. Nincs más olyan becslés, amely a paraméterről több információt szolgáltatna, mint az elégséges becslés. Kvantitatív módszerek
Pontbecslés Analógia elve: a mintából a becsülni kívánt jellemzővel megegyező tartalmú mutatót számítunk Mi történik, ha az analógia nem működik? Becslőfüggvények alkalmazása: a becslőfüggvénybe helyettesítjük a minta konkrét értékeit pontbecslés Pontbecslés módszerei: Maximum-likelihood módszer Legkisebb négyzetek módszere Momentumok módszere Kvantilisek módszere Grafikus paraméterbecslés Kvantitatív módszerek
Legkisebb négyzetek módszere Nem feltételezi a sokaság eloszlásának ismeretét, de azt igen, hogy van egy törvényszerűség, amely feltételezésünk szerint megfigyelési adatainkat előállította modell A LN módszere úgy határozza meg e modell paramétereit, hogy a tényleges és becsült paraméterrel illesztett modellek eltéréseinek négyzetösszege minimális legyen. A LN módszer a tényleges megfigyelések és a minta alapján becsült modell négyzetes távolságát minimálja. Eszköze a szélsőértékszámítás. Kvantitatív módszerek
Példa Egy közúti ellenőrzés során a közlekedésrendészet úgy találta, hogy 20 véletlenszerűen kiválasztott gépkocsi közül 6 volt műszaki hibás (hibás 1-es, hibátlan 0-s): Feltételezve, hogy ez egy FAE minta, becsüljük a hibás járművek arányát az egész gépkocsiállományon belül! Modellünk most az, hogy az egyes mintaelemek várható értéke P: Keressük azt a -t, amelyhez a mintaelemek a legközelebb esnek. Kvantitatív módszerek
Maximum likelihood módszer (ML) Ismert sokasági eloszlást tételez fel, és e sokasági eloszlás ismeretlen paraméterét becsüli. Az LF mutatja meg, hogy adott eloszlás és különböző paraméterértékek esetében mennyire valószínű, hogy éppen a szóban forgó minta adódik a mintavétel eredményeképpen. Ez a valószerűség az ismeretlen paraméter(ek) függvénye: likelihood függvény (LF). LF ismeretében a feladat, olyan ismeretlen paraméter(eke)t keresni, amely(ek) mellett ez a függvény a maximumát veszi fel, azaz annak hihetősége, hogy az adott konkrét minta éppen abból az eloszlásból származik, a lehető legnagyobb. Kvantitatív módszerek
Példa Egy közúti ellenőrzés során a közlekedésrendészet úgy találta, hogy 20 véletlenszerűen kiválasztott gépkocsi közül 6 volt műszaki hibás (hibás 1-es, hibátlan 0-s): Binomális eloszlású! Két paramétere van: n (rögzített) és p (becsülni kívánt) Mi a valószínűsége annak, hogy az első mintaelem 1 lesz! Tegyük fel, hogy ismerjük a becsülni kívánt P értéket, legyen: A keresett feltételes valószínűség: Annak valószínűsége, hogy a második elem 0: Kvantitatív módszerek
Példa Annak a valószínűsége, hogy egy paraméterű binomiális eloszlásból éppen ez a minta adódjék: A likelihood függvény: Mikor lesz maximális? Adjunk a -nek néhány feltételezett értéket! Kvantitatív módszerek 0,00,0000 0,10,0089 0,20,1091 0,30,1916 0,40,1244 0,50,0370
Momentumok módszere Eloszlások paramétereinek becslésére szolgál. Feltétel: ismert a sokasági eloszlás A sokasági eloszlás paraméterei és momentumai kapcsolatba hozhatók egymással: a tapasztalati momentumokat a mintából kiszámítjuk, egyenlővé tesszük a paraméterekkel kifejezett sokasági momentumokkal, és következtetünk a sokasági paraméterekre. Másképpen: olyan sokasági momentumokat keres, amely mellett a sokaság és a minta megfelelő momentumai megegyeznek. Konzisztens becslőfüggvényeket eredményez. Kvantitatív módszerek
Példa Tegyük fel, hogy 400 férfi testmagasságát vizsgáltuk, és a leíró statisztikai elemzés eredményeként arra jutottunk, hogy a minta normális eloszlású sokaságot reprezentál. Becsüljük meg a normális eloszlásnak a paramétereit a momentumok módszerével! Számítsuk ki a minta első momentumát és a második centrális momentumát! A 400 férfi testmagasságának átlaga: A 400 férfi testmagasságának korrigált tapasztalati szórása: Feltételezve az ismeretlen sokasági és a kiszámított momentumok megegyezését, azonnal adódnak a μ-re és σ 2 -re a becslőfüggvények: Kvantitatív módszerek μ=M(x) σ 2 =M(x-μ) 2
Kvantitatív módszerek Intervallumbecslés Minta-2 Minta-1 Minta-3 mintáról mintára változik maga is valósz. változó adott elméleti eloszlással, szórással stb. jellemezhető Emlékeztető
Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt. Kvantitatív módszerek
Intervallumbecslés A pontbecslés csak véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik el. Hogy milyen sugarú környezetében? A mintavételi hibától függ. A pontbecslés intervallumbecsléssel egészíthető ki. A mintavételi hibát is figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk a becsülni kívánt sokasági paraméterre. Milyen széles legyen, hogy lefedje a becsülni kívánt sokasági paramétert? A mintastatisztika szóródásának mértéke függ a minta elemszámától. A mintavételi eloszlás ismeretében meg tudunk adni egy olyan intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza. A konfidencia-intervallum számításához ismernünk kell, hogy hogyan viselkedik a sokasági paramétert becslő függvényünk: mi a becslőfüggvény átlaga és szórása, és a becslőfüggvény, mint valószínűségi változó milyen eloszlást követ. Kvantitatív módszerek
Intervallumbecslés Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait, és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági paraméterre. A konfidencia-intervallum is valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a becsülni kívánt sokasági paramétert vagy nem. Amennyiben a mintavételt újra és újra megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek (1-α) %- ában a sokasági jellemző a konfidencia-intervallumon belül lenne. Kvantitatív módszerek
Intervallum szélessége Sokasági szórás Mintaszám Megbízhatósági szint
Alapképzés során tanult becslések Kvantitatív módszerek ParaméterFeltételekBecslés standard hibája Becslés eloszlása Átlageredeti eloszlás normális, a sokasági szórás ismert normális eloszlású eredeti eloszlás normális, a sokasági szórás nem ismert Student-féle t- eloszlású Aránynagy mintanormális eloszlású Szóráseredeti eloszlás normális-χ 2 -eloszlású
Kvantitatív módszerek Intervallum becslés – várható érték Normális el. M( )= , D( )= 0 ismert n elemű FAE mintából számított számtani átlaggal becsüljük Normális eloszlás (Mintavételi eloszlás)
Várható érték becslése – ismert alapsokasági szórás A valószínűségi változó N( , 0 ) eloszlású, ahol 0 szórás ismert A sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Az átlag eloszlása normális: A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük. Kvantitatív módszerek
Várható érték becslése – ismeretlen alapsokasági szórás Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ 0 -t). Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel (torzítatlan becslés.) helyett Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal. Kvantitatív módszerek
Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: Kvantitatív módszerek p = k/n Binomiális eloszlás M(p) = PD 2 (p) = P(1-P)/n Közelítjük normális eloszlással
Sokasági variancia becslése σ 2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor: változó n-1 szabadsági fokú χ 2 eloszlású követ. A χ 2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre! Kvantitatív módszerek
Sokasági variancia becslése Kvantitatív módszerek Normális el. Normális el. M( )= , D 2 ( )= 2 mintából becsüljük, s 2 s* 2 s 2 vagy s* 2 mintából becsüljük, s 2 s* 2 s 2 vagy s* 2 2 -eloszlású (Mintavételi eloszlás) !! - csak pozitív értékekre értelmezett - nem szimmetrikus !! - csak pozitív értékekre értelmezett - nem szimmetrikus !!
Két várható érték különbségének becslése – független minták Két sokasági jellemzőt hasonlítunk össze úgy, hogy két minta áll rendelkezésünkre, és e két mintából következtetünk a két sokasági várható érték különbségére. Feltétel: a két sokaság független. független minták Mintanagyságok: n 1 és n 2 A két várható érték: μ 1 és μ 2 Feladat: a két várható érték különbségének becslése. Két eset: Ismertek a sokasági varianciák (σ 1 2 és σ 2 2 ) A sokasági varianciákat a mintákból kell becsülni. Kvantitatív módszerek
Két várható érték különbségének becslése – független minták Kvantitatív módszerek Feltétel: az alapsokaságok normális eloszlásúak, így a várható értékek különbsége is normális eloszlású. Feladat: becslése Ennek torzítatlan becslése: Szórásnégyzete: normális eloszlású Ismertek a sokasági varianciák (σ 1 2 és σ 2 2 )
Példa Készítsünk intervallumbecslést 99%-os megbízhatósággal két film tetszési pontszámának várható értéke közötti különbségre! Az első filmre, a Leányregény címűre 104 elemű mintát vettek, ebből 40 nő volt. A pontok átlaga 65, szórása 3,6 volt a mintában. A rém c. filmre 140 elemű mintát vettek, melyben a férfiak száma 96 volt, a pontok átlaga itt 74 volt, a szórás pedig 4,4. A pontok normális eloszlása mindkét csoportban feltételezhető. n 1 és n 2 >30 és feltételezhető a pontok normális eloszlása Kvantitatív módszerek 99%-os megbízhatósággal a két film várható tetszési pontszáma közötti különbség 7,67 és 10,32 pont között van.
Kvantitatív módszerek Két várható érték különbségének becslése – független minták NEM ismertek a sokasági varianciák (σ 1 2 és σ 2 2 ) Feltételezzük, hogy az alapsokaságok normális eloszlásúak, és a két szórásnégyzet megegyezik (lásd F-próba!). Így kombinált becslést készítünk a közös szórásnégyzetre: A mintaátlagok különbségének szórásnégyzete: Így a becsült standard hiba: Az ismeretlen sokasági szórásnégyzet torzítatlan becslőfüggvénye
változó t-eloszlást követ DF= Kvantitatív módszerek Két várható érték különbségének becslése – független minták
Példa Kvantitatív módszerek Adjunk 95%-os becslést a töltési tömegek várható értéke közötti különbségre! (Omniás példa) – 1. és 2. nap n = 50 s* = 0,7183 g 1. nap 2. nap n = 50 s* = 0,841g A két nap töltési tömegének várható értéke közötti különbség 95%-os megbízhatósággal 0,86g és 1,48g között van.
Példa Adjunk 95%-os becslést az MBA-re járó női és férfi középvezetők átlagéletkorának különbségére! Alapadatok: Nők:Férfiak: n = 10 n = 22 s* = 5,9 évs* = 6,7 év A közös szórásnégyzet kombinált becslése: t α/2 =2,04 (DF=30) Kvantitatív módszerek 95%-os megbízhatósággal a két nem középvezetőinek várható életkorának különbsége -2,434 év és 7,634 év között van.
A két vizsgált ismérv normális eloszlású és sztochasztikus kapcsolatban áll egymással. Ismeretlen sokasági szórás, és nem is feltétlen egyeznek. A sokasági varianciák közötti összefüggés: becslőfüggvénye továbbra is d ̅. n 1 =n 2 =n, így d ̅ varianciája: Kvantitatív módszerek Két várható érték különbségének becslése – páros minták
Intervallumbecslést kívánunk adni a Kvantitatív módszerek Két várható érték különbségének becslése – páros minták
Példa Egy speciális diéta hatásosságát vizsgálják. Ehhez minden vizsgálati személy testsúlyát megmérték a diéta előtt és után. A hipotetikus kísérlet eredménye 9 kísérleti személyen a következő táblázatban látható. Vizsgáljuk meg 1%-os szignifikancia szinten, hogy mekkora a különbség a testsúlyok várható értéke között a diéta előtt és után! Kvantitatív módszerek A vizsgált személy sorszáma Testsúly a diéta előtt Testsúly a diéta után
Példa Kvantitatív módszerek A vizsgált személy sorszáma Testsúly a diéta előtt Testsúly a diéta után didi %-os megbízhatósággal a diéta előtti és utáni testsúlyok várható értékeinek különbsége 0,765kg és 8,355kg között van.
Két sokasági arány különbségének becslése Kvantitatív módszerek A minta akkor elég nagy, ha a intervallumok nem tartalmazzák sem a 0-t sem az 1-et Két sokaságban egy adott tulajdonsággal rendelkező egyedek arányát kívánjuk összehasonlítani. Elég nagy minták esetén a mintabeli arányok különbsége (p 1 -p 2 ) normális eloszlású:
Példa Kvantitatív módszerek Adjunk 95%-os becslést a 101 g feletti töltési tömegek arányának különbségre! (Omniás példa) – 1. és 2. nap 1. nap n 1 = 50 k 1 = 35 p 1 = 35/50=0,7 n 2 = nap k 2 = 6 p 2 = 6/50=0,12 95%-os megbízhatósággal a két napon töltött, 101g feletti töltési tömegek arányainak különbsége 42,4 és 73,6% között van.
Kvantitatív módszerek Példa n 2 = 41 nők férfiak n 1 = 59 k 1 = 22 p 1 = 22/59=0,373 k 2 = 10 p 2 = 10/41=0,244 Adjunk 95%-os becslést az MBA-re járó női és férfi középvezetők arányának a különbségére! A minta nagyságának meghatározása:
Mintaszám meghatározása Eddig feltételeztük, hogy rendelkezésünkre áll egy adott elemszámú minta: a minta alapján kiszámoltuk az elméleti paramétert adott valószínűséggel tartalmazó intervallum határait. Fordítva is eljárhatunk: mekkora mintára van szükség, hogy egy adott pontosságot (Δ-t) elérjünk. Adott Δ mellett megadható az n érték: Kvantitatív módszerek Δ
Mintaszám meghatározása Sokasági arány becslésénél: Két várható érték különbsége: Két sokasági arány különbsége:
Példa Mekkora mintát kell vennünk, hogy az MBA hallgatók között 2 év eltéréssel tudjuk kimutatni a középvezető nők és férfiak átlagéletkorának különbségét (α=5%)? Kvantitatív módszerek Alapadatok: Nők:Férfiak: n = 10 n = 22 s* = 5,9 évs* = 6,7 év
Kvantitatív módszerek Példa Mekkora mintát kell vennünk, hogy az MBA hallgatók között 10% eltéréssel tudjuk kimutatni a középvezető nők és férfiak arányának különbségét? n 2 = 41 nők férfiak n 1 = 59 k 1 = 22 p 1 = 22/59=0,373 k 2 = 10 p 2 = 10/41=0,244 Mintanagyság:
Becsléselmélet - gyakorlat október 14.
Példa 1 - Feladatgyűjtemény Egy nagyvállalat személyzeti osztályvezetője azt gyanítja, hogy különbség van a szellemi és a fizikai dolgozók betegség miatti hiányzása között. A gyanú kivizsgálására véletlenszerűen kiválasztott 45 fizikai és 38 szellemi foglalkozású dolgozót és megvizsgálta az elmúlt egy évben mennyit hiányoztak betegség miatt. A kapott eredményeket az alábbi táblázat mutatja. 90%-os megbízhatósági szinten becsüljük meg a betegség miatti hiányzás várható értékei közötti eltérést! Megoldás: két várható érték különbségének becslése ismeretlen elméleti szórás esetén, de mivel a mintaelemszám mindkét mintában elég nagy (n>30), így a standard normális eloszlás táblázatot használjuk. Kvantitatív módszerek FizikaiSzellemi Mintaszám4538 Átlag10,47,8 Szórás12,85,5
Példa 1 - Megoldás A konfidencia-intervallum: = 10 % z /2 = z 0,95 =1,65 (=Ф(z)) (standard normális eloszlás táblázatból) Behelyettesítve: Kvantitatív módszerek FizikaiSzellemi Mintaszám4538 Átlag10,47,8 Szórás12,85,5 -0,876 < d < 6,076 A hiányzások várható értékei közötti eltérés 90%-os valószínűséggel -0,876 nap és 6,076 nap között van.
Példa 2 - Feladatgyűjtemény Egy új fogászati érzéstelenítő kipróbálására egy rendelőben véletlenszerűen kiválasztottak 10 pácienst. 5 páciens a hagyományos, 5 pedig az újfajta érzéstelenítőt kapta. Kezelés közben megkérték a pácienseket, hogy egy 0-tól 100-ig terjedő skálán értékeljék, hogy mennyire érzik kellemetlennek a kezelést. (A magasabb érték nagyobb kellemetlenséget mutat.) Az eredményeket az alábbi táblázat tartalmazza. Becsüljük meg a páciensek két csoportja közötti kellemetlenségi szint várható értékei különbségét 99%-os megbízhatósági szinten! (A kellemetlenségi szint normális eloszlással írható le, mindkét csoportban.) Kvantitatív módszerek HagyományosÚj Mintaszám55 Átlag60,3332,21 Szórás15,8212,77
Példa 2 - Megoldás Megoldás: két várható érték különbségének becslése ismeretlen elméleti szórás esetén. Feltétel: az alapsokaság normalitása és a szórások egyezősége Végezzük el az F-próbát! Kvantitatív módszerek HagyományosÚj Mintaszám55 Átlag60,3332,21 Szórás15,8212,77 F krit (DF 1 =4; DF 2 =4) = 16 Az alapsokasági szórások egyezőségét elfogadjuk 1%-os szignifikancia szinten.
Példa 2- Megoldás A konfidencia-intervallum: = 1 %, DF = n 1 +n 2 -2 = 8 t 0,995 = 3,355 (a Student eloszlás táblázatából) Kvantitatív módszerek HagyományosÚj Mintaszám55 Átlag60,3332,21 Szórás15,8212,77 Az ismeretlen sokasági szórásnégyzet torzítatlan becslőfüggvénye A két érzéstelenítő hatása közötti különbség várható értéke 98% valószínűséggel -2,38 és 58,62 pont között van.
Példa 3 - Feladatgyűjtemény Egy tv műsort néző 400 felnőttből és 600 fiatalból álló mintából az derült ki, hogy 100 felnőttnek és 300 fiatalnak tetszett a műsor. Becsüljük meg 95%-os szinten azon felnőtt és fiatal nézők arányának különbségét, akiknek tetszett a műsor! Megoldás: két sokasági arány különbségének becslése Kvantitatív módszerek
Példa 3 - Megoldás = 5 % z /2 = z 0,975=1,96 (a standard normális eloszlás táblázatból) 1-es index: a fiatalok p 1 = 300/600 = 1/2, q 1 = 1/2, n 1 = 600 2-es index: felnőttek p 2 = 100/400 = 1/4, q 2 = 3/4, n 2 = 400 Kvantitatív módszerek