Kvantitatív módszerek Becsléselmélet 2016. október 6., 10.
A matematikai statisztika tárgya F(x), M(), D() …. Fn(x), x, s, s* Következtetés Statisztikai minta valamely változóra vonatkozó véges számú független megfigyelés eredménye. Sokaság A vizsgálat tárgyát képező egységek összességét, halmazát statisztikai sokaságnak nevezzük. Minta Mintavétel Kvantitatív módszerek
Kvantitatív módszerek A becslés elmélete (Majdnem) minden elméleti eloszlásnak van(nak) paramétere(i) Becslési eljárások: Pontbecslés: a becsülni kívánt elméleti paramétert egy értékkel becsüli Intervallumbecslés: előre meghatározott megbízhatósággal egy intervallumot ad a keresett sokasági paraméterre A becsülni kívánt sokasági paraméter jelölése: Θ Ezek a sokaság ismeretlen konstans értékei, azaz értékük nem függ a véletlentől A becslés a sokaságból kivett véletlen minta alapján valósul meg: a mintaelemek függvénye, becslőfüggvény Véletlen minta esetén az aktuális minta függ a véletlentől, ezért minden mintaelem, és a függvényükben számított becslés is valószínűségi változó. A mintából számított pontbecslés: Kvantitatív módszerek
Mintavétel – A becslés elmélete mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető Kvantitatív módszerek
A mintajellemzők fontosabb tulajdonságai Minden mintaelem és az azokból számított jellemző mintavételi ingadozásnak van kitéve: valószínűségi változók. A mintajellemzők eloszlása a mintavételi eloszlás. Véges N elemszámú sokaságot egyetlen Y ismérv szerint vizsgáljuk. A sokaság elemeit a megfelelő ismérvértékekkel együtt felsoroljuk: A mintát mindig elemeinek felsorolásával adjuk meg: Az egyes yi mintaelemek valószínűségi változók: várható értékével és varianciájával jellemezzük. Kvantitatív módszerek
Kvantitatív módszerek Becslés elmélete Mikor tekinthető a mintából számított mutató az ismeretlen elméleti paraméter jó becslésének? Mikor jobb egy becslés, mint a másik? Becslési kritériumok (Fisher kritériumok) Torzítatlanság Hatásosság Konzisztencia Elégségesség Kvantitatív módszerek
Becslési kritériumok - torzítatlanság Torzítatlan a becslőfüggvény, ha annak várható értéke megegyezik a becsülni kívánt sokasági paraméterrel: Nincs szisztematikus, egyirányú eltérés a becslés és a becsült paraméter között Két torzított becslőfüggvény közül azt tekintjük jobbnak, amelyiknél kisebb a torzítás abszolút értéke. torzítatlan torzított f(x) f(x) Kvantitatív módszerek
Példa - Torzítatlan becslés F(x), f(x), M(), D() …. , S1* , S1 , S2* , S2 , S3* , S3 Kvantitatív módszerek
Kvantitatív módszerek
Becslési kritériumok - konzisztencia Konzisztens a becslőfüggvény, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. A becslőfüggvény értékei nagy minta esetén jól közelítsék a megfelelő sokasági jellemzőt. f(x) Kvantitatív módszerek
Kvantitatív módszerek
Becslési kritériumok - Hatásosság A torzítatlanság nem mond semmit az ingadozás mértékéről. A becslések ingadozását a becslések szórásával mérjük. Két becslés közül a kevésbé ingadozót tekintjük hatásosabbnak. f(x) Kvantitatív módszerek
Kvantitatív módszerek Hatásos becslés (Normális el.) F(x), f(x), M()=, D()= Me1 Me torzítatlan konzisztens Me2 elégséges Me3 Kvantitatív módszerek
Kvantitatív módszerek
Becslési kritériumok - elégségesség A becslés elégséges, ha minden információt tartalmaz a paraméterre vonatkozóan. Nincs más olyan becslés, amely a paraméterről több információt szolgáltatna, mint az elégséges becslés. Kvantitatív módszerek
Kvantitatív módszerek Pontbecslés Analógia elve: a mintából a becsülni kívánt jellemzővel megegyező tartalmú mutatót számítunk Mi történik, ha az analógia nem működik? Becslőfüggvények alkalmazása: a becslőfüggvénybe helyettesítjük a minta konkrét értékeit pontbecslés Pontbecslés módszerei: Maximum-likelihood módszer Legkisebb négyzetek módszere Momentumok módszere Kvantilisek módszere Grafikus paraméterbecslés Kvantitatív módszerek
Legkisebb négyzetek módszere Nem feltételezi a sokaság eloszlásának ismeretét De van formalizált összefüggés a jelenség leírására modell Modellparaméterek meghatározása a tényleges és becsült paraméterrel illesztett modellek eltéréseinek négyzetösszege minimális legyen. A LN módszer a tényleges megfigyelések és a minta alapján becsült modell négyzetes távolságát minimalizálja. Eszköze a szélsőérték-számítás. Kvantitatív módszerek
Maximum likelihood módszer (ML) Ismert sokasági eloszlást tételez fel, e sokasági eloszlás ismeretlen paraméterét becsüli. Az LF mutatja meg, hogy adott eloszlás és különböző paraméterértékek esetében mennyire valószínű, hogy éppen a szóban forgó minta adódik a mintavétel eredményeképpen. Ez a valószerűség az ismeretlen paraméter(ek) függvénye: likelihood függvény (LF). LF ismeretében a feladat, olyan ismeretlen paraméter(eke)t keresni, amely(ek) mellett ez a függvény a maximumát veszi fel, azaz annak hihetősége, hogy az adott konkrét minta éppen abból az eloszlásból származik, a lehető legnagyobb. Kvantitatív módszerek
Kvantitatív módszerek Momentumok módszere Eloszlások paramétereinek becslésére szolgál. Feltétel: ismert a sokasági eloszlás A sokasági eloszlás paraméterei és momentumai kapcsolatba hozhatók egymással: a tapasztalati momentumokat a mintából kiszámítjuk, egyenlővé tesszük a paraméterekkel kifejezett sokasági momentumokkal, és következtetünk a sokasági paraméterekre. Másképpen: olyan sokasági momentumokat keres, amely mellett a sokaság és a minta megfelelő momentumai megegyeznek. Konzisztens becslőfüggvényeket eredményez. Kvantitatív módszerek
Kvantitatív módszerek Intervallumbecslés Emlékeztető Minta-1 mintáról mintára változik Minta-2 maga is valósz. változó Minta-3 adott elméleti eloszlással, szórással stb. jellemezhető Kvantitatív módszerek
Kvantitatív módszerek Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt. Kvantitatív módszerek
Kvantitatív módszerek Intervallumbecslés A pontbecslés csak véletlenül egyezik meg a sokasági paraméterrel, általában annak környezetében helyezkedik el. Hogy milyen sugarú környezetében? A mintavételi hibától függ. A pontbecslés intervallumbecsléssel egészíthető ki. A mintavételi hibát is figyelembe véve adott (nagy) megbízhatóságú intervallumbecslést adunk a becsülni kívánt sokasági paraméterre. Milyen széles legyen, hogy lefedje a becsülni kívánt sokasági paramétert? A mintastatisztika szóródásának mértéke függ a minta elemszámától. A mintavételi eloszlás ismeretében meg tudunk adni egy olyan intervallumot, amely az ismeretlen paramétert nagy valószínűséggel tartalmazza. Hogyan viselkedik a sokasági paramétert becslő függvényünk? (mintavételi eloszlás) Kvantitatív módszerek
Kvantitatív módszerek Intervallumbecslés Az intervallumbecslés lényege, hogy ismerjük pontbecslésünk valószínűségi tulajdonságait, és ezek segítségével egy adott megbízhatósági intervallumot adunk meg a sokasági paraméterre. A konfidencia-intervallum is valószínűségi változó, vagyis a konfidencia-intervallumok is mintáról mintára változnak. A mintavétel végrehajtása után a konfidencia-intervallum vagy tartalmazza a becsülni kívánt sokasági paramétert vagy nem. Amennyiben a mintavételt újra és újra megismételnénk, és elkészítenénk a konfidencia-intervallumokat, az esetek (1-α) %-ában a sokasági jellemző a konfidencia-intervallumon belül lenne. Kvantitatív módszerek
Intervallum szélessége Sokasági szórás intervallum szélessége Megbízhatósági szint Mintaszám Kvantitatív módszerek
Alapképzés során tanult becslések Paraméter Feltételek Becslés standard hibája Becslés eloszlása Átlag eredeti eloszlás normális, a sokasági szórás ismert normális eloszlású eredeti eloszlás normális, a sokasági szórás nem ismert Student-féle t-eloszlású Arány nagy minta Szórás eredeti eloszlás normális - χ2-eloszlású Kvantitatív módszerek
Intervallum becslés – várható érték Normális el. M()=, D()=0 ismert n elemű FAE mintából számított számtani átlaggal becsüljük Normális eloszlás (Mintavételi eloszlás) Kvantitatív módszerek
Várható érték becslése – ismert alapsokasági szórás A valószínűségi változó N(,0) eloszlású, ahol 0 szórás ismert A sokasági paramétert statisztikai mintából a számtani átlaggal becsüljük. Az átlag eloszlása normális: A konfidencia- intervallum sugarát adott megbízhatósági szinthez tartozó maximális hibának nevezzük. Kvantitatív módszerek
Kvantitatív módszerek Példa Egy gép 1000 grammos kávékivonatot tölt. A töltősúly ellenőrzésére 9 elemű véletlen mintát vettek a termelésből, és az alábbi nettó töltési tömegeket mérték grammban: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 A gép által töltött tömeg normális eloszlású valószínűségi változó 4,5g szórással. Határozzuk meg 95%-os megbízhatósággal a termékek várható értékének konfidencia intervallumát! Megoldás: n=9 Kvantitatív módszerek
Kvantitatív módszerek Példa =0,95 =0,05 kétoldali becslés: /2=0,025 z/2=1,96 Ez azt jelenti, hogy 95%-os megbízhatósági szinten a gép által töltött tömeg várható értéke 996,1711 gramm és 1002,051 gramm között van. Kvantitatív módszerek
Várható érték becslése – ismeretlen alapsokasági szórás Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ0-t). Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel (torzítatlan becslés.) helyett Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal. Kvantitatív módszerek
Kvantitatív módszerek Példa Tegyük fel, hogy az előző töltőgépes példánál nem ismerjük az elméleti szórást, de továbbra is tudjuk, hogy a töltési tömeg normális eloszlással írható le. A grammokban mért töltési tömegek: 990, 1004, 996, 1000, 999, 1005, 997, 1001, 1000 Adjunk becslést 95%-os megbízhatósági szinten a töltőtömeg várható értékére! Megoldás: n=9 A σ0 nem ismert, becsülnünk kell a minta korrigált tapasztalati szórásával: Kvantitatív módszerek
Kvantitatív módszerek Példa ε= 0,95 =0,05 kétoldali becslés: /2=0,025 t/2=2,306 (DF=9-1=8) σ0 nem ismert, becsültük Szélesebb intervallum! σ0 ismert Kvantitatív módszerek
Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: p = k/n p = k/n Binomiális eloszlás M(p) = P D2(p) = P(1-P)/n Közelítjük normális eloszlással Kvantitatív módszerek
Kvantitatív módszerek Példa A Felvillanyozzuk Kft. napi termeléséből vett n = 200 elemű mintában a hibás égők száma 24 db. 95%-os és 99%-os megbízhatósági szint mellett adjunk intervallumbecslést a sokasági arányra! Megoldás: n = 200 p = 24/200 = 0,12 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 z/2 = 1,96 95%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 7,5% és 16,5% között van. Kvantitatív módszerek
Kvantitatív módszerek Példa = 0,99 = 0,01 kétoldali becslés: /2 = 0,005 z/2 = 2,58 99%-os megbízhatósági szinten a sokasági arány, vagyis a hibás égők aránya 6,066% és 17,934% között van. α =1% Szélesebb intervallum! α =5% Kvantitatív módszerek
Sokasági variancia becslése σ2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor: változó n-1 szabadsági fokú χ2 eloszlású követ. A χ2 eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν=n-1, ahol n az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre! Kvantitatív módszerek
Sokasági variancia becslése Normális el. !! M()=, D2()=2 - csak pozitív értékekre értelmezett - nem szimmetrikus !! mintából becsüljük, s2 vagy s*2 2-eloszlású (Mintavételi eloszlás) Kvantitatív módszerek
Kvantitatív módszerek Példa A Felvillanyozzuk Kft. karácsonyfaégőinek élettartamát n = 16 elemű mintából vizsgálva azt találták, hogy az élettartamok korrigált tapasztalati szórása 10 óra. Határozzuk meg az égők varianciájára, ill. szórására vonatkozó 95%-os konfidencia-határokat! Megoldás: n = 16 s* = 10 óra DF = n – 1 = 16 – 1 = 15 = 0,95 = 0,05 kétoldali becslés: /2 = 0,025 1 – /2 = 0,975 95%-os megbízhatósági szinten a sokasági szórás 7,38 és 15,5 óra között van. 54,5 < 2 < 239,6 7,38 < < 15,5 Kvantitatív módszerek
Két várható érték különbségének becslése – független minták Két minta alapján két sokasági várható érték különbségére következtetünk. Feltétel: a két sokaság független. független minták Mintanagyságok: n1 és n2 A két várható érték: μ1 és μ2 Feladat: a két várható érték különbségének becslése. Két eset: Ismertek a sokasági varianciák (σ12 és σ22) A sokasági varianciákat a mintákból kell becsülni. Kvantitatív módszerek
Két várható érték különbségének becslése – független minták Ismertek a sokasági varianciák (σ12 és σ22) Feltétel: az alapsokaságok normális eloszlásúak, így a várható értékek különbsége is normális eloszlású. Feladat: becslése Ennek torzítatlan becslése: Szórásnégyzete: normális eloszlású Kvantitatív módszerek
Példa – független minták, ismert sokasági szórás (lásd: példatár) Az „A” márkájú villanykörtékből 150 elemű mintát véve az átlagos élettartam 1400 órának, a „B” márkájúból 200 elemű mintát véve az élettartama 1200 órának adódott. Tudjuk, hogy az „A” márkájú égő élettartamának szórása 120 óra, a „B” márkájúnak pedig 80 óra. Határozza meg az „A” és a „B” márkájú villanykörték átlagos élettartama közötti különbség 95%-os és 99%-os konfidencia-intervallumát! (Az élettartam normális eloszlású.) Kvantitatív módszerek
Kvantitatív módszerek Példa folytatása 95%-os megbízhatóságú intervallum: 95%-os megbízhatósággal az „A” márkájú égők várhatóan 177,825 - 222,175 órával többet működnek, mint a „B” márkájú égők. Kvantitatív módszerek
Kvantitatív módszerek Példa folytatása 99%-os megbízhatóságú intervallum: Szélesebb intervallum! 99%-os megbízhatósággal az „A” márkájú égők várhatóan 170,811 - 229,189 órával többet működnek, mint a „B” márkájú égők. Kvantitatív módszerek
Két várható érték különbségének becslése – független minták Ismeretlen sokasági varianciák (σ12 és σ22) Az alapsokaságok normális eloszlásúak, és a két szórásnégyzet megegyezik (lásd F-próba!). Így kombinált becslést készítünk a közös szórásnégyzetre: A mintaátlagok különbségének szórásnégyzete: Így a becsült standard hiba: Az ismeretlen sokasági szórásnégyzet torzítatlan becslőfüggvénye Kvantitatív módszerek
Két várható érték különbségének becslése – független minták változó t-eloszlást követ DF= Kvantitatív módszerek
Kvantitatív módszerek Példa Adjunk 95%-os becslést a töltési tömegek várható értéke közötti különbségre! (Omniás példa) – 1. és 2. nap 1. nap 2. nap n = 50 n = 50 s* = 0,7183 g s* = 0,841g A szórások egyezőségének vizsgálata F-próbával: < A nullhipotézist elfogadjuk, a sokasági szórások egyeznek. Kvantitatív módszerek
Kvantitatív módszerek Példa Adjunk 95%-os becslést a töltési tömegek várható értéke közötti különbségre! (Omniás példa) – 1. és 2. nap 1. nap 2. nap n = 50 n = 50 s* = 0,7183 g s* = 0,841g A két nap töltési tömegének várható értéke közötti különbség 95%-os megbízhatósággal 0,86g és 1,48g között van. (A második napon a töltési tömeg várható értéke 0,86-1,48 grammal több, mint az első napon) Kvantitatív módszerek
Kvantitatív módszerek Példa Adjunk 95%-os becslést az MBA-re járó női és férfi középvezetők átlagéletkorának különbségére! Alapadatok: Nők: Férfiak: n = 10 n = 22 s* = 5,9 év s* = 6,7 év A közös szórásnégyzet kombinált becslése: tα/2=2,04 (DF=30) A nullhipotézis elfogadható, a szórások egyeznek 95%-os megbízhatósággal a két nem középvezetői várható életkorának különbsége -2,44 év és 7,64 év között van. Kvantitatív módszerek
Két várható érték különbségének becslése – páros minták A két vizsgált ismérv normális eloszlású és sztochasztikus kapcsolatban áll egymással. Ismeretlen sokasági szórás, és nem is feltétlen egyeznek. A sokasági varianciák közötti összefüggés: becslőfüggvénye továbbra is d̅. n1=n2=n, így d̅ varianciája: Kvantitatív módszerek
Két várható érték különbségének becslése – páros minták Intervallumbecslést kívánunk adni a Kvantitatív módszerek
Kvantitatív módszerek Példa Egy speciális diéta hatásosságát vizsgálják. Ehhez minden vizsgálati személy testsúlyát megmérték a diéta előtt és után. A hipotetikus kísérlet eredménye 9 kísérleti személyen a következő táblázatban látható. Vizsgáljuk meg 1%-os szignifikancia szinten, hogy mekkora a különbség a testsúlyok várható értéke között a diéta előtt és után! A vizsgált személy sorszáma Testsúly a diéta előtt Testsúly a diéta után 1 95 90 2 75 72 3 110 100 4 81 5 92 88 6 83 7 94 93 8 82 9 105 99 Kvantitatív módszerek
Kvantitatív módszerek Példa A vizsgált személy sorszáma Testsúly a diéta előtt Testsúly a diéta után di 1 95 90 5 2 75 72 3 110 100 10 4 81 6 92 88 83 7 94 93 8 82 9 105 99 99%-os megbízhatósággal a diéta előtti testsúly várható értéke 1,194 – 7,926kg-mal több, mint a diéta után Kvantitatív módszerek
Két sokasági arány különbségének becslése Két sokaságban egy adott tulajdonsággal rendelkező egyedek arányát kívánjuk összehasonlítani. Elég nagy minták esetén a mintabeli arányok különbsége (p1-p2) normális eloszlású: A minta akkor elég nagy, ha a intervallumok nem tartalmazzák sem a 0-t sem az 1-et Kvantitatív módszerek
Kvantitatív módszerek Példa Adjunk 95%-os becslést a 101 g feletti töltési tömegek arányának különbségre! (Omniás példa) – 1. és 2. nap 1. nap 2. nap n2 = 50 n1 = 50 95%-os megbízhatósággal a két napon töltött, 101g feletti töltési tömegek arányainak különbsége 42,4 és 73,5% között van. k1 = 35 k2 = 6 p1 = 35/50=0,7 p2 = 6/50=0,12 Kvantitatív módszerek
Kvantitatív módszerek Példa Adjunk 95%-os becslést az MBA-re járó női és férfi középvezetők arányának a különbségére! A minta nagyságának meghatározása: nők férfiak n2 = 41 n1 = 59 k2 = 10 k1 = 22 p2 = 10/41=0,244 95%-os megbízhatósággal a férfi és női középvezetők arányának különbsége -5% és 30,9% között van. p1 = 22/59=0,373 Kvantitatív módszerek
Mintaszám meghatározása Eddig adott volt a minta elemszáma: kiszámoltuk az elméleti paramétert adott valószínűséggel tartalmazó intervallum határait. Fordítva: mekkora mintára van szükség, hogy egy adott pontosságot (Δ-t) elérjünk? Adott Δ mellett megadható az n érték: Δ Kvantitatív módszerek
Mintaszám meghatározása Sokasági arány becslésénél: Két várható érték különbsége: Két sokasági arány különbsége: Kvantitatív módszerek
Kvantitatív módszerek Példa Mekkora mintát kell vennünk, hogy az MBA hallgatók között 2 év eltéréssel tudjuk kimutatni a középvezető nők és férfiak átlagéletkorának különbségét (α=5%)? Alapadatok: Nők: Férfiak: n = 10 n = 22 s* = 5,9 év s* = 6,7 év Kvantitatív módszerek
Kvantitatív módszerek Példa Mekkora mintát kell vennünk, hogy az MBA hallgatók között 10% eltéréssel tudjuk kimutatni a középvezető nők és férfiak arányának különbségét? (α=5%) nők férfiak n2 = 41 n1 = 59 k2 = 10 k1 = 22 p2 = 10/41=0,244 p1 = 22/59=0,373 Mintanagyság: Kvantitatív módszerek