Kvantitatív módszerek Becsléselmélet október 15.
Kvantitatív módszerek Hol járunk?
Kvantitatív módszerek Statisztika tárgya Sokaság Minta Mintavétel Következtetés F(x), M( ), D( ) …. F n (x), x, s, s* A vizsgálat tárgyát képező egységek összességét, halmazát statisztikai sokaságnak nevezzük. Statisztikai minta valamely változóra vonatkozó véges számú független megfigyelés eredménye.
Mintavétel Adott sokaság esetén egy meghatározott elemszámú mintát sokféleképpen lehet kiválasztani minden minta más és más összetételű lehet A mintajellemzők változók! Az egyes mintákból számított mutatók értéke mintáról mintára változik. A mintákból számított mutatók a sokasági mutató körül szóródnak. Ez a szóródás nagyobb minták esetében kisebb, vagyis jobban közelítik a sokasági értéket. Kvantitatív módszerek
Mintavétel – A becslés elmélete Minta-2 Minta-1 Minta-3 mintáról mintára változik maga is valósz. változó adott elméleti eloszlással, szórással stb. jellemezhető
Kvantitatív módszerek Következtetés hibái Mintából következtetünk !!! Elsőfajú hiba ( ) Másodfajú hiba ( ) Minta-2 Minta-1 Minta-3 Hibát követhetünk el !!! Sokaság A minta minősítése a sokaságról „jó” „rossz” „jó” „rossz” Nincs hiba e Elsőfajú hiba Másodfajú hiba
Alapfogalmak Statisztika: a mintaelemek egy tetszőleges, de ismeretlen paramétert nem tartalmazó függvénye Becslőfüggvény: olyan statisztika, ami valamely sokasági jellemző mintából történő meghatározására szolgál. A becsülni kívánt sokasági jellemző: Becslőfüggvénye egy mintából: Egy sokasági jellemzőre ált. több becslőfüggvény is készíthető. Kvantitatív módszerek
Becslés elmélete Minta-2 Minta-1 Minta-3 M( ) = ?, Me Pontbecslés Minta statisztika Mintavételi eloszlás f(x)
Becslési kritériumok - torzítatlanság Torzítatlan a becslőfüggvény, ha annak várható értéke megegyezik a becsülni kívánt sokasági jellemzővel: Két torzított becslőfüggvény közül azt tekintjük jobbnak, amelyiknél kisebb a torzítás abszolút értéke. Nincs szisztematikus, egyirányú eltérés a becslés és a becsült paraméter között. Kvantitatív módszerek f(x) torzítatlan torzított
Kvantitatív módszerek Példa - Torzítatlan becslés F(x), f(x), M( ), D( ) …., S 1 *, S 2 *, S 3 *, S 1, S 2, S 3
Becslési kritériumok - konzisztencia Konzisztens a becslőfüggvény, ha ingadozása a becsült paraméter körül a minta elemszámának növelésével egyre csökken. A becslőfüggvény értékei nagy minta esetén jól közelítsék a megfelelő sokasági jellemzőt. Kvantitatív módszerek f(x)
Becslési kritériumok - Hatásosság Két becslés közül a kevésbé ingadozót tekintjük hatásosabbnak. Kvantitatív módszerek f(x)
Kvantitatív módszerek Hatásos becslés (Normális el.) F(x), f(x), M( )= , D( )= Me 1 Me 2 Me 3 torzítatlan konzisztens elégséges Me
Becslési kritériumok - elégségesség A becslés elégséges, ha minden információt tartalmaz a paraméterre vonatkozóan. Nincs más olyan becslés, amely a paraméterről több információt szolgáltatna, mint az elégséges becslés. Kvantitatív módszerek
Pontbecslés Analógia elve: a mintából a becsülni kívánt jellemzővel megegyező tartalmú mutatót számítunk Mi történik, ha az analógia nem működik? Becslőfüggvények alkalmazása: a becslőfüggvénybe helyettesítjük a minta konkrét értékeit pontbecslés Pontbecslés módszerei: Maximum-likelihood módszer Legkisebb négyzetek módszere Momentumok módszere Grafikus paraméterbecslés Kvantitatív módszerek
Legkisebb négyzetek módszere Nem feltételezi a sokaság eloszlásának ismeretét, de azt igen, hogy van egy törvényszerűség, amely feltételezésünk szerint megfigyelési adatainkat előállította modell A LN módszere úgy határozza meg e modell paramétereit, hogy a tényleges és becsült paraméterrel illesztett modellek eltéréseinek négyzetösszege minimális legyen. A LN módszer a tényleges megfigyelések és a minta alapján becsült modell négyzetes távolságát minimálja. Eszköze a szélsőérték-számítás. Nem szolgáltat eleve bizonyítottan jó becsléseket. Alkalmazási lehetőségei nagyok, mivel az eloszlás típusától függetlenül alkalmazható. Regressziós modellek, trendek paramétereinek becslésére használják. Kvantitatív módszerek
Példa Egy közúti ellenőrzés során a közlekedésrendészet úgy találta, hogy 20 véletlenszerűen kiválasztott gépkocsi közül 6 volt műszaki hibás (hibás 1-es, hibátlan 0-s): Feltételezve, hogy ez egy FAE minta, becsüljük a hibás járművek arányát az egész gépkocsiállományon belül! Modellünk most az, hogy az egyes mintaelemek várható értéke P: Keressük azt a -t, amelyhez a mintaelemek a legközelebb esnek. Kvantitatív módszerek
Momentumok módszere Momentum: a különféle átlagok és a szórásnégyzet általánosításának tekinthető, mert az Y i ismérvértékek vagy a d i eltérések helyett a alakú eltérések hatványait átlagolják, ahol „A” tetszőleges állandó. Jelölése: Eloszlások paramétereinek becslésére szolgál. Kiindulópontja: ismert típusú sokasági eloszlás paraméterei és momentumai kapcsolatba hozhatók egymással. A tapasztalati momentumokat a mintából kiszámítjuk, egyenlővé tesszük a paraméterekkel kifejezett sokasági momentumokkal, és következtetünk a sokasági paraméterekre. Másképpen: olyan sokasági momentumokat keres, amely mellett a sokaság és a minta megfelelő momentumai megegyeznek. Konzisztens becslőfüggvényeket eredményez. Kvantitatív módszerek
Maximum likelihood módszer (ML) Ismert sokasági eloszlást tételez fel, és e sokasági eloszlás ismeretlen paraméterét becsüli. Jó tulajdonságú becslőfüggvényeket eredményez. Az LF mutatja meg, hogy adott (ismert) eloszlás és különböző paraméterértékek esetében mennyire valószínű, hogy éppen a szóban forgó minta adódik a mintavétel eredményeképpen. Ez a valószerűség az ismeretlen paraméter(ek) függvénye: likelihood függvény (LF). LF ismeretében a feladat, olyan ismeretlen paraméter(eke)t keresni, amely(ek) mellett ez a függvény a maximumát veszi fel. Eloszlásfüggő, konzisztens és hatásos, nem mindig létezik az LF- nek maximuma. Kvantitatív módszerek
Példa Egy közúti ellenőrzés során a közlekedésrendészet úgy találta, hogy 20 véletlenszerűen kiválasztott gépkocsi közül 6 volt műszaki hibás (hibás 1-es, hibátlan 0-s): Binomális eloszlású! Két paramétere van: n (rögzített) és P (becsülni kívánt) Mi a valószínűsége annak, hogy az első mintaelem 1 lesz! Tegyük fel, hogy ismerjük a becsülni kívánt P értéket, legyen: A keresett feltételes valószínűség: hiszen y 1 egy paraméterű binomiális eloszlásból származó változó, így annak a valószínűsége, hogy 1-et vesz fel, éppen Annak valószínűsége, hogy a második elem 0: Kvantitatív módszerek
Példa Annak a valószínűsége, hogy egy paraméterű binomiális eloszlásból éppen ez a minta adódjék: A likelihood függvény: Mikor lesz maximális? Adjunk a -nek (sokasági paraméternek) néhány feltételezett értéket! Kvantitatív módszerek 0,00,0000 0,10,0089 0,20,1091 0,30,1916 0,40,1244 0,50,0370
Grafikus paraméterbecslés Kvantitatív módszerek -ln[R(t)] t Alapelve: az eloszlásfüggvény „kiegyenesítése”
Kvantitatív módszerek Intervallumbecslés Minta-2 Minta-1 Minta-3 mintáról mintára változik maga is valósz. változó adott elméleti eloszlással, szórással stb. jellemezhető Emlékeztető
Intervallumbecslés Pontbecslés: az ismeretlen sokasági jellemző értékére egy mintából egyetlen pontot határoztunk meg, amely eleget tett valamilyen követelménynek. Intervallumbecslés: a minta alapján olyan intervallumot határozunk meg, amely előre megadott (nagy) valószínűséggel tartalmazza a becsülni kívánt jellemzőt. Kvantitatív módszerek Ismerjük pontbecslésünk valószínűségi tulajdonságait, és ezek segítségével egy adott megbízhatóságú intervallumot adunk meg a sokasági paraméterre.
Kvantitatív módszerek Intervallum becslés – várható érték Normális el. M( )= , D( )= 0 ismert n elemű FAE mintából számított számtani átlaggal becsüljük Normális eloszlás (Mintavételi eloszlás)
Kvantitatív módszerek Várható érték ( ) becslése 2 -ás szabály f(x) 95,44% -2 0 / n +2 0 / n
Kvantitatív módszerek Várható érték ( ) becslése
Ha a sokaság elméleti szórása (σ 0 ) ismert, akkor az átlag mintavételi eloszlása alapján tetszőlegesen kicsiny α>0 számhoz meghatározható olyan z α/2 mennyiség, hogy Minél nagyobb az 1-α=ε megbízhatósági szint, annál szélesebb intervallumot kapunk. Az intervallum hossza függ a mintanagyságtól és a sokasági szórástól. Kvantitatív módszerek
Intervallum szélessége Sokasági szórás Mintaszám Megbízhatósági szint
Várható érték becslése - szigma nem ismert Feltétel: a sokaság normális eloszlású, de nem ismerjük sem a várható értéket (μ-t), sem a sokasági szórást (σ 0 -t). Cél: becslést készíteni a várható értékre. Az átlag továbbra is normális eloszlású Az ismeretlen alapsokasági szórás (σ) becslésére a korrigált tapasztalati szórást használjuk fel (torzítatlan becslés.) helyett Student eloszlású valószínűségi változó ν=n-1 szabadsági fokkal. Kvantitatív módszerek
Várható érték becslése - szigma nem ismert t-eloszlás: Szimmetrikus DF paramétere a szabadságfok (DF) DF = n-1 nagy minták esetén közelít a standard normális eloszláshoz t-eloszlás: Szimmetrikus DF paramétere a szabadságfok (DF) DF = n-1 nagy minták esetén közelít a standard normális eloszláshoz
Kvantitatív módszerek Példa n = 10 s* = 5,9 év = 95% = 5% kétoldali becslés /2 = 2,5% t /2 = 2,26 DF = n-1=9 Adjunk becslést az MBA-re járó női középvezetők életkorára!
Példa Kvantitatív módszerek Adjunk becslést a kávé tömegének várható értékére! (Omniás példa). 1. nap n = 50 = 95% = 5% /2 = 2,5% DF = n-1=49 t /2 = 2,009
Példa Kvantitatív módszerek Adjunk becslést a kávé tömegének várható értékére! (Omniás példa). 2. nap n = 50 = 95% = 5% /2 = 2,5% DF = n-1=49 t /2 = 2,009
Sokasági arány becslése A sokaságon belül egyetlen (mennyiségi vagy minőségi) ismérv szerint 2 csoportba soroljuk a sokasági elemeket. A sokasági arány: P Torzítatlan becslőfüggvénye: Kvantitatív módszerek p = k/n Binomiális eloszlás M(p) = PD 2 (p) = P(1-P)/n Közelítjük normális eloszlással
Kvantitatív módszerek Példa n = 50 p = 8/50= 0,16 = 95% = 5% kétoldali becslés /2 = 2,5% z /2 = 1,96 Adjunk becslést a 102g feletti töltések arányára! (Omniás példa) – 1. nap
Kvantitatív módszerek Példa n = 100 p = 10/100= = 0,1 = 95% = 5% kétoldali becslés /2 = 2,5% z /2 = 1,96 Adjunk becslést az MBA-re járó női középvezetők arányára!
Sokasági variancia becslése σ 2 torzítatlan becslése: korrigált tapasztalati szórás Ekkor: változó n-1 szabadsági fokú chínégyzet-eloszlást követ. A chínégyzet-eloszlás: független standard normális eloszlású változók négyzetei összegének eloszlása. Egy paramétere van: ν, amely az összegezendő egymástól független valószínűségi változók számát jelenti. Csak pozitív értékeken értelmezzük, balra aszimmetrikus, a szabadságfok növelésével közelít a normális eloszláshoz. Következmény: a konfidencia intervallum nem lesz szimmetrikus a pontbecslésre! Kvantitatív módszerek
Sokasági variancia becslése Kvantitatív módszerek Normális el. Normális el. M( )= , D 2 ( )= 2 mintából becsüljük, s 2 s* 2 s 2 vagy s* 2 mintából becsüljük, s 2 s* 2 s 2 vagy s* 2 2 -eloszlású (Mintavételi eloszlás) !! - csak pozitív értékekre értelmezett - nem szimmetrikus !! - csak pozitív értékekre értelmezett - nem szimmetrikus !!
Példa Kvantitatív módszerek kétoldali becslés Adjunk becslést a töltési tömeg szórására! (Omniás példa) – 1. nap n = 50 = 95% s* = 0,7183g DF = 50-1=49 = 5% /2 = 2,5% 1- /2 = 97,5% 2 /2 = 71,42 2 1- /2 = 32,357
Példa Kvantitatív módszerek kétoldali becslés Adjunk becslést a töltési tömeg szórására! (Omniás példa) – 2. nap n = 50 = 95% s* = 0,841g DF = 50-1=49 = 5% /2 = 2,5% 1- /2 = 97,5% 2 /2 = 71,42 2 1- /2 = 32,357
Kvantitatív módszerek Példa n = 10 s* = 5,9 év = 95% = 5% kétoldali becslés /2 = 2,5% 2 /2 = 19,0 1- /2 = 97,5% DF = n-1=9 2 1- /2 = 2,7 Adjunk becslést a női középvezetők életkorának szórására!
Két várható érték különbségének becslése Két sokasági jellemzőt hasonlítunk össze úgy, hogy két minta áll rendelkezésünkre, és e két mintából következtetünk a két sokasági várható érték különbségére. Feltétel: a két sokaság független. független minták Mintanagyságok: n 1 és n 2 A két várható érték: μ 1 és μ 2 Feladat: a két várható érték különbségének becslése. Két eset: Ismertek a sokasági varianciák (σ 1 2 és σ 2 2 ) A sokasági varianciákat a mintákból kell becsülni. Kvantitatív módszerek
Két várható érték különbsége Kvantitatív módszerek Feltételezzük, hogy az alapsokaságok normális eloszlásúak, így a várható értékek különbsége is normális eloszlású. Ismertek a sokasági varianciák (σ 1 2 és σ 2 2 ) torzítatlan becslést ad
Kvantitatív módszerek Két várható érték különbsége Nem ismertek a sokasági varianciák Feltételezzük, hogy az alapsokaságok normális eloszlásúak, és a két szórásnégyzet megegyezik. Így kombinált becslést készítünk a közös szórásnégyzetre: Az ismeretlen sokasági szórásnégyzet torzítatlan becslőfüggvénye
Példa Kvantitatív módszerek Adjunk 95%-os becslést a töltési tömegek várható értéke közötti különbségre! (Omniás példa) – 1. és 2. nap n = 50 s* = 0,7183 g 1. nap 2. nap n = 50 s* = 0,841g
Kvantitatív módszerek Példa n = 10 s* = 5,9 év nők férfiak n = 22 s* = 6,7 év Adjunk 95%-os becslést az MBA-re járó női és férfi középvezetők átlagéletkorának különbségére!
Két sokasági arány különbsége Kvantitatív módszerek A minta akkor elég nagy, ha a intervallumok nem tartalmazzák sem a 0-t sem az 1-et Két sokaságban egy adott tulajdonsággal rendelkező egyedek arányát kívánjuk összehasonlítani. Elég nagy minták esetén a mintabeli arányok különbsége (p 1 -p 2 ) normális eloszlású
Példa Kvantitatív módszerek Adjunk 95%-os becslést a 101 g feletti töltési tömegek arányának különbségre! (Omniás példa) – 1. és 2. nap 1. nap n 1 = 50 k 1 = 35 p 1 = 35/50=0,7 n 2 = nap k 2 = 6 p 2 = 6/50=0,12
Kvantitatív módszerek Példa n 2 = 41 nők férfiak n 1 = 59 k 1 = 22 p 1 = 22/59=0,373 k 2 = 10 p 2 = 10/41=0,244 Adjunk 95%-os becslést az MBA-re járó női és férfi középvezetők arányának a különbségére!
Mintaszám meghatározása Eddig feltételeztük, hogy rendelkezésünkre áll egy adott elemszámú minta a minta alapján kiszámoltuk az elméleti paramétert adott valószínűséggel tartalmazó intervallum határait. Az intervallum függ: minta elemszáma, megbízhatósági szint, sokasági szórás Fordítva is eljárhatunk: mekkora mintára van szükség, hogy egy adott pontosságot (Δ-t) elérjünk. Adott Δ mellett megadható az az n érték, melynél teljesül a megadott érték: Kvantitatív módszerek Δ
Mintaszám meghatározása Sokasági arány becslésénél: Két várható érték különbsége: Két sokasági arány különbsége:
Kvantitatív módszerek Példa Mekkora mintát kell vennünk, hogy az MBA hallgatók között 10% eltéréssel tudjuk kimutatni a középvezető nők és férfiak arányának különbségét? n 2 = 41 nők férfiak n 1 = 59 k 1 = 22 p 1 = 22/59=0,373 k 2 = 10 p 2 = 10/41=0,244 Mintanagyság:
Gyakorló példa Egy fogyasztási cikket árusító bolt valamely cikkre vonatkozó naponkénti értékesítési forgalmát 15 véletlenszerűen kiválasztott napon a következő számok mutatják darabban: 125, 142, 153, 130, 140, 170, 152, 125, 137, 152, 166, 172, 145, 131, 147 Tegyük fel, hogy ez a minta egy normális eloszlásból vett FAE mintának tekinthető, sőt korábbi tapasztalatok alapján azt is tudjuk, hogy a változó szórása 15,3. Adjunk 95%-os megbízhatósággal intervallumbecslést az ismeretlen sokasági várható értékre! Kvantitatív módszerek
Gyakorló példa A félliteres zacskós tejet automata csomagolja, és becsülni kívánjuk az automatán beállított átlagos töltési mennyiséget. Mintánk (FAE) mérési eredményei milliliterben: 495, 501, 503, 480, 485, 499, 510, 502, 492, 503 Feltételezzük a töltőmennyiség normális eloszlását, továbbá azt, hogy a töltőgép teljesítményének szórása korábbi tapasztalatok alapján 9 milliliter. Készítsünk 90%-os megbízhatósággal intervallumbecslést a beállított átlagos töltési mennyiségre! Kvantitatív módszerek
Gyakorló példa Oldjuk meg az előző példát úgy, hogy nem ismerjük a sokasági szórást! Készítsünk intervallumbecslést ugyancsak a várható értékre 90%-os megbízhatósággal! Kvantitatív módszerek
Gyakorló példa Egy laboratóriumban valamely hatéves korban beadandó védőoltás dózisának összeállításához 100 FAE módon kiválasztott gyermek testsúlyát mérte meg. A testsúly normális eloszlású valószínűségi változónak tekinthető. A mintából számított áltag: 20 kg, szórás: 1,78kg. Becsülje meg 95%-os megbízhatósági szinten: a 6 éves gyermekek átlagos testsúlyát a 21kg-nál súlyosabb gyermekek arányát Mekkora mintára van szükség, ha az átlagbecslés hibáját a felére akarjuk csökkenteni? Mekkora mintára van szükség, ha az átlagbecslés pontosságát 99%-os megbízhatósági szinten kívánjuk biztosítani? Kvantitatív módszerek Testsúly (kg)Gyermekek száma (fő) 15, , , , ,1-257 összesen100
Gyakorló példa A népszavazási kezdeményezéseket aláírás alapján tekintik érvényesnek. Az aláírások hitelességét mintavételes technikával ellenőrzik. Egy alkalommal egy kérdésben aláírást gyűjtöttek össze. Egy 3000 elemű FAE minta alapján a hiteles aránya 70%- Az számít hitelesnek, aki csak egyszer szerepel a mintában és létezik, illetve az adott névhez tartozik a megadott személyi azonosító és lakcím. Tekinthető-e érvényesnek 99%-os megbízhatósággal a kezdeményezés? Hány hiteles aláírásnak kell lennie a mintában, hogy 99%-os megbízhatósággal egyértelműen hitelesnek nyilvánítható legyen a kezdeményezés? Kvantitatív módszerek
Gyakorló példa Egy 400 g-ra beállított mosópor-csomagoló automatának kívánjuk a pontosságát ellenőrizni. Előző adatfelvételek alapján feltételezhető, hogy a gép által töltött súly normális eloszlású valószínűségi változó, 10g szórással. Mekkora minta szükséges az átlagos töltőmennyiségi becsléséhez ±5g pontossági követelmény és 95%-os, illetve 98%-os megbízhatóság mellett? ±10g pontosság és 95%-os megbízhatóság mellett? Kvantitatív módszerek
Gyakorló példa A légi közlekedésben mintavételes technikával ellenőrzik az utasok átlagos testsúlyát (feltételezzük annak normális eloszlását). Egy 100 elemű minta eredménye: Átlag=78,6 kg Szórás=12,187 kg Becsülje meg 95%-os megbízhatósággal az utasok testsúlyának átlagát és szórását! Becsülje meg 95%-os megbízhatósággal a 80 kg feletti utasok arányát! Mekkora mintára lenne szükség az átlag- és aránybecslésnél, hogy a hibát a felére csökkentsük? Kvantitatív módszerek Testsúly (kg)Utasok száma (fő)
Gyakorló példa Különböző gyártmányú tehergépkocsikat működtetők közül függetlenül, véletlen mintát vettek az átlagéletkor különbségének a becsléséhez: Adjunk becslést 99%-os megbízhatósággal az átlagéletkor különbségére! Mekkora mintára lenne szükség, ha a becslés hibáját a harmadára kívánjuk csökkenteni? Kvantitatív módszerek GyártmányElemszámÁtlag életkor Életkor szórása A70124,5 B708,74,2