Kvantitatív módszerek Hipotézisvizsgálatok - Nemparaméteres próbák október 16.
Becslés vs hipotézisvizsgálat Következtető statisztikai eszközök Becslés: egy véletlen minta ismeretében hogyan lehet becslést adni annak a sokaságnak bizonyos jellemzőire, amelyből a minta származik. Várható érték becslése ismeretlen és ismert sokasági szórás esetén Sokasági variancia becslése Sokasági arány becslése Várható értékek különbségének becslése (független és páros minta) Sokasági arány különbségének becslése De nem mindig erre van szükség Összehasonlítás, döntés Mérlegelni kell, hogy a mintavétel eredménye alátámasztja vagy cáfolja a feltevésünket
Hipotézis és hipotézisvizsgálat Statisztikai hipotézisen a vizsgált sokaság(ok)ra (valószínűség- eloszlásra) vagy ennek paramétere(i)re vonatkozó valamilyen feltevést értünk. A hipotézisek helyességének mintavételi eredményekre alapozott vizsgálatát hipotézisvizsgálatnak nevezzük. A különféle hipotézisek vizsgálatára szolgáló eljárásokat statisztikai próbáknak vagy teszteknek hívjuk. A hipotézisvizsgálat annak mérlegelése, hogy az adott sokaságra megfogalmazott állítás mennyire hihető a mintavételi eredmények fényében. 3
Hipotézisvizsgálat kellékei Nullhipotézis: az a sokaságra vonatkozó feltevés, amelynek igazságáról a hipotézisvizsgálat során közvetlenül meg kívánunk győződni. Alternatív vagy ellenhipotézis: a nullhipotézissel együtt minden lehetőséget kimerítő, azzal egymást kölcsönösen kizáró hipotézis, amelynek helysségéről közvetetten döntünk a hipotézisvizsálat során. A próbafüggvény a mintaelemek egy olyan függvénye, amelynek valószínűségi eloszlása a sokaság ismert tulajdonságait tekintetbe véve, H 0 igazságát pedig feltételezve pontosan ismert. A próbafüggvényt eloszlásának ismerete teszi alkalmassá a H 0 helyességének vizsgálatára. 4
A hipotézisvizsgálat kellékei Elfogadási és elutasítási tartomány: A hipotézis helyességének ellenőrzése céljából a próbafüggvény lehetséges értékeinek tartományát alkalmas osztópontok segítségével két egymást át nem fedő – ún. diszjunkt – részre bontjuk: egy elfogadási és egy elutasítási tartományra. E két tartomány határait úgy választjuk meg, hogy a próbafüggvény a nullhipotézis fennállása esetén előre megadott nagy (1-α) valószínűséggel az elfogadási tartományba essen. Így a próbafüggvény értéke csak kicsi α valószínűséggel kerülhet a kritikus tartományba. Szignifikancia szint: a kritikus tartományba esés α valószínűségét szignifikancia szintnek nevezzük. 5
Kritikus tartomány elhelyezkedése
1. A null- és alternatív hipotézisek megfogalmazása 2. Olyan próbafüggvény keresése, amelynek eloszlása a nullhipotézis helyességét feltételezve és a próba alkalmazási feltételeinek fennállását adottnak tekintve egyértelműen meghatározható. 3. A szignifikancia szint megválasztása, és a próbafüggvény lehetséges értéktartományának ezzel és az alternatív hipotézissel összhangban lévő felosztása elfogadási és elutasítási tartományra. 4. Mintavétel, a próbafüggvény számszerű értékének meghatározása. 5. Döntés a hipotézisek helyességéről: ha a próbafüggvény értéke az előre kijelölt elfogadási tartományba esik, akkor elfogadjuk a nullhipotézist, ellenkező esetben elutasítjuk. A hipotézisvizsgálat általános menete
Bevezetés Mintából következtetünk !!! Elsőfajú hiba ( ) Másodfajú hiba ( ) Minta-2 Minta-1 Minta-3 Hibát követhetünk el !!! A nullhipotézis a sokaság alapján Döntés a minta alapján „igaz” „hamis” „elfogadás” „ elutasítás ” Nincs hiba e Elsőfajú hiba Másodfajú hiba 8
A próbák osztályozása Mi a nullhipotézisük tárgya: Paraméterre és eloszlásra irányuló próbák Milyen jellegűek a sokaság eloszlásával szemben támasztott alkalmazási feltételek: A paraméteres próbák alkalmazási feltételei között szerepelnek a sokasági eloszlás típusára, egyes paramétereire vonatkozó elvárások A nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának folytonosságát követeli meg Hány és mekkora minta szükséges a végrehajtásukhoz Egy, két vagy többmintás próbák Független és páros mintás próbák Kis- és nagymintás próbák (határ n=30)
10 Hipotézisvizsgálatok Nemparaméteres próbákParaméteres próbák Egymintás próbákKétmintás próbák Többmintás próbák Normális eloszlású valószínűségi változó várható értékére Normális eloszlású valószínűségi változó szórásnégyzetére Egymintás z-próba H 0 : μ=μ 0 σ ismert,vagy n>30 Egymintás t-próba H 0 : μ=μ 0 σ ismeretlen χ 2 -próba a szórásnégyzetre H 0 : σ 2 =σ 2 0 Két normális eloszlású valószínűségi változó várható értékeire Két normális eloszlású valószínűségi változó szórásnégyzeteire Kétmintás z-próba H 0 : μ 1 =μ 2 σ 1, σ 2 ismert, vagy n 1,n 2 >30 Kétmintás t-próba H 0 : μ 1 =μ 2 σ 1 = σ 2 Független minták eseténPáros minták esetén Páros t-próba H 0 : μ 1 -μ 2 =d 0 F-próba H 0 : σ 2 1 =σ 2 2 Több normális eloszlású valószínűségi változó várható értékeire Több normális eloszlású valószínűségi változó szórásnégyzeteire Illeszkedésvizsgálat χ 2 - próbával H 0 : F=F 0 Homogenitásvizsgálat χ 2 - próbával H 0 : F(ξ)=G(η) Függetlenségvizsgálat χ 2 - próbával H 0 : ξ és η független Variancia analízis H 0 : μ 1 =μ 2 =…=μ n Cochran-féle C próba H 0 : σ 1 =σ 2 =…=σ n
Hipotézisvizsgálatok fajtái Nemparaméteres próbák A hipotézisvizsgálatoknak azon csoportját, ahol az eloszlás típusa nem ismert, és a H 0 hipotézis magára az eloszlásra vonatkozik, nemparaméteres próbáknak nevezzük. Az alapképzésben tanult nemparaméteres próbák: Illeszkedésvizsgálat χ 2 próbával Homogenitásvizsgálat χ 2 próbával Függetlenségvizsgálat χ 2 próbával Amivel kiegészítjük: Illeszkedésvizsgálat Kolmogorov próbával Sorozatpróba Rangösszegpróba 11
Illeszkedésvizsgálat Arról döntünk, hogy valamely valószínűségi változó F (tapasztalati) eloszlása lehet-e adott F 0 (elméleti) eloszlásfüggvénnyel jellemzett eloszlás Minták száma: egymintás Alkalmazás feltétele: nagymintás, diszkrét és folytonos eloszlásokra egyaránt Hipotézisek: H 0 : F = F 0 H 1 : F ≠ F 0 A próbafüggvény: A próbafüggvény eloszlása: χ 2 eloszlás, DF=r-l-1 Típusai: tiszta és becsléses illeszkedésvizsgálat 12
Homogenitásvizsgálat Homogenitásvizsgálat segítségével eldönthetjük, hogy két valószínűségi változó azonos eloszlásúnak tekinthető-e. Minták száma: kétmintás Alkalmazás feltétele: nagymintás, a közösnek feltételezett eloszlásfüggvényre nincs kikötés Hipotézisek: H 0 : a vizsgált valószínűségi változók két sokaságon belüli eloszlása azonos H 1 : a vizsgált valószínűségi változók két sokaságon belüli eloszlása nem azonos A próbafüggvény: A próbafüggvény eloszlása: χ 2 eloszlás, DF=r-1 Eszköze: kontingencia táblázat 13
Kontingencia táblázat 14
Függetlenségvizsgálat Két minőségi ismérv valamely adott sokaságon belül független-e egymástól. A minták száma: egymintás Alkalmazás feltétele: a kontingencia táblázat méretétől függően nagy minta Hipotézisek: H 0 : a két valószínűségi változó független egymástól (nincs sztochasztikus kapcsolat) H 1 : a két valószínűségi nem független egymástól (közöttük sztochasztikus vagy függvénykapcsolat van) A próbafüggvény: A próbafüggvény eloszlása: χ 2 eloszlás, DF=(r-1)(s-1) 15
Kontingencia táblázat 16
A minőségi ismérvek között kapcsolat szorossága a minőségi ismérvek közötti asszociációval vizsgálható Cramer-féle asszociációs együttható 0 és 1 közötti értéket vesz fel. Minél közelebb esik 1-hez, annál szorosabb a kapcsolat Minőségi ismérvek asszociációja q = min(r,s) 17
Illeszkedésvizsgálat Kolmogorov próbával Az olyan statisztikai próbát, amelynek alapján arról döntünk, hogy valamely valószínűségi változó F (tapasztalati) eloszlása lehet-e adott F 0 (elméleti) eloszlásfüggvénnyel jellemzett eloszlás, illeszkedésvizsgálatnak nevezzük. Minták száma: egymintás Alkalmazás feltétele: kismintás, csak folytonos eloszlásokra, legalább 5 osztályba kell sorolni az adatokat Hipotézisek: H 0 : F = F 0 H 1 : F ≠ F 0 A próbafüggvény: F n (t) a tapasztalati, F(t) az elméleti eloszlásfüggvény 18
Kolmogorov próba Menete: Az osztályokba sorolt adatokra minden osztály felső határához kiszámítjuk a tapasztalati eloszlásfüggvényt (kumulált relatív gyakoriság). Minden osztály felső határához kiszámítjuk az elméleti eloszlásfüggvény értékét. Az F n (t) - F(t) értéket kiszámítjuk minden osztályra. A maximális F n (t) - F(t) értéket összevetjük az adott szignifikancia szinthez tartozó D krit értékkel A döntési elv: Ha, akkor a nullhipotézist elfogadjuk. Ha, akkor a nullhipotézist elvetjük. 19
Kolmogorov-próba
Példa Egy konzervgyárban az egyik konzerv névleges töltősúlya 500g. 100 elemű minta alapján ellenőrizzük a szállítmányt. A minta adatai: Teszteljük azt a hipotézist, hogy a konzervek töltősúly szerinti eloszlása normálisnak tekinthető (α=5%)! 21 TöltősúlyGyakoriság [db]
Példa 22 TöltősúlyOsztályközép Gyakoriság [db]
Példa 23 Osztályokf i [db] Elméleti eloszlásfüggvény értéke a felső határra F(x if ) Tapasztalati eloszlásfüggvény értéke a felső határra F n (x if ) DiDi , , , , , , ,05 0,25 0,55 0,79 0,95 1 0,0125 0, ,0221 0,015 0,0015 0,00695 Mivel a D max < D krit a nullhipotézist elfogadjuk, a minta alapján a konzervek töltősúlya 1%-os szignifikancia szinten normális eloszlású N(499,1; 12,6) paraméterekkel.
Sorozatpróba Egy alternatív ismérvre vonatkozó n elemű megfigyelés-sorozat egymást követő elemei véletlenszerű sorrendben követik-e egymást. Hipotézisek: H 0 : a sorrend véletlenszerű H 1 : a sorrend nem véletlenszerű, szabályszerűséget mutat (a megfigyelés- sorozat elemei vagy nem függetlenek, vagy nem azonos eloszlásúak) Minták száma: egymintás Alkalmazás feltétele: kismintás kétoldali próba A mintaelemek sorrendje egyértelműen értelmezhető legyen A mintaelemek mindegyike két osztály (az alternatív ismérv két lehetséges értéke) valamelyikébe legyen besorolható
Sorozatpróba A próba végrehajtása a mintában előforduló sorozatok számának vizsgálatán alapszik, jelölése: r Az egymást adott sorrendben követő mintaelemek mindegyikét besoroljuk pl. az 1-essel vagy a 2-essel jelölt osztályba, majd minden mintaelem helyére 1-est vagy 2-est írunk aszerint, hogy az melyik osztályba tartozik. A minta 1. osztályba tartozó elemeinek számát n 1 -gyel, a 2. osztályba tartozó elemeinek számát n 2 -vel jelöljük. n 1 +n 2 =n Egy sorozatnak a megszakítás nélküli – vagy csak 1-esekből, vagy csak 2-esekből álló – jelszakaszokat tekintjük, ez lesz az r értéke. 25
Sorozatpróba Egy pénzérme egymást utáni 15-szöri feldobásából álló kísérletben az alábbi jelsorozatot kapjuk: I I F F F I F F I I I I F I F n=15 jel, r=8 sorozat Ezeknek a sorozatoknak a hossza is és adott n hosszúságú jelsorozatban a száma is valószínűségi változó. A vizsgálat tárgya: a sorozatok r száma n-hez képest nem túl kicsi, vagy nagy-e a mintaelemek véletlenszerű sorrendjét feltételezve végrehajtása kétoldali módon történik A próbastatisztika értéke: r = a sorozatok száma a jelsorozatban Kritikus értékek: Ha n 1 és n 2 ≤ 10, akkor speciális táblázatok 26
Sorozatpróba ha n 1 és n 2 > 10, akkor r eloszlása aszimptotikusan normális μ r várható értékkel és σ r szórással: A próbafüggvény ilyenkor: A kritikus érték: ±z α/2 (standard normális eloszlás táblázatból) 27
Példa Véletlenszerűnek tekinthető-e egy előadáson egy sorban helyet foglaló férfiak és nők elhelyezkedése. A sorban egymás mellett ülők neme: F, F, F, N, N, F, F, N, N, N, N, F, N, F, N, N, F, N, N, F, F, F, N, F, N, N H 0 : a sorrend véletlenszerű H 1 : a sorrend nem véletlenszerű A megfigyelések száma: n = 26 Férfiak száma: n 1 =12 Nők száma: n 2 =14 A sorozatok száma: r=14 28
Példa Mivel mind a nők, mind a férfiak száma > 10, így a normális eloszlással való közelítéshez: 5%-os szignifikancia szinten z α/2 =±1,96 Mivel a próbafüggvény értéke az elfogadási tartományba esik, így H 0 -t elfogadjuk, ezen a szignifikancia szinten elfogadható a sorozat véletlenszerűsége. 29
Példa és között a BUX index napi hozamadatai sorozatának véletlenszerűségét vizsgáljuk. Vizsgáljuk meg 5%-os szignifikancia szinten, hogy tekinthető-e véletlennek az előző naphoz képesti növekedések, ill. csökkenések sorozata! Az előző naphoz képesti növekedést 1-essel, a csökkenést 0-val jelöltük a táblázatban. H 0 : a sorrend véletlenszerű H 1 : a sorrend nem véletlenszerű 30
Példa A megfigyelések száma: n = 80 Növekedések száma: n 1 =40 Csökkenések száma: n 2 =40 A sorozatok száma: r=34 5%-os szignifikancia szinten z α/2 =±1,96 Mivel a próbafüggvény értéke az elfogadási tartományba esik, így H 0 -t elfogadjuk, ezen a szignifikancia szinten elfogadható a sorozat véletlenszerűsége. 31
Mann-Whitney féle U próba – (Wilcoxon- féle) rangösszegpróba A kétmintás t-próba nemparaméteres megfelelője Két sokaság helyzetének a különbségét vizsgálja két független minta alapján Minták száma: kétmintás Egyoldali és kétoldali próbaként is Hipotézisek: H 0 : F(x) = G(x) F(x)=P(Y<x) az egyik, G(x)=P(X<x) pedig a másik sokaság eloszlásának a függvénye, ha az egyik sokaságban a vizsgált változót Y-nal, a másikban pedig X-szel jelöljük. 32
Mann-Whitney próba Lehetséges ellenhipotézisek: Felírhatjuk valószínűségekre, magukra az eloszlásfüggvényekre, vagy közel azonos alakú eloszlásfüggvények esetén a várható értékekre (mediánokra) H 1 : P(X>Y) Y)≠1/2H 1 : P(X>Y)>1/2 H 1 : G(x)>F(x)H 1 : G(x)≠F(x)H 1 : G(x)<F(x) H 1 : μ x μ y M() M() g(x) f(x) M() M() g(x)f(x) Mindig G(x)-nek az F(x)-hez képesti helyzetét vizsgáljuk.
Próbafüggvény: a mintaelemek rangösszegén alapul Egyesítjük a két mintát, és az így kapott n X +n Y elemű minta elemeit rangsorba állítjuk. Ezután minden mintaelemhez hozzárendeljük annak rangsorbeli számát, azaz a rangszámot. Meghatározzuk az Y sokaságból való minta elemeihez tartozó rangszámok összegét, és azt R Y -nak jelöljük. Az U Y és U X próbafüggvény meghatározása: 34 Mann-Whitney próba (ha n Y < n X )(ha n X < n Y )
Kritikus értékek: Ha a mintaelemszámok <10, akkor speciális táblázatokból Ha mindkét mintaelemszám ≥10, akkor az U mintavételi eloszlása közelítőleg normális eloszlású μ U várható értékkel és σ U szórással: Kapcsolt rangok esetén: A próbafüggvény: Kritikus érték(ek): adott α szignifikancia szinthez tartozó z α vagy z α/2 értékek 35 Mann-Whitney próba
Kvantitatív módszerek Példa Egy egyetemen az egyik tárgy óráit két szak hallgatói is hallgatják. Az oktató szeretné megvizsgálni, hogy van-e különbség a két szak zh-eredményei között (5%)? A két szak hallgatóinak zh pontjait az alábbi táblázat mutatja: I. szak II. szak
Példa I. szak II. szak II. Szak I. Szak II. Szak I. Szak II. Szak I. Szak II. Szak I. Szak II. Szak I. szak II. szak I. Szak II. Szak I. Szak II. Szak I. Szak II. Szak I. Szak I.szak: = 125 II.szak: = 128 H 0 -t elfogadjuk, a két szak pontszámainak eloszlása, illetve azok középértéke egyezik.