Kvantitatív módszerek Hipotézisvizsgálatok - Nemparaméteres próbák október 16.

Slides:



Advertisements
Hasonló előadás
Számvitel S ZÁMVITEL. Számvitel Ormos Mihály, Budapesti Műszaki és Gazdaságtudományi Egyetem, Hol tartunk... Hiányzik egy jól strukturált rendszer.
Advertisements

Gazdaságstatisztika Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák november 6. és november 13.
Az új közbeszerzési törvény megalkotásának körülményei, várható jövőbeli változások május 26. Dr. Kovács László Miniszterelnökség Közbeszerzési Szabályozási.
Gazdaság- statisztika 4. konzultáció Hipotézisvizsgálatok Árva Gábor PhD Hallgató.
A FELNŐTTKÉPZÉSI A FELNŐTTKÉPZÉSI INTÉZMÉNYEK HATÉKONYSÁGÁNAK VIZSGÁLATA Felnőttképzők Szövetsége Borsi Árpád Budapest, december 10.
Gazdaságstatisztika, 2015 RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA Gazdaságstatisztika október 20.
Becsléselmélet - gyakorlat október 14.. Példa 1 - Feladatgyűjtemény Egy nagyvállalat személyzeti osztályvezetője azt gyanítja, hogy különbség van.
Kvantitatív módszerek Becsléselmélet október 7. és 9.
Gazdaságstatisztika Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák.
Paraméteres próbák- konzultáció október 21..
TEROTECHNOLÓGIA Az állóeszközök újratermelési folyamata.
Kockázat és megbízhatóság
tananyag =előadások és gyakorlatok anyaga (írott és elmondott is)
A szerkezetátalakítási programban bekövetkezett változások
Valószínűségi kísérletek
Bevezetés Biometria I. Molnár Péter Állattani Tanszék
Muraközy Balázs: Mely vállalatok válnak gazellává?
2. előadás Viszonyszámok
Adatbázis normalizálás
Leíró statisztika Becslés
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
A FELÜGYELŐBIZOTTSÁG BESZÁMOLÓJA A VSZT
Kvantitatív módszerek
Egy üzemben sok gyártósoron gyártanak egy bizonyos elektronikai alkatrészt. Az alkatrészek ellenállását időnként ellenőrzik úgy, hogy egy munkás odamegy.
Kockázat és megbízhatóság
Szigorlati felkészítő Kvantitatív módszerek
Mintavétel és becslés október 27. és 29.
Becsléselmélet - Konzultáció
Kockázat és megbízhatóság
Kockázat és megbízhatóság
Mintavételes eljárások
Kockázat és megbízhatóság
Kvantitatív módszerek
Hipotézisvizsgálat.
Kockázat és megbízhatóság
Kvantitatív módszerek
Mintavételes eljárások
Nemparaméteres próbák 2.
Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Geostatisztika prof. Geresdi István szoba szám: E537.
FÜGGVÉNYEK Legyen adott A és B két nem üres (szám)halmaz. Az A halmaz minden eleméhez rendeljük hozzá a B halmaz pontosan egy elemét. Ezt az egyértelmű.
MINTAVÉTEL, LEÍRÓ STATISZTIKAI MUTATÓSZÁMOK
Összefüggés vizsgálatok
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Kvantitatív módszerek
Kvantitatív módszerek
Kvantitatív módszerek
Regressziós modellek Regressziószámítás.
STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság
Sztochasztikus kapcsolatok I. Asszociáció
Munkanélküliség.
3, u-próba, t-próba Kemometria 2016/2017 3, u-próba, t-próba
Dr. Varga Beatrix egy. docens
Új pályainformációs eszközök - filmek
Matematikai statisztika előadó: Ketskeméty László
Gazdaságinformatikus MSc
3. előadás.
Alkalmazott statisztikai alapok
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
Dr. Varga Beatrix egyetemi docens
Paraméteres próbák Adatelemzés.
Lorenz-görbe dr. Jeney László egyetemi adjunktus
Kísérlettervezés 2018/19.
3. előadás.
Algoritmusok.
Hipotéziselmélet Adatelemzés.
Mintavételes eljárások
Vargha András KRE és ELTE, Pszichológiai Intézet
Előadás másolata:

Kvantitatív módszerek Hipotézisvizsgálatok - Nemparaméteres próbák október 16.

Becslés vs hipotézisvizsgálat Következtető statisztikai eszközök Becslés: egy véletlen minta ismeretében hogyan lehet becslést adni annak a sokaságnak bizonyos jellemzőire, amelyből a minta származik.  Várható érték becslése ismeretlen és ismert sokasági szórás esetén  Sokasági variancia becslése  Sokasági arány becslése  Várható értékek különbségének becslése (független és páros minta)  Sokasági arány különbségének becslése De nem mindig erre van szükség  Összehasonlítás, döntés  Mérlegelni kell, hogy a mintavétel eredménye alátámasztja vagy cáfolja a feltevésünket

Hipotézis és hipotézisvizsgálat Statisztikai hipotézisen a vizsgált sokaság(ok)ra (valószínűség- eloszlásra) vagy ennek paramétere(i)re vonatkozó valamilyen feltevést értünk. A hipotézisek helyességének mintavételi eredményekre alapozott vizsgálatát hipotézisvizsgálatnak nevezzük. A különféle hipotézisek vizsgálatára szolgáló eljárásokat statisztikai próbáknak vagy teszteknek hívjuk. A hipotézisvizsgálat annak mérlegelése, hogy az adott sokaságra megfogalmazott állítás mennyire hihető a mintavételi eredmények fényében. 3

Hipotézisvizsgálat kellékei Nullhipotézis: az a sokaságra vonatkozó feltevés, amelynek igazságáról a hipotézisvizsgálat során közvetlenül meg kívánunk győződni. Alternatív vagy ellenhipotézis: a nullhipotézissel együtt minden lehetőséget kimerítő, azzal egymást kölcsönösen kizáró hipotézis, amelynek helysségéről közvetetten döntünk a hipotézisvizsálat során. A próbafüggvény a mintaelemek egy olyan függvénye, amelynek valószínűségi eloszlása a sokaság ismert tulajdonságait tekintetbe véve, H 0 igazságát pedig feltételezve pontosan ismert. A próbafüggvényt eloszlásának ismerete teszi alkalmassá a H 0 helyességének vizsgálatára. 4

A hipotézisvizsgálat kellékei Elfogadási és elutasítási tartomány:  A hipotézis helyességének ellenőrzése céljából a próbafüggvény lehetséges értékeinek tartományát alkalmas osztópontok segítségével két egymást át nem fedő – ún. diszjunkt – részre bontjuk: egy elfogadási és egy elutasítási tartományra.  E két tartomány határait úgy választjuk meg, hogy a próbafüggvény a nullhipotézis fennállása esetén előre megadott nagy (1-α) valószínűséggel az elfogadási tartományba essen. Így a próbafüggvény értéke csak kicsi α valószínűséggel kerülhet a kritikus tartományba. Szignifikancia szint: a kritikus tartományba esés α valószínűségét szignifikancia szintnek nevezzük. 5

Kritikus tartomány elhelyezkedése

1. A null- és alternatív hipotézisek megfogalmazása 2. Olyan próbafüggvény keresése, amelynek eloszlása a nullhipotézis helyességét feltételezve és a próba alkalmazási feltételeinek fennállását adottnak tekintve egyértelműen meghatározható. 3. A szignifikancia szint megválasztása, és a próbafüggvény lehetséges értéktartományának ezzel és az alternatív hipotézissel összhangban lévő felosztása elfogadási és elutasítási tartományra. 4. Mintavétel, a próbafüggvény számszerű értékének meghatározása. 5. Döntés a hipotézisek helyességéről: ha a próbafüggvény értéke az előre kijelölt elfogadási tartományba esik, akkor elfogadjuk a nullhipotézist, ellenkező esetben elutasítjuk. A hipotézisvizsgálat általános menete

Bevezetés Mintából következtetünk !!! Elsőfajú hiba (  ) Másodfajú hiba (  ) Minta-2 Minta-1 Minta-3 Hibát követhetünk el !!! A nullhipotézis a sokaság alapján Döntés a minta alapján „igaz” „hamis” „elfogadás” „ elutasítás ” Nincs hiba  e Elsőfajú hiba  Másodfajú hiba  8

A próbák osztályozása Mi a nullhipotézisük tárgya:  Paraméterre és eloszlásra irányuló próbák Milyen jellegűek a sokaság eloszlásával szemben támasztott alkalmazási feltételek:  A paraméteres próbák alkalmazási feltételei között szerepelnek a sokasági eloszlás típusára, egyes paramétereire vonatkozó elvárások  A nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának folytonosságát követeli meg Hány és mekkora minta szükséges a végrehajtásukhoz  Egy, két vagy többmintás próbák  Független és páros mintás próbák  Kis- és nagymintás próbák (határ n=30)

10 Hipotézisvizsgálatok Nemparaméteres próbákParaméteres próbák Egymintás próbákKétmintás próbák Többmintás próbák Normális eloszlású valószínűségi változó várható értékére Normális eloszlású valószínűségi változó szórásnégyzetére Egymintás z-próba H 0 : μ=μ 0 σ ismert,vagy n>30 Egymintás t-próba H 0 : μ=μ 0 σ ismeretlen χ 2 -próba a szórásnégyzetre H 0 : σ 2 =σ 2 0 Két normális eloszlású valószínűségi változó várható értékeire Két normális eloszlású valószínűségi változó szórásnégyzeteire Kétmintás z-próba H 0 : μ 1 =μ 2 σ 1, σ 2 ismert, vagy n 1,n 2 >30 Kétmintás t-próba H 0 : μ 1 =μ 2 σ 1 = σ 2 Független minták eseténPáros minták esetén Páros t-próba H 0 : μ 1 -μ 2 =d 0 F-próba H 0 : σ 2 1 =σ 2 2 Több normális eloszlású valószínűségi változó várható értékeire Több normális eloszlású valószínűségi változó szórásnégyzeteire Illeszkedésvizsgálat χ 2 - próbával H 0 : F=F 0 Homogenitásvizsgálat χ 2 - próbával H 0 : F(ξ)=G(η) Függetlenségvizsgálat χ 2 - próbával H 0 : ξ és η független Variancia analízis H 0 : μ 1 =μ 2 =…=μ n Cochran-féle C próba H 0 : σ 1 =σ 2 =…=σ n

Hipotézisvizsgálatok fajtái Nemparaméteres próbák  A hipotézisvizsgálatoknak azon csoportját, ahol az eloszlás típusa nem ismert, és a H 0 hipotézis magára az eloszlásra vonatkozik, nemparaméteres próbáknak nevezzük. Az alapképzésben tanult nemparaméteres próbák: Illeszkedésvizsgálat χ 2 próbával Homogenitásvizsgálat χ 2 próbával Függetlenségvizsgálat χ 2 próbával Amivel kiegészítjük: Illeszkedésvizsgálat Kolmogorov próbával Sorozatpróba Rangösszegpróba 11

Illeszkedésvizsgálat Arról döntünk, hogy valamely  valószínűségi változó F (tapasztalati) eloszlása lehet-e adott F 0 (elméleti) eloszlásfüggvénnyel jellemzett eloszlás Minták száma: egymintás Alkalmazás feltétele: nagymintás, diszkrét és folytonos eloszlásokra egyaránt Hipotézisek:  H 0 : F = F 0  H 1 : F ≠ F 0 A próbafüggvény: A próbafüggvény eloszlása: χ 2 eloszlás, DF=r-l-1 Típusai: tiszta és becsléses illeszkedésvizsgálat 12

Homogenitásvizsgálat Homogenitásvizsgálat segítségével eldönthetjük, hogy két valószínűségi változó azonos eloszlásúnak tekinthető-e. Minták száma: kétmintás Alkalmazás feltétele: nagymintás, a közösnek feltételezett eloszlásfüggvényre nincs kikötés Hipotézisek:  H 0 : a vizsgált valószínűségi változók két sokaságon belüli eloszlása azonos  H 1 : a vizsgált valószínűségi változók két sokaságon belüli eloszlása nem azonos A próbafüggvény: A próbafüggvény eloszlása: χ 2 eloszlás, DF=r-1 Eszköze: kontingencia táblázat 13

Kontingencia táblázat 14

Függetlenségvizsgálat Két minőségi ismérv valamely adott sokaságon belül független-e egymástól. A minták száma: egymintás Alkalmazás feltétele: a kontingencia táblázat méretétől függően nagy minta Hipotézisek:  H 0 : a két valószínűségi változó független egymástól (nincs sztochasztikus kapcsolat)  H 1 : a két valószínűségi nem független egymástól (közöttük sztochasztikus vagy függvénykapcsolat van) A próbafüggvény: A próbafüggvény eloszlása: χ 2 eloszlás, DF=(r-1)(s-1) 15

Kontingencia táblázat 16

A minőségi ismérvek között kapcsolat szorossága a minőségi ismérvek közötti asszociációval vizsgálható Cramer-féle asszociációs együttható  0 és 1 közötti értéket vesz fel.  Minél közelebb esik 1-hez, annál szorosabb a kapcsolat Minőségi ismérvek asszociációja q = min(r,s) 17

Illeszkedésvizsgálat Kolmogorov próbával Az olyan statisztikai próbát, amelynek alapján arról döntünk, hogy valamely  valószínűségi változó F (tapasztalati) eloszlása lehet-e adott F 0 (elméleti) eloszlásfüggvénnyel jellemzett eloszlás, illeszkedésvizsgálatnak nevezzük. Minták száma: egymintás Alkalmazás feltétele: kismintás, csak folytonos eloszlásokra, legalább 5 osztályba kell sorolni az adatokat Hipotézisek:  H 0 : F = F 0  H 1 : F ≠ F 0 A próbafüggvény:  F n (t) a tapasztalati, F(t) az elméleti eloszlásfüggvény 18

Kolmogorov próba Menete:  Az osztályokba sorolt adatokra minden osztály felső határához kiszámítjuk a tapasztalati eloszlásfüggvényt (kumulált relatív gyakoriság).  Minden osztály felső határához kiszámítjuk az elméleti eloszlásfüggvény értékét.  Az F n (t) - F(t) értéket kiszámítjuk minden osztályra.  A maximális F n (t) - F(t) értéket összevetjük az adott szignifikancia szinthez tartozó D krit értékkel  A döntési elv: Ha, akkor a nullhipotézist elfogadjuk. Ha, akkor a nullhipotézist elvetjük. 19

Kolmogorov-próba

Példa Egy konzervgyárban az egyik konzerv névleges töltősúlya 500g. 100 elemű minta alapján ellenőrizzük a szállítmányt. A minta adatai: Teszteljük azt a hipotézist, hogy a konzervek töltősúly szerinti eloszlása normálisnak tekinthető (α=5%)! 21 TöltősúlyGyakoriság [db]

Példa 22 TöltősúlyOsztályközép Gyakoriság [db]

Példa 23 Osztályokf i [db] Elméleti eloszlásfüggvény értéke a felső határra F(x if ) Tapasztalati eloszlásfüggvény értéke a felső határra F n (x if ) DiDi , , , , , , ,05 0,25 0,55 0,79 0,95 1 0,0125 0, ,0221 0,015 0,0015 0,00695 Mivel a D max < D krit a nullhipotézist elfogadjuk, a minta alapján a konzervek töltősúlya 1%-os szignifikancia szinten normális eloszlású N(499,1; 12,6) paraméterekkel.

Sorozatpróba Egy alternatív ismérvre vonatkozó n elemű megfigyelés-sorozat egymást követő elemei véletlenszerű sorrendben követik-e egymást. Hipotézisek:  H 0 : a sorrend véletlenszerű  H 1 : a sorrend nem véletlenszerű, szabályszerűséget mutat (a megfigyelés- sorozat elemei vagy nem függetlenek, vagy nem azonos eloszlásúak) Minták száma: egymintás Alkalmazás feltétele: kismintás kétoldali próba  A mintaelemek sorrendje egyértelműen értelmezhető legyen  A mintaelemek mindegyike két osztály (az alternatív ismérv két lehetséges értéke) valamelyikébe legyen besorolható

Sorozatpróba A próba végrehajtása a mintában előforduló sorozatok számának vizsgálatán alapszik, jelölése: r Az egymást adott sorrendben követő mintaelemek mindegyikét besoroljuk pl. az 1-essel vagy a 2-essel jelölt osztályba, majd minden mintaelem helyére 1-est vagy 2-est írunk aszerint, hogy az melyik osztályba tartozik. A minta 1. osztályba tartozó elemeinek számát n 1 -gyel, a 2. osztályba tartozó elemeinek számát n 2 -vel jelöljük. n 1 +n 2 =n Egy sorozatnak a megszakítás nélküli – vagy csak 1-esekből, vagy csak 2-esekből álló – jelszakaszokat tekintjük, ez lesz az r értéke. 25

Sorozatpróba Egy pénzérme egymást utáni 15-szöri feldobásából álló kísérletben az alábbi jelsorozatot kapjuk: I I F F F I F F I I I I F I F n=15 jel, r=8 sorozat Ezeknek a sorozatoknak a hossza is és adott n hosszúságú jelsorozatban a száma is valószínűségi változó. A vizsgálat tárgya: a sorozatok r száma n-hez képest nem túl kicsi, vagy nagy-e a mintaelemek véletlenszerű sorrendjét feltételezve  végrehajtása kétoldali módon történik A próbastatisztika értéke: r = a sorozatok száma a jelsorozatban Kritikus értékek:  Ha n 1 és n 2 ≤ 10, akkor speciális táblázatok 26

Sorozatpróba ha n 1 és n 2 > 10, akkor r eloszlása aszimptotikusan normális μ r várható értékkel és σ r szórással: A próbafüggvény ilyenkor: A kritikus érték: ±z α/2 (standard normális eloszlás táblázatból) 27

Példa Véletlenszerűnek tekinthető-e egy előadáson egy sorban helyet foglaló férfiak és nők elhelyezkedése. A sorban egymás mellett ülők neme: F, F, F, N, N, F, F, N, N, N, N, F, N, F, N, N, F, N, N, F, F, F, N, F, N, N H 0 : a sorrend véletlenszerű H 1 : a sorrend nem véletlenszerű A megfigyelések száma: n = 26 Férfiak száma: n 1 =12 Nők száma: n 2 =14 A sorozatok száma: r=14 28

Példa Mivel mind a nők, mind a férfiak száma > 10, így a normális eloszlással való közelítéshez: 5%-os szignifikancia szinten z α/2 =±1,96 Mivel a próbafüggvény értéke az elfogadási tartományba esik, így H 0 -t elfogadjuk, ezen a szignifikancia szinten elfogadható a sorozat véletlenszerűsége. 29

Példa és között a BUX index napi hozamadatai sorozatának véletlenszerűségét vizsgáljuk. Vizsgáljuk meg 5%-os szignifikancia szinten, hogy tekinthető-e véletlennek az előző naphoz képesti növekedések, ill. csökkenések sorozata! Az előző naphoz képesti növekedést 1-essel, a csökkenést 0-val jelöltük a táblázatban. H 0 : a sorrend véletlenszerű H 1 : a sorrend nem véletlenszerű 30

Példa A megfigyelések száma: n = 80 Növekedések száma: n 1 =40 Csökkenések száma: n 2 =40 A sorozatok száma: r=34 5%-os szignifikancia szinten z α/2 =±1,96 Mivel a próbafüggvény értéke az elfogadási tartományba esik, így H 0 -t elfogadjuk, ezen a szignifikancia szinten elfogadható a sorozat véletlenszerűsége. 31

Mann-Whitney féle U próba – (Wilcoxon- féle) rangösszegpróba A kétmintás t-próba nemparaméteres megfelelője Két sokaság helyzetének a különbségét vizsgálja két független minta alapján Minták száma: kétmintás Egyoldali és kétoldali próbaként is Hipotézisek:  H 0 : F(x) = G(x) F(x)=P(Y<x) az egyik, G(x)=P(X<x) pedig a másik sokaság eloszlásának a függvénye, ha az egyik sokaságban a vizsgált változót Y-nal, a másikban pedig X-szel jelöljük. 32

Mann-Whitney próba Lehetséges ellenhipotézisek:  Felírhatjuk valószínűségekre, magukra az eloszlásfüggvényekre, vagy közel azonos alakú eloszlásfüggvények esetén a várható értékekre (mediánokra)  H 1 : P(X>Y) Y)≠1/2H 1 : P(X>Y)>1/2  H 1 : G(x)>F(x)H 1 : G(x)≠F(x)H 1 : G(x)<F(x)  H 1 : μ x μ y M() M() g(x) f(x) M() M() g(x)f(x) Mindig G(x)-nek az F(x)-hez képesti helyzetét vizsgáljuk.

Próbafüggvény: a mintaelemek rangösszegén alapul Egyesítjük a két mintát, és az így kapott n X +n Y elemű minta elemeit rangsorba állítjuk. Ezután minden mintaelemhez hozzárendeljük annak rangsorbeli számát, azaz a rangszámot. Meghatározzuk az Y sokaságból való minta elemeihez tartozó rangszámok összegét, és azt R Y -nak jelöljük. Az U Y és U X próbafüggvény meghatározása: 34 Mann-Whitney próba (ha n Y < n X )(ha n X < n Y )

Kritikus értékek:  Ha a mintaelemszámok <10, akkor speciális táblázatokból  Ha mindkét mintaelemszám ≥10, akkor az U mintavételi eloszlása közelítőleg normális eloszlású μ U várható értékkel és σ U szórással:  Kapcsolt rangok esetén:  A próbafüggvény:  Kritikus érték(ek): adott α szignifikancia szinthez tartozó z α vagy z α/2 értékek 35 Mann-Whitney próba

Kvantitatív módszerek Példa Egy egyetemen az egyik tárgy óráit két szak hallgatói is hallgatják. Az oktató szeretné megvizsgálni, hogy van-e különbség a két szak zh-eredményei között (5%)? A két szak hallgatóinak zh pontjait az alábbi táblázat mutatja: I. szak II. szak

Példa I. szak II. szak II. Szak I. Szak II. Szak I. Szak II. Szak I. Szak II. Szak I. Szak II. Szak I. szak II. szak I. Szak II. Szak I. Szak II. Szak I. Szak II. Szak I. Szak I.szak: = 125 II.szak: = 128 H 0 -t elfogadjuk, a két szak pontszámainak eloszlása, illetve azok középértéke egyezik.