Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák Gazdaságstatisztika Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák
A hipotézisvizsgálat lényege A vizsgálandó sokaságra vonatkozó ismereteink gyakran hiányosak és/vagy bizonytalanok sejtésünket hipotézisként fogalmazzuk meg, amelynek igazságáról meg kell győződni Hipotézis: sokasággal (!!!) kapcsolatos feltevés, amely vonatkozhat A sokaság eloszlására A sokaság eloszlásának egy vagy több paraméterére Az állítások helyességéről kétféleképpen lehet meggyőződni: Teljes körű adatfelvételt végzünk Mintavétel eredményei alapján következtetünk MINTAVÉTELI INGADOZÁS, MINTAVÉTELI HIBA Hipotézisvizsgálat: a sokaságra vonatkozó feltevés mintavételi eredményekre támaszkodó vizsgálata. A hipotézisvizsgálat annak mérlegelése, hogy egy sokaságra vonatkozó állítás mennyire hihető a mintavétel eredményeinek tükrében.
A hipotézisvizsgálat lépései A null- (H0) és alternatív (H1) hipotézisek megfogalmazása Olyan próbafüggvény keresése, amelynek eloszlása a nullhipotézis helyességét feltételezve és a próba alkalmazási feltételeit figyelembe véve egyértelműen meghatározható. A szignifikancia szint (α) megválasztása, és a próbafüggvény lehetséges értéktartományának felosztása elfogadási és elutasítási tartományra. Mintavétel, ez alapján a próbafüggvény, mint valószínűségi változó számszerű értékének meghatározása. Döntés a hipotézisek helyességéről: ha a próbafüggvény értéke az előre kijelölt elfogadási tartományba esik, akkor elfogadjuk a nullhipotézist, Ha a próbafüggvény értéke az elutasítási tartományba esik, akkor elutasítjuk a nullhipotézist.
A próbák osztályozása Mi a nullhipotézisük tárgya: Paraméterre és eloszlásra irányuló próbák Milyen jellegűek a sokaság eloszlásával szemben támasztott alkalmazási feltételek: A paraméteres próbák alkalmazási feltételei között szerepelnek a sokasági eloszlás típusára, egyes paramétereire vonatkozó elvárások A nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának folytonosságát követeli meg Hány és mekkora minta szükséges a végrehajtásukhoz: Egy, két vagy többmintás próbák Független és páros mintás próbák Kis- és nagymintás próbák (határ n=30)
Illeszkedésvizsgálat Arról döntünk, hogy valamely valószínűségi változó F (tapasztalati) eloszlása lehet-e adott F0 (elméleti) eloszlásfüggvénnyel jellemzett eloszlás Minták száma: egymintás Alkalmazás feltétele: nagymintás, diszkrét és folytonos eloszlásokra egyaránt Hipotézisek: H0: F = F0 H1: F ≠ F0 A próbafüggvény: A próbafüggvény eloszlása: χ2 eloszlás, DF=r-l-1 Típusai: tiszta és becsléses illeszkedésvizsgálat
Homogenitásvizsgálat Homogenitásvizsgálat segítségével eldönthetjük, hogy két valószínűségi változó azonos eloszlásúnak tekinthető-e. Minták száma: kétmintás Alkalmazás feltétele: nagymintás, a közösnek feltételezett eloszlásfüggvényre nincs kikötés Hipotézisek: H0: a vizsgált valószínűségi változók két sokaságon belüli eloszlása azonos H1: a vizsgált valószínűségi változók két sokaságon belüli eloszlása nem azonos A próbafüggvény: A próbafüggvény eloszlása: χ2 eloszlás, DF=r-1 Eszköze: kontingencia táblázat
Kontingencia táblázat
Függetlenségvizsgálat Két minőségi ismérv valamely adott sokaságon belül független-e egymástól. A minták száma: egymintás Alkalmazás feltétele: a kontingencia táblázat méretétől függően nagy minta Hipotézisek: H0 : a két valószínűségi változó független egymástól (nincs sztochasztikus kapcsolat) H1 : a két valószínűségi nem független egymástól (közöttük sztochasztikus vagy függvénykapcsolat van) A próbafüggvény: A próbafüggvény eloszlása: χ2 eloszlás, DF=(r-1)(s-1)
Kontingencia táblázat
Minőségi ismérvek asszociációja A minőségi ismérvek között kapcsolat szorossága a minőségi ismérvek közötti asszociációval vizsgálható Cramer-féle asszociációs együttható 0 és 1 közötti értéket vesz fel. Minél közelebb esik 1-hez, annál szorosabb a kapcsolat q = min(r,s)
Gyakorló példa – Feladatgyűjtemény (23.) Egy termelési folyamatban 4 gép működik 3 műszakban. Véletlen mintát véve a hibás termékekből, gépek és műszakok szerint csoportosították azokat. Az eredményt az alábbi táblázat mutatja. Van-e kapcsolat a selejt nagysága szerint a gépek és műszakok között? (α=10%) Műszak Gépek A B C D I. 10 11 8 9 II. 16 13 III. 12 14 Gazdaságstatisztika
Megoldás Hipotézisek felállítása: H0: független egymástól a selejt nagysága szerint a gép és a műszak H1: nem független egymástól a selejt nagysága szerint a gép és a műszak Mintavétel, adatok feldolgozása: Kontingencia táblázat elkészítése Sor és oszlopösszegek (peremgyakoriságok számítása) Elméleti gyakoriságok számítása A próbafüggvény értékének kiszámítása Gazdaságstatisztika
Megoldás Műszak Gépek Peremgyakoriság (sorösszeg) A B C D I. 10 11 8 9 II. 16 13 III. 12 14 Perem-gyakoriságok (oszlopösszeg) χ2sz=0,095+0,7976+0,455+0,0414+0,2255+0,315+0,000763+0,002074+0,0453+0,05622+0,4267+0,05622=2,517 38 11,023 8,41 10,15 8,41 49 14,21 10,85 13,1 10,85 44 12,76 9,74 11,76 9,74 38 29 35 29 131 Gazdaságstatisztika
Megoldás Kritikus érték meghatározása: DF=(3-1)(4-1)=2∙3=6 α=10% Döntés a nullhipotézisről: Mivel a számított érték (2,517) kisebb, mint a kritikus érték (10,645), így a nullhipotézist elfogadjuk, a selejt nagysága szerint nincs kapcsolat a gép és a műszak között. Gazdaságstatisztika
Példa – Feladatgyűjtemény (24.) A Matematika I. és II. tárgyakból a zárthelyi dolgozatokban elért pontszámok eloszlását reprezentálja az alábbi minta: Hasonlítsuk össze 10%-os szignifikancia szinten a két tantárgy pontszám szerinti eloszlását! Pontszámok Hallgatók száma (fő) Matematika I. Matematika II. 0-10 3 10-20 12 6 20-30 29 39 30-40 52 42 40-50 14 20 Összesen 110 Gazdaságstatisztika
Megoldás Hipotézisek: H0: a két tantárgy esetében elért pontszámok eloszlása azonos H1: a két tantárgy esetében elért pontszámok eloszlása nem azonos Mintavétel, adatok feldolgozása: Kontingencia táblázat elkészítése Sor és oszlopösszegek (peremgyakoriságok számítása) Elméleti gyakoriságok számítása A próbafüggvény értékének kiszámítása Gazdaságstatisztika
Megoldás Pontszámok Hallgatók száma (fő) Perem-gyakoriság Matematika I. Matematika II. 0-10 3 10-20 12 6 20-30 29 39 30-40 52 42 40-50 14 20 6 3 3 18 9 9 68 34 34 47 47 94 34 17 17 110 110 220 Gazdaságstatisztika
Megoldás Kritikus érték: DF=5-1=4 α=10% χ2krit=7,78 Döntés a nullhipotézisről: Mivel a számított érték (7,066) kisebb, mint a kritikus érték (7,78), így a nullhipotézist elfogadjuk, azonos a pontszámok eloszlása a két tárgy esetében. Gazdaságstatisztika
Példa – Feladatgyűjtemény (25.) Egy település rendőrkapitánya azt állítja, hogy az éjszakai betörések száma egyenletesen oszlik meg a hét napjain. Egyheti megfigyelés alapján a betörések száma az egyes napokon az alábbi volt: Ellenőrizzük 5%-os szignifikancia szinten, hogy elfogadható-e a rendőrkapitány állítása! Nap Betörések száma Hétfő 6 Kedd 8 Szerda 5 Csütörtök 7 Péntek 12 Szombat 17 Vasárnap 15 Összesen 70 Gazdaságstatisztika
Megoldás Hipotézisek felállítása: H0: A betörések száma diszkrét egyenletes eloszlású H1: A betörések száma nem diszkrét egyenletes eloszlású Mintavétel, adatfeldolgozás: Elméleti gyakoriságok meghatározása Számított érték meghatározása Gazdaságstatisztika
Elméleti gyakoriság (Fi) Megoldás Nap Betörések száma (fi) Elméleti gyakoriság (Fi) Hétfő 6 Kedd 8 Szerda 5 Csütörtök 7 Péntek 12 Szombat 17 Vasárnap 15 Összesen 70 10 1,6 10 0,4 10 2,5 10 0,9 0,4 10 10 4,9 2,5 10 70 13,2 Gazdaságstatisztika
Megoldás Kritikus érték: DF=7-1=6 α=5% χ2krit=12,592 Döntés a nullhipotézisről: Mivel a számított érték (13,2) nagyobb, mint a kritikus érték (12,592), így a nullhipotézist elutasítjuk, a betörések száma nem diszkrét egyenletes eloszlású. Gazdaságstatisztika
Példa – Feladatgyűjtemény (21.) Egy vállalatnál az átlagos heti túlóra-kifizetéseket vizsgálták. 80 véletlenszerűen kiválasztott dolgozó adatai alapján az átlagos túlóra-kifizetés az alábbi eloszlást mutatja: Leírhatók-e a heti túlóra-kifizetések normális eloszlással? (Legyen a szignifikancia szint 10%) Heti túlórabér [font] munkások száma T < 1 19 1 T < 2 29 2 T < 5 17 5 T < 10 12 10 < T 3 Gazdaságstatisztika
Megoldás Illeszkedésvizsgálat Hipotézisek felállítása H0: normális eloszlás N(?;?) H1: nem normális eloszlás Normális eloszlás paramétereinek becslése: H0: a heti túlóra kifizetés N(3,0;2,98) eloszlású H1: a heti túlóra kifizetés nem N(3,0;2,98) Heti túlórabér [font] munkások száma T < 1 19 1 T < 2 29 2 T < 5 17 5 T < 10 12 10 < T 3 s*=2,98 Gazdaságstatisztika
Elméleti gyakoriságok (Fi) Megoldás Kritikus érték meghatározása A becsült paraméterek száma: 2 =0,10 DF=r-1-2=5-3=2 2kr=4,61 Mintavétel, adatfeldolgozás Elméleti gyakoriságok meghatározása A próbafüggvény értékének meghatározása Heti túlórabér [font] munkások száma (fi) pi Elméleti gyakoriságok (Fi) T < 1 19 1 T < 2 29 2 T < 5 17 5 T < 10 12 10 < T 3 Gazdaságstatisztika
Elméleti gyakoriságok (Fi) Megoldás Heti túlórabér [font] munkások száma (fi) pi Elméleti gyakoriságok (Fi) T < 1 19 1 T < 2 29 2 T < 5 17 5 T < 10 12 10 < T 3 0,251429 20,114 0,1155 9,24 30,53 0,3816 0,2423 19,384 0,00914 0,7312 Gazdaságstatisztika
Elméleti gyakoriságok (Fi) Megoldás Mivel a számított érték (49,622) nagyobb, mint a kritikus érték (4,91), így a nullhipotézist 10%-os szignifikancia szinten elutasítjuk, azaz a túlóra kifizetések nem írhatóak le N(3;2.98) paraméterű normális eloszlással. Heti túlórabér [font] munkások száma (fi) pi Elméleti gyakoriságok (Fi) T < 1 19 1 T < 2 29 2 T < 5 17 5 T < 10 12 10 < T 3 0,251429 20,114 0,0617 0,1155 9,24 42,26 30,53 6 0,3816 0,2423 19,384 1,3 0,00914 0,7312 Gazdaságstatisztika
Függetlenségvizsgálat PLUSZPONT SZERZÉSI LEHETŐSÉG – beadási lehetőség óra végén Közlekedésbiztonsági szervek 1000 személyi sérüléses közúti balesetet vizsgáltak meg aszerint, hogy milyen súlyos volt a baleset, és a sérült viselt-e biztonsági övet. A kapott eredmények: 1%-os szignifikancia szinten ellenőrizzük, hogy független-e a baleset kimenetele attól, hogy az illető viselt-e biztonsági övet! Baleset Övet Összesen viselt Nem viselt Könnyű 510 120 630 Súlyos 150 270 Halálos 70 30 100 700 300 1000 DF=(r-1)(s-1) Gazdaságstatisztika