Diszkrét változók vizsgálata Példák diszkrét változóra Személy neme (x1 = férfi, x2 = nő) Iskolázottsági szint (x1 = alsófok, x2 = közép-fok, x3 = felsőfok) 5-fokú skálaváltozók (x1 = 1, x2 = 2, ..., x5 = 5) Diagnózis (x1 = Neurózis, x2 = Szkizofrénia, ...)
Diszkrét változó eloszlása: általános eset x x x .... x 1 2 3 k p p p .... p 1 2 3 k
Konkrét példa diszkrét eloszlásra xi: 1 2 3 pi: 0.20 0.35 0.40 0.05
1 diszkrét változó vizsgálata 1 populációban
Diszkrét változók eloszlásvizsgálata Példa: A Koronás (x1), a Kádár (x2) és a Kossuth (x3) címer kedveltsége ugyanakkora-e? Nullhipotézis: H0: P(x1) = P(x2) = P(x3) = 1/3 Egy valódi vizsgálat adatai (Kapitány és Kapitány): Kapott gyakoriságok (ni): 960 személyből n1 = 708, n2 = 109, n3 = 122 (egyéb: 21) Várt/elméleti gyakoriságok (ni): Ha H0 igaz lenne, N = 708+109+122 = 939-ből 313-313-313 lenne a megoszlás.
Eloszlásvizsgálat khi-négyzet-próbával Minél nagyobb az eltérés a kapott (ni) és a várt (ni) gyakoriságok között, annál valószínűbb, hogy H0 nem igaz. Az eltérés egy lehetséges mértéke: c2 = (n1 - n1)2/n1 + (n2 - n2)2/n2 + ... + (ng - ng)2/ng Ha igaz a H0 hipotézis, akkor ez a mennyiség közel khi-négyzet eloszlású, f = g - 1 szabadságfokkal.
A címeres példa számításai ni: 708 109 122 S=939 ni: 313 313 313 S=939 c2 = (708-313)2/313 + (109-313)2/313 + (122-313)2/313 = 498.48 + 277.06 + 116.55 = 892.09 > 9.210 = c20.01 (f = 2) Emiatt a H0 hipotézist elutasítjuk és ezt mondjuk: ‘A 3 címert kedvelők aránya szignifikánsan különbözik.’
Khi-négyzet-próba Feltétel: ni ³ 5 H0: P(x1) = p1, P(x2) = p2 , ... , P(xg) = pg X-minta 0,6 c2 (f=1) 0,4 0,2 (f =g - 1) 0.95 0.05 1 2 3 c2 0.05 c2 < c20.05 c2 ³ c20.05 H0-t megtartjuk HA: Legalább egy i-re P(xi) ¹ pi
2 populáció összehasonlítása 1 diszkrét változó segítségével Példa: Bpestiek és vidékiek között van-e különbség a címerpreferencia tekintetében? Nullhipotézis: A két populációban a címerválasztás eloszlása ugyanaz, vagyis P(xi|Bpest) = P(xi|Vidék), (i = 1, 2, 3) x1 = Koronás, x2 = Kádár, x3 = Kossuth
Kétszempontos gyakorisági/kontingencia táblázat Koronás Kádár Kossuth Össz. Bpest 116 15 32 n1 =163 Vidék 592 94 90 n2 =776 Össz.: 708 109 122 N =939
Kétszempontos gyakorisági táblázat (oszlopösszegek szerinti százalékok) Koronás Kádár Kossuth Össz. Bpest 71.2% 9.2% 19.6% 100% Vidék 76.3% 12.1% 11.6% 100% Együtt: 75.4% 11.6% 13.0% 100%
Az általános khi-négyzet-próba H0 igaz volta esetén f = (g-1)×(h-1) szabadságfokú c2-eloszlást követ. Döntés c2 < c20.05: H0-t 5%-os szinten nem utasítjuk el. c2 ³ c20.05 : H0-t 5%-os szinten elutasítjuk.
A címeres példa eredménye Sorok száma: g = 2 Oszlopok száma: h = 3 Szabadságfok: f = (2-1)×(3-1) = 1×2 = 2 Kritikus értékek: - c20.05 = 5.991 - c20.01 = 9.210 Kiszámított khi-négyzet-érték: c2 = 8.144 Döntés: H0-t 5%-os szinten elutasítjuk.
Alkalmazási feltétel: nij ³ 5 Általános eset Minták X=x X=x X=x3 ... Összesen 1 2 1. minta n n n n 11 12 13 1 2. minta n n n n 21 22 23 2 nij= (ni×mj)/N ... Összesen m m m N 1 2 3 Szabadságfok: f = (g-1)×(h-1) Alkalmazási feltétel: nij ³ 5
2 diszkrét változó eloszlásának összehasonlítása 1 populációban Példa: Középiskolai osztályban előadást tartanak a dohányzás ártalmáról. 36 tanuló közül 8 leszokik, 3 rászokik a dohányzásra. Hatásos-e az előadás? Nullhipotézis: A dohányzás változójának eloszlása az előadás előtt és után ugyanaz. Különbségváltozó: x1= leszokik, x2 = rászokik Nullhipotézis: H0: P(x1) = P(x2)
Képlet és számolás: McNemar-próba Adattáblázat: Dohányzik? Utána igen Utána nem Előtte igen a b = 8 Előtte nem c = 3 d Képlet és számolás: McNemar-próba Alkalmazási feltétel: (b+c)/2 ³ 5, azaz b+c ³ 10
Általánosabb esetek X tetszőleges diszkrét változó, két összetartozó minta: Általános McNemar-próba (vagy más néven: Bowker-próba) X dichotóm, h számú összetartozó minta: Cochran-féle Q-próba
2 diszkrét változó kapcsolatának vizsgálata 15 éves lányok Könnyen teremt baráti kapcsolatokat Függetlenségvizsgálat ~ homogenitásvizsgálat
Sorösszegek szerinti százalékok táblázata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 86.1% 13.9% 100% Nem 58.0% 42.0% 100% Összesen 61.7% 38.3% 100%
Oszlopösszegek szerinti százalékok táblázata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 18.3% 5.0% 13.1% Nem 81.7% 95.0% 86.9% Összesen 100.0% 100.0% 100.0%
A kapcsolat szorosságának mérése diszkrét változók esetén Cramér-féle kontingencia-együttható: Ordinális skálájú változók esetén: Kendall-féle G Dichotóm változók esetén: G = y (= Yule-féle Q)
Néhány összefüggés a kapcsolati mutatókra 0 £ V £ 1, -1 £ G £ 1 Független X és Y változó esetén: V = G = 0. Dichotóm változók esetén: V = j és G = y (= Yule-féle Q). A fenti gyakorisági táblázathoz kapcsolódóan V = j = 0.195 és G = y = 0.635