Többváltozós adatelemzés 2. előadás
Keresztábla elemzés Más néven kontingencia tábla Két kategória változó együttes eloszlását mutataja Általában nominális vagy ordinális mérési szintű változókra használjuk
Kereszttábla
Kereszttábla
Kereszttábla
Mit vizsgálunk? Független-e a két változó eloszlása, vagy valamilyen (a véletlen ingadozáson túlmutató) összefüggés van a változók között. Pl.: akik tornateremmel rendelkeznek, nagyobb valószínűséggel rendelkeznek könyvtárral is. Pl.: vannak olyan fenntartók, akik nagyobb gondot fordítanak (több forrás áll rendelkezésükre) a tornateremre.
Hogy vizsgáljuk Amennyiben a változók függetlenek, akkor az együttes bekövetkezési valószínűség a parciális bekövetkezési valószínűségek szorzata.
Független vs. tényleges
Függetlenség tesztelése Pearson: Likelihood arány:
Függetlenség tesztelése
A függetlenség nemcsak az arányoktól függ, hanem a mintanagyságtól is
Asszociáció szorosságának mérése Χ2 alapú mutatószámok: Phi Cramer V Kontingencia együttható
Asszociáció szorossága
Asszociáció szorossága A mutatók értékei 0 és 1 között vannak (elméleti határ) 0, ha nincs kapcsolat a két változó között (függetlenség) 1, ha determinisztikus kapcsolat van a két változó között
Az asszociáció mutató számai nem függnek a csoport méretétől
Asszociáció szorosságának mérése PRE (Proportional Reduction of Errors) alapú mutatószámok Guttman féle lambda Azt vizsgálja, hogy mi a legjobb becslés különböző kategóriák esetén, és ezáltal mennyivel csökkenthető a bizonytalanság
Guttman féle lambda
Guttman féle lambda (30-19)+(69-46)+(135-43)+ (343-138)+(171-57)+(70-28)=487 lambda=1-487/(818-239)=1-0,841=0,159 A besorolási bizonytalanság 16%-kal csökkenthető, ha figyelembe vesszük a tanulók szorgalmát A mutató értéke 0 és 1 között van: 0: nem tudunk semmit javítani a besoroláson 1: a besorolás tökéletes (determinisztikus kapcsolat)
Guttman féle lambda
Guttman féle lambda
Guttman féle lambda Hátránya, hogy ha valamelyik kategória gyakrabban fordul elő a többinél, akkor a lamba-ra 0 adódik a szignifikáns kapcsolat esetén is.
Associáció mérése További PRE alapú mutatószámok: Goodman-Kruskal féle tau ‘Uncertainty coefficient’ Nemcsak a leggyakoribb kategóriaértéket veszik figyelembe, hanem a többit is.
PRE alapú mutatószámok
Ordinális változók esetén a kapcsolat szorossága Ordinális változók esetén nemcsak a kacsolat szorosságát lehet meghatározni, hanem annak irányát is (nagyobb értékhez inkább nagyobb érték tartozik, vagy épp fordítva)
Kapcsolat szorossága Goodman Kruskal féle gamma: Hány olyan pár van az adatbázisban, ahol az első változó értékéhez a második változó nagyobb értéke társul Hány olyan pár van, amikor az első változó nagyobb értékéhez a második változó kisebb értéke térsul Hány olyan eset áll fenn, ami egyik fenti kategóriába sem fér bele (ún. csomósodás)
Goodman Kruskal féle gamma Sorszám magatartás szorgalom 1 2 4 3 5 Pozitív irány: 1-3 1-4 2-3 2-4 Negatív irány: 2-5 3-5 4-5 Csomósodás:1-2 1-5 3-4
Goodman Kruskal féle gamma Az értékek kereszttáblából is számolhatók: Pozitív irány: 19*(46+43+56+...+28)+17*(43+56+11+…+28)+ +…+51*28 Negatív irány 17*(7+2+2+0+0)+15*(7+46+2+…+0)+…+ +20*(0+0+1+3+14)
Goodman Kruskal féle gamma Pozitív irányok (concordant) számát jelölje P Negativ irányok (disconcordant) számát jelölje Q gamma=(P-Q)/(P+Q)
Goodman Kruskal féle gamma A mutató értéke -1 és 1 között van. Amennyiben a két változó kapcsolatában nem mutatható ki összefüggés a mutató értéke 0. Ha kimutatható és a nagyobb értékhez nagyobb tartozik, akkor pozitív, ha nagyobb értékhez kisebb tartozik negatív a mutató értéke
Probléma nagysága ötfokú skálán: A tanulók iskolai magatartása Változó gamma Probléma nagysága ötfokú skálán: A tanulók hiányzása 0,548 Probléma nagysága ötfokú skálán: A tanulók szorgalma 0,632 Probléma nagysága ötfokú skálán: A tanárok szaktárgyi felkészültsége 0,279 Probléma nagysága ötfokú skálán: A tanárok módszertani felkészültsége 0,305 Probléma nagysága ötfokú skálán: A tanárok lelki-szellemi kondíciója 0,265 Probléma nagysága ötfokú skálán: A tanárok iskolán kívüli elfoglaltságai 0,179 Probléma nagysága ötfokú skálán: A tankönyvkínálat 0,228 Probléma nagysága ötfokú skálán: A taneszközök megléte illetve hiánya 0,198
További mutatók Abban különböznek, hogy hogyan kezelik a ‘csomósodást’ Sommers féle d Kendall féle tau-b Kendall féle tau-c
További mutatók
Nominális vs. ordinális?
Nominális vs. ordinális?
Vélemények egyezősége Négyzetes táblákra alkalmazható csak, ahol a két vizsgált változó ugyanazokat az értékeket veszi fel Azt vizsgálja csak, hogy a két változó ugyanazokat az értékeket veszi-e fel vagy sem, azaz csak a fődiagonálisban lévő cellákat vizsgálja Tipikus alkalmazása, ha egy kisérlet előtt és után is megkérdezzük a vizsgált személy véleményét, vagy ha két különböző személy (pl házaspár) véleményét kérdezzük ugyanarról a dologról
Vélemények egyezősége
Kappa Kappa értéke: 0, ha az egyezőség csak a véletlennek tudható be, pozitív, ha a vélemények egyeznek (1, ha tökéletes egyezőség van), negatív, ha nem egyeznek (legkisebb értéke nem -1) Inkább csak tesztelésre alkalmas, összehasonlításra nem
Miben különbözik a függetlenség tesztelésétől?
Miben különbözik a függetlenség tesztelésétől?
Szimmetrikusság tesztelése Alapevetően nem a függetlenséget teszteljük, hanem egyfajta változatlanságot Először gyógyszerkisérleteknél alkalmazták. Feljegyezték, hogy egy adott betegség a vizsgált személynél megállapítható-e vagy sem, utána kapott kezelték egy vegyülettel és később megint megvizsgálták, hogy a betegség nála kimutatható-e vagy sem. A kérdés az, hogy a gyógyszernek van-e hatása vagy nincs.
Szimmetrikusság tesztelése Lehet, hogy alapvetően nem független a két időpontban diagnosztizált betegség, mert például a páciens védettséget szerez. Tehát a χ2 teszt nem ad kielégítő bizonyítékot a gyógyszer hatékonyságára
Szimmetrikusság tesztelése