Illeszkedés vizsgálat
Példa: lórugások a porosz hadseregben Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson eloszlású valószínűségi változó a megfigyelt és várt gyakoriságokat összevetve ez reálisnak tűnik, de azért jó lenne valamilyen tesztet végezni Milyen eloszlású valószínűségi változó azoknak az eseteknek a száma, amikor 1 halálos baleset történt 1 hadtestben 1 év alatt?
Illeszkedésvizsgálat c2 próbával Közelítsük az (n,p) paraméterű binomiális eloszlást (m,s) paraméterű normális eloszlással! m=np s2=np(1-p)=np-np2np
Illeszkedésvizsgálat c2 próbával 2. Jelöljük a megfigyelt gyakoriságokat O1, O2, ...,Oi, ..., Or-rel. Alkalmazva a normális eloszlással való közelítést, az valószínűségi változók megközelítőleg standard normális eloszlásúak, ha a nullhipotézis igaz Végezzünk tesztet minden ilyen változóra külön? Az túl hosszadalmas lenne, és megnőne az elsőfajú hiba valószínűsége. Egyetlen számba kellene sűríteni az információt, és arra tesztet csinálni.
Illeszkedésvizsgálat c2 próbával 3. Ha a nullhipotézis igaz, akkor a valószínűségi változó khi-négyzet eloszlású. Mivel nem független normális eloszlású valószínűségi változók négyzetösszegéről van szó, a szabadsági fok kisebb, mint az összeg tagjainak száma 1-el, mert a összes esetek száma rögzített, további 1-el minden olyan paraméternél, amit a mintából számoltunk, és felhasználtunk a várt értékek kiszámításánál.
Illeszkedésvizsgálat c2 próbával 4. A próba feltételei: ahhoz, hogy a normális eloszlás ne térjen el nagyon a binomiálistól n és npi legyen nagy Ökölszabály Régen: minden kategóriába essen legalább 5 (inkább 10 megfigyelés) Újabban: 2 megfigyelés/kategória elég, illetve a várt gyakoriság legyen legalább 1 minden kategóriában Ha a feltételek nem teljesülnek kategóriákat kell összevonni.
Tiszta illeszkedésvizsgálat a feltételezett eloszlás típusát és paramétereinek értékét a priori ismerjük ezekkel az előre ismert paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú és adott paraméterű eloszlásból khi-négyzet eloszlás szabadsági foka = kategóriák száma - 1
Becsléses illeszkedésvizsgálat a priori csak a feltételezett eloszlás típusát ismerjük a paramétereinek értékét a mintából becsüljük ezekkel a becsült paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú eloszlásból (tetszőleges paraméterek mellett) khi-négyzet eloszlás szabadsági foka = kategóriák száma - mintából becsült paraméterek száma - 1
Illeszkedésvizsgálat likelihood-ratio teszttel 1. Az O1, O2, ...,Oi, ..., Or megfigyelt gyakoriságeloszlást modellezhetjük úgy, hogy minden kategóriához megadjuk a hozzátartozó gyakoriságot Vagy modellezhetjük úgy, hogy az egyes esetekhez tartozó valószínűségeket valamilyen nevezetes eloszlás - például Poisson eloszlás - alapján számoljuk Az első esetben abszolult pontos az illeszkedés, de nagyon sok paraméterű, nagyon bonyolult a modell A második esetben a modell egyszerűbb, de az illeszkedés rosszabb Amikor modellszelekciót végzünk a két szempont (egyszerűség és jó illeszkedés a valósághoz) között egyensúlyozunk
Illeszkedésvizsgálat likelihood-ratio teszttel 2. A likelihood-ratio teszt egy elég általános megoldás ilyen problémákra Mindkét modell alapján elvégezzük a paraméterek maximum likelihood becslését Kiszámítjuk a két likelihood hányadosát (innen az elnevezés), vagyis azt, hogy a bonyolultabb modell alapján hányszor valószínűbbek a kapott értékek Vesszük a hányados logaritmusát és megszorozzuk kettővel az igy kapott próbastatisztika megközelítőleg khi-négyzet eloszlású Azt is figyelembe kell venni, hogy a különböző modellek, különböző bonyolultságúak a khi-négyzet eloszlás szabadsági foka egyenlő a paraméterek számának különbségével.
Illeszkedésvizsgálat likelihood-ratio teszttel 3. Illeszkedésvizsgálatnál a próbastatisztika: A lilelihood ratio tesztet szokták ML-Chi-négyzet vagy G tesztnek is nevezni.
Feladat Végezzetek becsléses illeszkedésvizsgálatot khi-négyzet és ML-arány teszttel a 12 gyermekes szász családokban a lányok számára, feltételezve, hogy az eloszlás binomiális és p=átlag/12! Végezzétek el a tiszta illeszkedésvizsgálatot ML-arány teszttel is!
Modellszelekció Az előző feladatban a „szász családok” adatsorra kétféle modellt is illesztettünk. Vajon az, hogy a p paramétert a mintából becsültük szignifikánsan javította a modell illeszkedését? Ha igen, akkor a paraméter értéke szignifikánsan eltér a feltételezettől. Ez a probléma tipikusan modellszelekció: a kétféle modellt összehasonlíthatjuk ML-arány teszttel. Szerencsére nem kell kiszámítania likelihoodokat, az illeszkedésnél kiszámolt két statisztika különbsége a próbastatisztika. Ha az illeszkedés javulása nem szignifikáns, a próbastatisztika megközelítőleg khi-négyzet eloszlást követ, amelynek szabadsági foka a két modellhez tartozó szabadsági fokok különbsége. Fontos: a két modell csak akkor összehasonlítható, ha az egyik feltevései, a másik feltevéseinek részhalmaza.
Illeszkedésvizsgálat folytonos eloszlásokra 1. kategóriákra osztom a folytonos változót, és utána elvégezhető a khi-négyzet próba HÁTRÁNYA: a kategorizálás önkényes a kategorizálás esetenként jelentősen befolyásolhatja az eredményt Ne alkalmazzuk!
Illeszkedésvizsgálat folytonos eloszlásokra 2. egymintás Kolmogorov-Szmirnov próba a próbastatisztika az elméleti eloszlásfüggvény és a megfigyelt kumulativ relativ gyakoriságok közötti legnagyobb különbség eredetileg csak tiszta illeszkedésvizsgálatra használható becsléses illeszkedésvizsgálatnál, ha normális eloszlást illesztünk alkalmazható a Lillefors korrekció
Illeszkedésvizsgálat folytonos eloszlásokra 3. speciális próbák a normalitás ellenőrzésére Shapiro-Wilk próba D’Agostino-Pearson K2 teszt és biztos van még más is Jellemzőjük: erre a problémára vannak kihegyezve kisebb eltérést is észrevesznek, ami nem feltétlenül előny, mert a normalitást feltételező tesztek általában robosztusak
Grafikus illeszkedés vizsgálat: QQ-ábra ha jó az illeszkedés, a sorbarendezett minta i-dik eleme közel van az elméleti eloszlás i/n kvantiliséhez például a 10 elemű minta 5. eleme közel kell essen a mediánhoz QQ-ábra: a vízszintes tengelyen a feltételezett eloszlás kvantilisei a függőleges tengelyen a sorberendezett minta elemei az értékeknek egy egyenesre kell illeszkedniük.
Feladat Töltsétek be a solidago.csv adatsort! Készítsetek QQ-ábrát a hajtás magasságra és a föld feletti tömegre! Csináljátok meg ugyanezeket az ábrákat csak a nedves („n”) site virágzó hajtásaira!
Függetlenség vizsgálat
Haj- és szemszín adatok Badenből Vajon a szem- és hajszín között van összefüggés?
Függetlenség vizsgálat 1. A kontingencia tábla belseje tulajdonképpen egy megfigyelt diszkrét gyakoriságeloszlás, például a szőke, kék szemű emberek gyakorisága 1768 a 6800 emberből álló mintában Ezt kellene összehasonlítani egy elméleti eloszlással, ahol az egyes hajszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban az egyes szemszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban a szem- és hajszín kategóriák függetlenek
Függetlenség vizsgálat 2. H0: a két vizsgált tulajdonság független Ismétlés: a független események együttes bekövetkezésének valószínűsége az események valószínűségeinek szorzata H1: a két vizsgált tulajdonság nem független.
Függetlenség vizsgálat 3. Első lépés: a várt gyakoriságok kiszámítása
Függetlenség vizsgálat 3. Második lépés: a várt és megfigyelt gyakoriságok összehasonlítása khi-négyzet vagy G próbával. szabadsági fok = (sorok száma - 1)*(oszlopok száma - 1)
Többdimenziós kontingencitáblák Ha az előző példában egy harmadik jellemzőt (pl. bőrszín) is figyelembe vennénk, akkor 3 dimenziós kontingencia táblát kapnánk Egy ilyen esetben nagyon sokféle modell felírható. Például: mind a három tulajdonság független egymástól a szemszín és a hajszín összefügg, de független a bőrszíntől szemszín összefüggése a hajszínnel más a kreol és a feher bőrűek esetén. stb Itt van igazán nagy szerepe a modellszelekciónak!
A kapcsolat erősségének mérése 1. A c2 statisztika nem alkalmas a kapcsolat erősségének mérésére, mert értéke függ a megfigyelések számától. A belőle levezethető asszociáltsági mérőszámok: f és Pearson kontingencia koefficiens - értékük függ a táblázat méretétől Csuprov (Tschuprow)-féle T2 és Cramer-féle C - a táblázat méretét is figyelembe veszik
A kapcsolat erősségének mérése 2. Információelméleti mérőszámok kölcsönös információ standardizált formája a a koherencia együttható - értéke 0 és 1 között változik Az egyik változó értékének ismerete mennyire csökkenti a másik becslésének hibáját? Guttman-féle lambda Goodman-Kruskal tau van aszimmetrikus formájuk (egyikből jósolom a másikat) és szimmetrikus (a két aszimmetrikus átlaga)
Homogenitás vizsgálat
Problémafelvetés Példa: a solidago.csv adatsorban a tarackok számának eloszlása azonos a száraz és a nedves helyen? Általánosan: két vagy több megfigyelt gyakoriságeloszlás származhat-e ugyanabból az alapsokaságból?
Homogenitás vizsgálat: diszkrét adatokra Az egyes eloszlások azonosítására bevezetünk egy új nominális változót. (solidago.csv file-ban ez a site nevű változó) Ha a gyakoriságeloszlások homogének, akkor a gyakoriságok függetlenek az új változótól Vagyis a homogenitás vizsgálat visszavezethető a függetlenség vizsgálatra Végezzétek el a példában szereplő homogenitás vizsgálatot!
Homogenitás vizsgálat: folytonos adatokra Kétmintás Kolmogorov-Szmirnov próba: nullhipotézis: a két megfigyelt kumulatív relatív gyakoriság ugyanannak az eloszlasfüggvénynek a becslése; F(Y)=G(Y) kétoldali alternatívhipotézis: F(Y)G(Y) próbastatisztika: a megfigyelt kumulatív gyakoriságok közötti maximális eltérés egyoldali alternatívhipotézis: F(Y)>G(Y) próbastatisztika: a kis (30-nál kisebb) méretű mintáknál célszerű egzakt tesztet végezni, amit egyes könyvek Gnyegyenko-Koroljuk próbának neveznek. Ha a két mintaméret szorzata kisebb mint 10000, az R alapértelmezésben egzakt tesztet csinál