Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Illeszkedés vizsgálat

Hasonló előadás


Az előadások a következő témára: "Illeszkedés vizsgálat"— Előadás másolata:

1 Illeszkedés vizsgálat

2 Példa: lórugások a porosz hadseregben
Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson eloszlású valószínűségi változó a megfigyelt és várt gyakoriságokat összevetve ez reálisnak tűnik, de azért jó lenne valamilyen tesztet végezni Milyen eloszlású valószínűségi változó azoknak az eseteknek a száma, amikor 1 halálos baleset történt 1 hadtestben 1 év alatt?

3 Illeszkedésvizsgálat c2 próbával
Közelítsük az (n,p) paraméterű binomiális eloszlást (m,s) paraméterű normális eloszlással! m=np s2=np(1-p)=np-np2np

4 Illeszkedésvizsgálat c2 próbával 2.
Jelöljük a megfigyelt gyakoriságokat O1, O2, ...,Oi, ..., Or-rel. Alkalmazva a normális eloszlással való közelítést, az valószínűségi változók megközelítőleg standard normális eloszlásúak, ha a nullhipotézis igaz Végezzünk tesztet minden ilyen változóra külön? Az túl hosszadalmas lenne, és megnőne az elsőfajú hiba valószínűsége. Egyetlen számba kellene sűríteni az információt, és arra tesztet csinálni.

5 Illeszkedésvizsgálat c2 próbával 3.
Ha a nullhipotézis igaz, akkor a valószínűségi változó khi-négyzet eloszlású. Mivel nem független normális eloszlású valószínűségi változók négyzetösszegéről van szó, a szabadsági fok kisebb, mint az összeg tagjainak száma 1-el, mert a összes esetek száma rögzített, további 1-el minden olyan paraméternél, amit a mintából számoltunk, és felhasználtunk a várt értékek kiszámításánál.

6 Illeszkedésvizsgálat c2 próbával 4.
A próba feltételei: ahhoz, hogy a normális eloszlás ne térjen el nagyon a binomiálistól n és npi legyen nagy Ökölszabály Régen: minden kategóriába essen legalább 5 (inkább 10 megfigyelés) Újabban: 2 megfigyelés/kategória elég, illetve a várt gyakoriság legyen legalább 1 minden kategóriában Ha a feltételek nem teljesülnek kategóriákat kell összevonni.

7 Tiszta illeszkedésvizsgálat
a feltételezett eloszlás típusát és paramétereinek értékét a priori ismerjük ezekkel az előre ismert paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú és adott paraméterű eloszlásból khi-négyzet eloszlás szabadsági foka = kategóriák száma - 1

8 Becsléses illeszkedésvizsgálat
a priori csak a feltételezett eloszlás típusát ismerjük a paramétereinek értékét a mintából becsüljük ezekkel a becsült paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú eloszlásból (tetszőleges paraméterek mellett) khi-négyzet eloszlás szabadsági foka = kategóriák száma - mintából becsült paraméterek száma - 1

9 Illeszkedésvizsgálat likelihood-ratio teszttel 1.
Az O1, O2, ...,Oi, ..., Or megfigyelt gyakoriságeloszlást modellezhetjük úgy, hogy minden kategóriához megadjuk a hozzátartozó gyakoriságot Vagy modellezhetjük úgy, hogy az egyes esetekhez tartozó valószínűségeket valamilyen nevezetes eloszlás - például Poisson eloszlás - alapján számoljuk Az első esetben abszolult pontos az illeszkedés, de nagyon sok paraméterű, nagyon bonyolult a modell A második esetben a modell egyszerűbb, de az illeszkedés rosszabb Amikor modellszelekciót végzünk a két szempont (egyszerűség és jó illeszkedés a valósághoz) között egyensúlyozunk

10 Illeszkedésvizsgálat likelihood-ratio teszttel 2.
A likelihood-ratio teszt egy elég általános megoldás ilyen problémákra Mindkét modell alapján elvégezzük a paraméterek maximum likelihood becslését Kiszámítjuk a két likelihood hányadosát (innen az elnevezés), vagyis azt, hogy a bonyolultabb modell alapján hányszor valószínűbbek a kapott értékek Vesszük a hányados logaritmusát és megszorozzuk kettővel  az igy kapott próbastatisztika megközelítőleg khi-négyzet eloszlású Azt is figyelembe kell venni, hogy a különböző modellek, különböző bonyolultságúak  a khi-négyzet eloszlás szabadsági foka egyenlő a paraméterek számának különbségével.

11 Illeszkedésvizsgálat likelihood-ratio teszttel 3.
Illeszkedésvizsgálatnál a próbastatisztika: A lilelihood ratio tesztet szokták ML-Chi-négyzet vagy G tesztnek is nevezni.

12 Feladat Végezzetek becsléses illeszkedésvizsgálatot khi-négyzet és ML-arány teszttel a 12 gyermekes szász családokban a lányok számára, feltételezve, hogy az eloszlás binomiális és p=átlag/12! Végezzétek el a tiszta illeszkedésvizsgálatot ML-arány teszttel is!

13 Modellszelekció Az előző feladatban a „szász családok” adatsorra kétféle modellt is illesztettünk. Vajon az, hogy a p paramétert a mintából becsültük szignifikánsan javította a modell illeszkedését? Ha igen, akkor a paraméter értéke szignifikánsan eltér a feltételezettől. Ez a probléma tipikusan modellszelekció: a kétféle modellt összehasonlíthatjuk ML-arány teszttel. Szerencsére nem kell kiszámítania likelihoodokat, az illeszkedésnél kiszámolt két statisztika különbsége a próbastatisztika. Ha az illeszkedés javulása nem szignifikáns, a próbastatisztika megközelítőleg khi-négyzet eloszlást követ, amelynek szabadsági foka a két modellhez tartozó szabadsági fokok különbsége. Fontos: a két modell csak akkor összehasonlítható, ha az egyik feltevései, a másik feltevéseinek részhalmaza.

14 Illeszkedésvizsgálat folytonos eloszlásokra 1.
kategóriákra osztom a folytonos változót, és utána elvégezhető a khi-négyzet próba HÁTRÁNYA: a kategorizálás önkényes a kategorizálás esetenként jelentősen befolyásolhatja az eredményt Ne alkalmazzuk!

15 Illeszkedésvizsgálat folytonos eloszlásokra 2.
egymintás Kolmogorov-Szmirnov próba a próbastatisztika az elméleti eloszlásfüggvény és a megfigyelt kumulativ relativ gyakoriságok közötti legnagyobb különbség eredetileg csak tiszta illeszkedésvizsgálatra használható becsléses illeszkedésvizsgálatnál, ha normális eloszlást illesztünk alkalmazható a Lillefors korrekció

16 Illeszkedésvizsgálat folytonos eloszlásokra 3.
speciális próbák a normalitás ellenőrzésére Shapiro-Wilk próba D’Agostino-Pearson K2 teszt és biztos van még más is Jellemzőjük: erre a problémára vannak kihegyezve kisebb eltérést is észrevesznek, ami nem feltétlenül előny, mert a normalitást feltételező tesztek általában robosztusak

17 Grafikus illeszkedés vizsgálat: QQ-ábra
ha jó az illeszkedés, a sorbarendezett minta i-dik eleme közel van az elméleti eloszlás i/n kvantiliséhez például a 10 elemű minta 5. eleme közel kell essen a mediánhoz QQ-ábra: a vízszintes tengelyen a feltételezett eloszlás kvantilisei a függőleges tengelyen a sorberendezett minta elemei az értékeknek egy egyenesre kell illeszkedniük.

18 Feladat Töltsétek be a solidago.csv adatsort!
Készítsetek QQ-ábrát a hajtás magasságra és a föld feletti tömegre! Csináljátok meg ugyanezeket az ábrákat csak a nedves („n”) site virágzó hajtásaira!

19 Függetlenség vizsgálat

20 Haj- és szemszín adatok Badenből
Vajon a szem- és hajszín között van összefüggés?

21 Függetlenség vizsgálat 1.
A kontingencia tábla belseje tulajdonképpen egy megfigyelt diszkrét gyakoriságeloszlás, például a szőke, kék szemű emberek gyakorisága 1768 a 6800 emberből álló mintában Ezt kellene összehasonlítani egy elméleti eloszlással, ahol az egyes hajszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban az egyes szemszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban a szem- és hajszín kategóriák függetlenek

22 Függetlenség vizsgálat 2.
H0: a két vizsgált tulajdonság független Ismétlés: a független események együttes bekövetkezésének valószínűsége az események valószínűségeinek szorzata H1: a két vizsgált tulajdonság nem független.

23 Függetlenség vizsgálat 3.
Első lépés: a várt gyakoriságok kiszámítása

24 Függetlenség vizsgálat 3.
Második lépés: a várt és megfigyelt gyakoriságok összehasonlítása khi-négyzet vagy G próbával. szabadsági fok = (sorok száma - 1)*(oszlopok száma - 1)

25 Többdimenziós kontingencitáblák
Ha az előző példában egy harmadik jellemzőt (pl. bőrszín) is figyelembe vennénk, akkor 3 dimenziós kontingencia táblát kapnánk Egy ilyen esetben nagyon sokféle modell felírható. Például: mind a három tulajdonság független egymástól a szemszín és a hajszín összefügg, de független a bőrszíntől szemszín összefüggése a hajszínnel más a kreol és a feher bőrűek esetén. stb Itt van igazán nagy szerepe a modellszelekciónak!

26 A kapcsolat erősségének mérése 1.
A c2 statisztika nem alkalmas a kapcsolat erősségének mérésére, mert értéke függ a megfigyelések számától. A belőle levezethető asszociáltsági mérőszámok: f és Pearson kontingencia koefficiens - értékük függ a táblázat méretétől Csuprov (Tschuprow)-féle T2 és Cramer-féle C - a táblázat méretét is figyelembe veszik

27 A kapcsolat erősségének mérése 2.
Információelméleti mérőszámok kölcsönös információ standardizált formája a a koherencia együttható - értéke 0 és 1 között változik Az egyik változó értékének ismerete mennyire csökkenti a másik becslésének hibáját? Guttman-féle lambda Goodman-Kruskal tau van aszimmetrikus formájuk (egyikből jósolom a másikat) és szimmetrikus (a két aszimmetrikus átlaga)

28 Homogenitás vizsgálat

29 Problémafelvetés Példa: a solidago.csv adatsorban a tarackok számának eloszlása azonos a száraz és a nedves helyen? Általánosan: két vagy több megfigyelt gyakoriságeloszlás származhat-e ugyanabból az alapsokaságból?

30 Homogenitás vizsgálat: diszkrét adatokra
Az egyes eloszlások azonosítására bevezetünk egy új nominális változót. (solidago.csv file-ban ez a site nevű változó) Ha a gyakoriságeloszlások homogének, akkor a gyakoriságok függetlenek az új változótól Vagyis a homogenitás vizsgálat visszavezethető a függetlenség vizsgálatra Végezzétek el a példában szereplő homogenitás vizsgálatot!

31 Homogenitás vizsgálat: folytonos adatokra
Kétmintás Kolmogorov-Szmirnov próba: nullhipotézis: a két megfigyelt kumulatív relatív gyakoriság ugyanannak az eloszlasfüggvénynek a becslése; F(Y)=G(Y) kétoldali alternatívhipotézis: F(Y)G(Y) próbastatisztika: a megfigyelt kumulatív gyakoriságok közötti maximális eltérés egyoldali alternatívhipotézis: F(Y)>G(Y) próbastatisztika: a kis (30-nál kisebb) méretű mintáknál célszerű egzakt tesztet végezni, amit egyes könyvek Gnyegyenko-Koroljuk próbának neveznek. Ha a két mintaméret szorzata kisebb mint 10000, az R alapértelmezésben egzakt tesztet csinál


Letölteni ppt "Illeszkedés vizsgálat"

Hasonló előadás


Google Hirdetések