Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Illeszkedés vizsgálat. Példa: lórugások a porosz hadseregben Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson.

Hasonló előadás


Az előadások a következő témára: "Illeszkedés vizsgálat. Példa: lórugások a porosz hadseregben Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson."— Előadás másolata:

1 Illeszkedés vizsgálat

2 Példa: lórugások a porosz hadseregben Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson eloszlású valószínűségi változó a megfigyelt és várt gyakoriságokat összevetve ez reálisnak tűnik, de azért jó lenne valamilyen tesztet végezni Milyen eloszlású valószínűségi változó azoknak az eseteknek a száma, amikor 1 halálos baleset történt 1 hadtestben 1 év alatt?

3 Illeszkedésvizsgálat  2 próbával Közelítsük az (n,p) paraméterű binomiális eloszlást (m,  ) paraméterű normális eloszlással! m=np   =np(1-p)=np-np 2  np

4 Illeszkedésvizsgálat  2 próbával 2. Jelöljük a megfigyelt gyakoriságokat O 1, O 2,...,O i,..., O r - rel. Alkalmazva a normális eloszlással való közelítést, az valószínűségi változók megközelítőleg standard normális eloszlásúak, ha a nullhipotézis igaz Végezzünk tesztet minden ilyen változóra külön? Az túl hosszadalmas lenne, és megnőne az elsőfajú hiba valószínűsége. Egyetlen számba kellene sűríteni az információt, és arra tesztet csinálni.

5 Illeszkedésvizsgálat  2 próbával 3. Ha a nullhipotézis igaz, akkor a valószínűségi változó khi-négyzet eloszlású. Mivel nem független normális eloszlású valószínűségi változók négyzetösszegéről van szó, a szabadsági fok kisebb, mint az összeg tagjainak száma –1-el, mert a összes esetek száma rögzített, –további 1-el minden olyan paraméternél, amit a mintából számoltunk, és felhasználtunk a várt értékek kiszámításánál.

6 Illeszkedésvizsgálat  2 próbával 4. A próba feltételei: –ahhoz, hogy a normális eloszlás ne térjen el nagyon a binomiálistól n és np i legyen nagy Ökölszabály –Régen: minden kategóriába essen legalább 5 (inkább 10 megfigyelés) –Újabban: 2 megfigyelés/kategória elég, illetve a várt gyakoriság legyen legalább 1 minden kategóriában Ha a feltételek nem teljesülnek kategóriákat kell összevonni.

7 Tiszta illeszkedésvizsgálat a feltételezett eloszlás típusát és paramétereinek értékét a priori ismerjük ezekkel az előre ismert paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú és adott paraméterű eloszlásból khi-négyzet eloszlás szabadsági foka = kategóriák száma - 1

8 Becsléses illeszkedésvizsgálat a priori csak a feltételezett eloszlás típusát ismerjük a paramétereinek értékét a mintából becsüljük ezekkel a becsült paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú eloszlásból (tetszőleges paraméterek mellett) khi-négyzet eloszlás szabadsági foka = kategóriák száma - mintából becsült paraméterek száma - 1

9 Illeszkedésvizsgálat likelihood-ratio teszttel 1. Az O 1, O 2,...,O i,..., O r megfigyelt gyakoriságeloszlást modellezhetjük úgy, hogy minden kategóriához megadjuk a hozzátartozó gyakoriságot Vagy modellezhetjük úgy, hogy az egyes esetekhez tartozó valószínűségeket valamilyen nevezetes eloszlás - például Poisson eloszlás - alapján számoljuk Az első esetben abszolult pontos az illeszkedés, de nagyon sok paraméterű, nagyon bonyolult a modell A második esetben a modell egyszerűbb, de az illeszkedés rosszabb Amikor modellszelekciót végzünk a két szempont (egyszerűség és jó illeszkedés a valósághoz) között egyensúlyozunk

10 Illeszkedésvizsgálat likelihood-ratio teszttel 2. A likelihood-ratio teszt egy elég általános megoldás ilyen problémákra Mindkét modell alapján elvégezzük a paraméterek maximum likelihood becslését Kiszámítjuk a két likelihood hányadosát (innen az elnevezés), vagyis azt, hogy a bonyolultabb modell alapján hányszor valószínűbbek a kapott értékek Vesszük a hányados logaritmusát és megszorozzuk kettővel  az igy kapott próbastatisztika megközelítőleg khi-négyzet eloszlású Azt is figyelembe kell venni, hogy a különböző modellek, különböző bonyolultságúak  a khi-négyzet eloszlás szabadsági foka egyenlő a paraméterek számának különbségével.

11 Illeszkedésvizsgálat likelihood-ratio teszttel 3. Illeszkedésvizsgálatnál a próbastatisztika: A lilelihood ratio tesztet szokták ML-Chi-négyzet vagy G tesztnek is nevezni.

12 Feladat Végezzetek becsléses illeszkedésvizsgálatot khi-négyzet és ML- arány teszttel a 12 gyermekes szász családokban a lányok számára, feltételezve, hogy az eloszlás binomiális és p=átlag/12! Végezzétek el a tiszta illeszkedésvizsgálatot ML-arány teszttel is!

13 Modellszelekció Az előző feladatban a „szász családok” adatsorra kétféle modellt is illesztettünk. Vajon az, hogy a p paramétert a mintából becsültük szignifikánsan javította a modell illeszkedését? Ha igen, akkor a paraméter értéke szignifikánsan eltér a feltételezettől. Ez a probléma tipikusan modellszelekció: a kétféle modellt összehasonlíthatjuk ML-arány teszttel. Szerencsére nem kell kiszámítania likelihoodokat, az illeszkedésnél kiszámolt két statisztika különbsége a próbastatisztika. Ha az illeszkedés javulása nem szignifikáns, a próbastatisztika megközelítőleg khi-négyzet eloszlást követ, amelynek szabadsági foka a két modellhez tartozó szabadsági fokok különbsége. Fontos: a két modell csak akkor összehasonlítható, ha az egyik feltevései, a másik feltevéseinek részhalmaza.

14 Illeszkedésvizsgálat folytonos eloszlásokra 1. kategóriákra osztom a folytonos változót, és utána elvégezhető a khi-négyzet próba –HÁTRÁNYA: a kategorizálás önkényes a kategorizálás esetenként jelentősen befolyásolhatja az eredményt –Ne alkalmazzuk!

15 Illeszkedésvizsgálat folytonos eloszlásokra 2. egymintás Kolmogorov-Szmirnov próba –a próbastatisztika az elméleti eloszlásfüggvény és a megfigyelt kumulativ relativ gyakoriságok közötti legnagyobb különbség –eredetileg csak tiszta illeszkedésvizsgálatra használható –becsléses illeszkedésvizsgálatnál, ha normális eloszlást illesztünk alkalmazható a Lillefors korrekció

16 Illeszkedésvizsgálat folytonos eloszlásokra 3. speciális próbák a normalitás ellenőrzésére –Shapiro-Wilk próba –D’Agostino-Pearson K 2 teszt –és biztos van még más is –Jellemzőjük: erre a problémára vannak kihegyezve kisebb eltérést is észrevesznek, ami nem feltétlenül előny, mert a normalitást feltételező tesztek általában robosztusak

17 Grafikus illeszkedés vizsgálat: QQ-ábra ha jó az illeszkedés, a sorbarendezett minta i-dik eleme közel van az elméleti eloszlás i/n kvantiliséhez például a 10 elemű minta 5. eleme közel kell essen a mediánhoz QQ-ábra: –a vízszintes tengelyen a feltételezett eloszlás kvantilisei –a függőleges tengelyen a sorberendezett minta elemei –az értékeknek egy egyenesre kell illeszkedniük.

18 Feladat Töltsétek be a solidago.csv adatsort! Készítsetek QQ-ábrát a hajtás magasságra és a föld feletti tömegre! Csináljátok meg ugyanezeket az ábrákat csak a nedves („n”) site virágzó hajtásaira!

19 Függetlenség vizsgálat

20 Haj- és szemszín adatok Badenből Vajon a szem- és hajszín között van összefüggés?

21 Függetlenség vizsgálat 1. A kontingencia tábla belseje tulajdonképpen egy megfigyelt diszkrét gyakoriságeloszlás, például a szőke, kék szemű emberek gyakorisága 1768 a 6800 emberből álló mintában Ezt kellene összehasonlítani egy elméleti eloszlással, ahol –az egyes hajszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban –az egyes szemszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban –a szem- és hajszín kategóriák függetlenek

22 Függetlenség vizsgálat 2. H 0 : a két vizsgált tulajdonság független Ismétlés: a független események együttes bekövetkezésének valószínűsége az események valószínűségeinek szorzata H 1 : a két vizsgált tulajdonság nem független.

23 Függetlenség vizsgálat 3. Első lépés: a várt gyakoriságok kiszámítása

24 Függetlenség vizsgálat 3. Második lépés: a várt és megfigyelt gyakoriságok összehasonlítása khi-négyzet vagy G próbával. –szabadsági fok = (sorok száma - 1)*(oszlopok száma - 1)

25 Többdimenziós kontingencitáblák Ha az előző példában egy harmadik jellemzőt (pl. bőrszín) is figyelembe vennénk, akkor 3 dimenziós kontingencia táblát kapnánk Egy ilyen esetben nagyon sokféle modell felírható. Például: –mind a három tulajdonság független egymástól –a szemszín és a hajszín összefügg, de független a bőrszíntől –szemszín összefüggése a hajszínnel más a kreol és a feher bőrűek esetén. –stb Itt van igazán nagy szerepe a modellszelekciónak!

26 A kapcsolat erősségének mérése 1. A  2 statisztika nem alkalmas a kapcsolat erősségének mérésére, mert értéke függ a megfigyelések számától. A belőle levezethető asszociáltsági mérőszámok: –  és Pearson kontingencia koefficiens - értékük függ a táblázat méretétől –Csuprov (Tschuprow)-féle T 2 és Cramer-féle C - a táblázat méretét is figyelembe veszik

27 A kapcsolat erősségének mérése 2. Információelméleti mérőszámok –kölcsönös információ –standardizált formája a a koherencia együttható - értéke 0 és 1 között változik Az egyik változó értékének ismerete mennyire csökkenti a másik becslésének hibáját? –Guttman-féle lambda –Goodman-Kruskal tau –van aszimmetrikus formájuk (egyikből jósolom a másikat) és szimmetrikus (a két aszimmetrikus átlaga)

28 Homogenitás vizsgálat

29 Problémafelvetés Példa: a solidago.csv adatsorban a tarackok számának eloszlása azonos a száraz és a nedves helyen? Általánosan: két vagy több megfigyelt gyakoriságeloszlás származhat-e ugyanabból az alapsokaságból?

30 Homogenitás vizsgálat: diszkrét adatokra Az egyes eloszlások azonosítására bevezetünk egy új nominális változót. (solidago.csv file-ban ez a site nevű változó) Ha a gyakoriságeloszlások homogének, akkor a gyakoriságok függetlenek az új változótól Vagyis a homogenitás vizsgálat visszavezethető a függetlenség vizsgálatra Végezzétek el a példában szereplő homogenitás vizsgálatot!

31 Homogenitás vizsgálat: folytonos adatokra Kétmintás Kolmogorov-Szmirnov próba: –nullhipotézis: a két megfigyelt kumulatív relatív gyakoriság ugyanannak az eloszlasfüggvénynek a becslése; F(Y)=G(Y) –kétoldali alternatívhipotézis: F(Y)  G(Y) próbastatisztika: a megfigyelt kumulatív gyakoriságok közötti maximális eltérés –egyoldali alternatívhipotézis: F(Y)>G(Y) próbastatisztika: –a kis (30-nál kisebb) méretű mintáknál célszerű egzakt tesztet végezni, amit egyes könyvek Gnyegyenko-Koroljuk próbának neveznek. Ha a két mintaméret szorzata kisebb mint 10000, az R alapértelmezésben egzakt tesztet csinál


Letölteni ppt "Illeszkedés vizsgálat. Példa: lórugások a porosz hadseregben Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson."

Hasonló előadás


Google Hirdetések