Illeszkedés vizsgálat

Slides:



Advertisements
Hasonló előadás
Nevezetes eloszlások, normál eloszlás
Advertisements

Összetett kísérleti tervek és kiértékelésük:
Hipotézis-ellenőrzés (Statisztikai próbák)
I. előadás.
II. előadás.
Rangszám statisztikák
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Feladat Egy új kísérleti készítmény hatását szeretnék vizsgálni egereken. 5 féle dózist adnak be 5 vizsgált egérnek, de nem sikerült mindegyik egérnek.
Összefüggés vizsgálatok
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
III. előadás.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
III. Sz. Belgyógyászati Klinika
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Kvantitatív módszerek
Fisher-féle egzakt próba Asszociációs mérőszámok
Nemparaméteres próbák Statisztika II., 5. alkalom.
Nemparaméteres próbák
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
STATISZTIKA II. 6. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Kvantitatív Módszerek
Valószínűségszámítás
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Gazdaságstatisztika 18. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Hipotézis vizsgálat.
Alapfogalmak.
Lineáris regresszió.
Többtényezős ANOVA.
avagy Négy halálos lórugás egy év alatt! Mit tesz a kormány?
Adatleírás.
Folytonos eloszlások.
t A kétoldalú statisztikai próba alapfogalmai
Diszkrét változók vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
A számítógépes elemzés alapjai
Kapcsolat vizsgálat II: kontingencia táblák jelentősége és használata az epidemiológiában, diagnosztikában: RR, OR. Dr. Prohászka Zoltán Az MTA doktora.
A számítógépes elemzés alapjai
Konzultáció november 19. Nemparaméteres próbák, egymintás próbák
Kiváltott agyi jelek informatikai feldolgozása 2016
Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák
II. előadás.
Kvantitatív módszerek MBA és Számvitel mesterszak
Hipotéziselmélet Nemparaméteres próbák
Nemparaméteres próbák
Gazdaságinformatikus MSc
Gazdaságinformatika MSc labor
Statisztika segédlet a Statistica programhoz Új verzióknál érdemes a View menüsor alatt a Classic menu-s verziót választani – ehhez készült a segédlet.
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
1.3. Hipotézisvizsgálat, statisztikai próbák
3. Varianciaanalízis (ANOVA)
A normális eloszlásból származó eloszlások
Előadás másolata:

Illeszkedés vizsgálat

Példa: lórugások a porosz hadseregben Korábban feltételeztük, hogy a hadtestenkénti és évenkénti halálos lórugások száma Poisson eloszlású valószínűségi változó a megfigyelt és várt gyakoriságokat összevetve ez reálisnak tűnik, de azért jó lenne valamilyen tesztet végezni Milyen eloszlású valószínűségi változó azoknak az eseteknek a száma, amikor 1 halálos baleset történt 1 hadtestben 1 év alatt?

Illeszkedésvizsgálat c2 próbával Közelítsük az (n,p) paraméterű binomiális eloszlást (m,s) paraméterű normális eloszlással! m=np s2=np(1-p)=np-np2np

Illeszkedésvizsgálat c2 próbával 2. Jelöljük a megfigyelt gyakoriságokat O1, O2, ...,Oi, ..., Or-rel. Alkalmazva a normális eloszlással való közelítést, az valószínűségi változók megközelítőleg standard normális eloszlásúak, ha a nullhipotézis igaz Végezzünk tesztet minden ilyen változóra külön? Az túl hosszadalmas lenne, és megnőne az elsőfajú hiba valószínűsége. Egyetlen számba kellene sűríteni az információt, és arra tesztet csinálni.

Illeszkedésvizsgálat c2 próbával 3. Ha a nullhipotézis igaz, akkor a valószínűségi változó khi-négyzet eloszlású. Mivel nem független normális eloszlású valószínűségi változók négyzetösszegéről van szó, a szabadsági fok kisebb, mint az összeg tagjainak száma 1-el, mert a összes esetek száma rögzített, további 1-el minden olyan paraméternél, amit a mintából számoltunk, és felhasználtunk a várt értékek kiszámításánál.

Illeszkedésvizsgálat c2 próbával 4. A próba feltételei: ahhoz, hogy a normális eloszlás ne térjen el nagyon a binomiálistól n és npi legyen nagy Ökölszabály Régen: minden kategóriába essen legalább 5 (inkább 10 megfigyelés) Újabban: 2 megfigyelés/kategória elég, illetve a várt gyakoriság legyen legalább 1 minden kategóriában Ha a feltételek nem teljesülnek kategóriákat kell összevonni.

Tiszta illeszkedésvizsgálat a feltételezett eloszlás típusát és paramétereinek értékét a priori ismerjük ezekkel az előre ismert paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú és adott paraméterű eloszlásból khi-négyzet eloszlás szabadsági foka = kategóriák száma - 1

Becsléses illeszkedésvizsgálat a priori csak a feltételezett eloszlás típusát ismerjük a paramétereinek értékét a mintából becsüljük ezekkel a becsült paraméter értékekkel számítjuk ki a várt gyakoriságokat azt teszteljük, hogy a minta származhat-e az adott típusú eloszlásból (tetszőleges paraméterek mellett) khi-négyzet eloszlás szabadsági foka = kategóriák száma - mintából becsült paraméterek száma - 1

Illeszkedésvizsgálat likelihood-ratio teszttel 1. Az O1, O2, ...,Oi, ..., Or megfigyelt gyakoriságeloszlást modellezhetjük úgy, hogy minden kategóriához megadjuk a hozzátartozó gyakoriságot Vagy modellezhetjük úgy, hogy az egyes esetekhez tartozó valószínűségeket valamilyen nevezetes eloszlás - például Poisson eloszlás - alapján számoljuk Az első esetben abszolult pontos az illeszkedés, de nagyon sok paraméterű, nagyon bonyolult a modell A második esetben a modell egyszerűbb, de az illeszkedés rosszabb Amikor modellszelekciót végzünk a két szempont (egyszerűség és jó illeszkedés a valósághoz) között egyensúlyozunk

Illeszkedésvizsgálat likelihood-ratio teszttel 2. A likelihood-ratio teszt egy elég általános megoldás ilyen problémákra Mindkét modell alapján elvégezzük a paraméterek maximum likelihood becslését Kiszámítjuk a két likelihood hányadosát (innen az elnevezés), vagyis azt, hogy a bonyolultabb modell alapján hányszor valószínűbbek a kapott értékek Vesszük a hányados logaritmusát és megszorozzuk kettővel  az igy kapott próbastatisztika megközelítőleg khi-négyzet eloszlású Azt is figyelembe kell venni, hogy a különböző modellek, különböző bonyolultságúak  a khi-négyzet eloszlás szabadsági foka egyenlő a paraméterek számának különbségével.

Illeszkedésvizsgálat likelihood-ratio teszttel 3. Illeszkedésvizsgálatnál a próbastatisztika: A lilelihood ratio tesztet szokták ML-Chi-négyzet vagy G tesztnek is nevezni.

Feladat Végezzetek becsléses illeszkedésvizsgálatot khi-négyzet és ML-arány teszttel a 12 gyermekes szász családokban a lányok számára, feltételezve, hogy az eloszlás binomiális és p=átlag/12! Végezzétek el a tiszta illeszkedésvizsgálatot ML-arány teszttel is!

Modellszelekció Az előző feladatban a „szász családok” adatsorra kétféle modellt is illesztettünk. Vajon az, hogy a p paramétert a mintából becsültük szignifikánsan javította a modell illeszkedését? Ha igen, akkor a paraméter értéke szignifikánsan eltér a feltételezettől. Ez a probléma tipikusan modellszelekció: a kétféle modellt összehasonlíthatjuk ML-arány teszttel. Szerencsére nem kell kiszámítania likelihoodokat, az illeszkedésnél kiszámolt két statisztika különbsége a próbastatisztika. Ha az illeszkedés javulása nem szignifikáns, a próbastatisztika megközelítőleg khi-négyzet eloszlást követ, amelynek szabadsági foka a két modellhez tartozó szabadsági fokok különbsége. Fontos: a két modell csak akkor összehasonlítható, ha az egyik feltevései, a másik feltevéseinek részhalmaza.

Illeszkedésvizsgálat folytonos eloszlásokra 1. kategóriákra osztom a folytonos változót, és utána elvégezhető a khi-négyzet próba HÁTRÁNYA: a kategorizálás önkényes a kategorizálás esetenként jelentősen befolyásolhatja az eredményt Ne alkalmazzuk!

Illeszkedésvizsgálat folytonos eloszlásokra 2. egymintás Kolmogorov-Szmirnov próba a próbastatisztika az elméleti eloszlásfüggvény és a megfigyelt kumulativ relativ gyakoriságok közötti legnagyobb különbség eredetileg csak tiszta illeszkedésvizsgálatra használható becsléses illeszkedésvizsgálatnál, ha normális eloszlást illesztünk alkalmazható a Lillefors korrekció

Illeszkedésvizsgálat folytonos eloszlásokra 3. speciális próbák a normalitás ellenőrzésére Shapiro-Wilk próba D’Agostino-Pearson K2 teszt és biztos van még más is Jellemzőjük: erre a problémára vannak kihegyezve kisebb eltérést is észrevesznek, ami nem feltétlenül előny, mert a normalitást feltételező tesztek általában robosztusak

Grafikus illeszkedés vizsgálat: QQ-ábra ha jó az illeszkedés, a sorbarendezett minta i-dik eleme közel van az elméleti eloszlás i/n kvantiliséhez például a 10 elemű minta 5. eleme közel kell essen a mediánhoz QQ-ábra: a vízszintes tengelyen a feltételezett eloszlás kvantilisei a függőleges tengelyen a sorberendezett minta elemei az értékeknek egy egyenesre kell illeszkedniük.

Feladat Töltsétek be a solidago.csv adatsort! Készítsetek QQ-ábrát a hajtás magasságra és a föld feletti tömegre! Csináljátok meg ugyanezeket az ábrákat csak a nedves („n”) site virágzó hajtásaira!

Függetlenség vizsgálat

Haj- és szemszín adatok Badenből Vajon a szem- és hajszín között van összefüggés?

Függetlenség vizsgálat 1. A kontingencia tábla belseje tulajdonképpen egy megfigyelt diszkrét gyakoriságeloszlás, például a szőke, kék szemű emberek gyakorisága 1768 a 6800 emberből álló mintában Ezt kellene összehasonlítani egy elméleti eloszlással, ahol az egyes hajszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban az egyes szemszín kategóriák gyakoriságai ugyanilyenek, mint a megfigyelt adatokban a szem- és hajszín kategóriák függetlenek

Függetlenség vizsgálat 2. H0: a két vizsgált tulajdonság független Ismétlés: a független események együttes bekövetkezésének valószínűsége az események valószínűségeinek szorzata H1: a két vizsgált tulajdonság nem független.

Függetlenség vizsgálat 3. Első lépés: a várt gyakoriságok kiszámítása

Függetlenség vizsgálat 3. Második lépés: a várt és megfigyelt gyakoriságok összehasonlítása khi-négyzet vagy G próbával. szabadsági fok = (sorok száma - 1)*(oszlopok száma - 1)

Többdimenziós kontingencitáblák Ha az előző példában egy harmadik jellemzőt (pl. bőrszín) is figyelembe vennénk, akkor 3 dimenziós kontingencia táblát kapnánk Egy ilyen esetben nagyon sokféle modell felírható. Például: mind a három tulajdonság független egymástól a szemszín és a hajszín összefügg, de független a bőrszíntől szemszín összefüggése a hajszínnel más a kreol és a feher bőrűek esetén. stb Itt van igazán nagy szerepe a modellszelekciónak!

A kapcsolat erősségének mérése 1. A c2 statisztika nem alkalmas a kapcsolat erősségének mérésére, mert értéke függ a megfigyelések számától. A belőle levezethető asszociáltsági mérőszámok: f és Pearson kontingencia koefficiens - értékük függ a táblázat méretétől Csuprov (Tschuprow)-féle T2 és Cramer-féle C - a táblázat méretét is figyelembe veszik

A kapcsolat erősségének mérése 2. Információelméleti mérőszámok kölcsönös információ standardizált formája a a koherencia együttható - értéke 0 és 1 között változik Az egyik változó értékének ismerete mennyire csökkenti a másik becslésének hibáját? Guttman-féle lambda Goodman-Kruskal tau van aszimmetrikus formájuk (egyikből jósolom a másikat) és szimmetrikus (a két aszimmetrikus átlaga)

Homogenitás vizsgálat

Problémafelvetés Példa: a solidago.csv adatsorban a tarackok számának eloszlása azonos a száraz és a nedves helyen? Általánosan: két vagy több megfigyelt gyakoriságeloszlás származhat-e ugyanabból az alapsokaságból?

Homogenitás vizsgálat: diszkrét adatokra Az egyes eloszlások azonosítására bevezetünk egy új nominális változót. (solidago.csv file-ban ez a site nevű változó) Ha a gyakoriságeloszlások homogének, akkor a gyakoriságok függetlenek az új változótól Vagyis a homogenitás vizsgálat visszavezethető a függetlenség vizsgálatra Végezzétek el a példában szereplő homogenitás vizsgálatot!

Homogenitás vizsgálat: folytonos adatokra Kétmintás Kolmogorov-Szmirnov próba: nullhipotézis: a két megfigyelt kumulatív relatív gyakoriság ugyanannak az eloszlasfüggvénynek a becslése; F(Y)=G(Y) kétoldali alternatívhipotézis: F(Y)G(Y) próbastatisztika: a megfigyelt kumulatív gyakoriságok közötti maximális eltérés egyoldali alternatívhipotézis: F(Y)>G(Y) próbastatisztika: a kis (30-nál kisebb) méretű mintáknál célszerű egzakt tesztet végezni, amit egyes könyvek Gnyegyenko-Koroljuk próbának neveznek. Ha a két mintaméret szorzata kisebb mint 10000, az R alapértelmezésben egzakt tesztet csinál