Kettőnél több csoport vizsgálata és kísérlet tervezés Makara B. Gábor MTA KOKI
Több csoport statisztikai elemzése: pajzsmirigy gyulladás - szérum hormon értékek CsoportfT4fT3fT4/fT3 Kontroll (20)14 ± ± ± 0.5 Beteg (18)14 ± ± ± 0.4 Beteg – kezelt (35) 16 ± ± ± Van-e különbség a különböző csoportok között? 2. Állítható-e fel sorrend közöttük?
Több csoport statisztikai elemzése: pajzsmirigy gyulladás - szérum hormon értékek CsoportfT4fT3fT4/fT3 Kontroll (20)14 ± ± ± 0.5 Beteg (18)14 ± ± ± 0.4 Beteg – kezelt (35) 16 ± 2.0**4.0 ± 0.5*4.0 ± 0.6** * p<0.05, ** p<0.01 vagy akár ***0.001
A véletlennek tulajdonítható-e minden különbség? Nézzük meg, mire vezethet a véletlen Használjunk táblázatkezelőt, benne véletlen szám generátort, grafikont és statisztikai elemzést.
Miért nem hasonlítunk össze minden csoportot párosával? Rossz hatásfokú Torzíthatja döntéseinket: Minden páros összehasonlításnál 1:20 arányban (vagy a szignifikancia szinttől függő arányban) van esélyünk hibás döntést hozni. A sok szakszerűtlen összehasonlítás „inflálja” a szignifikancia szinteket.
Ismételt páros összehasonlítások, együttes valószínűségek Független döntések száma Névleges szignifikanciaszint Helyes döntés valószínűsége Hibás döntés valószínűsége 10,050,9500,050 20,050,9030,098 30,050,8570,143 40,050,8150,185 50,050,7740,226 60,050,7350,265 70,050,6980,302 80,050,6630,337 90,050,6300, ,050,5990, ,050,3580, ,050,1290,871
A több csoport elemzése két lépésből áll Van-e szignifikáns különbség a csoportok eredményeinek halmazában Ha van, akkor keresünk szignifikáns eltérést a csoportok között –Az eltérés nem csak párok közötti különbség formájában lehet
Az elemzés alapgondolata: az összes mintában a varianciát két módon becsüljük Az ANOVA alkotója R.A. Fisher, egy angliai mezőgazdasági kísérleti állomáson, között. Zseniális felismerése: Több csoporton együtt végzett kísérletben a null hipotézis, H 0 úgy is vizsgálható, hogy a populáció varianciát becsüljük két módszerrel és megnézzük ezek a becslések jól egyeznek-e?. 1.a mintákon/csoportokon belüli szóródásból következtetünk a populáció varianciájára 2.a minták átlagainak szóródásából következtetünk ugyanarra a varianciára.
A négyzetes összeg additív elemekre bontható A minta elemeinek távolságát a teljes minta „nagy átlagától” becsüljük a négyzetes összeggel Σ (x nagy átlag – x i )² A négyzetes összeg particionálható az algebra módszereivel (additív módon részekre bontható) Az egyes részeket úgy bontjuk, hogy azok a szórás egy meghatározott értelmezésű részének feleljenek meg A „belső” szórásnégyzet a véletlennek, az „átlagok közötti” szórásnégyzet a csoportok közötti különbségnek felel meg
Illusztráció a négyzetes összeg felbontásához Adat Átlag Nagy átlag véletlen komponens csoportosítási komponens rögzített érték
A szórás elemzés gondolatmenete A minták normális eloszlásból származnak (n darab) Független minták Véletlen minták (randomizálás) Null hipotézis: a minták közös sokaságból/populációból származnak (v 1 =v 2 =v 3 =…=v n ) Null hipotézis következménye: (s 1 2 =s 2 2 =s 3 2 =…=s n 2 ) A mintákból két független becslést készítünk a populáció szórására, pontosabban varianciájára ( 2 ) A két variancia becslés hányadosa az F 1,2 eloszlást követi (F 1,2 = s 1 2 /s 2 2 ) (szórás elemzés =variancia analízis=analysis of variance=ANOVA)
A szórás elemzés gondolatmenete (folytatás) Ha a minták egy sokaságból valók (a nullhipotézis érvényes), akkor F 1,2 eloszlásának várható értéke v(F 1,2 ) = 1 Ha p<0,05 arra, hogy F 1,2 = 1, akkor elvetjük a nullhipotézist Ha elvetettük a nullhipotézist, akkor megkeressük, mely csoportokra mondhatjuk ki, hogy nem egy eloszlásból származnak? Előre tervezett (a priori), vagy utólagos (a posteriori) összehasonlitásokat végzünk
Két variancia hányadosának eloszlása a Fisher–Snedecor eloszlás Normális eloszlású mintákból képzett négyzetösszegek hányadosa F (m,n) =s 1(m) 2 /s 2(n) 2
A szóráselemzés és a t próba kapcsolata A t próba képletében a nevezőben az átlag szórása van A számlálóban is szórásnak megfelelő érték: 2 minta átlagának különbsége van Ez nem más, mint a két szám eltérése az átlaguktól, osztva n-1 -el, ami n=2 esetben nem más mint 1. A számlálóban és a nevezőben ugyanazon értékre 2 becslés szerepel, melynek négyzeteinek hányadosa F eloszlású
A t próba képlete, és annak átalakítása Ha a képlet mindkét oldalát négyzetre emeljük: Akkor a jobb oldalon két variancia hányadosát kapjuk, azaz
v1v1 v2v2 v3v3 y 1.csoport2.csoport3.csoport A nullhipotézis szerinti helyzet ábrázolása
csoport2.csoport3.csoport y v1v1 v2v2 v3v3 Az egyik alternativ hipotézis szerinti helyzet ábrázolása
A szignifikáns ANOVA után követhető gondolatmenetek
Kettő vagy több statisztikai döntés egy vizsgálatban? Mi történik az elsõ fajú hibával, ha két teljesen független kisérletet végzünk, két teljesen független minta összehasonlításával. Ilyenkor két egymástól független hipotézisvizsgálatot végzünk, és két szignifikancia vizsgálatot, mindegyiket az α=0,05 szinten. Miután két független vizsgálatról van szó, ezért a két szignifikancia vizsgálat is függetlennek tekinthetõ. Ha mind a két null hipotézis érvényes, akkor annak valószínûsége, hogy legalább egyik nullhipotézist (hibásan) elvetjük: –Jelölje P(s 1 )=0,05 az elsõ teszt esetében a fenti valószínûséget, P(s 2 )=0,05 a második teszt fenti valószínûségét. A két esemény együttes elõfordulásának valószínûsége P(s 1 )*P(s 2 ), ami 0,05*0,05=0,0025 A három lehetséges esemény: s 2 önmagában, s 2 önmagában, s 1 és s 2 együtt fordul elõ. A két független kisérlet esetében annak valószínûsége, hogy legalább az egyikben hibásan elvetjük a null hipotézist: p= 0,05+0,05-0,0025= 0,0975,ami lényegesen magasabb, mint az egy szignifikancia teszt esetében elfogadott 0,05. És ha a kísérletek és az összehasonlítások nem függetlenek?
Ha sok a csoport? A fenti gondolatmenet k=10 független teszt elvégzése esetén p=1-(1-0,05) 10 =0,4 A független vizsgálatok számának növelésével jelentősen növeljük annak valószínűségét, hogy olyan hatások létezését mondjuk ki, amelyek a valóságban nem léteznek Minden lehetséges szignifikancia tesztet tekintve a tesztek nem függetlenek, noha a minták azok voltak. Példa a közös kontroll…
Megoldások Az egyedi összehasonlításokban az egyes döntésekre vonatkozó küszöbértékeket módosítjuk úgy, hogy a teljes eljárásban (egy vizsgálatban) az összes összehasonlításra együttesen érvényes ismert, küszöbérték(ek)et alkalmazunk Olyan specifikus eljárásokat készítünk és alkalmazunk, amelyek ismert közös valószínűséggel dolgoznak
Általános eljárások Bonferroni eljárás –A részdöntésenkénti szint alacsonyabb, mint a kisérletenkénti szint –A részdöntésekben egy közös szintet alkalmazunk mindenütt –α*=1-(1-α)exp(1/k), másképen az (1-α) k-adik gyökét kell vonnunk, és az kivonni 1-bõl –Ha a függetleneség is bizonytalan, akkor α*=α/k Holm eljárása –Részdöntésenként változó szinteket alkalmazunk –k összehasonlítás esetén α/k, α/(k-1), α/(k-2), α/(k-3), …., α/2, α
Hátrányok, előnyök Előny: kontrolláljuk az elsőfokú hibát az egész vizsgálatra vonatkozóan Hátrány: konzervatívak vagyunk a másodfokú hiba tekintetében Bonferroni eljárás konzervatívabb, mint Holm eljárása, és ugyanolyan biztonságos az elsőfajú hiba tekintetében, tehát jobb hatásfokú Általános eljárás, nem használja ki az ANOVA ismert tulajdonságait Vannak specifikus eljárások az ANOVA-ra optimalizálva –Newman-Keuls, Tukey, Scheffé, Dunnett, kicsit eltérő alkalmazásokhoz optimalizálva