Varianciaanalízis 12. gyakorlat
ANOVA: ANalysis Of VAriance Neve félrevezető: nem varianciák, hanem átlagok összevetésére dolgozták ki Lényegében a kétmintás t-próba kiterjesztése kettőnél több alapsokaság ismeretlen várható értékének az összehasonlítására.
Mit vizsgálunk az ANOVA-val: egy folytonos változónak vajon eltérőek-e a várható értékei egy nominális változó különböző kategóriáiban, avagy több nominális változó kategóriáiból képezhető kategória-kombinációkban. Folytonos változó: függő változó Nominális változó(k): magyarázó változók B faktor B csop 1 B csop 2 B csop 3 A faktor A csop 1 A1B1 A1B2 A1B3 A csop 2 A2B1 A2B2 A2B3 Faktor (tényező), a kategóriák csoportok.
A faktorok számától függően beszélhetünk egyfaktoros (egytényezős, egy szempontos, egy utas, one-way ANOVA) többfaktoros (többtényezős, több szempontos, több utas, multi-way ANOVA) varianciaelemzésről. A csoportokban levő mintavételi objektumok száma ha azonos minden csoportban → kiegyensúlyozott (balanced) elrendezésű ANOVA eltérő a csoportokban → kiegyensúlyozatlan (unbalanced) elrendezésű ANOVA
A varianciaanalízis munkamenete: megvizsgáljuk, hogy van-e hatása a faktoroknak (F-próba) ellenőrizzük, hogy az adatainkra illesztett ANOVA modell teljesíti-e az alkalmazhatósági feltételeket ha a modellünk megfelel a feltételeknek, akkor ún. post-hoc teszteket alkalmazva megvizsgáljuk azt, hogy mely csoportok átlagai különböznek egymástól.
Egyfaktoros ANOVA kiegyensúlyozott elrendezéssel A módszer alapgondolata: A függő változó teljes varianciája additív módon felbontható két részre: csoportok közötti varianciára (between group variance) - a csoportátlagoknak az összevont Y adatok átlaga (ún. főátlag) körüli variációja; a magyarázó változó hatását foglalja magába csoporton belüli varianciára (within group variance) - az egyedi yi megfigyeléseknek az adott csoportjuk átlaga körüli ingadozásából eredő variáció; a véletlen eseti hibát foglalja magába. A véletlen eseti hibát és minden más nem mért, ismeretlen tényező hatását
yCl
Ha a faktornak van hatása Y-ra: a csoportok közötti variancia rész nagyobb, mint a csoporton belüli variancia. Ha nincs hatása Y-ra: a csoportok közötti variancia megegyezik a csoporton belüli varianciával ez azt jelenti, hogy Y értékét nem befolyásolja az, hogy egy megfigyelés a faktor melyik csoportjába tartozik, az Y értékei között tapasztalt különbségek a véletlen ingadozásnak tudhatók be.
Az egyes varianciafrakciók számszerűsítése eltérés-négyzetösszegekkel történik A teljes eltérés-négyzetösszeg (SStotal) a csoportok közötti (SSbetween) és csoporton belüli (SSwithin) eltérés-négyzetöszeg összege: A lineáris regressszóhoz hasonlítva: a csoportok közötti eltérés-négyzetösszeg a regressziós, míg a csoporton belüli pedig a hiba eltérés-négyzetösszegnek felel meg.
A függő változó teljes varianciája: A csoportok közötti variancia: A csoporton belüli variancia: melyben n a mintavételi objektumok száma; yi a függő változó értéke az i-dik mintavételi objektumra; Y.átl az összevont adatok átlaga, a főátlag. , ahol k a faktor csoportjainak száma; yj.átl a faktor j-dik csoportjában Y átlaga; Y.átl a főátlag. melyben k a faktor csoportjainak száma; m a k-dik csoportban a a mintavételi objektumok száma; y.jl a függő változó értéke a j-dik csoport l-dik mintavételi objektumán; yj.átl az j-dik csoportban a függő változó átlaga. Megjegyzendő, hogy kiegyensúlyozott elrendezésnél a mintában levő összes mintavételi objektum száma a csoportok számának és a mintavételi objektumok csoportonként számának (ez minden csoportra azonos) szorzata: n = k × m.
A faktor hatásának szignifikanciatesztje Próbastatisztika: A csoportok közötti és a csoporton belüli eltérés-négyzetösszeget osztva a szabadsági fokaikkal: közepes eltérés-négyzetösszegeket (Mean of Sum of squares). A csoportok közötti és a csoporton belüli közepes eltérés-négyzetösszeg hányadosa az F próbastatisztika (ld. a köv. dián!) H0: a csoportok alapsokaságbeli átlagai azonosak: µ1 = µ2 = … = µk H1: van legalább két olyan csoport, melyeknek különbözik az alapsokaságbeli átlaga. (egyoldali hipotézis!)
A variancia-felbontás és az F-próba eredménye - ANOVA-táblázat Variancia forrása Szabad- sági fok (df) Eltérés- négyzeösszeg SS (Sum of Squares) közepes eltérés- négyzetösszeg MS (Mean Sum of Squares) Próbastatisztika (F-value) p-érték Csoportok közötti (between groups) k-1 SSbetween MSbetween= SSbetween/k-1 F= MSbetwen/MSwithin p Csoporton belüli (within groups) k(m-1) SSwithin MSwithin= SSwithin/k(m-1) Teljes (total) k×m-1 SStotal MStotal=SStotal/k×m-1
Alkalmazhatósági feltételek: függetlenség: a mintavételi objektumok függetlenek egymástól normalitás: a csoportokon belül a függő változó normál eloszlású homogenitás: a csoportokban a függő változó szórása azonos, vagyis nincs összefüggés Y csoportbeli szórása és a csoport várható értéke között Az alkalmazhatósági feltételek ellenőrzése Az ANOVA modell feltételeinek ellenőrzése a regresszióelemzéshez hasonlóan a reziduálisok vizsgálatával történik