Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra nézve ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket
A hibák táblázata Adott próbastatisztika mellett az első ill. másodfajú hiba csak egymás rovására csökkenthető. Az elsőfajút írjuk elő kicsinek, ezért az elutasítás a szignifikáns eredmény
Megvalósítás próbastatisztika: az adatok függvénye elutasítási (kritikus) vs. elfogadási tartomány nem tipikus értékek vs. tipikus értékek szignifikancia szint = az elsőfajú hibát előírtan alacsony szinten kívánom tartani
A p-érték fogalma a p-érték nagy a p-érték kicsi H0-t elfogadjuk van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H0-t elfogadjuk H0-t elvetjük
Statisztikai próbák t-próba F-próba
t-próba Ismert m várható érték és szórás mellett a normális eloszlású minta standardizált átlaga standard normális eloszlású lesz. m-et a H0 hipotézisben feltételezett értékével, -t a tapasztalati szórásnégyzettel (ez már valváltozó) helyettesítve Student féle t eloszlást kapunk - ennek kritikus értéke felett utasítunk el
A normális eloszlás és a Student-féle t-eloszlás standard normális eloszlás 1 szabadsági fokú Student- eloszlás 3 szabadsági fokú Student- eloszlás
Az F-eloszlás
Hotelling féle T2 próba A normális eloszlású minta standardizált átlagának négyzete egy 2n eloszlású változó n-edrészével egyező eloszlású Ennek analógiájára, normális eloszlású vektor értékű mintából elkészítjük az statisztikát, melynek eloszlása Hotelling féle T2 lesz - ennek kritikus értéke felett utasítunk el
Hatások vizsgálata Szórásanalízis (ANOVA) Regresszió Y X
Szóráselemzés Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére a faktort különböző szintekre állitjuk be és méréseket végzünk nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek az adatok alapján ezt megpróbáljuk megcáfolni
Egy faktor esete Az adatok: Yi,j Az adat sorszáma a i = 1 ,..., Nj csoporton belül (egy rögzített faktorbeállítás melletti mérések) A csoport sorszáma j = 1 ,..., k (a faktor különböző beállításai, szintjei)
A Nullhipotézis Yi,j = mj +ei,j H0 : m1=...= mk A modell szerint a mért érték az elméleti érték + a megfigyelési zaj összegeként adódik A zaj független értékű, normális eloszlású Yi,j = mj +ei,j A nullhipotézisben az elméleti (várható) értékek egyenlőségét feltételezük (a faktor nem hat) H0 : m1=...= mk Ennek elutasítása a szignifikáns eredmény
A döntés elve A várható értékek egyenlőségéről döntünk a szórások elemzésének segítségével. Ha valóban n független azonos eloszlású mintánk van az egyes csoportokban, akkor a csoportátlagok szórásnégyzete a minta szórásnégyzetének n-edrésze. Ha igaz a nullhipotézis, akkor ugyanez a becsült szórásnégyzetekre is áll - szorozzuk be tehát őket n-nel és teszteljük az egyenlőségüket. Független normális eloszlású minták szórásnégyzeteinek egyenlőségét F-próbával tesztelhetjük. A Fisher-Cohran tétel biztosítja, hogy az átlagokból számolt tapasztalati szórásnégyzet független legyen az összevont mintából származó tapasztalati szórásnégyzettől - de ez csak normális eloszlású minta esetén igaz!
A négyzetösszegek felosztása Az átlagok felbontása: A négyzetösszegek felbontása:
A négyzetösszegek felosztása Másképpen: SSössz = SScsb +SScsk A “szabadsági fokok”:
Az F-próba MScsk MScsb (n-k)SScsk (k-1)SScsb A H0 mellett a “csk” csoportok közötti és “csb” csoporton belüli szórásnégyzetek aránya kicsi és az eloszlása ismert: MScsk MScsb (n-k)SScsk eloszlása Fdfcsk,dfcsb = (k-1)SScsb
Egy példa ipari alkalmazások közül A gyártmány súlyának elemzése a keverék sűrűségének függvényében. Különböző sűrűségbeállítások mellett 10-10 próbagyártást végeztek, és mérték a súlyt. A kapott eredmények láthatóak az ábrán. A kék pont az adott beállítás melletti átlag. A gyártmány súlya a keverék sűrűségének függvényében
A szórások Az egyes oszlopokra elkészít-jük a mintaátlagokat. (Kék). Becsüljük a mintaátlagokból a teljes minta szórásnégyzetét. Majd a zöld oszlopokra szá- mítjuk a négyzetösszegeket, ezeket összeadjuk és osztunk a szabadsági fokkal – Újra a sárga összevont minta szórásnégyzetét becsüljük. A kétféleképp számított szórásnégyzet eltérésének szignifikanciáját F-próbával teszteljük.
MINITAB-os elemzés eredménye One-way ANOVA: Wt3 versus Mix Source DF SS MS F P Mix 6 569.8 95.0 4.60 0.001 Error 63 1301.2 20.7 Total 69 1871.0 Szabadsági fokok: 7 Mix csoport van: => k=7 dfcsk=k-1=6 Összesen 70 megfigyelésünk van : => N=70, dfcsb=N-k=63 A csoportok átlagainak az összevont átlagtól vett négyzetes eltéréseinek összege SScsk = 569.8 ebből a négyzetes hiba: MScsk=SScsk/dfcsk=94.966 Ugyanígy: A csoportokon belüli átlagoktól vett négyzetes eltérések összege (a csoportokra is összeadva) SScsb = 1301.2 ebből a négyzetes hiba: MScsb=SScsb/dfcsb= 20.653
Az F-próba A fenti két mennyiség MScsk /MScsb hányadosa az F-statisztika értéke: 4.598 Ez adja az adott dfcsk , dfcsbszabadságfokok szerinti F-eloszlásból F(dfcsk,dfcsb) a 0.001-es p értéket
Multi-Faktor ANOVA Egy tipikus kísérletben nem csak egyetlen hanem több faktort is figyelembe kell veni. Ezen faktorok hatását kell ellenőrzés alatt tartani.
A kísérleti eredmények változékonyságának négy forrását ismerhetjük fel ebben az esetben: (1) hiba – azaz a csoporton belüli változékonyság, (2) 1 típusú csoport tagságból adódó változékonyság (3) 2 típusú csoport tagságból változékonyság (4) kölcsönhatás
Az F-próba MScsk (n-k)SScsk MScsb (k-1)SScsb A H0 eldöntésére az F próbát éppúgy alkalmazhatjuk mint az előzőekben: MScsk (n-k)SScsk eloszlása Fdfcsk,dfcsb = MScsb (k-1)SScsb
Szóráselemzés tábla Ha elutasítjuk H0 -t, akkor mely csoportok különböznek? A változékonyság négy lehetséges forrása ( 2 főhatás + kölcsönhatás + hiba) közül melyek hatnak és mennyire? Megtehetjük, hogy mind a három lehetséges faktor (csoport tagság, nemek, kölcsönhatás) szerint szóráselemzést végzünk és ennek segítségével döntünk a ható faktorokról
Többváltozós szóráselemzés Multivariate ANOVA = MANOVA Most is azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére, de a válasz most vektor értékű, tehát többféle mennyiséget mérünk Ekkor nem szórásunk, hanem szórásmátrixunk van. Ha a nullhipotézis fennáll, a csoportátlagokból számolt szórásmátrix becslés a teljes mintából számolt n-edrésze (+ a becslési ingadozás) Ezért egyik szorozva a másik inverzével közel az egységmátrixot kell hogy adja - de ezt hogyan teszteljük?
MANOVA próbák A szorzatmátrix sajátértékeinek kell 1-hez közelinek lennie Ezt tesztelik a Wilk Lawley- Hotelling Pillai Roy próbák Nincs közöttük egyenletesen legerősebb és ilyet nem is lehet konstruálni
Lineáris regresszió
A legkisebb négyzetek módszere 289.931 Y 12.8776 1.16013 59.4174 X
Regresszió Az Y eredményváltozó (függő változó) közelítése az X faktorokkal (magyarázó változók). Általában lineáris regressziót keresünk (ekkor a magyarázó változók lineáris függvényével közelítünk). Azt az egyenest keressük, amelyre az egyenes által adott közelítés és a ténylegesen megfigyelt pontok közötti négyzetes eltérés minimális. A megoldás: Ez a hatásos becslés is, ha a modellbeli hiba független, azonos, normális eloszlású.
A becslés standard hibája A független, azonos, normális eloszlású hiba esetén sok minden jól számolható, például az egyenes együtthatóinak standard hibája: ahol Ebből a becsült regressziós együtthatók szignifikanciáját t-próbával vizsgálhatjuk.
Az illeszkedés mérőszáma Ez igen lényeges, mert hiba lenne valójában nem illeszkedő modellből következtetéseket levonni. Az illeszkedés mérőszáma az R2 statisztika, ill. ennek korrigált változata, (adjusted R2) amikor a magyarázó változók számát is figyelembe vesszük.
„Lack of fit” teszt Az illesztett regressziós egyenes, illetve az átlag, mint vízszintes egyenes körüli szórásokat hasonlítjuk össze. A szórások egyezését F-próbával teszteljük. Amennyiben a lineáris kapcsolat ténylegesen jelen van, úgy az egyenes körüli szórás kisebb, tehát a szórások egyezését elutasítjuk.