Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.

Hasonló előadás


Az előadások a következő témára: "Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek."— Előadás másolata:

1 Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra nézve v ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket

2 A hibák táblázata v Adott próbastatisztika mellett az első ill. másodfajú hiba csak egymás rovására csökkenthető. Az elsőfajút írjuk elő kicsinek, ezért az elutasítás a szignifikáns eredmény

3 Megvalósítás v próbastatisztika: az adatok függvénye v elutasítási (kritikus) vs. elfogadási tartomány nem tipikus értékek vs. tipikus értékek v szignifikancia szint = az elsőfajú hibát előírtan alacsony szinten kívánom tartani

4 A p-érték fogalma van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H 0 -t elfogadjuk H 0 -t elvetjük

5 Statisztikai próbák t-próbaF-próba

6 t-próba v Ismert m várható érték és  szórás mellett a normális eloszlású minta standardizált átlaga standard normális eloszlású lesz. v m-et a H 0 hipotézisben feltételezett értékével,  -t a tapasztalati szórásnégyzettel (ez már valváltozó) helyettesítve Student féle t eloszlást kapunk - ennek kritikus értéke felett utasítunk el

7 A normális eloszlás és a Student-féle t-eloszlás standard normális eloszlás 1 szabadsági fokú Student- eloszlás 3 szabadsági fokú Student- eloszlás

8 Az F-eloszlás

9 Hotelling féle T 2 próba v A normális eloszlású minta standardizált átlagának négyzete egy  2 n eloszlású változó n-edrészével egyező eloszlású v Ennek analógiájára, normális eloszlású vektor értékű mintából elkészítjük az v statisztikát, melynek eloszlása Hotelling féle T 2 lesz - ennek kritikus értéke felett utasítunk el

10 Szórásanalízis(ANOVA) Hatások vizsgálata Regresszió X Y

11 Szóráselemzés v Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére v a faktort különböző szintekre állitjuk be és méréseket végzünk v nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek v az adatok alapján ezt megpróbáljuk megcáfolni

12 A szóráselemzés alapjai

13 Egy faktor esete Az adatok: Y i,j Az adat sorszáma a i = 1,..., N j csoporton belül (egy rögzített faktorbeállítás melletti mérések) A csoport sorszáma j = 1,..., k (a faktor különböző beállításai, szintjei)

14 A Nullhipotézis v A modell szerint a mért érték az elméleti érték + a megfigyelési zaj összegeként adódik v A zaj független értékű, normális eloszlású v Y i,j = m j +e i,j v A nullhipotézisben az elméleti (várható) értékek egyenlőségét feltételezük (a faktor nem hat) v H 0 : m 1 =...= m k v Ennek elutasítása a szignifikáns eredmény

15 A döntés elve v A várható értékek egyenlőségéről döntünk a szórások elemzésének segítségével. v Ha valóban n független azonos eloszlású mintánk van az egyes csoportokban, akkor a csoportátlagok szórásnégyzete a minta szórásnégyzetének n-edrésze. v Ha igaz a nullhipotézis, akkor ugyanez a becsült szórásnégyzetekre is áll - szorozzuk be tehát őket n-nel és teszteljük az egyenlőségüket. v Független normális eloszlású minták szórásnégyzeteinek egyenlőségét F-próbával tesztelhetjük. v A Fisher-Cohran tétel biztosítja, hogy az átlagokból számolt tapasztalati szórásnégyzet független legyen az összevont mintából származó tapasztalati szórásnégyzettől - de ez csak normális eloszlású minta esetén igaz!

16 A négyzetösszegek felosztása Az átlagok felbontása: A négyzetösszegek felbontása:

17 A négyzetösszegek felosztása Másképpen: SS össz = SS csb +SS csk SS össz = SS csb +SS csk A “szabadsági fokok”:

18 Az F-próba A H 0 mellett a “csk” csoportok közötti és “csb” csoporton belüli szórásnégyzetek aránya kicsi és az eloszlása ismert: MS csk MS csb F df csk,df csb eloszlása F df csk,df csb (n-k)SS csk (k-1)SS csb =

19 A szóráselemzés táblázata

20 Multi-Faktor ANOVA Egy tipikus kísérletben nem csak egyetlen hanem több faktort is figyelembe kell veni. Ezen faktorok hatását kell ellenõrzés alatt tartani. Tételezzük fel, hogy az előző példában a kísérletben részt vevők nemének hatását is számításba kívánjuk venni. Képzeljük, hogy minden csoportban 3 férfi és 3 nő vesz részt. egy kétszer kettes táblázatban összegezhetjük a kísérleti eredményeket

21 Két faktor esete 1. Kísérleti 2. Kísérleti Csoport Csoport Csoport Csoport---------------------------------------------------- Férfiak 2 6 3 7 3 7 1 5 1 5 ---- ----- ---- ----- Átlag 2 6 --------------------------------------------------- Nõk4 8 5 9 3 7 ----- ----- ----- ----- Átlag 4 8 --------------------------------------------------- Totális átlag5

22 A kísérleti eredmények változékonyságának négy forrását ismerhetjük fel ebben az esetben: (1) hiba - csoporton belüli változékonyság, (2) csoport tagságból adódó változékonyság (3) nemek szerinti változékonyság (4) kölcsönhatás

23 Ha nem vezetnénk be a nemek szerinti faktort : A számított SS within : SS csb =10+10=20 Ha számításba vesszük a nemek szerinti faktort : (Használjuk a within-group, within-gender átlagokat a SS kiszámításában; Ezek minden csoportban 2-t adnak) A kombinált SS within : SS csb = 2+2+2+2=8. A négy csoportra az SS between : SS csk = 9+1+1+9=20

24 Az F-próba A H 0 eldöntésére az F próbát éppúgy alkalmazhatjuk mint az előzőekben: eloszlása F df csk,df csb eloszlása F df csk,df csb MS csk MS csb (n-k)SS csk (k-1)SS csb =

25 Szóráselemzés tábla v Ha elutasítjuk H 0 -t, akkor mely csoportok különböznek? A változékonyság négy lehetséges forrása ( 2 főhatás + kölcsönhatás + hiba) közül melyek hatnak és mennyire? v Megtehetjük, hogy mind a három lehetséges faktor (csoport tagság, nemek, kölcsönhatás) szerint szóráselemzést végzünk és ennek segítségével döntünk a ható faktorokról

26 Többváltozós szóráselemzés Multivariate ANOVA = MANOVA v Most is azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére, de a válasz most vektor értékű, tehát többféle mennyiséget mérünk v Ekkor nem szórásunk, hanem szórásmátrixunk van. v Ha a nullhipotézis fennáll, a csoportátlagokból számolt szórásmátrix becslés a teljes mintából számolt n-edrésze (+ a becslési ingadozás) v Ezért egyik szorozva a másik inverzével közel az egységmátrixot kell hogy adja - de ezt hogyan teszteljük?

27 MANOVA próbák v A szorzatmátrix sajátértékeinek kell 1-hez közelinek lennie v Ezt tesztelik a –Wilk –Lawley- Hotelling –Pillai –Roy próbák v Nincs közöttük egyenletesen legerősebb és ilyet nem is lehet konstruálni

28 Lineáris regresszió

29 A legkisebb négyzetek módszere Y X 1.1601359.4174 12.8776 289.931

30 Regresszió v Az Y eredményváltozó (függő változó) közelítése az X faktorokkal (magyarázó változók). Általában lineáris regressziót keresünk (ekkor a magyarázó változók lineáris függvényével közelítünk). v Azt az egyenest keressük, amelyre az egyenes által adott közelítés és a ténylegesen megfigyelt pontok közötti négyzetes eltérés minimális. A megoldás: v Itt felhasználtuk, hogy Y megfigyelései függetlenek. Becslésünk hatásos is, ha a modellbeli hiba független, azonos, normális eloszlású.

31 A becslés standard hibája v A független, azonos, normális eloszlású hiba esetén sok minden jól számolható, például az egyenes együtthatóinak standard hibája: ahol ahol v Ebből a becsült regressziós együtthatók szignifikanciáját t- próbával vizsgálhatjuk.

32 Az illeszkedés mérőszáma v Ez igen lényeges, mert hiba lenne valójában nem illeszkedő modellből következtetéseket levonni. Az illeszkedés mérőszáma az R 2 statisztika, ill. ennek korrigált változata, (adjusted R 2) amikor a magyarázó változók számát is figyelembe vesszük.

33 „Lack of fit” teszt v Az illesztett regressziós egyenes, illetve az átlag, mint vízszintes egyenes körüli szórásokat hasonlítjuk össze. A szórások egyezését F-próbával teszteljük. v Amennyiben a lineáris kapcsolat ténylegesen jelen van, úgy az egyenes körüli szórás kisebb, tehát a szórások egyezését elutasítjuk.


Letölteni ppt "Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek."

Hasonló előadás


Google Hirdetések