Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra nézve ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket

A hibák táblázata Adott próbastatisztika mellett az első ill. másodfajú hiba csak egymás rovására csökkenthető. Az elsőfajút írjuk elő kicsinek, ezért az elutasítás a szignifikáns eredmény

Megvalósítás próbastatisztika: az adatok függvénye
elutasítási (kritikus) vs. elfogadási tartomány nem tipikus értékek vs. tipikus értékek szignifikancia szint = az elsőfajú hibát előírtan alacsony szinten kívánom tartani

A p-érték fogalma a p-érték nagy a p-érték kicsi H0-t elfogadjuk
van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H0-t elfogadjuk H0-t elvetjük

Statisztikai próbák t-próba F-próba

t-próba Ismert m várható érték és  szórás mellett a normális eloszlású minta standardizált átlaga standard normális eloszlású lesz. m-et a H0 hipotézisben feltételezett értékével, -t a tapasztalati szórásnégyzettel (ez már valváltozó) helyettesítve Student féle t eloszlást kapunk - ennek kritikus értéke felett utasítunk el

A normális eloszlás és a Student-féle t-eloszlás
standard normális eloszlás 1 szabadsági fokú Student- eloszlás 3 szabadsági fokú Student- eloszlás

Az F-eloszlás

Hotelling féle T2 próba A normális eloszlású minta standardizált átlagának négyzete egy 2n eloszlású változó n-edrészével egyező eloszlású Ennek analógiájára, normális eloszlású vektor értékű mintából elkészítjük az statisztikát, melynek eloszlása Hotelling féle T2 lesz - ennek kritikus értéke felett utasítunk el

Hatások vizsgálata Szórásanalízis (ANOVA) Regresszió Y X

Szóráselemzés Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére a faktort különböző szintekre állitjuk be és méréseket végzünk nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek az adatok alapján ezt megpróbáljuk megcáfolni

Egy faktor esete Az adatok: Yi,j Az adat sorszáma a i = 1 ,..., Nj
csoporton belül (egy rögzített faktorbeállítás melletti mérések) A csoport sorszáma j = 1 ,..., k (a faktor különböző beállításai, szintjei)

A Nullhipotézis Yi,j = mj +ei,j H0 : m1=...= mk
A modell szerint a mért érték az elméleti érték + a megfigyelési zaj összegeként adódik A zaj független értékű, normális eloszlású Yi,j = mj +ei,j A nullhipotézisben az elméleti (várható) értékek egyenlőségét feltételezük (a faktor nem hat) H0 : m1=...= mk Ennek elutasítása a szignifikáns eredmény

A döntés elve A várható értékek egyenlőségéről döntünk a szórások elemzésének segítségével. Ha valóban n független azonos eloszlású mintánk van az egyes csoportokban, akkor a csoportátlagok szórásnégyzete a minta szórásnégyzetének n-edrésze. Ha igaz a nullhipotézis, akkor ugyanez a becsült szórásnégyzetekre is áll - szorozzuk be tehát őket n-nel és teszteljük az egyenlőségüket. Független normális eloszlású minták szórásnégyzeteinek egyenlőségét F-próbával tesztelhetjük. A Fisher-Cohran tétel biztosítja, hogy az átlagokból számolt tapasztalati szórásnégyzet független legyen az összevont mintából származó tapasztalati szórásnégyzettől - de ez csak normális eloszlású minta esetén igaz!

A négyzetösszegek felosztása
Az átlagok felbontása: A négyzetösszegek felbontása:

A négyzetösszegek felosztása
Másképpen: SSössz = SScsb +SScsk A “szabadsági fokok”:

Az F-próba MScsk MScsb (n-k)SScsk (k-1)SScsb
A H0 mellett a “csk” csoportok közötti és “csb” csoporton belüli szórásnégyzetek aránya kicsi és az eloszlása ismert: MScsk MScsb (n-k)SScsk eloszlása Fdfcsk,dfcsb = (k-1)SScsb

Egy példa ipari alkalmazások közül
A gyártmány súlyának elemzése a keverék sűrűségének függvényében. Különböző sűrűségbeállítások mellett próbagyártást végeztek, és mérték a súlyt. A kapott eredmények láthatóak az ábrán. A kék pont az adott beállítás melletti átlag. A gyártmány súlya a keverék sűrűségének függvényében

A szórások Az egyes oszlopokra elkészít-jük a mintaátlagokat. (Kék).
Becsüljük a mintaátlagokból a teljes minta szórásnégyzetét. Majd a zöld oszlopokra szá- mítjuk a négyzetösszegeket, ezeket összeadjuk és osztunk a szabadsági fokkal – Újra a sárga összevont minta szórásnégyzetét becsüljük. A kétféleképp számított szórásnégyzet eltérésének szignifikanciáját F-próbával teszteljük.

MINITAB-os elemzés eredménye
One-way ANOVA: Wt3 versus Mix Source DF SS MS F P Mix Error Total Szabadsági fokok: 7 Mix csoport van: => k=7 dfcsk=k-1=6 Összesen 70 megfigyelésünk van : => N=70, dfcsb=N-k=63 A csoportok átlagainak az összevont átlagtól vett négyzetes eltéréseinek összege SScsk = ebből a négyzetes hiba: MScsk=SScsk/dfcsk=94.966 Ugyanígy: A csoportokon belüli átlagoktól vett négyzetes eltérések összege (a csoportokra is összeadva) SScsb = ebből a négyzetes hiba: MScsb=SScsb/dfcsb=

Az F-próba A fenti két mennyiség MScsk /MScsb hányadosa az F-statisztika értéke: 4.598 Ez adja az adott dfcsk , dfcsbszabadságfokok szerinti F-eloszlásból F(dfcsk,dfcsb) a es p értéket

Multi-Faktor ANOVA Egy tipikus kísérletben nem csak egyetlen hanem több faktort is figyelembe kell veni. Ezen faktorok hatását kell ellenőrzés alatt tartani.

A kísérleti eredmények változékonyságának négy forrását ismerhetjük fel ebben az esetben:
(1) hiba – azaz a csoporton belüli változékonyság, (2) 1 típusú csoport tagságból adódó változékonyság (3) 2 típusú csoport tagságból változékonyság (4) kölcsönhatás

Az F-próba MScsk (n-k)SScsk MScsb (k-1)SScsb
A H0 eldöntésére az F próbát éppúgy alkalmazhatjuk mint az előzőekben: MScsk (n-k)SScsk eloszlása Fdfcsk,dfcsb = MScsb (k-1)SScsb

Szóráselemzés tábla Ha elutasítjuk H0 -t, akkor mely csoportok különböznek? A változékonyság négy lehetséges forrása ( 2 főhatás + kölcsönhatás + hiba) közül melyek hatnak és mennyire? Megtehetjük, hogy mind a három lehetséges faktor (csoport tagság, nemek, kölcsönhatás) szerint szóráselemzést végzünk és ennek segítségével döntünk a ható faktorokról

Többváltozós szóráselemzés Multivariate ANOVA = MANOVA
Most is azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére, de a válasz most vektor értékű, tehát többféle mennyiséget mérünk Ekkor nem szórásunk, hanem szórásmátrixunk van. Ha a nullhipotézis fennáll, a csoportátlagokból számolt szórásmátrix becslés a teljes mintából számolt n-edrésze (+ a becslési ingadozás) Ezért egyik szorozva a másik inverzével közel az egységmátrixot kell hogy adja - de ezt hogyan teszteljük?

MANOVA próbák A szorzatmátrix sajátértékeinek kell 1-hez közelinek lennie Ezt tesztelik a Wilk Lawley- Hotelling Pillai Roy próbák Nincs közöttük egyenletesen legerősebb és ilyet nem is lehet konstruálni

Lineáris regresszió

A legkisebb négyzetek módszere
Y X

Regresszió Az Y eredményváltozó (függő változó) közelítése az X faktorokkal (magyarázó változók). Általában lineáris regressziót keresünk (ekkor a magyarázó változók lineáris függvényével közelítünk). Azt az egyenest keressük, amelyre az egyenes által adott közelítés és a ténylegesen megfigyelt pontok közötti négyzetes eltérés minimális. A megoldás: Ez a hatásos becslés is, ha a modellbeli hiba független, azonos, normális eloszlású.

A becslés standard hibája
A független, azonos, normális eloszlású hiba esetén sok minden jól számolható, például az egyenes együtthatóinak standard hibája: ahol Ebből a becsült regressziós együtthatók szignifikanciáját t-próbával vizsgálhatjuk.

Az illeszkedés mérőszáma
Ez igen lényeges, mert hiba lenne valójában nem illeszkedő modellből következtetéseket levonni. Az illeszkedés mérőszáma az R2 statisztika, ill. ennek korrigált változata, (adjusted R2) amikor a magyarázó változók számát is figyelembe vesszük.

„Lack of fit” teszt Az illesztett regressziós egyenes, illetve az átlag, mint vízszintes egyenes körüli szórásokat hasonlítjuk össze. A szórások egyezését F-próbával teszteljük. Amennyiben a lineáris kapcsolat ténylegesen jelen van, úgy az egyenes körüli szórás kisebb, tehát a szórások egyezését elutasítjuk.

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.

Hasonló előadás

Az előadások a következő témára: "Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.

Hasonló előadás

Az előadások a következő témára: "Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés