Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.
Hipotézis-ellenőrzés (Statisztikai próbák)
II. előadás.
Egy faktor szerinti ANOVA
Összetett kísérleti tervek és kiértékelésük
Kvantitatív módszerek
3. Két független minta összehasonlítása
Rangszám statisztikák
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Matematikai Statisztika VIK Doktori Iskola
Két változó közötti összefüggés
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Általános lineáris modellek
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Statisztika II. V. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
III. előadás.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Nem-paraméteres eljárások, több csoport összehasonlítása
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Az F-próba szignifikáns
Kvantitatív Módszerek
Kvantitatív módszerek
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Lineáris regresszió.
Többtényezős ANOVA.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Petrovics Petra Doktorandusz
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Valószínűségszámítás II.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Paraméteres próbák- gyakorlat
Lineáris regressziós modellek
Kiváltott agyi jelek informatikai feldolgozása 2016
II. előadás.
Gazdaságstatisztika konzultáció
Kvantitatív módszerek
III. zárthelyi dolgozat konzultáció
III. előadás.
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
1.3. Hipotézisvizsgálat, statisztikai próbák
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra nézve v ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket

A hibák táblázata v Adott próbastatisztika mellett az első ill. másodfajú hiba csak egymás rovására csökkenthető. Az elsőfajút írjuk elő kicsinek, ezért az elutasítás a szignifikáns eredmény

Megvalósítás v próbastatisztika: az adatok függvénye v elutasítási (kritikus) vs. elfogadási tartomány nem tipikus értékek vs. tipikus értékek v szignifikancia szint = az elsőfajú hibát előírtan alacsony szinten kívánom tartani

A p-érték fogalma van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H 0 -t elfogadjuk H 0 -t elvetjük

Statisztikai próbák t-próbaF-próba

t-próba v Ismert m várható érték és  szórás mellett a normális eloszlású minta standardizált átlaga standard normális eloszlású lesz. v m-et a H 0 hipotézisben feltételezett értékével,  -t a tapasztalati szórásnégyzettel (ez már valváltozó) helyettesítve Student féle t eloszlást kapunk - ennek kritikus értéke felett utasítunk el

A normális eloszlás és a Student-féle t-eloszlás standard normális eloszlás 1 szabadsági fokú Student- eloszlás 3 szabadsági fokú Student- eloszlás

Az F-eloszlás

Hotelling féle T 2 próba v A normális eloszlású minta standardizált átlagának négyzete egy  2 n eloszlású változó n-edrészével egyező eloszlású v Ennek analógiájára, normális eloszlású vektor értékű mintából elkészítjük az v statisztikát, melynek eloszlása Hotelling féle T 2 lesz - ennek kritikus értéke felett utasítunk el

Szórásanalízis(ANOVA) Hatások vizsgálata Regresszió X Y

Szóráselemzés v Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére v a faktort különböző szintekre állitjuk be és méréseket végzünk v nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek v az adatok alapján ezt megpróbáljuk megcáfolni

A szóráselemzés alapjai

Egy faktor esete Az adatok: Y i,j Az adat sorszáma a i = 1,..., N j csoporton belül (egy rögzített faktorbeállítás melletti mérések) A csoport sorszáma j = 1,..., k (a faktor különböző beállításai, szintjei)

A Nullhipotézis v A modell szerint a mért érték az elméleti érték + a megfigyelési zaj összegeként adódik v A zaj független értékű, normális eloszlású v Y i,j = m j +e i,j v A nullhipotézisben az elméleti (várható) értékek egyenlőségét feltételezük (a faktor nem hat) v H 0 : m 1 =...= m k v Ennek elutasítása a szignifikáns eredmény

A döntés elve v A várható értékek egyenlőségéről döntünk a szórások elemzésének segítségével. v Ha valóban n független azonos eloszlású mintánk van az egyes csoportokban, akkor a csoportátlagok szórásnégyzete a minta szórásnégyzetének n-edrésze. v Ha igaz a nullhipotézis, akkor ugyanez a becsült szórásnégyzetekre is áll - szorozzuk be tehát őket n-nel és teszteljük az egyenlőségüket. v Független normális eloszlású minták szórásnégyzeteinek egyenlőségét F-próbával tesztelhetjük. v A Fisher-Cohran tétel biztosítja, hogy az átlagokból számolt tapasztalati szórásnégyzet független legyen az összevont mintából származó tapasztalati szórásnégyzettől - de ez csak normális eloszlású minta esetén igaz!

A négyzetösszegek felosztása Az átlagok felbontása: A négyzetösszegek felbontása:

A négyzetösszegek felosztása Másképpen: SS össz = SS csb +SS csk SS össz = SS csb +SS csk A “szabadsági fokok”:

Az F-próba A H 0 mellett a “csk” csoportok közötti és “csb” csoporton belüli szórásnégyzetek aránya kicsi és az eloszlása ismert: MS csk MS csb F df csk,df csb eloszlása F df csk,df csb (n-k)SS csk (k-1)SS csb =

A szóráselemzés táblázata

Multi-Faktor ANOVA Egy tipikus kísérletben nem csak egyetlen hanem több faktort is figyelembe kell veni. Ezen faktorok hatását kell ellenõrzés alatt tartani. Tételezzük fel, hogy az előző példában a kísérletben részt vevők nemének hatását is számításba kívánjuk venni. Képzeljük, hogy minden csoportban 3 férfi és 3 nő vesz részt. egy kétszer kettes táblázatban összegezhetjük a kísérleti eredményeket

Két faktor esete 1. Kísérleti 2. Kísérleti Csoport Csoport Csoport Csoport Férfiak Átlag Nõk Átlag Totális átlag5

A kísérleti eredmények változékonyságának négy forrását ismerhetjük fel ebben az esetben: (1) hiba - csoporton belüli változékonyság, (2) csoport tagságból adódó változékonyság (3) nemek szerinti változékonyság (4) kölcsönhatás

Ha nem vezetnénk be a nemek szerinti faktort : A számított SS within : SS csb =10+10=20 Ha számításba vesszük a nemek szerinti faktort : (Használjuk a within-group, within-gender átlagokat a SS kiszámításában; Ezek minden csoportban 2-t adnak) A kombinált SS within : SS csb = =8. A négy csoportra az SS between : SS csk = =20

Az F-próba A H 0 eldöntésére az F próbát éppúgy alkalmazhatjuk mint az előzőekben: eloszlása F df csk,df csb eloszlása F df csk,df csb MS csk MS csb (n-k)SS csk (k-1)SS csb =

Szóráselemzés tábla v Ha elutasítjuk H 0 -t, akkor mely csoportok különböznek? A változékonyság négy lehetséges forrása ( 2 főhatás + kölcsönhatás + hiba) közül melyek hatnak és mennyire? v Megtehetjük, hogy mind a három lehetséges faktor (csoport tagság, nemek, kölcsönhatás) szerint szóráselemzést végzünk és ennek segítségével döntünk a ható faktorokról

Többváltozós szóráselemzés Multivariate ANOVA = MANOVA v Most is azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére, de a válasz most vektor értékű, tehát többféle mennyiséget mérünk v Ekkor nem szórásunk, hanem szórásmátrixunk van. v Ha a nullhipotézis fennáll, a csoportátlagokból számolt szórásmátrix becslés a teljes mintából számolt n-edrésze (+ a becslési ingadozás) v Ezért egyik szorozva a másik inverzével közel az egységmátrixot kell hogy adja - de ezt hogyan teszteljük?

MANOVA próbák v A szorzatmátrix sajátértékeinek kell 1-hez közelinek lennie v Ezt tesztelik a –Wilk –Lawley- Hotelling –Pillai –Roy próbák v Nincs közöttük egyenletesen legerősebb és ilyet nem is lehet konstruálni

Lineáris regresszió

A legkisebb négyzetek módszere Y X

Regresszió v Az Y eredményváltozó (függő változó) közelítése az X faktorokkal (magyarázó változók). Általában lineáris regressziót keresünk (ekkor a magyarázó változók lineáris függvényével közelítünk). v Azt az egyenest keressük, amelyre az egyenes által adott közelítés és a ténylegesen megfigyelt pontok közötti négyzetes eltérés minimális. A megoldás: v Itt felhasználtuk, hogy Y megfigyelései függetlenek. Becslésünk hatásos is, ha a modellbeli hiba független, azonos, normális eloszlású.

A becslés standard hibája v A független, azonos, normális eloszlású hiba esetén sok minden jól számolható, például az egyenes együtthatóinak standard hibája: ahol ahol v Ebből a becsült regressziós együtthatók szignifikanciáját t- próbával vizsgálhatjuk.

Az illeszkedés mérőszáma v Ez igen lényeges, mert hiba lenne valójában nem illeszkedő modellből következtetéseket levonni. Az illeszkedés mérőszáma az R 2 statisztika, ill. ennek korrigált változata, (adjusted R 2) amikor a magyarázó változók számát is figyelembe vesszük.

„Lack of fit” teszt v Az illesztett regressziós egyenes, illetve az átlag, mint vízszintes egyenes körüli szórásokat hasonlítjuk össze. A szórások egyezését F-próbával teszteljük. v Amennyiben a lineáris kapcsolat ténylegesen jelen van, úgy az egyenes körüli szórás kisebb, tehát a szórások egyezését elutasítjuk.