Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Gyakorlati probléma 20 különböző gyógyszert próbálunk ki, t-próbával összehasonlítva a kezelt és a kontrol csoportot A nullhipotézis elfogadásáról vagy.
Hipotézis-ellenőrzés (Statisztikai próbák)
I. előadás.
II. előadás.
Egy faktor szerinti ANOVA
Összetett kísérleti tervek és kiértékelésük
Kvantitatív módszerek
3. Két független minta összehasonlítása
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Feladat Egy új kísérleti készítmény hatását szeretnék vizsgálni egereken. 5 féle dózist adnak be 5 vizsgált egérnek, de nem sikerült mindegyik egérnek.
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Általános lineáris modellek
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Statisztika II. V. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
III. előadás.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Nem-paraméteres eljárások, több csoport összehasonlítása
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Nemparaméteres próbák Statisztika II., 5. alkalom.
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Az F-próba szignifikáns
Kvantitatív Módszerek
Kvantitatív módszerek
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Lineáris regresszió.
Többtényezős ANOVA.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Petrovics Petra Doktorandusz
A szóráselemzés gondolatmenete
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Kiváltott agyi jelek informatikai feldolgozása 2016
II. előadás.
Gazdaságstatisztika konzultáció
Kvantitatív módszerek
I. Előadás bgk. uni-obuda
III. előadás.
Hipotézisvizsgálatok Paraméteres próbák
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
1.3. Hipotézisvizsgálat, statisztikai próbák
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre az eloszlásra nézve ellenőrizzük, hogy az adatok mennyire támasztják alá a hipotéziseket

A hibák táblázata Adott próbastatisztika mellett az első ill. másodfajú hiba csak egymás rovására csökkenthető. Az elsőfajút írjuk elő kicsinek, ezért az elutasítás a szignifikáns eredmény

Megvalósítás próbastatisztika: az adatok függvénye elutasítási (kritikus) vs. elfogadási tartomány nem tipikus értékek vs. tipikus értékek szignifikancia szint = az elsőfajú hibát előírtan alacsony szinten kívánom tartani

A p-érték fogalma a p-érték nagy a p-érték kicsi H0-t elfogadjuk van egy olyan legkisebb szigni- fikanciaszint, amelyen már biztosan el kell fogadnunk a nullhipotézist elfogadási tartomány Ez az ún. p-érték a p-érték nagy a p-érték kicsi H0-t elfogadjuk H0-t elvetjük

Statisztikai próbák t-próba F-próba

t-próba Ismert m várható érték és  szórás mellett a normális eloszlású minta standardizált átlaga standard normális eloszlású lesz. m-et a H0 hipotézisben feltételezett értékével, -t a tapasztalati szórásnégyzettel (ez már valváltozó) helyettesítve Student féle t eloszlást kapunk - ennek kritikus értéke felett utasítunk el

A normális eloszlás és a Student-féle t-eloszlás standard normális eloszlás 1 szabadsági fokú Student- eloszlás 3 szabadsági fokú Student- eloszlás

Az F-eloszlás

Hotelling féle T2 próba A normális eloszlású minta standardizált átlagának négyzete egy 2n eloszlású változó n-edrészével egyező eloszlású Ennek analógiájára, normális eloszlású vektor értékű mintából elkészítjük az statisztikát, melynek eloszlása Hotelling féle T2 lesz - ennek kritikus értéke felett utasítunk el

Hatások vizsgálata Szórásanalízis (ANOVA) Regresszió Y X

Szóráselemzés Azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére a faktort különböző szintekre állitjuk be és méréseket végzünk nullhipotézis: a faktornak nincs hatása, azaz a várható értékek egyenlőek az adatok alapján ezt megpróbáljuk megcáfolni

Egy faktor esete Az adatok: Yi,j Az adat sorszáma a i = 1 ,..., Nj csoporton belül (egy rögzített faktorbeállítás melletti mérések) A csoport sorszáma j = 1 ,..., k (a faktor különböző beállításai, szintjei)

A Nullhipotézis Yi,j = mj +ei,j H0 : m1=...= mk A modell szerint a mért érték az elméleti érték + a megfigyelési zaj összegeként adódik A zaj független értékű, normális eloszlású Yi,j = mj +ei,j A nullhipotézisben az elméleti (várható) értékek egyenlőségét feltételezük (a faktor nem hat) H0 : m1=...= mk Ennek elutasítása a szignifikáns eredmény

A döntés elve A várható értékek egyenlőségéről döntünk a szórások elemzésének segítségével. Ha valóban n független azonos eloszlású mintánk van az egyes csoportokban, akkor a csoportátlagok szórásnégyzete a minta szórásnégyzetének n-edrésze. Ha igaz a nullhipotézis, akkor ugyanez a becsült szórásnégyzetekre is áll - szorozzuk be tehát őket n-nel és teszteljük az egyenlőségüket. Független normális eloszlású minták szórásnégyzeteinek egyenlőségét F-próbával tesztelhetjük. A Fisher-Cohran tétel biztosítja, hogy az átlagokból számolt tapasztalati szórásnégyzet független legyen az összevont mintából származó tapasztalati szórásnégyzettől - de ez csak normális eloszlású minta esetén igaz!

A négyzetösszegek felosztása Az átlagok felbontása: A négyzetösszegek felbontása:

A négyzetösszegek felosztása Másképpen: SSössz = SScsb +SScsk A “szabadsági fokok”:

Az F-próba MScsk MScsb (n-k)SScsk (k-1)SScsb A H0 mellett a “csk” csoportok közötti és “csb” csoporton belüli szórásnégyzetek aránya kicsi és az eloszlása ismert: MScsk MScsb (n-k)SScsk eloszlása Fdfcsk,dfcsb = (k-1)SScsb

Egy példa ipari alkalmazások közül A gyártmány súlyának elemzése a keverék sűrűségének függvényében. Különböző sűrűségbeállítások mellett 10-10 próbagyártást végeztek, és mérték a súlyt. A kapott eredmények láthatóak az ábrán. A kék pont az adott beállítás melletti átlag. A gyártmány súlya a keverék sűrűségének függvényében

A szórások Az egyes oszlopokra elkészít-jük a mintaátlagokat. (Kék). Becsüljük a mintaátlagokból a teljes minta szórásnégyzetét. Majd a zöld oszlopokra szá- mítjuk a négyzetösszegeket, ezeket összeadjuk és osztunk a szabadsági fokkal – Újra a sárga összevont minta szórásnégyzetét becsüljük. A kétféleképp számított szórásnégyzet eltérésének szignifikanciáját F-próbával teszteljük.

MINITAB-os elemzés eredménye One-way ANOVA: Wt3 versus Mix Source DF SS MS F P Mix 6 569.8 95.0 4.60 0.001 Error 63 1301.2 20.7 Total 69 1871.0 Szabadsági fokok: 7 Mix csoport van: => k=7 dfcsk=k-1=6 Összesen 70 megfigyelésünk van : => N=70, dfcsb=N-k=63 A csoportok átlagainak az összevont átlagtól vett négyzetes eltéréseinek összege SScsk = 569.8 ebből a négyzetes hiba: MScsk=SScsk/dfcsk=94.966 Ugyanígy: A csoportokon belüli átlagoktól vett négyzetes eltérések összege (a csoportokra is összeadva) SScsb = 1301.2 ebből a négyzetes hiba: MScsb=SScsb/dfcsb= 20.653

Az F-próba A fenti két mennyiség MScsk /MScsb hányadosa az F-statisztika értéke: 4.598 Ez adja az adott dfcsk , dfcsbszabadságfokok szerinti F-eloszlásból F(dfcsk,dfcsb) a 0.001-es p értéket

Multi-Faktor ANOVA Egy tipikus kísérletben nem csak egyetlen hanem több faktort is figyelembe kell veni. Ezen faktorok hatását kell ellenőrzés alatt tartani.

A kísérleti eredmények változékonyságának négy forrását ismerhetjük fel ebben az esetben: (1) hiba – azaz a csoporton belüli változékonyság, (2) 1 típusú csoport tagságból adódó változékonyság (3) 2 típusú csoport tagságból változékonyság (4) kölcsönhatás

Az F-próba MScsk (n-k)SScsk MScsb (k-1)SScsb A H0 eldöntésére az F próbát éppúgy alkalmazhatjuk mint az előzőekben: MScsk (n-k)SScsk eloszlása Fdfcsk,dfcsb = MScsb (k-1)SScsb

Szóráselemzés tábla Ha elutasítjuk H0 -t, akkor mely csoportok különböznek? A változékonyság négy lehetséges forrása ( 2 főhatás + kölcsönhatás + hiba) közül melyek hatnak és mennyire? Megtehetjük, hogy mind a három lehetséges faktor (csoport tagság, nemek, kölcsönhatás) szerint szóráselemzést végzünk és ennek segítségével döntünk a ható faktorokról

Többváltozós szóráselemzés Multivariate ANOVA = MANOVA Most is azt vizsgáljuk, hogy egy bizonyos faktornak (körülménynek) van-e hatása a kimeneti változó (válasz) várható értékére, de a válasz most vektor értékű, tehát többféle mennyiséget mérünk Ekkor nem szórásunk, hanem szórásmátrixunk van. Ha a nullhipotézis fennáll, a csoportátlagokból számolt szórásmátrix becslés a teljes mintából számolt n-edrésze (+ a becslési ingadozás) Ezért egyik szorozva a másik inverzével közel az egységmátrixot kell hogy adja - de ezt hogyan teszteljük?

MANOVA próbák A szorzatmátrix sajátértékeinek kell 1-hez közelinek lennie Ezt tesztelik a Wilk Lawley- Hotelling Pillai Roy próbák Nincs közöttük egyenletesen legerősebb és ilyet nem is lehet konstruálni

Lineáris regresszió

A legkisebb négyzetek módszere 289.931 Y 12.8776 1.16013 59.4174 X

Regresszió Az Y eredményváltozó (függő változó) közelítése az X faktorokkal (magyarázó változók). Általában lineáris regressziót keresünk (ekkor a magyarázó változók lineáris függvényével közelítünk). Azt az egyenest keressük, amelyre az egyenes által adott közelítés és a ténylegesen megfigyelt pontok közötti négyzetes eltérés minimális. A megoldás: Ez a hatásos becslés is, ha a modellbeli hiba független, azonos, normális eloszlású.

A becslés standard hibája A független, azonos, normális eloszlású hiba esetén sok minden jól számolható, például az egyenes együtthatóinak standard hibája: ahol Ebből a becsült regressziós együtthatók szignifikanciáját t-próbával vizsgálhatjuk.

Az illeszkedés mérőszáma Ez igen lényeges, mert hiba lenne valójában nem illeszkedő modellből következtetéseket levonni. Az illeszkedés mérőszáma az R2 statisztika, ill. ennek korrigált változata, (adjusted R2) amikor a magyarázó változók számát is figyelembe vesszük.

„Lack of fit” teszt Az illesztett regressziós egyenes, illetve az átlag, mint vízszintes egyenes körüli szórásokat hasonlítjuk össze. A szórások egyezését F-próbával teszteljük. Amennyiben a lineáris kapcsolat ténylegesen jelen van, úgy az egyenes körüli szórás kisebb, tehát a szórások egyezését elutasítjuk.