Gazdaságstatisztika konzultáció Hipotézisvizsgálatok Paraméteres próbák 2014. december 2.
A próbák osztályozása Mi a nullhipotézisük tárgya? Paraméterre és eloszlásra irányuló próbák Milyen jellegűek a sokaság eloszlásával szemben támasztott alkalmazási feltételek? A paraméteres próbák alkalmazási feltételei között szerepelnek a sokasági eloszlás típusára, egyes paramétereire vonatkozó elvárások A nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának folytonosságát követeli meg Hány és mekkora minta szükséges a végrehajtásukhoz? Egy, két vagy többmintás próbák Független és páros mintás próbák Kis- és nagymintás próbák (határ n=30)
Kétmintás próbák A kétmintás próbák – ideértve a speciális páros mintás próbákat is – annak a kérdésnek a vizsgálatára használhatók, hogy két meghatározott szempontból eltérő (pl. különböző műszakok, gépek stb.) sokaságban a vizsgált paraméterek (várható értékek, szórások) is különböznek-e egymástól. A kétmintás próbák két sokaság egymással való összehasonlítását szolgálják. A sokaságok időben, térben vagy bármilyen más tekintetben különbözhetnek egymástól. Kétmintás, a sokasági varianciák egyezésére irányuló próba Páros mintás, a várható értékek különbségére irányuló próba Két, független mintás, várható értékek egyezésére irányuló z-, ill. t- próba
Kétmintás próbák – a sokasági szórások összehasonlítására irányuló próba Alkalmazási feltétel: normális eloszlású, független alapsokaságok Nullhipotézis: Ellenhipotézis: H1: 12>22 A próbafüggvény F-eloszlású (DF1, DF2, DF1,2=n1,2 -1) Táblázataink is egyoldali próbára vonatkoznak (F, DF1, DF2 kritikus értékeit adják meg) A két alapeloszlásból vett n1 és n2 elemű minták korrigált tapasztalati szórásai torzítatlan becslései az alapsokasági szórásoknak. ahol s1*2>s2*2
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák FÜGGETLEN MINTÁK Az alkalmazási feltételek függvényében kétféle próba: kétmintás z-próba ha ismerjük az alapsokasági szórásokat (1 és 2), vagy ha nem ismerjük, de nagy mintával dolgozunk (n1,2>30 és az ismeretlen alapsokasági szórásokat a korrigált tapasztalati szórásokkal becsüljük) kétmintás t-próba ha nem ismerjük az alapsokasági szórásokat, és kis mintáink vannak Nullhipotézis: H0: 1=2 (vagyis a két sokasági várható érték egyenlő) Lehetséges ellenhipotézisek: H1: 1 ≠ μ2 H1: 1 > μ2 H1: 1 < μ2
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák Kétmintás z-próba Alkalmazás feltétele: normális eloszlású alapsokaságok, ismert alapsokasági varianciák Nullhipotézis: H0: 1=2 Lehetséges ellenhipotézisek és elfogadási tartományok: A próbafüggvény N(0,1) eloszlású: H1: 1 ≠ 2 -z/2 <zsz<z/2 H1: 1 > 2 zsz<z H1: 1 < 2 zsz>-z
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák Kétmintás t-próba Alkalmazás feltétele: normális eloszlású alapsokaságok, ismeretlen alapsokasági varianciák kis minták esetén akkor kezelhető, ha az ismeretlen szórásokról tudjuk, hogy azok egyenlőek (F-PRÓBA) Nullhipotézis: H0: 1=2 Lehetséges ellenhipotézisek és elfogadási tartományok: A próbafüggvény Student eloszlású (DF=n1+n2-2): H1: 1 ≠ 2 -t/2 <tsz<t/2 H1: 1 > 2 tsz<t H1: 1 < 2 tsz>-t
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák PÁROS MINTÁK Páros mintáknál az egyik minta elemeinek kiválasztása maga után vonja a másik minta elemeinek kiválasztását. n=n1=n2 a két páros minta összetartozó elemeinek di=yi-xi különbségeit képezzük egy n elemű minta Nullhipotézis: H0: μ1=μ2 vagy H0: μd=δ0 Ellenhipotézis: egyoldali vagy kétoldali Próbafüggvény Student eloszlást követ (DF=n-1):
Példa Egy fémipari üzemben a 300mm névleges átmérőjű tárcsákat az “A” és “B” jelű műszakokban gyártják. A két műszakban gyártott tárcsák átmérőjének hosszára vonatkozóan elvégzett mérések eredményeit az alábbi táblázat összegzi. (A gyártott tárcsák átmérőjének hossza normális eloszlású valószínűségi változónak tekinthető.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az “A” műszakban gyártott tárcsák átmérőjének várható értéke nagyobb, mint a “B” műszakban gyártottaké? Megoldás: a mintaelemszámok kisebbek, mint 30! kétmintás t-próba, de ELŐTTE F-próba "A" műszak "B" műszak Minta elemszáma 11 10 Mintából számított átlag (mm) 300,1 299,6 Tapasztalati szórásnégyzet 0,8944 0,7745
Példa A megoldás menete: Hipotéziseink: Két normális eloszlású valószínűségi változó várható értékei egyenlőségét Esetünkben az elméleti szórások ismeretlenek és a minták elemszámai 30-nál nem nagyobbak, ezért a kétmintás z-próba nem alkalmazható F-próbát alkalmazunk az elméleti szórások egyenlőségének tesztelésére Ha az F-próba eredményeként feltételezhető az elméleti szórások egyenlősége, akkor kétmintás t-próbával teszteljük a várható értékek egyenlőségét Hipotéziseink: H0: az “A” műszakban gyártott tárcsák átmérőjének várható értéke egyenlő a “B” műszakban gyártott tárcsák átmérőjének várható értékével. H1: az “A” műszakban gyártott tárcsák átmérőjének várható értéke nagyobb, mint a “B” műszakban gyártottaké
Példa F-próba H0: H1: α=5% Számlálóhoz tartozó szabadságfok: 11-1=10 "A" műszak "B" műszak Minta elemszáma 11 10 Mintából számított átlag (mm) 300,1 299,6 Tapasztalati szórásnégyzet 0,8944 0,7745 F-próba H0: H1: α=5% Számlálóhoz tartozó szabadságfok: 11-1=10 Nevezőhöz tartozó szabadságfok: 10-1=9 Mivel Fsz< Fkrit, ezért a nullhipotézist 5%-os szignifikancia szinten elfogadjuk, azaz elfogadjuk az elméleti szórások egyezését, és így a várható értékek egyenlőségét kétmintás t-próbával ellenőrizhetjük.
Példa Mivel a számított érték az elfogadási tartományba esik, ezért 5%-os szignifikancia szinten elfogadjuk a nullhipotézist, azaz az “A” és “B” műszakban gyártott tárcsák átmérőjének várható értéke között nincs szignifikáns különbség. Kétmintás t-próba: α=5% DF=11+10-2=19 egyoldali próba,
Példa Egy palackozó üzemben az 1-es és 2-es gyártósorokon palackozott 1 liter névleges űrtartalmú üdítőitalok töltési térfogatát vizsgálták. Egy-egy mintát vettek a két soron palackozott üdítőitalokból, s a mintákból meghatározták a töltési térfogatok átlagát és tapasztalati szórásnégyzetét. Az eredményeket az alábbi táblázatban rögzítették. (A töltési térfogat normális eloszlású valószínűségi változónak tekinthető.) a.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké? b.) 5%-os szignifikancia szinten elfogadható-e az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása kisebb, mint a 2-es gyártósoron palackozottaké? 1-es gyártósor 2-es gyártósor Minta elemszáma 61 Mintából számított átlag 1,02 0,98 Tapasztalati szórásnégyzet 0,045 0,05
Példa A megoldás menete: Hipotézisek (a. kérdés): Két normális eloszlású valószínűségi változó várható értékei egyenlőségét Kétmintás z-próbával tesztelhetjük, ha ismertek az elméleti szórások vagy a minták elemszáma nagyobb 30-nál Kétmintás t-próbával tesztelhetjük, ha az elméleti szórások ismeretlenek, de azok egyenlősége feltételezhető Esetünkben az elméleti szórások ismeretlenek és a minták elemszámai 30-nál nagyobbak, ezért a kétmintás z-próba alkalmazható A kétmintás t-próba szintén alkalmazható, ha az elméleti szórások egyenlősége feltételezhető. Ez utóbbi feltételezést F-próbával tesztelhetjük. Hipotézisek (a. kérdés): H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke egyenlő a 2-es gyártósóron palackozott üdítőitalok töltési térfogatának várható értékével H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké
Példa A töltési térfogat normális eloszlású valószínűségi változó, ezért a feladatunk két normális eloszlású valószínűségi változó várható értékei egyenlőségének tesztelése. A próbastatisztika értéke az elfogadási tartományba esik, ezért a két gyártósoron palackozott üdítőitalok várható töltési térfogatát 5%-os szignifikancia szinten egyenlőnek tekinthetjük. Nem fogadható el az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké.
Példa Másik lehetséges megoldás: kétmintás t-próba 1-es gyártósor 2-es gyártósor Minta elemszáma 61 Mintából számított átlag 1,02 0,98 Tapasztalati szórásnégyzet 0,045 0,05 Mivel a számított érték kisebb, mint a kritikus érték, a nullhipotézis 5%-os szignifikancia szinten elfogadható, így ezen a szignifikancia szinten elfogadható a szórások egyenlősége, s nem fogadható el az az állítás, miszerint az 1-es gyártósoron palackozott üdítőitalok szórása kisebb, mint a 2-es soron palackozottaké. Mivel 5%-os szignifikancia szinten a szórások egyenlősége elfogadható, így az a.) feladat kétmintás t-próbával is megoldható. Másik lehetséges megoldás: kétmintás t-próba Ezt megelőzi az F-próba!!!!! F-próba hipotézisei (b. kérdés): H0: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása egyenlő a 2-es gyártósoron palackozott üdítőitalok töltési térfogatának szórásával H1: az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának szórása kisebb, mint a 2-es gyártósoron palackozottaké Számláló DF: Nevező DF:
Példa Kétmintás t-próba (a. kérdés): DF= 61+61-2=120 A próbastatisztika értéke az elfogadási tartományba esik, ezért a két gyártósoron palackozott üdítőitalok várható töltési térfogatát 5%-os szignifikancia szinten egyenlőnek tekinthetjük. Nem fogadható el az az állítás, hogy az 1-es gyártósoron palackozott üdítőitalok töltési térfogatának várható értéke nagyobb, mint a 2-es gyártósoron palackozottaké.
Példa Megjegyzés: A kétmintás z-próbánál, valamint a kétmintás t-próbánál a próbastatisztikák és az elfogadási tartományok: A kapott értékek jól érzékeltetik, hogy a két próba végrehajtása a gyakorlat szempontjából azonos eredményt hoz.
Példa – Feladatgyűjtemény (33.) Egy fővárosi kerületben a 2000 májusában házasságot kötő párok közül véletlenszerűen kiválasztottak 12 párt, és a párok mindkét tagját külön-külön megkérdezték, hogy hány gyermeket terveznek. Az eredmények a következők (a tervezett gyermekek száma a 12 házaspárnál): Vizsgáljuk meg, hogy 5%-os szignifikancia szinten van-e különbség a feleség és a férj által tervezett gyerekszám között! Megoldás: kétmintás páros próba Házaspár sorszáma 1 2 3 4 5 6 7 8 9 10 11 12 Feleség Férj
Példa – Feladatgyűjtemény (33.) H0-t elfogadjuk 95%-os megbízhatósági szinten, azaz nincs különbség a férj és a feleség által vállalni kívánt gyerekszám között. Hipotézisek: H0: μférj=μfeleség (μd=0) H1: μférj<μfeleség (μd>0) DF=11 α=5% tkrit=1,796 Házaspár sorszáma 1 2 3 4 5 6 7 8 9 10 11 12 Feleség Férj di -1
Többmintás próbák A többmintás próbák annak a kérdésnek a vizsgálatára használhatók, hogy több – meghatározott szempontból eltérő (pl. különböző műszakok, gépek stb.) – sokaságban a vizsgált paraméterek (várható értékek, szórások) is különböznek-e egymástól. A többmintás próbák kettőnél több sokaság egymással való összehasonlítására szolgálnak. Több sokasági szórás (variancia) összehasonlítása Több sokaság várható értékének összehasonlítása (varianciaanalízis)
Többmintás próbák – több sokasági szórás összehasonlítása Cochran próba: azt dönthetjük el, hogy a szórások között talált legnagyobb érték tekinthető-e a többivel azonos eloszlásból származónak. Alkalmazási feltétel: normális eloszlású alapsokaságok, azonos n elemszámú minták (r db sokaságból r db mintánk van) Nullhipotézis: Ellenhipotézis: H1: nem minden variancia egyenlő A próbafüggvény: DF=n-1 Elfogadási tartomány: gsz < gkrit
Több sokaság várható értékének összehasonlítása - varianciaanalízis Alkalmazási feltétel: független minta, normális eloszlású alapsokaságok, a sokasági szórások egyezése feltételezhető (lásd Cochran próba) Nullhipotézis: a nullhipotézis fennállása azt jelenti, hogy nincs kapcsolat az X mennyiségi ismérv és a sokaságokat megkülönböztető minőségi ismérv között a próba a vegyes kapcsolat tesztelésének is tekinthető, a nullhipotézis elfogadása esetén a minőségi ismérv nem befolyásolja a mennyiségi ismérv alakulását, a két ismérv független egymástól Ellenhipotézis: H1: bármely két várható érték nem egyenlő egymással H1 fennállása azt jelenti, hogy van kapcsolat az adott két ismérv között A szórásnégyzet-felbontás módszerére épül (lásd heterogén sokaság vizsgálata)
Több sokaság várható értékének összehasonlítása - varianciaanalízis Menete: Főátlag számítása: Teljes négyzetösszeg: Csoportok közötti négyzetösszeg: a csoportok közti eltéréseket magyarázza, méri Csoportokon belüli négyzetösszeg: a csoportokon belüli eltéréseket, a véletlen hatásokat mutatja
Több sokaság várható értékének összehasonlítása - varianciaanalízis SST = SSK + SSB SSK: a csoportosítás hatása a szóródásra Varianciahányados: H2=SSK/SST SSB: a szóródás azon része, amelyet a csoportosítás nem magyaráz a csoportosító ismérven kívül egyéb tényezők magyaráznak A varianciaanalízis éppen arra keresi a választ, hogy a csoportosító ismérvnek köszönhető eltérésnégyzet-összeg (SSK) szignifikáns nagyságrendű-e.
Több sokaság várható értékének összehasonlítása - varianciaanalízis Ha H0 igaz: a csoporton belüli négyzetösszeg (SSB) 2-eloszlású n-r szabadságfokkal a csoportok közötti négyzetösszeg (SSK) 2-eloszlású r-1 szabadságfokkal a négyzetösszegek és a megfelelő szabadságfokok hányadosából képzett ún. külső (sk2), ill. belső (sb2) szórásnégyzetek egymástól függetlenek a közös várható értékük az ismeretlen, de egyenlő alapsokasági szórás: M(sk2)=M(sb2)=. A két szórás egyezésének vizsgálatával így ellenőrizhetjük eredeti hipotézisünket: a várható értékek azonosságát A próbastatisztika (r-1, n-r) paraméterű F-eloszlású:
Több sokaság várható értékének összehasonlítása - varianciaanalízis ANOVA tábla Négyzetösszeg neve Négyzetösszegek Szabadságfok Szórás becslése F érték p-érték Csoportok közötti * r-1 sk2 sk2/sb2 p Csoporton belüli ** n-r sb2 - Teljes n-1
Példa – Feladatgyűjtemény (37.) Egy betongyárban 4 cementgyárból (A, B, C, D) vásárolnak cementet. A cement minőségét próbakockák gyártásával ellenőrzik. A beérkező „500-as cement” szállítmányokból mintát véve a próbakockák nyomószilárdság adatai [kg/cm2-ben] az alábbiak A szállító: 512, 716, 668, 726, 580 B szállító: 516, 664, 614, 586, 590 C szállító: 542, 684, 722, 600, 642 D szállító: 566, 744, 546, 610, 672. Van-e különbség a szállítók között? (Vagyis van-e különbség a különböző cementgyártók által beszállított cement(kockák) nyomószilárdságának várható értékei között?) Varianciaanalízis, előtte Cochran próba!
Példa – Feladatgyűjtemény (37.) A sokasági varianciák egyezőségének vizsgálata – Cochran próba Hipotézisek: H0: A=B=D=C H1: a legnagyobb szórású különbözik Beszállító Minta Mintaátlag Korr. tap. szórás A 512, 716, 668, 726, 580 B 516, 664, 614, 586, 590 C 542, 684, 722, 600, 642 D 566, 744, 546, 610, 672 640,4 92,113 594 53,5 638 70,44 627,6 81,06
Példa – Feladatgyűjtemény (37.) Cochran próba Számított érték meghatározása Kritikus érték: α=5% n=5 DF=4 r=4 gkrit=0,63 Döntés: mivel a számított érték kisebb, mint a kritikus érték, így a nullhipotézist elfogadjuk, 5%-os szignifikancia szint mellett a sokasági szórások megegyeznek. Beszállító Minta Mintaátlag Korr. tap. szórás A 512, 716, 668, 726, 580 B 516, 664, 614, 586, 590 C 542, 684, 722, 600, 642 D 566, 744, 546, 610, 672 640,4 92,113 594 53,5 638 70,44 81,06 627,6
Példa – Feladatgyűjtemény (37.) Varianciaanalízis Hipotézisek: H0: A=B=C=D H1: bármelyik kettő nem egyenlő Beszállító Minta Mintaátlag Korr. tap. szórás A 512, 716, 668, 726, 580 B 516, 664, 614, 586, 590 C 542, 684, 722, 600, 642 D 566, 744, 546, 610, 672 640,4 92,113 594 53,5 638 70,44 627,6 81,06
Példa – Feladatgyűjtemény (37.) Varianciaanalízis Beszállító Minta Mintaátlag Korr. tap. szórás A 512, 716, 668, 726, 580 B 516, 664, 614, 586, 590 C 542, 684, 722, 600, 642 D 566, 744, 546, 610, 672 640,4 92,113 594 53,5 638 70,44 627,6 81,06
Példa – Feladatgyűjtemény (37.) Mivel Fsz=0,4<Fkrit=3,24 H0-t elfogadjuk 95%-os megbízhatósági szinten, azaz a beszállítóktól származó próbakockák minősége (nyomószilárdsági adatai) között nincs különbség. ANOVA tábla Négyzet-összegek Szabadságfok Szórás becslése F érték Csoportok közötti Csoporton belüli - Teljes 6872,25 r-1=4-1=3 2290,75 0,4 91518,32 N-r=20-4=16 5719,9 98390,57 N-1=19 =0,05 DF1 =3 DF2 = 16 A kritikus érték: Fkr=3,24
Összefoglalás A zárthelyin számonkérésére kerülő próbák: Nemparaméteres próbák: Illeszkedésvizsgálat Homogenitásvizsgálat Függetlenségvizsgálat Paraméteres próbák: Egymintás Sokasági szórásra irányuló próba Várható értékre irányuló próbák (egymintás z- vagy t-próba) Kétmintás Sokasági szórásokra irányuló próba (F-próba) Várható értékekre irányuló próba (kétmintás z-, vagy t-próba, páros mintás próba) Többmintás Sokasági szórásokra (Cochran-próba) Várható értékekre irányuló próba (varianciaanalízis)