Kvantitatív módszerek Hipotézisvizsgálatok Paraméteres próbák
Paraméteres próbák A paraméteres próbák szigorúbb alkalmazási feltételeket igényelnek Arány-, ill. intervallum szintű mérési skáláról származó adatok állnak rendelkezésre Erősségük (a hamis nullhipotézis elutasításának valószínűsége) nagyobb Csoportosításuk: Egymintás, kétmintás, többmintás Független és páros mintás Várható értékre, szórásra, sokasági arányra irányuló
Egymintás próbák Az egymintás próbák mindig egy adott sokaság valamely jellemzőjére vonatkozó feltevések helyességének ellenőrzésére szolgálnak. Ennek érdekében a rendelkezésre álló egyetlen mintából meghatározott jellemzőt (átlag, tapasztalati szórás) valamely feltételezett, vagy kívánatosnak tartott állapothoz viszonyítjuk. Így annak a kérdésnek a megválaszolására alkalmasak, hogy az a sokaság, amelyből a minta származik lehet-e olyan, mint amilyennek mi azt a nullhipotézisben feltételezzük. Tanult próbák: Egymintás várható értékre irányuló próba Egymintás sokasági szórásra irányuló próba Új próba: Egymintás sokasági arányra irányuló próba
Egymintás próbák – sokasági szórásra irányuló próba Alkalmazási feltételek: normális eloszlású alapsokaság Nullhipotézis: Lehetséges ellenhipotézisek és elfogadási tartományok: A próbafüggvény χ2 eloszlású (DF=n-1):
Egymintás próbák – várható értékre irányuló próba Az alkalmazási feltételek függvényében kétféle próba: egymintás z-próba ha ismerjük az alapsokasági szórást (0), vagy ha nem ismerjük, de nagy mintával dolgozunk (n>30 és a 0-t a korrigált tapasztalati szórással becsüljük) egymintás t-próba ha nem ismerjük az alapsokasági szórást, és kis mintánk van Nullhipotézis: H0: =m0, vagyis a várható érték egy adott m0 értékkel egyenlő. Lehetséges ellenhipotézisek: H1: ≠m0 H1: > m0 H1: < m0
Egymintás próbák – egymintás z-próba Alkalmazás feltétele: normális eloszlású alapsokaság Nullhipotézis: Ellenhipotézisek és elfogadási tartományok: A próbafüggvény N(0;1) eloszlású: H0: =m0 H1: ≠m0 -z/2 <zsz<z/2 H1: > m0 zsz<z H1: < m0 zsz>-z
Egymintás próbák – egymintás t-próba Alkalmazás feltétele: normális eloszlású alapsokaság, ismeretlen alapsokasági szórás (és kis mintaelemszám) Nullhipotézis: Ellenhipotézisek és elfogadási tartományok: A próbafüggvény Student eloszlású (DF=n-1): H0: =m0 H1: ≠m0 -t/2 <tsz<t/2 H1: > m0 tsz<t H1: < m0 tsz>-t
Tesztelendő paraméter Alkalmazási feltételek Hipotézisek Próbafüggvény Próbafüggvény eloszlása Sokasági várható érték Sokasági eloszlás normális sokasági szórás ismert H0: = m0 H1: (1) ≠ m0 (2) > m0 (3) < m0 standard normális (z) sokasági szórás nem ismert Student t-eloszlás (DF=n-1) Sokasági variancia (szórás) H0: σ = σ0 (1) σ ≠ σ0 (2) σ > σ0 (3) σ < σ0 χ2-eloszlás
Egymintás próbák – sokasági arányra irányuló próba P: adott tulajdonsággal rendelkező egyedek aránya a sokaságban p=adott tulajdonsággal rendelkező egyedek aránya a mintában Nullhipotézis: H0: P=P0 Lehetséges ellenhipotézisek: H1: P ≠ P0 H1: P > P0 H1: P < P0 Alkalmazás feltétele: nagy minta A próbafüggvény N(0,1) eloszlású:
Példa Mivel a számított érték kisebb, mint a kritikus érték (vagyis elutasítási tartományba esik), a nullhipotézist elutasítjuk, vagyis 5%-os szignifikancia szinten vagyis a szavazatok 30%-ánál kevesebbet kapnak. Egy diákszervezet feltételezi, hogy a következő diáktanács-választáson a szavazatok legalább 30%-át biztosan megkapják. Visszautasítható-e ez a feltételezés 5%-os szignifikancia szinten úgy, hogy egy 65 elemű mintában 12-en szavaztak erre a szervezetre? Megoldás: H0: P=0,3 H1: P < 0,3 Elég nagy-e a minta? A kritikus érték: zα=-1,64.
Példa Egy olvadó biztosítékokat gyártó cég feltételezi, hogy a működésképtelen biztosítékok aránya legfeljebb 10%. Ezt a feltevést egy 144 elemű mintán vizsgáljuk 5%-os szignifikancia szinten. A mintában talált selejtes termékek száma 25. H0: P=0,1 H1: P>0,1 Mivel a számított érték nagyobb, mint a kritikus érték (vagyis elutasítási tartományba esik), a nullhipotézist elutasítjuk, vagyis 5%-os szignifikancia szinten nem fogadható el, hogy a selejtarány legfeljebb 10%. A kritikus érték: zα=1,64.
Kétmintás próbák A kétmintás próbák annak a kérdésnek a vizsgálatára használhatók, hogy két meghatározott szempontból eltérő (pl. különböző műszakok, gépek stb.) sokaságban a vizsgált paraméterek (várható értékek, szórások) is különböznek-e egymástól. A kétmintás próbák két sokaság egymással való összehasonlítását szolgálják. A sokaságok időben, térben vagy bármilyen más tekintetben különbözhetnek egymástól. Tanult próbák: Kétmintás, a sokasági varianciák egyezésére irányuló próba Páros mintás, a várható értékek különbségére irányuló próba Két, független mintás, várható értékek egyezésére irányuló z-, ill. t- próba, Welch-próba Új próba: Kétmintás, a sokasági arányok egyezésére irányuló próba
Kétmintás próbák – a sokasági szórások összehasonlítására irányuló próba Alkalmazási feltétel: normális eloszlású, független alapsokaságok Nullhipotézis: Ellenhipotézis: H1: 12>22 A próbafüggvény F-eloszlású (DF1, DF2, DF1,2=n1,2 -1) Táblázataink is egyoldali próbára vonatkoznak (mégpedig F, DF1, DF2) kritikus értékeit adják meg. A két alapeloszlásból vett n1 és n2 elemű minták korrigált tapasztalati szórásai torzítatlan becslései az alapsokasági szórásoknak. ahol s1*2>s2*2
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák PÁROS MINTÁK Páros mintáknál az egyik minta elemeinek kiválasztása maga után vonja a másik minta elemeinek kiválasztását. n=n1=n2 a két páros minta összetartozó elemeinek di=yi-xi különbségeit képezzük egy n elemű minta Nullhipotézis: H0: μ1=μ2 vagy H0: μd=δ0 Ellenhipotézis: egyoldali vagy kétoldali Próbafüggvény Student eloszlást követ (DF=n-1):
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák FÜGGETLEN MINTÁK Az alkalmazási feltételek függvényében kétféle próba: kétmintás z-próba ha ismerjük az alapsokasági szórásokat (1 és 2), vagy ha nem ismerjük, de nagy mintával dolgozunk (n1,2>30 és az ismeretlen alapsokasági szórásokat a korrigált tapasztalati szórásokkal becsüljük) kétmintás t-próba ha nem ismerjük az alapsokasági szórásokat, és kis mintáink van Nullhipotézis: H0: 1=2 (vagyis a két sokasági várható érték egyenlő) Lehetséges ellenhipotézisek: H1: 1 ≠ μ2 H1: 1 > μ2 H1: 1 < μ2
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák Kétmintás z-próba Alkalmazás feltétele: normális eloszlású alapsokaságok, ismert alapsokasági varianciák Nullhipotézis: H0: 1=2 Lehetséges ellenhipotézisek és elfogadási tartományok: A próbafüggvény N(0,1) eloszlású: H1: 1 ≠ 2 -z/2 <zsz<z/2 H1: 1 > 2 zsz<z H1: 1 < 2 zsz>-z
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák Kétmintás t-próba Alkalmazás feltétele: normális eloszlású alapsokaságok, ismeretlen alapsokasági varianciák kis minták esetén akkor kezelhető, ha az ismeretlen szórásokról tudjuk, hogy azok egyenlőek (F-PRÓBA) Nullhipotézis: H0: 1=2 Lehetséges ellenhipotézisek és elfogadási tartományok: A próbafüggvény Student eloszlású (DF=n1+n2-2): H1: 1 ≠ 2 -t/2 <tsz<t/2 H1: 1 > 2 tsz<t H1: 1 < 2 tsz>-t
Kétmintás próbák – a sokasági várható értékek összehasonlítására irányuló próbák Welch próba Alkalmazási feltétele: normális eloszlású alapsokaságok, ismeretlen alapsokasági varianciák, nem tételezhető fel a szórások egyezése Nullhipotézis: H0: 1=2 Lehetséges ellenhipotézisek és elfogadási tartományok (DF=f): Próbafüggvény Student eloszlású (DF=f): H1: 1 ≠ 2 -t/2 <tsz<t/2 H1: 1 > 2 tsz<t H1: 1 < 2 tsz>-t
Utazással töltött idő (perc) Példa – Welch próba A naponta utazással töltött időt vizsgálták középiskolások és egyetemisták körében. A középiskolások utazással töltött ideje egy 60 elemű minta alapján átlagosan 83 perc, a szórása 17 perc. Ugyanez az egyetemistáknál a következőképpen alakult: 5%-os szignifikancia szinten vizsgálva megegyezik-e a két csoportban az utazási idők várható értéke és szórása? Utazással töltött idő (perc) Válaszolók száma -50 12 50-100 36 100-150 24 150- 8
Utazással töltött idő (perc) Példa – Welch próba Az egyetemisták átlagos utazási ideje és szórása: A középiskolások átlagos utazási ideje és szórása: F-próba: Mivel a számított érték nagyobb, mint a kritikus érték, így a sokasági szórások egyezése 5%-os szignifikancia szinten nem tehető fel. Utazással töltött idő (perc) Válaszolók száma -50 12 50-100 36 100-150 24 150- 8 α=5% DF1=79, DF2=59 Fkrit=1,53
Példa – Welch próba Welch-próba: H0: 1=2 H1: 1 > 2 Mivel a számított érték nagyobb, mint a kritikus érték, így a nullhipotézist elutasítjuk, nem tehető fel a középiskolások és egyetemisták csoportjában az utazási idők várható értékének az egyezése 5%-os szignifikancia szinten Welch-próba: H0: 1=2 H1: 1 > 2 A próbafüggvény értéke: A kritikus érték 5%-os szignifikancia szint és DF=109,1 mellett: tα=1,658
Tesztelendő paraméter Alkalmazási feltételek Hipotézisek Próbafüggvény Próbafüggvény eloszlása Sokasági várható érték mindkét sokaság normális eloszlású, 1 és 2 ismert v. n1 és n2>30, a minták függetlenek H0: 1=2 H1: (1) 1 ≠ 2 (2) 1 > 2 (3) 1 < 2 standard normális (z) mindkét sokaság normális eloszlású, 1 és 2 nem ismert v. n1 és n2<30 1=2, a minták függetlenek Student t-eloszlás (DF=n1+n2-2) a sokaság normális eloszlású, páros minta (H0: μd=δ0) (1) 1 ≠ 2 (μd ≠ δ0) (μd > δ0) (μd < δ0) (DF=n-1) Sokasági variancia Mindkét sokasági eloszlás normális , ahol s1*2 > s2*2 F-eloszlás (DF1=n1-1; DF2=n2-1)
Kétmintás aránypróba Alkalmazási feltétele: nagy minták Nullhipotézis: H0: P1=P2 Lehetséges ellenhipotézisek és elfogadási tartományok: A próbafüggvény N(0,1) eloszlású: H1: P1 ≠ P2 -z/2 <zsz<z/2 H1: P1 > P2 zsz<z H1: P1 < P2 zsz>-z
Példa Egy közvélemény-kutató cég 1000 elemű, állítása szerint az ország teljes felnőtt lakosságát reprezentáló FAE mintákkal dolgozik. Két – időben egymást két hónappal követő – közvélemény-kutatás eredménye szerint az egyik politikust a lakosság 62, ill. 68%-a tartotta rokonszenvesnek. 5%-os szignifikancia szinten állítható-e, hogy a lakosság rokonszenve növekedett az adott politikus iránt? Megoldás: H0: P1=P2 H1: P1<P2 z= –1,64 Mivel zsz<–1,64, ezért a H0 hipotézist 5%-os szignifikancia szinten elutasítjuk, vagyis a lakosság rokonszenve az adott politikus iránt növekedett.
Példa Egy multinacionális vállalatnál az ügyfélszolgálaton dolgozók prémiumának egy részét a szolgáltatások elégedettség vizsgálatához kötik. Minden hónapban véletlenszerűen kiválasztott 1500 ügyfelet hív fel egy automata, kérdéseket tesz fel, a válaszokat rögzítik, és összesítik. Az egyik hónapban 75%-os, a rákövetkezőben pedig 78%-os volt az elégedettség, ezért a prémium összegét növelték. Jogos volt-e ez a lépés 5%-os szignifikancia szinten? Megoldás: H0: P1=P2 H1: P1<P2 Elfogadási tartomány: zsz > –1,64 Mivel zsz<–1,64, ezért a H0 hipotézist 5%-os szignifikancia szinten elutasítjuk, vagyis a vevők elégedettsége növekedett, így jogos a prémium összegének növelése.
Többmintás próbák A többmintás próbák annak a kérdésnek a vizsgálatára használhatók, hogy több – meghatározott szempontból eltérő (pl. különböző műszakok, gépek stb.) – sokaságban a vizsgált paraméterek (várható értékek, szórások) is különböznek-e egymástól. A többmintás próbák kettőnél több sokaság egymással való összehasonlítására szolgálnak. Több sokasági szórás (variancia) összehasonlítása Több sokaság várható értékének összehasonlítása (varianciaanalízis)
Többmintás próbák – több sokasági szórás összehasonlítása Cochran próba: azt dönthetjük el, hogy a szórások között talált legnagyobb érték tekinthető-e a többivel azonos eloszlásból származónak. Alkalmazási feltétel: normális eloszlású alapsokaságok, azonos n elemszámú minták (r db sokaságból r db mintánk van) Nullhipotézis: Ellenhipotézis: H1: nem minden variancia egyenlő A próbafüggvény: DF=n-1 Elfogadási tartomány: gsz < gkrit
H1: nem minden variancia egyenlő Példa – Cochran próba Egy egészségügyi kutatóközpont öt különböző fogyókúra eljárást kíván összehasonlítani. A vizsgálatra 25 túlsúlyos személyt kértek fel, akiket 5 csoportba soroltak be. Egy hónapon keresztül alkalmazták az egyes eljárásokat. Feltételezve a súlycsökkenés normális eloszlását vizsgáljuk meg, hogy van-e különbség a fogyókúrás terápiák által eredményezett súlycsökkenések varianciája között (α=5%)! Megoldás: Eljárás Súlyveszteség (kg) A 13 16 15 B 7 4 8 9 C 12 6 10 D 5 E 11 H1: nem minden variancia egyenlő
Példa – Cochran próba Minden fogyókúrás eljárásra ki kell számolnunk a súlycsökkenések átlagát és korrigált tapasztalati szórását: 5%-os szignifikancia szinten a különböző fogyókúrás eljárások eredményeként előálló súlycsökkenések varianciája között nincs különbség, mivel a számított érték kisebb, mint a kritikus. Eljárás Súlyveszteség (kg) A 13 16 15 B 7 4 8 9 C 12 6 10 D 5 E 11 Kritikus érték: α=5%, r=5, DF=n-1=4, gkrit=0,56
Többmintás próbák – több sokasági szórás összehasonlítása Bartlett próba Alkalmazási feltétel: normális eloszlású alapsokaságok, nem egyforma elemszámú minták állnak rendelkezésre a sokaságokból Nullhipotézis: H0: Ellenhipotézis: H1: nem minden variancia egyenlő r db minta, az elemszámok: n1, n2, ...., nr, a j-edik minta átlaga korrigált tapasztalati szórásnégyzete A próbafüggvény (DF=r-1):
Több sokaság várható értékének összehasonlítása - varianciaanalízis Alkalmazási feltétel: független minta, normális eloszlású alapsokaságok, a sokasági szórások egyezése feltételezhető (lásd Cochran v. Bartlett próba) Nullhipotézis: a nullhipotézis fennállása azt jelenti, hogy nincs kapcsolat a mennyiségi ismérv és a sokaságokat megkülönböztető minőségi ismérv között a próba a vegyes kapcsolat tesztelésének is tekinthető, a nullhipotézis elfogadása a minőségi ismérv és a mennyiségi ismérv független egymástól Ellenhipotézis: H1: bármely két várható érték nem egyenlő egymással H1 fennállása azt jelenti, hogy van kapcsolat az adott két ismérv között A szórásnégyzet-felbontás módszerére épül (lásd heterogén sokaság vizsgálata - Gazdaságstatisztika)
Több sokaság várható értékének összehasonlítása - varianciaanalízis Menete: Főátlag számítása: Teljes négyzetösszeg: Csoportok közötti négyzetösszeg: a csoportok közti eltéréseket magyarázza, méri Csoportokon belüli négyzetösszeg: a csoportokon belüli eltéréseket, a véletlen hatásokat mutatja
Több sokaság várható értékének összehasonlítása - varianciaanalízis SST = SSK + SSB SSK: a csoportosítás hatása a szóródásra Varianciahányados: H2=SSK/SST SSB: a szóródás azon része, amelyet a csoportosító ismérv nem magyaráz A varianciaanalízis éppen arra keresi a választ, hogy a csoportosító ismérvnek köszönhető eltérésnégyzet-összeg (SSK) szignifikáns nagyságrendű-e.
Több sokaság várható értékének összehasonlítása - varianciaanalízis Ha H0 igaz: a négyzetösszegek és a megfelelő szabadságfokok hányadosából képzett ún. külső (sk2), ill. belső (sb2) szórásnégyzetek egymástól függetlenek a közös várható értékük az ismeretlen, de egyenlő alapsokasági szórás: M(sk2)=M(sb2)=. A két szórás egyezésének vizsgálatával ellenőrizhetjük eredeti hipotézisünket: a várható értékek azonosságát A próbastatisztika (r-1, n-r) paraméterű F-eloszlású:
Több sokaság várható értékének összehasonlítása - varianciaanalízis ANOVA tábla Négyzetösszeg neve Négyzetösszegek Szabadságfok Szórás becslése F érték p-érték Csoportok közötti * r-1 sk2 sk2/sb2 p Csoporton belüli ** n-r sb2 - Teljes n-1
Példa Tegyük fel, hogy az eladott sajtmennyiség a hét háromféle napján azonos szórású normális eloszlást követ. Ellenőrizzük 5%-os szignifikancia szinten azt a nullhipotézist, hogy a hét elején, közben és a hét végén eladott mennyiség várható értéke azonos! Nap Megfigyelt napok száma Eladott sajtmennyiség Az eladott mennyiség átlaga Az eladott mennyiség varianciája Hétfő 6 30,40,54,34,44,50 42 84,8 Egyéb hétköznap 10 49,43,30,59,35, 46,42,35,36,43 41,8 70,4 Szombat 52,58,57,70,54,53 57,33 43,87 Összesen 22 46,09 110,47
Példa Nap Megfigyelt napok száma Eladott sajtmennyiség H1: bármely két várható érték nem egyenlő egymással Nap Megfigyelt napok száma Eladott sajtmennyiség Az eladott mennyiség átlaga Az eladott mennyiség varianciája Hétfő 6 30,40,54,34,44,50 42 84,8 Egyéb hétköznap 10 49,43,30,59,35, 46,42,35,36,43 41,8 70,4 Szombat 52,58,57,70,54,53 57,33 43,87 Összesen 22 46,09 110,47
Példa α=5%, DF1=2, DF2=19 Fkrit=3,52 Mivel a számított érték nagyobb, mint a kritikus érték, ezért a nullhipotézist elutasítjuk 5%-os szignifikancia szinten. A hét vizsgált típusú napjain tehát valószínűleg nem egyforma az eladott sajtmennyiség várható értéke. A szóródás oka Négyzet-összegek Szabad-ságfok Szórás becslése F érték milyen nap 1042,92 2 521,46 7,76 hiba 1276,95 19 67,21 - teljes 2319,87 21
Példa A Cochran-próbával is tesztelt fogyókúrás eljárásokat nézzük újra, és ellenőrizzük, hogy van-e különbség az egyes eljárások között a hatékonyság szempontjából 5%-os szignifikancia szinten! (vagyis van-e olyan, amelyik nagyobb átlagos súlycsökkenéssel jár, mint a többi?) Tegyük fel, hogy feltételezhető az eljárások okozta súlyveszteségek varianciájának azonossága, így folytathatjuk a várható értékek egyezésének vizsgálatával. Eljárás Súlyveszteség (kg) átlagok szórások A 13 16 15 1,22 B 7 4 8 9 1,87 C 12 6 10 2,36 D 5 E 11 1,41
H1: bármely két várható érték nem egyenlő egymással Példa Mivel a számított érték nagyobb, mint a kritikus érték, így a nullhipotézist elutasítjuk. 5%-os szignifikancia szinten van különbség az egyes fogyókúrás eljárások által eredményezett súlycsökkenések várható értéke között, azaz valószínűleg van olyan, amelyik hatásosabb a másiknál. H1: bármely két várható érték nem egyenlő egymással Főátlag: α=5% DF1=4 DF2=20 Fkrit=2,87 Eljárás Súlyveszteség (kg) átlagok szórások A 13 16 15 1,22 B 7 4 8 9 1,87 C 12 6 10 2,36 D 5 E 11 1,41
Összefoglalás A zárthelyin számonkérésére kerülő próbák Nemparaméteres próbák: Illeszkedésvizsgálat Kolmogorov próbával Sorozatpróba Rangösszegpróba Paraméteres próbák: Egymintás Sokasági aránypróba Kétmintás Kétmintás sokasági aránypróba Welch-próba Többmintás Cochran próba Varianciaanalízis