Gazdaság- statisztika 4. konzultáció Hipotézisvizsgálatok Árva Gábor PhD Hallgató
Hipotézisvizsgálat célja Hipotézis: A sokasággal kapcsolatos olyan feltevés, amelynek igazságáról a hipotézisvizsgálat során meggyőződünk. A hipotézisek a sokaság eloszlásának jellegére, vagy az eloszlás egy vagy több paraméterére vonatkozhatnak. Hipotézisvizsgálat: A hipotézisek helyességének mintavételi eredményekre alapozott vizsgálata. Annak mérlegelése, hogy az adott sokaságra megfogalmazott állítás (nullhipotézis) mennyire hihető a mintavétel eredményének függvényében.
Null- és ellenhipotézis Nullhipotézis: A sokaságra vonatkozó feltevés, amelynek igazságtartalmáról a hipotézisvizsgálat során közvetlenül meggyőződünk Minden statisztikai próba rögzített nullhipotézissel rendelkezik Ellenhipotézis: A nullhipotézissel egymást kizáró állítás, amelynek igazságtartalmáról a próba során közvetetten hozunk döntést.
Próbafüggvény A mintaelemek egy olyan függvénye, amelynek valószínűség-eloszlása a sokaság ismert tulajdonságait tekintetbe véve, a nullhipotézis igazságát feltételezve pontosan ismert. A nullhipotézis helyességének vizsgálata Rögzített nullhipotézis Egy (pl. nem paraméteres próbák, F-próba) vagy több (pl. kétmintás z-próba) alternatív hipotézis közül választunk EGYET!
Elfogadási és elutasítási tartomány A próbafüggvény lehetséges értékeit két egymást át nem fedő részre bontjuk. H 0 fennállása esetén a próbafüggvény előre megadott, nagy 1-α valószínűséggel az elfogadási tartományba esik. Szignifikancia szint: A kritikus tartományba esés α valószínűsége. p-érték: Az a legkisebb szignifikancia szint, amelyen H 0 már épp elvethető H 1 -gyel szemben.
Kétoldali kritikus tartomány A nullhipotézistől való eltérés ténye érdekel bennünket, de közömbös az eltérés iránya. Pl.: A cukorkák töltőtömege 500 gr? KritikusElfogadási Kritikus érték α/2 1-α Kritikus α/2 Kritikus érték Két oldali kritikus tartomány
Egyoldali kritikus tartomány Valamilyen feltételezett elméleti állapottól való, adott irányú eltérés tényének vizsgálata. Kritikus Elfogadási Kritikus érték α 1-α Bal oldali kritikus tartomány KritikusElfogadási Kritikus érték α 1-α Jobb oldali kritikus tartomány
A hipotézisvizsgálat során elkövethető hibák H0H0 Döntés H 0 -ról a minta alapján Igaz Nem igaz Igaz Nem igaz
Hipotézisvizsgálat lépései 1) H 0 és H 1 hipotézispár megfogalmazása 2) Próbafüggvény kiválasztása 3) A szignifikancia szint megválasztása, és a próbafüggvény lehetséges érték- tartományának felosztása elfogadási-, és elutasítási tartományra. 4) Mintavétel, a mintavételi adatokból a próbafüggvény értékének meghatározása. 5) Döntés a H 0 hipotézisről a próbafüggvény számított értékének és a kritikus érték(ek)nek egybevetésével.
Statisztikai próbák csoportosítása Nullhipotézis tárgya: Paraméteres próba: A nullhipotézis a sokaság valamely paraméter(ei)re irányul Nemparaméteres próba: A nullhipotézis a sokaság (ismeretlen) eloszlására irányul. Ugyanakkor a nullhipotézisben szükséges lehet a sokaság paraméterekkel (pl.: várható érték és szórás) való megadására!
A sokaság eloszlásával szemben támasztott feltételek: Normális eloszlás a tanult paraméteres próbák esetében Nemparaméteres próbák legfeljebb a sokaság eloszlásának folytonosságát követelik meg A próbák végrehajtásához szükséges minták száma és nagysága: Egy-, két-, vagy többmintás próbák Független vagy páros minta Kis és nagymintás próbák
Nem- paraméteres próbák
Nemparaméteres próbák A hipőotézisvizsgálatok azon csoportja, ahol az eloszlás típusa nem ismert, és a H 0 hipotézis magára az eloszlásra vonatkozik. Típusai: Illeszkedésvizsgálat Homogenitásvizsgálat Függetlenségvizsgálat Próbafüggvény: Az elméleti és a tapasztalati gyakoriságok különbségén alapul.
Illeszkedésvizsgálat Arról döntünk, hogy valamely ξ valószínűségi változó F (tapasztalati) eloszlása leírható-e adott F0 (elméleti) eloszlással. Tiszta illeszkedésvizsgálat: Csak az eloszlás jellege kérdéses, annak paraméterei ismertek Becsléses: Az eloszlás paramétereit is a mintából kell megbecsülni. H 0 : A valószínűségi változó f tapasztalati eloszlása adott F elméleti eloszlást követ H 1 : A valószínűségi változó f tapasztalati eloszlása nem az adott F elméleti eloszlást követi
Homogenitásvizsgálat Segítségével eldönthetjük, hogy két valószínűségi változó azonos eloszlásúnak tekinthető-e A közösnek feltételezett eloszlásfüggvény a próbában nem szerepel, és jellegére semmilyen kikötés nincs A két sokaságból vett minta lehet eltérő elemszámú, de azonos osztályokat kell képezni mindkét mintában H 0 : A valószínűségi változó eloszlása a két sokaságban azonos H 1 : A valószínűségi változó eloszlása a két sokaságban nem azonos
Függetlenségvizsgálat Annak eldöntésére szolgál, hogy két minőségi ismérv valamely vizsgált sokaságon belül független-e egymástól H 0 : A két valószínűségi változó független egymástól (nincs közöttük sztochasztikus kapcsolat) H 1 : A két valószínűségi változó nem független egymástól, közöttük sztochasztikus vagy determinisztikus kapcsolat van. Kapcsolat szorossága: Cramer-féle asszociációs együttható,
1. Feladat Egy gimnázium mind a négy évfolyamában megvizsgálták a szemüveget viselő fiúk és lányok számát. Teszteljük 1%-os szignifikancia szinten, hogy azonosnak tekinthető-e a szemüveget viselő diákok számának eloszlása a fiúk és a lányok között? Szemüveget viselők száma ÉvfolyamFiúkLányok
1. Feladat megoldása (1) H 0 : A fiúk és a lányok körében a szemüveget viselők számának eloszlása azonosnak tekinthető. H 1 : Nem tekinthető azonosnak a fiúk és a lányok körében a szemüveget viselők számának eloszlása.
1. Feladat megoldása (2) Kontingenciatáblázat Szemüveget viselők száma Perem- gyakoriság Évf.FiúkLányok P. Gy
1. Feladat megoldása (3) Számított érték meghatározása Döntés a nullhipotézsiről:
2. Feladat Az InterPanter internetszolgáltató felmérést végzett ügyfelei körében a szolgáltatással való elégedettségről. Az ügyfelek egy négyfokozatú skálán (teljesen elégedett, inkább elégedett, inkább elégedetlen, teljesen elégedetlen) értékelték a szolgáltatást. A terület szerint csoportosított adatokat a következő táblázat tartalmazza. A szolgáltató szerint a szolgáltatással való elégedettség függ az ügyfél lakhelyétől. Teszteljük 5%-os szignifikancia szinten a szolgáltató állítását! Milyen szoros a kapcsolat az ügyfél lakhelye és a szolgáltatással való elégedettség között?
2. Feladat LakhelyTeljesen elégedett Inkább elégedett Inkább elégedetlen Teljesen elég- edetlen Nagyváros Kisváros Vidék
2. Feladat megoldása (1) H 0 : Az ügyfél lakhelye és a szolgáltatással való elégedettség független egymástól H 1 : Az ügyfél lakhelye és a szolgáltatással való elégedettség nem független egymástól. Kritikus érték meghatározása
2. Feladat megoldása (2) Teljesen elégedett Inkább elégedett Inkább elégedet- len Teljesen eléged- etlen Perem- gyak. Nagy- város Kisváros Vidék Per.gy
2. Feladat megoldása (3) Számított érték Döntés a nullhipotézisről:
2. Feladat megoldása (4) Kapcsolat szorossága
3. Feladat Egy vasútvonalon egy hétig minden vonaton feljegyezeték az utasok számát. Az eredményeket az alábbi táblázat tartalmazza. Leírható-e a vonaton utazók száma 5%-os szignifikancia szinten normális eloszlással? Utasok számaVonatok száma 0≤x<306 30≤x< ≤x< ≤x< ≤x< ≤x<1808
3. Feladat megoldása (1) H 0 : A vonaton utazók száma N(93,6; 38,56) eloszlást követ H 1 : A vonaton utazók száma nem N(93,6; 38,56) eloszlást követ Emlékeztető:
3. Feladat megoldása (2) Elméleti gyakoriságok (p i ) meghatározása
3. Feladat megoldása (3) 3-4 osztály
3. Feladat megoldása (4) 5-6 osztály
3. Feladat megoldása (5) Utasok száma fPF 0≤x<3060,0424,2 30≤x<60120,14214,2 60≤x<90280,27227,2 90≤x<120300,28828,8 120≤x<150160,17617,6 150≤x<18080,0595,9
3. Feladat megoldása (6) Számított érték meghatározása
Paraméteres próbák
Paraméteres próba: A nullhipotézis a sokaság valamely paraméter(ei)re irányul Szigorúbb alkalmazási feltételek, a tanult próbák megkövetelik az alapsokasági eloszlás normalitását. Ha ebben bizonytalanok vagyunk, illeszkedésvizsgálatot kell végezni!
Egymintás próbák Az egymintás próbák egy adott sokaság valamely jellemzőjére vonatkozó feltevések helyességének ellenőrzésre szolgálnak. A rendelkezésre álló egyetlen mintából számított jellemzőt ennek érdekében egy feltételezett, vagy kívánatos állapothoz viszonyítjuk.
Egymintás szóráspróba Kizárólag normális eloszlású alapsokaságból származó minta esetén alkalmazható.
Várható értékre irányuló egymintás próbák (z-, t-próba) A nullhipotézis minden esetben, hogy a sokaság várható értéke egy adott m értékkel egyenlő. Ha nem ismert az alapsokasági szórás, azaz a mintából korrigált tapasztalati szórást számolunk, és kis mintánk van (n<30), egymintás t-próbát alkalmazunk Ha az alapsokasági szórás ismert, vagy ugyan nem ismert (a mintából a korrigált tapasztalati szórással becsüljük), de nagy minta (n>30) áll rendelkezésre, egymintás z-próbát alkamazunk.
Várható értékre irányuló egymintás próbák (z-, t-próba)
4. Feladat Egy gyógyszer –normális eloszlásúnak tekinthető- hatóanyag-tartalmának az előírások szerint 5 grammnak kell lennie, legfeljebb 0,025 gramm szórással. A gyártásközi ellenőrzés során kivett 60 elemű minta átlagos-hatóanyag tartalma 4,995 gramm, a hatóanyag-tartalom korrigált tapasztalati szórása 0,027 grammra adódott. A minta adatai alapján megfelelőnek minősíthető-e a gyártási folyamat? Legyen a szignifikancia szint 5%.
4. Feladat megoldás (1) Teszteljük a szórást!
4. Feladat megoldás (2) A várható érték tesztelése: Bár az alapsokasági szórás nem ismert, de nagy mintánk van, így egymintás z-próbával számolhatunk.
5. Feladat Egy vállalatnál véletlenszerűen kiválasztva 15 dolgozót, azt találták, hogy normális eloszlásúnak tekinthető fizetésük átlagosan Ft, Ft szórással. A vállalat szerint a munkatársak megtartásának kulcskérdése az iparági átlagnál, Ft-nál magasabb fizetés. Teljesíti-e a vállalat az elvárást?
5. Feladat megoldás Egymintás t-próba, mert kis mintánk van Mivel a számított érték az elfogadási tartományba esik, 1%-os szignifikancia szinten elfogadjuk a nullhipotézist, a fizetések várható értéke Ft.
Kétmintás próbák Kétmintás próbák során arról döntünk, hogy két, meghatározott szempontból eltérő sokaságban a vizsgált paraméterek (szórás és/vagy várható érték) is eltérnek- e egymástól. A paramétereket egymáshoz, és nem egy feltételezett vagy kívánatos értékhez hasonlítjuk
Két sokaság szórásának összehasonlítása – F-próba Normális eloszlású, független sokaságok Kétmintás t-próba esetén a próba alkalmazásának feltétele az ismeretlen alapsokasági szórások egyezősége, azaz kétmintás t-próba előtt mindig F-próbát végzünk.
Két független sokaság várható értékének összehasonlítása – kétmintás z- és t-próba Független minta: Az egyik sokaságban egy mintaelem kiválasztása semmilyen módon nem befolyásolja a másik minta elemeinek kiválasztását. Normális eloszlású alapsokaság Nullhipotézisünk mindig az, hogy a két sokasági várható érték megegyezik.
6. Feladat Egy vállalat a reklámarcok hatékonyságát vizsgálja. Két, hasonló új termék közül az A terméket egy híres TV-s személyiséggel, a B terméket egy babával reklámozzák. A reklámkampány után 20 hétig vizsgálva a heti eladási adatokat, a következő adatok adódtak: Az eladások eloszlása normális. 5%-os szignifikancia szinten egyenlőnek tekinthető-e a két reklámkampány hatásossága?
6. Feladat megoldás (1) Kis minta van, n<30, kétmintás t-próba. Ennek alkalmazási feltétele, hogy az ismeretlen alapsokasági szórások egyelőek legyenek, előbb F-próbával ezt teszteljük.
6. Feladat megoldás (2) Várható értékek egyezőségének vizsgálata kétmintás t-próbával
6. Feladat megoldás (3) Mivel a számított érték a kritikus (elutasítási tartományba) esik 5%-os szignifikancia szinten az ellenhipotézist fogadjuk el, azaz a baba hatékonyabb reklámarcnak tekinthető.
7. Feladat Két gombaölő szer hatásosságát vizsgálják. Az „A” szerrel kezelt 120 tenyészetben az átlagos pusztulási arány 56% volt, 22%-os szórással. A „B” szerrel kezelt 100 tenyészet pusztulásának arányát a következő táblázat tartalmazza. A tenyészetek pusztulásának száma normális eloszlású valószínűségi változó. 1%-os szignifikancia szinte igazolható-e, hogy valamely gombaölő szer hatásosabb a másiknál? Pusztulás arányaMinták száma 0≤x<206 20≤x< ≤x< ≤x< ≤x<10014
7. Feladat megoldás (1) Bár nem ismeretesek az alapsokasági szórások, nagy mintánk van, így kétmintás z-próbával dolgozunk, az alapsokasági szórásra pedig torzítatlan becslést ad a minta korrigált tapasztalati szórása.
7. Feladat megoldás (2) A minták adatai:
Páros minták Az egyik minta elemeinek kiválasztása maga után vonja a másik minta elemeinek kiválasztását, azaz a két minta elemei kölcsönösen és egyértelműen megfeleltethetőek egymásnak. A páros minta két mintájának nagysága mindig egyforma A két minta különbségének eloszlását vizsgáljuk.
Páros minták Próbastatisztika: DF=n-1 szabadságfokú Student-eloszlás
8. Feladat Egy vállalat a munkatársainak nyelvtanfolyamot szervezett. Véletlenszerűen kiválasztva 8 munkatársat, mind a tanfolyam előtt, mind a tanfolyam után e 8 munkatárs egy 100 pontos tesztet töltött ki, amelynek eredményeit a következő táblázat tartalmazza. 1%-os szignifikancia szinten javult-e a munkatársak nyelvtudása a tanfolyam után? Munka- vállaló Pontszám a tanfolyam előtt Pontszám a tanfolyam után Anna7066 Boglárka9095 Cecil3042 Dorottya6886 Emese1225 Fruzsina80100 Gabriella72 Hédi7078
8. Feladat megoldás (1) Mivel ugyanazon munkavállalók tudását vizsgáljuk, páros minta Munka- vállaló Pont tf. előttPont tf. utánKülönbség Anna70664 Boglárka Cecil Dorottya Emese Fruzsina Gabriella72 0 Hédi7078-8
8. Feladat megoldás (2) Számolás…. Döntés: Mivel a számított érték az elutasítási tartományba esik, 1%-os szignifikancia szinten elutasítjuk a nullhipotézist, a nyelvi teszten elért pontszám valóban nőtt a tanfolyam után.
Többmintás próbák Több, valamilyen szempontból különböző vizsgált sokaságban a paraméterek is eltérnek-e egymástól. A többmintás próbák tehát több sokaság egymással való összehasonlítására szolgálnak. Cochran próba és variancia analízis (ANOVA) Feltételek: normális eloszlású valószínűségi változók, és azonos elemszámú sokaságok
Cochran-próba Több sokasági variancia egyezőségét vizsgáljuk, a próbafüggvény DF=n-1, r paraméterű, ahol n az azonos mintaelem- szám, r a képzett osztályok száma
Variancia-analízis A vizsgált r darab sokaság várható értékének összehasonlítása Arra keressük a választ, hogy a csoportképző ismérvnek tulajdonítható SSK négyzetösszeg szignifikáns nagyságrendű-e Ha a nullhipotézis igaz, az SSK/SSB-ből becsült szórásnégyzetek egymástól függetlenek, és közös várható értékük az ismeretlen, de egyező alapsokasági szórás.
ANOVA tábla Az F(r-1; n-r szabadságfokú) számított értéket teszteljük!
9. Feladat Egy kisváros vasútállomásáról 4 irányba indulnak vonatok, Annahegyre (A), Boglárkavárra (B), Csengevölgybe (C) és Dórafalvára (D). Egy nap kiválasztva a délutáni csúcsidőszakban minden irányba 5-5 vonatot, megszámolták azon az utasokat. Tegyük fel, hogy az utazók száma normális eloszlást követ. 5%-os szignifikancia szinten van-e különbség a különböző irányba induló vonatokon utazók száma között? Cél állo más Utasok számaÁtlagS* A ,071 B ,649 C ,674 D
9. Feladat megoldás (1) D célállomás csoportjának átlaga és korrigált tapasztalati szórása:
9. Feladat megoldás (2) A várható értékek összehasonlítását ANOVA- próbával végezzük majd, ennek azonban feltétele az ismeretlen alapsokasági szórások egyezősége. Így először Cochran-próbával ezt vizsgáljuk
9. Feladat megoldás (3) Variancia-analízis: H 0 : A = B = C = D H 1 : bármelyik kettő nem egyenlő Főátlag:
9. Feladat megoldás (4) SSK, SSB meghatározása Szórásbecslés
9. Feladat megoldás (5) Négyzet -összeg neve Négyzet -összeg Szabad- ságfok Szórás- becslés F-értékP-érték SSK633,753211,253,135 SSB1077,961667,3725 SST1711,7119
Köszönöm a figyelmet! ZH: december 8.