Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák

Hasonló előadás


Az előadások a következő témára: "Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák"— Előadás másolata:

1 Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák
Gazdaságstatisztika Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák

2 Becslés vs hipotézisvizsgálat
Következtető statisztikai eszközök Egy véletlen minta ismeretében hogyan lehet becslést adni annak a sokaságnak bizonyos jellemzőire, amelyből a minta származik. Várható érték becslése ismeretlen és ismert sokasági szórás esetén Sokasági variancia becslése Sokasági arány becslése De nem mindig erre van szükség: el kell döntenünk, hogy a rendelkezésre álló egy vagy több minta származhat-e meghatározott tulajdonságokkal rendelkező egy vagy több sokaságból vagy összehasonlítási célok mérlegelni kell, hogy a mintavétel eredménye alátámasztja vagy cáfolja a feltevésünket Kvantitatív módszerek

3 A hipotézisvizsgálat lényege
A vizsgálandó sokaságra vonatkozó ismereteink gyakran hiányosak és/vagy bizonytalanok  sejtésünket hipotézisként fogalmazzuk meg, amelynek igazságáról meg kell győződni Hipotézis: sokasággal (!!!) kapcsolatos feltevés, amely vonatkozhat A sokaság eloszlására A sokaság eloszlásának egy vagy több paraméterére Az állítások helyességéről kétféleképpen lehet meggyőződni: Teljes körű adatfelvételt végzünk Mintavétel eredményei alapján következtetünk MINTAVÉTELI INGADOZÁS, MINTAVÉTELI HIBA Hipotézisvizsgálat: a sokaságra vonatkozó feltevés mintavételi eredményekre támaszkodó vizsgálata. A hipotézisvizsgálat annak mérlegelése, hogy egy sokaságra vonatkozó állítás mennyire hihető a mintavétel eredményeinek tükrében.

4 A hipotézisvizsgálat lényeges kérdései
1. lépés: a null- és alternatív hipotézisek megfogalmazása Nullhipotézis (H0): az a sokaságra vonatkozó feltevés, amelynek igazságáról a hipotézisvizsgálat során közvetlenül meg kívánunk győződni. Alternatív (vagy ellen-) hipotézis (H1): a nullhipotézissel együtt minden lehetőséget kimerítő, azzal egymást kölcsönösen kizáró hipotézis, amelynek helyességéről közvetetten döntünk a hipotézisvizsgálat során. A kettő közül azt fogjuk igaznak tekinteni, elfogadni, amelyik a mintavétel eredménye alapján hihetőbbnek tűnik a másiknál A hipotézisek megfogalmazásának szempontjai: Megválaszolható legyen a bennünket érdeklő kérdés Egymást kizárják Mindig a nullhipotézis helyességéről döntünk, de az arról való döntés egyben közvetett döntés az alternatív hipotézisről.

5 Példa Igaz-e, hogy egy őrölt kávét töltő gép az előírásoknak megfelelően átlagosan 1kg töltősúlyú csomagokat készít? A sokaság várható értékére vonatkozó feltevést szeretnénk vizsgálni A töltőtömeg némileg szóródik A töltés szisztematikusan nem tolódik-e el valamelyik irányba, mert az vagy veszteséget okoz a vállalatnak, vagy a vevőket károsítja meg A szórásról nem mond semmit! A nullhipotézis: H0: μ=1kg A lehetséges ellenhipotézisek: H1: (1) μ≠1kg; H1: (2) μ>1kg; H1: (3) μ<1kg

6 A hipotézisvizsgálat lényeges kérdései
2. lépés: a próbafüggvény kiválasztása A hipotézisek vizsgálatára próbafüggvényt használunk: a mintából a sokaságra történő következtetést szolgálja A mintaelemek egy olyan függvénye, amelynek valószínűségi eloszlása a sokaság ismert tulajdonságait tekintetbe véve, a nullhipotézis igazságát feltételezve pontosan ismert. A próbafüggvényt eloszlásának ismerete teszi alkalmassá a nullhipotézis helyességének vizsgálatára: sokaság eloszlása, mintavétel módja, minta nagysága A próbafüggvények értékei mintáról mintára ingadozó jellemzők, azaz statisztikák. A próbafüggvények konstruálása elvi, matematikai feladat.

7 A hipotézisvizsgálat lényeges kérdései
3. lépés: elfogadási és elutasítási (kritikus) tartomány kijelölése a próbafüggvény lehetséges értékeinek teljes tartományát két egymást át nem fedő részre bontjuk kritikus érték(ek) segítségével: elfogadási és elutasítási (kritikus) tartományra. A határt (a kritikus értékeket) úgy választjuk meg, hogy a próbafüggvény a nullhipotézis fennállása esetén előre megadott nagy ε valószínűséggel az elfogadási tartományba essen. Ha a próbafüggvénynek a rendelkezésünkre álló egy – esetleg több – minta adataiból számított értéke az elfogadási tartományba esik, akkor elfogadjuk a nullhipotézist, ellenkező esetben elvetjük azt. A kritikus tartományba esés α valószínűségét szignifikancia szintnek nevezzük (1%-10% között)

8 A hipotézisvizsgálat lényeges kérdései
Kritikus értékek: Az elfogadási és elutasítási tartományt egymástól elhatároló ca és cf értékeket alsó és felső kritikus értéknek szokás nevezni. A kritikus értékeket mindig a kritikus tartomány részének tekintjük. A kritikus tartomány kijelölésére kétoldali kritikus tartomány használata esetén két kritikus értékre, egyoldali kritikus tartomány esetén pedig egy kritikus értékre van szükség. A kritikus értékek a szignifikancia szint és a próbafüggvény eloszlásának ismeretében egyértelműen meghatározhatóak Speciális táblázatok Gazdaságstatisztika

9 Egyoldali kritikus tartomány
Elfogadási Kritikus érték α 1-α Bal oldali kritikus tartomány Kritikus Elfogadási Kritikus érték α 1-α Jobb oldali kritikus tartomány Bal vagy jobboldali kritikus tartomány kijelölése: eleve arra számítunk, hogy a valóság meghatározott irányú eltérést mutat egy általunk feltételezett helyzettől. ha csak valamilyen feltételezett vagy előírt állapottól való adott irányú eltérés igazán fontos a számunkra. A próbafüggvény mintából nyert értéke elég kicsi-e (elég nagy-e) ahhoz, hogy a nullhipotézis helyett az alternatív hipotézis fennállását legyen indokolt feltételezni. A teljes kritikus tartományt a próbafüggvény eloszlásának vagy csak a bal, vagy csak a jobb szélére tesszük.

10 Kétoldali kritikus tartomány
Kétoldali kritikus tartomány kijelölése: csak a nullhipotézisben feltételezett helyzettől való eltérés ténye érdekel bennünket, és közömbös az eltérés iránya. A próbafüggvény értéke akár kisebb, akár nagyobb lehet, mint a nullhipotézis fennállásakor A kritikus tartományba esés teljes valószínűségét egyenlő arányban szokás megosztani a kritikus tartomány két része között. Kritikus Elfogadási Kritikus érték α/2 1-α Két oldali kritikus tartomány

11 A hipotézisvizsgálat lépései
A null- (H0) és alternatív (H1) hipotézisek megfogalmazása Olyan próbafüggvény keresése, amelynek eloszlása a nullhipotézis helyességét feltételezve és a próba alkalmazási feltételeit figyelembe véve egyértelműen meghatározható. A szignifikancia szint (α) megválasztása, és a próbafüggvény lehetséges értéktartományának felosztása elfogadási és elutasítási tartományra. Mintavétel, ez alapján a próbafüggvény, mint valószínűségi változó számszerű értékének meghatározása. Döntés a hipotézisek helyességéről: ha a próbafüggvény értéke az előre kijelölt elfogadási tartományba esik, akkor elfogadjuk a nullhipotézist, Ha a próbafüggvény értéke az elutasítási tartományba esik, akkor elutasítjuk a nullhipotézist.

12 Statisztikai próbák elve
f(2) P(2szám< 2krit()|H0 igaz) = 1-  =  DF DF2  =1-  2 szám 2 szám 2 2 krit

13 A hipotézisvizsgálat során elkövethető hibák
Adott n mellett: ha α ↑  β ↓ ha α ↓ ↑  β ↑ Adott α mellett: ha n ↑  β ↓ ha próbafüggvény szórása ↓  β ↓ A hipotézisvizsgálat során elkövethető hibák H0 Döntés H0-ról a minta alapján Igaz Nem igaz Minta-1 Mintából következtetünk !!! Minta-2 Másodfajú hiba A H0 téves elfogadása Nincs hiba Hibát követhetünk el !!! Minta-3 Elsőfajú hiba A H0 téves elvetése Másodfajú hiba () Elsőfajú hiba () Nincs hiba e Cél: a másodfajú hiba valószínűségének csökkentése (adott α mellett)

14 P-érték Az a legkisebb szignifikancia szint, amelyen a nullhipotézis épp elvethető az ellenhipotézissel szemben A próbafüggvény mintából nyert értékéhez tartozó szignifikancia szint. Ho-t elvetjük, ha a p≤α Ho-t elfogadjuk, ha a p>α

15 Példa Kávétöltési példa: a töltőgép normális eloszlás szerint tölti a csomagokat H0: μ=1kg H1: μ≠1kg Legyen egy n=16 elemű mintánk Gazdaságstatisztika

16 A próbák osztályozása Mi a nullhipotézisük tárgya:
Paraméterre és eloszlásra irányuló próbák Milyen jellegűek a sokaság eloszlásával szemben támasztott alkalmazási feltételek: A paraméteres próbák alkalmazási feltételei között szerepelnek a sokasági eloszlás típusára, egyes paramétereire vonatkozó elvárások A nemparaméteres próbák alkalmazása legfeljebb a sokaság eloszlásának folytonosságát követeli meg Hány és mekkora minta szükséges a végrehajtásukhoz: Egy, két vagy többmintás próbák Független és páros mintás próbák Kis- és nagymintás próbák (határ n=30)

17 Illeszkedésvizsgálat
Arról döntünk, hogy valamely  valószínűségi változó F (tapasztalati) eloszlása lehet-e adott F0 (elméleti) eloszlásfüggvénnyel jellemzett eloszlás Minták száma: egymintás Alkalmazás feltétele: nagymintás, diszkrét és folytonos eloszlásokra egyaránt Hipotézisek: H0: F = F0 H1: F ≠ F0 A próbafüggvény: A próbafüggvény eloszlása: χ2 eloszlás, DF=r-l-1 Típusai: tiszta és becsléses illeszkedésvizsgálat

18 Példa – diszkrét eloszlása
A Tiszán egy adott időszakban levonuló árhullámok számát vizsgálva az elmúlt 68 év során az alábbi eredményeket kapták: 30 év volt, amikor nem volt árhullám, 25 olyan év volt, amikor 1 árhullám vonult le az adott időszakban, 9 év volt, amikor 2 és 4 olyan év volt, amikor 3 vagy több árhullám következett be. Feltehető-e, hogy a folyón levonuló árhullámok száma modellezhető Poisson-eloszlással? =? nem ismerjük  a mintából kell becsülnünk Poisson-eloszlás esetén: M()= (számtani átlaggal becsülhető) Mivel az elmúlt 68 év során a kérdéses időszakban összesen 55 árhullám volt: 55/68  0,8 árhullámok száma 1 2 3 v. több gyakoriság [db] 30 25 9 4 Gazdaságstatisztika

19 Példa – diszkrét eloszlása
Nullhipotézis és alternatív hipotézis felállítása: H0 = az árhullámok száma =0,8 paraméterű Poisson-eloszlású H1: az árhullámok száma nem =0,8 paraméterű Poisson-eloszlású Mintavétel, adatok feldolgozása, kritikus érték (elfogadási és elutasítási tartomány) meghatározása Poisson eloszlás táblázat =0,8 k=0  p0 =0, 4493 k=1  p1 =0,3595 k=2  p2 =0,1438 k= 3 vagy annál több  1-(p0 + p1 + p2 )=0,0474 k f(k) pk 30 0,4493 1 25 0,3595 2 9 0,1438 3 v. több 4 0,0474 68 Gazdaságstatisztika

20 Példa – diszkrét eloszlás
Elméleti gyakoriságok meghatározása Kritikus érték: DF=r-l-1=4-1-1=2 =5%  táblázatból: 2elm.=5,99 k f(k) pk 30 0,4493 1 25 0,3595 2 9 0,1438 3 v. több 4 0,0474 68 k f(k) pk F(k) 30 0,4493 30,55 1 25 0,3595 24,45 2 9 0,1438 9,78 3 v. több 4 0,0474 3,22 68 Gazdaságstatisztika

21 Példa – diszkrét eloszlás
Számított érték: A számított és a kritikus érték összehasonlítása: 2elm.=5,99 >> 2sz=0,27 Döntés a nullhipotézisről: Mivel a számított érték az elfogadási tartományba esik –, ezért 95%-os megbízhatósági elfogadjuk a H0-t: a folyón levonuló árhullámok száma modellezhető =0,8 paraméterű Poisson-eloszlással. k f(k) pk F(k) 30 0,4493 30,55 1 25 0,3595 24,45 2 9 0,1438 9,78 3 v. több 4 0,0474 3,22 68 Gazdaságstatisztika

22 Példa – folytonos eloszlás
A légi közlekedésben fontos figyelemmel kísérni az utasok átlagos testsúlyát, hogy egyrészt ne terheljék túl a gépet, másrészt ne utazzon a gép fölös kapacitással. Ezért időről időre ellenőrzik, hogy a felnőtt utasok testsúlya nem tér-e el a feltételezettől. A légitársaság a terhelést a 78kg-os átlagos testsúlyra és 11kg-os szórásra tervezi. A feltételezés ellenőrzése céljából megmérték 100 véletlenszerűen kiválasztott utas súlyát, akik között 44 nő volt. A mérés eredménye látható a következő táblázatban. 5%-os szignifikancia szint mellett teszteljük, hogy az utasok testsúlya normális eloszlású változó! A mintából kiszámított jellemzők: Megoldás: Becsléses illeszkedésvizsgálat Testsúly (kg) Ügyfelek száma (fő) -60 7 60-70 16 70-80 32 80-90 28 90-100 13 100- 4 Összesen 100 Gazdaságstatisztika

23 Példa – folytonos eloszlás
Hipotézisek: H0: az utasok tömege N(78,6;12,187) normális eloszlású H1: az utasok tömege nem N(78,6;12,187) normális eloszlású Mintavétel, adatok feldolgozása Testsúly (kg) Ügyfelek száma (fő) - fi Pi Fi -60 7 60-70 16 70-80 32 80-90 28 90-100 13 100- 4 Összesen 100 Gazdaságstatisztika

24 Példa – folytonos eloszlás
A Pi valószínűségi értékek meghatározása Testsúly (kg) Ügyfelek száma (fő) - fi Pi Fi -60 7 60-70 16 70-80 32 80-90 28 90-100 13 100- 4 Összesen 100 0,064255 0,1746 0,305 0,2826 0,1344 0,04 1 Gazdaságstatisztika

25 Példa – folytonos eloszlás
Elméleti gyakoriságok meghatározása Testsúly (kg) Ügyfelek száma (fő) - fi Pi Fi -60 7 0,064255 60-70 16 0,1746 70-80 32 0,305 80-90 28 0,2826 90-100 13 0,1344 100- 4 0,04 Összesen 100 ~1 6,4255 17,46 30,5 28,26 13,44 4 100 Gazdaságstatisztika

26 Példa – folytonos eloszlás
A próbafüggvény értékének meghatározása: Testsúly (kg) Ügyfelek száma (fő) - fi Pi Fi -60 7 0,064255 6,4255 60-70 16 0,1746 17,46 70-80 32 0,305 30,5 80-90 28 0,2826 28,26 90-100 13 0,1344 13,44 100- 4 0,04 Összesen 100 ~1 ~100 0,0911 0,122 0,074 0,0024 0,0144 0,3038 Gazdaságstatisztika

27 Példa – folytonos eloszlás
A kritikus érték meghatározása: DF=r-l-1=6-2-1=3 χ2krit=7,815 Számított és kritikus érték összevetése, döntés a nullhipotézisről: Mivel a számított érték (0,3038) kisebb, mint a kritikus érték (7,815), így a nullhipotézist 5%-os szignifikancia szinten elfogadjuk, azaz az utasok tömege N(78,6;12,187) normális eloszlású. Gazdaságstatisztika

28 Homogenitásvizsgálat
Homogenitásvizsgálat segítségével eldönthetjük, hogy két valószínűségi változó azonos eloszlásúnak tekinthető-e. Minták száma: kétmintás Alkalmazás feltétele: nagymintás, a közösnek feltételezett eloszlásfüggvényre nincs kikötés Hipotézisek: H0: a vizsgált valószínűségi változók két sokaságon belüli eloszlása azonos H1: a vizsgált valószínűségi változók két sokaságon belüli eloszlása nem azonos A próbafüggvény: A próbafüggvény eloszlása: χ2 eloszlás, DF=r-1 Eszköze: kontingencia táblázat

29 Kontingencia táblázat

30 Példa A személysérüléssel járó közúti balesetekre vonatkoznak az alábbi, mintavételből származó adatok 2003-ban. Hasonlítsuk össze a Budapesten és az ország többi részén történt balesetek idősávok szerinti eloszlását (α=1%)! A baleset ideje a nap órái szerint Balesetek száma Budapesten Balesetek száma az ország többi részén 0-8 14 27 8-12 20 39 12-15 19 34 15-18 23 47 18-24 24 53 Összesen 100 200 Gazdaságstatisztika

31 Példa Hipotézisek felállítása:
H0: A balesetek idősávok szerinti eloszlása Budapesten és az ország többi részén megegyezik (H0: FBP = Gegyéb) H1: A balesetek idősávok szerinti eloszlása Budapesten és az ország többi részén nem egyezik (H1: FBP  Gegyéb) Mintavétel, adatok feldolgozása: Kontingencia táblázat: Sor- és oszlopösszegek kiszámítása Elméleti gyakoriságok meghatározása Számított érték meghatározása Gazdaságstatisztika

32 Példa – kontingencia tábla
A baleset ideje a nap órái szerint Balesetek száma Budapesten Balesetek száma az ország többi részén Peremgyakoriság (sorösszegek) 0-8 14 27 8-12 20 39 12-15 19 34 15-18 23 47 18-24 24 53 (oszlopösszegek) 41 13,67 27,34 59 19,67 39,34 53 17,67 35,34 70 23,33 46,66 77 25,67 51,34 100 200 300 Gazdaságstatisztika

33 Példa Kritikus érték meghatározása: DF=r-1=5-1=4 α=1% χ2krit=13,277
Döntés a nullhipotézisről: Mivel a számított érték (0,29656) kisebb, mint a kritikus érték (13,277), így a nullhipotézist elfogadjuk, azaz 1%-os szignifikancia szinten elfogadható, hogy a balesetek óránkénti eloszlása Budapesten és az ország többi részén megegyezik. Gazdaságstatisztika

34 Függetlenségvizsgálat
Két minőségi ismérv valamely adott sokaságon belül független-e egymástól. A minták száma: egymintás Alkalmazás feltétele: a kontingencia táblázat méretétől függően nagy minta Hipotézisek: H0 : a két valószínűségi változó független egymástól (nincs sztochasztikus kapcsolat) H1 : a két valószínűségi nem független egymástól (közöttük sztochasztikus vagy függvénykapcsolat van) A próbafüggvény: A próbafüggvény eloszlása: χ2 eloszlás, DF=(r-1)(s-1)

35 Minőségi ismérvek asszociációja
A minőségi ismérvek között kapcsolat szorossága a minőségi ismérvek közötti asszociációval vizsgálható Cramer-féle asszociációs együttható 0 és 1 közötti értéket vesz fel. Minél közelebb esik 1-hez, annál szorosabb a kapcsolat q = min(r,s)

36 A nyilatkozó foglalkozása
Példa Egy közvéleménykutatás során egyik gazdasági témájú TV-műsorról a következő kép alakult ki a diplomások körében: Tesztelje 5%-os szignifikancia szinten a foglalkozás jellege és a TV-műsor minősítése közötti kapcsolatot! Határozzuk meg az asszociációs együtthatót is, jellemezzük a kapcsolat szorosságát! A nyilatkozó foglalkozása A műsor megítélése megfelelő rossz közgazdász 100 200 jogász 60 40 egyéb diplomás Gazdaságstatisztika

37 Példa Hipotézisek felállítása:
H0: A foglalkozás jellege és a TV-műsor minősítése független egymástól. H1: A foglalkozás jellege és a TV-műsor minősítése nem független egymástól. Mintavétel, adatfeldolgozás: Kontingencia táblázat elkészítése: Sor-, és oszlop peremgyakoriságok meghatározása Elméleti gyakoriságok kiszámítása Számított érték meghatározása Gazdaságstatisztika

38 A nyilatkozó foglalkozása
Példa A nyilatkozó foglalkozása A műsor megítélése Peremgyakoriságok (sorösszegek) megfelelő rossz közgazdász 100 200 jogász 60 40 egyéb diplomás (oszlopösszegek) 150 160 90 400 200 75 80 45 80 200 75 45 300 320 180 800 Gazdaságstatisztika

39 Példa Kritikus érték meghatározása: DF=(r-1)(s-1)=2∙2=4 α=5%
Döntés a nullhipotézisről: Mivel a számított érték 55,53 nagyobb, mint a kritikus érték (9,488), így a nullhipotézist elutasítjuk, a foglalkozás és a TV műsor minősítése nem független egymástól. Gazdaságstatisztika

40 Példa Asszociációs együttható: n=800 2 szám=55,53 r=s=3  q=3
A diploma típusa és a TV-műsor megítélése, mint két minőségi ismérv között gyenge az asszociációs kapcsolat. Gazdaságstatisztika


Letölteni ppt "Hipotézisvizsgálatok általános kérdései Nemparaméteres próbák"

Hasonló előadás


Google Hirdetések