Általános statisztika II.
Áttekintő vázlat. A statisztikai sokaságok és eloszlásuk. A sokaságok jellemzői: átlag, arány, összeg, szórás. Teljes körű megfigyelés – részleges megfigyelés. Mintavételi hiba, nem-mintavételi hiba. Véletlen mintavétel. A mintából kiszámított jellemző (mutató) valószínűségi változó.
A minta kiválasztása: mintavételi terv. Hány minta választható. A mintából a sokaságra vonatkozó következtetések levonása: Statisztikai következtetéselmélet. Mi jogosít fel a következtetések levonására? Valószínűség számítási matematika. (Nagy számok törvénye. Centrális határeloszlás törvénye.)
Statisztikai becslés, hipotézisvizsgálat. Statisztikai becslés során a sokaságból vett mintából számított mutatók alapján következtetünk a sokaság mutatóira. Hipotézisvizsgálat során a sokaságból vett minta alapján a sokaságra vonatkozó feltevés(ek) helyességét ellenőrizzük. Statisztikai minta: a vizsgált sokaságnak egy olyan részsokasága, amelynek megfigyeléséből kapott eredményeket a sokaság egészére vonatkoztatjuk. A statisztikai minta kiválasztásához mintavételi tervet kell készíteni.
Sokaság. sokaság nem akarjuk v. tudjuk megfigyelni a regiszter lefedési hibái célsokaság felvételi keret minta-sokaság 5
Sokaság. (folyt.) Célsokaság: azon egységek összessége, amelyre az adott statisztikai felvételből számított adatok vonatkoznak. Felvételi keret: a célsokaságba tartozó egyedek azon halmaza, amelynek megfigyelése egy adott felvétellel történik. A célsokaság helyett a tényleges felvétel lehetőségét a keretsokaság biztosítja, de a következtetések a célsokaságra vonatkoznak. Mintasokaság: a vizsgált sokaságnak egy olyan részsokasága, amelynek megfigyeléséből kapott eredményeket, becsléssel a célsokaság egészére vonatkoztatjuk. 6
Sokaság. (folyt.) Sokaság: Gazdasági szervezetek. Célsokaság: 5 főnél többet foglalkoztató gazdasági szervezetek. Felvételi keret: Adott időszakban működő 5 főnél többet foglalkoztató gazdasági szervezetek. Mintasokaság: A gazdasági szervezetek mintavételi terv alapján kiválasztott, 10%-a. 7
Szeged népessége korév szerint, 2001. fő Élet- kor Mo < Me < Balra ferdült eloszlás 8 (Adatforrás: KSH)
Mintavételi tervek. Egyszerű véletlen (visszatevés nélküli) (EV) minta. Független, azonos eloszlású (visszatevéses) (FAE) minta. Rétegezett minta. Csoportos minta. Többlépcsős minta.
1. Egyszerű véletlen (visszatevés nélküli) (EV) minta. A lehetséges minták száma : N = a sokaság elemszáma; n = a minta elemszáma 10 elemű sokaságból 2 elemű minta 3 elemű minta 5 elemű minta
2. Független, azonos eloszlású (visszatevéses) (FAE) minta. A lehetséges minták száma : 10 elemű sokaságból 2 elemű minta 3 elemű minta 5 elemű minta
3. Rétegezett minta. A sokaságot homogén részsokaságokra (rétegekre) bontjuk szét. A minta elemeit az egyes rétegekből választjuk ki: a.) egyenletes elosztással minden rétegből ugyanannyi mintaelemet választunk ki. b.) arányos elosztással a rétegek nagyságának sokaságbeli arányával azonos az egyes rétegekből kiválasztott elemek száma. c.) Neyman-féle optimális elosztással a rétegeken belüli szórás nagyságával arányos az egyes rétegekből kiválasztott elemek száma. A rétegeken belül egyszerű véletlen mintavételt végzünk.
4. Csoportos minta. A sokaságot csoportokra bontjuk. Egyszerű mintavétellel kiválasztjuk azokat a csoportokat, amelyek elemeit teljes körűen megfigyeljük. 5. Többlépcsős minta. A csoportok közül mintát választunk, majd a kiválasztott csoportokon belül újra mintát választunk.
A non-profit szektor reprezentatív megfigyelése A reprezentatív megfigyelés célsokaságát öt szempont szerint rétegezték: alapítványok, egyéb non-profit szervezetek, 17 tevékenységi főcsoport, Budapest és vidék, korábban válaszolók, nem válaszolók, a 2001-ben alakultak, korábban alakultak. Összesen 2 * 17 * 2 * 2 * 2 = 272 réteg. A rétegeken belüli mintavétel során első lépésként Neyman eloszlással meghatározták a minta rétegenkénti elemszámát (n). Az egyes rétegeken belül a szervezetek mindegyikéhez 0 és 1 közötti véletlen számot generáltak. A szervezeteket a véletlen számok nagysága szerint csökkenő sorba rendezték. Az 1 és n közötti intervallumba eső szervezetek kerültek be a mintába.
Az ipari szervezetek reprezentatív megfigyelése A sokaságot (mintavételi keretet) a Gazdálkodó Szervezetek Regisztere tartalmazza. A sokaság nagysága 13 100 vállalkozás. A mintaelemek kiválasztása rétegzett mintavétellel történik. Rétegképzés: 1. Az ágazati osztályozás alapján 2. Nagyság szerint 3. Területi elhelyezkedés alapján. Összesen 35 * 3 * 2 = 210 réteget képeznek. A további lépések azonosak, mint az előző példában.
A mintajellemzők. A mintából számított mutatókat (pl. átlag, szórás, értékösszeg, arány) mintajellemzőknek hívjuk. A mintajellemzők és a sokaság mutatói közötti viszonyt az átlagbecslés esetén a következő összefüggések jellemzik: Ha az alapsokaság normális eloszlású, akkor a mintákból számított átlagok is normális eloszlásúak. A lehetséges mintákból számított mintaátlagok átlaga egyenlő a sokaság átlagával. A mintaátlagok szórása (a standard hiba), az alapsokaság szórásától, és a mintaelemek számától (n) függ.
A mintaátlag tulajdonságai. 1. Ha az alapsokaság normális eloszlású, akkor a mintákból számított átlagok is normális eloszlásúak. Átlag= 16 Szórás= 5 Alapsokaság Minták száma = 10 000 Átlag= 16 Szórás = 2,22 Mintaátlagok eloszlása (N=5)
A mintaátlagok átlaga egyenlő a sokaság átlagával . Alapsokaság Átlag= 16 Szórás= 5 Minta elemszám= 5 A minta átlaga= 13,23
Alapsokaság Átlag= 16 Szórás= 5 Minta elemszám= 5 Minták száma= 2 Átlag= 14,82 Szórás= 1,59
A sokaság átlaga (16) egyenlő a mintaátlagok átlagával (16) Alapsokaság Átlag= 16 Szórás= 5 Minták száma = 10 000 Átlag= 16 Szórás= 2,22 Mintaátlagok eloszlása (N=5) A sokaság átlaga (16) egyenlő a mintaátlagok átlagával (16)
Példa:. A sokaság öt autó átlagfogyasztása Példa: A sokaság öt autó átlagfogyasztása. (A=10,9; B=10,1; C=12,5; D=11,6; E=9,9). A lehetséges két elemű minták száma 10. Az alapsokaság átlaga: A mintaátlagok átlaga:
3. A mintaátlagok szórását (a standard hibát, ) az alapsokaság szórása ( ), és a mintaelemek száma (n) határozza meg. Az a véges sokasági szorzó.
Alapsokaság eloszlása Átlag= 16 Szórás= 5 Alapsokaság eloszlása Mintaátlagok szórása egyenlő Mintaátlagok eloszlása Minták száma = 10 000 n=5 Átlag= 15,99 Szórás= 2,25
Mintaátlagok szórása = Alapsokaság Mintaátlagok szórása = Minták száma = 10 000 Átlag= 16,01 Szórás = 1,13 Mintaátlagok eloszlása (N=20)
A standard hiba kiszámítása. A sokaság értékei: 3 4 5 6 10 12 18 20 25 27 A sokaság átlaga: A sokaság szórása: A standard hiba a sokaság szórása alapján:
A sokaságból 2 elemű mintákat veszünk. A standard hiba kiszámítása. (folyt.) A sokaságból 2 elemű mintákat veszünk. A mintaátlagok átlaga:
A standard hiba kiszámítása. (folyt.) A mintaátlagok szórása (standard hiba):
A becslőfüggvény tulajdonságai. A becslés. A sokaság mutatóit (jellemzőit) a mintából becsüljük becslőfüggvény segítségével. A becslőfüggvény tulajdonságai. a.) Torzítatlanság: A becslőfüggvény várható értéke megegyezik a becsülni kívánt sokasági jellemzővel. b.) Hatásosság: Minél kisebb a becslőfüggvény szórása, azaz a standard hiba, annál hatásosabb a becslés. c.) Konzisztens a becslőfüggvény akkor, ha aszimptotikusan torzítatlan és aszimptotikusan hatásos, azaz a mintanagyság növelésével a mintajellemző szórása a 0-hoz tart.
A becslőfüggvény készítése. a.) az analógia elve alapján Az ún. analógia elve azt jelenti, hogy a mintából a becsülni kívánt jellemzővel megegyező tartalmú mutatót számítunk ki, és ennek segítségével becsüljük a megfelelő sokasági jellemzőt. b.) a legkisebb négyzetek módszere úgy határozzuk meg a becsült paramétereket, hogy az ezeket használó modell alapján kapott értékek és a tényleges értékek eltéréseinek négyzetösszege minimális legyen. c.) a maximum likelihood módszer a sokasági paramétert azzal az értékkel becsüljük, amelyik paraméter értékre a likelihood függvény felveszi maximumát, azaz annak az esélye a legnagyobb, hogy a megvalósult mintát kapjuk egy mintavétel alkalmával. d.) a momentumok módszere a sokaság momentumokkal felírható paramétereire adunk becslő függvényt. Lényege, hogy az elméleti momentumokat a mintából számított momentumokkal tesszük egyenlővé, és megoldjuk az egyenletet.
Intervallum becslés. (Átlagbecslés.) Az átlagbecslés során a sokaság átlagát a minta átlagával becsüljük. Meghatározunk egy intervallumot (konfidencia intervallum) a mintából számított átlag értéke körül, mely adott valószínűséggel tartalmazza a sokasági átlagot.
Az átlagbecslés lépései. az átlag meghatározása a mintából: 2) a szórás vagy meg van adva, vagy a mintából számítandó 3) a standard hiba kiszámítása 4) a standard normális eloszlású változó eloszlásfüggvényének értéke („z” vagy „t”) kikeresése a táblázatból 5) a hibahatár megállapítása (z-szer a standard hiba) ± 6) a konfidencia intervallum kiszámítása
Sokasági várható érték becslése (EV-minták, FAE-minták) Alapsokaság eloszlása Kisminta Nagyminta Normális, ismert szórással Normális, ismeretlen szórással Szimmetrikus, ismert szórással Ismeretlen, ismert szórással
Hogy határozzuk meg a konfidencia intervallumot? A sokaság normális eloszlású, tehát a mintaátlagok is normális eloszlásúak. (l. mintaátlag 1. tulajdonság) A normális eloszlás egyik fontos tulajdonsága, hogy a sokaság elemeinek (esetünkben a mintaátlagoknak) 68,27%-a 1 szórásnyival 95,45%-a 2 szórásnyival 99,73%-a 3 szórásnyival tér el a sokaság átlagától. „Standard normális eloszlás” esetében az előző lefedettségi %-okhoz konkrét értékek adhatók: z = 1, 2, 3,. A „z” értékét, vagy az adott „z” értékhez tartozó valószínűséget: az Excel; statisztikai függvények; STNORMELOSZL. Illetve INVERZ.STNORM segítségével, az I. táblázat (két érték között) és a II. táblázat (nagyobb vagy kisebb az adott értéknél) alapján tudjuk megadni.
Legyen "z" standard normális eloszlású valószínűségi változó. Mekkora valószínűséggel lesz "z" értéke STNORMELOSZL z≤2 0,977249868 0,977 z≤-2 0,022750132 0,023 z≥2 -2 ≤z≤2 0,955 Határozza meg a "k" értékét úgy, hogy INVERZ.STNORM P(z≤k)=0,95 p(095) k= 1,645 P(z≥ k)=0,95 p(0,05) k= -1,645 -1,64485 P(-k ≤ z ≤ k)=0,95 p(0,975) k= 1,96 1,959964
Hogyan standardizáljuk, az xi mintaátlagok normális eloszlású sokaságát? A standardizálás olyan lineáris transzformáció: ahol az „A” a sokaság átlagával (μ); a „B”, azaz a standard hibával (σ/ ) (a mintaátlagok szórásával) egyenlő. A standardizált változó:
A standardizált változó Egy felvételi vizsgán a hallhatók által elért pontszámok átlaga 72 (A), szórása 15 pont (B) volt. A vizsgán elért pontszámok normális eloszlású változók. A standardizált változó: Határozza meg azon hallgatók standardizált pontszámát, akik a vizsgán 60; 72; 93 pontot értek el! (60-72) /15 = -0,8 (72-72)/15 = 0 (93-72)/15 = 1,4 Határozza meg azon hallgatók pontszámát, akiknek standardizált pontszáma -1; illetve 1,6 volt! -1=(x-72)/15 = 72-15=57 1,6=(x-72)/15 = 24+72=96
A mintabecslésnél a standardizált változók (zi) azt mutatják, hogy a mintaátlagok hány szórásnyival térnek el a sokaság átlagától. Az összefüggés átrendezésével jutunk el a konfidencia intervallumhoz. A konfidencia intervallum a mintaátlag „z” szórásnyi környezete. A „z” értékét becslésünk kívánt megbízhatósági szintje (valószínűsége) határozza meg.
Egy felvételi vizsgán a hallhatók által elért pontszámok átlaga 72, szórása 15 pont volt. A pontszámok megközelítőleg normális eloszlású változók. (Megoldás: vagy az Excel; stat. függvények; NORMELOSZLÁS; vagy standardizálás után a táblázatokból.) Mekkora annak a valószínűsége, hogy valaki
100 minta konfidencia intervalluma; piros akkor, ha a konfidencia intervallumba nem esik bele a sokaság átlaga. http://www.ruf.rice.edu/~lane/stat_sim/conf_interval/index.html