STATISZTIKA II. 4. Előadás

STATISZTIKA II. 4. Előadás
Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

Becslés EV mintából EV minta jellemzői FAE mintával szemben:
Mekkora az N nagysága (alapsokaság nagysága), nincs visszatevés, elemeivel adott sokaság (nem eloszlásával) Az egymást követően kiválasztott mintaelemek nem függetlenek egymástól Átlag eloszlása nem pontosan normális, Mintabeli arány hipergeometriai (nem binomiális), Student eloszlás nem vezethető le, Khi-négyzet eloszlás sem érvényes

Hipergeometriai eloszlás:
Binomiális eloszlás:

Becslés EV mintából EV minta jellemzői:
nem túl kis minták esetén a mintából számított átlag, értékösszeg, arány közelítőleg normális eloszlást követ. Ezért csak nagymintás eredményeket tárgyalunk.

Becslés EV mintából Az átlag becslésekor felhasználjuk azt, hogy a mintaátlag várható értéke nem független mintaelemek esetén is megegyezik a sokasági átlaggal, azaz a mintaátlag torzítatlan pontbecslést ad a sokasági átlagra: Mivel véges számú (N) sokasági elemet feltételezünk, a sokasági várható érték (μ) célszerűen helyettesíthető -gal.

Becslés EV mintából A mintaátlag varianciája (a nem független mintaelemek miatt) egy véges korrekciós faktorral szorzódik:

Becslés EV mintából véges korrekciós faktor:
mindig pozitív, kisebb 1-nél azaz az EV mintából való becslés pontosabb (hatásosabb), mint a hasonló méretű FAE mintából, lényegi eleme a kiválasztási arány: ha kicsi a faktor közel áll 1-hez.

Becslés EV mintából A sokasági átlag EV mintából történő intervallumbecslése nem túl kis minták (30 vagy felette) esetén hasonló a FAE mintáéhoz, de a standard hiba szorzódik a véges korrekciós faktor négyzetgyökével, és a mintanagyság miatt feltételezzük, hogy akár ismeretlen sokasági szórás esetén is a z szorzót használjuk t helyett. Ha a nem ismert, akkor s szerepel helyette.

Minta elemszám Ha felírjuk az 1-α megbízhatósághoz tartozó intervallum határokat, azt kapjuk, hogy Ezt n-re átrendezve azt kapjuk, hogy

Minta elemszám A szükséges mintanagyság a variancia növekedésével nő, ami azt jelenti, hogy nagyobb sokasági szóródás esetén azonos megbízhatóság mellett azonos pontosság eléréséhez nagyobb minta szükséges. Ha a megbízhatóságot mutató z nő, minden más tényező változatlansága esetén n is nő, azaz a nagyobb megbízhatóság nagyobb mintát igényel. Ha pontosabb becslést akarunk elérni, akkor szűkebb intervallumot keresünk, azaz Δ értékét csökkentjük, ami növeli n-t. Ez azt jelenti, hogy nagyobb pontosság eléréséhez nagyobb minta szükséges.

Értékösszeg becslés A gazdaságstatisztikában (pl. összes GDP becslése mintából, lakossági rétegek összes jövedelmének becslése) A minta értékösszegből kiindulva: ad torzítatlan becslést a sokasági értékösszegre. A mintából számított értékösszeget felszorozva a kiválasztási arány reciprokával, kapunk torzítatlan becslést a sokasági értékösszegre. A N/n szorzó (súly) megmutatja, hogy egy mintaelem hány sokasági elemet reprezentál.

Értékösszeg becslés pl. 5%-os kiválasztási arány esetén a szorzó
azaz egy mintaelem átlagosan sokasági elemet képvisel Teljeskörűsítés: A hivatalos statisztikában használják, amikor a mintabeli értékösszegből becsüljük a sokasági értékösszeget. Értékösszegbecslés esetén az átlagra kapott intervallumhatárokat meg kell szorozni a sokaság nagyságát jelentő N-nel.

Becslés EV mintából 2004-ben a H jelű nemzetgazdasági ág (szálláshely-szolgáltatás és vendéglátás) bruttó hozzáadott értékének becslése (EV minta) N= n=300 minta BHÉ=3360 millió Ft minta szórás=16,8 millió Ft Egyszerű pontbecslés a mintabeli értékösszegből: N/n=33,34 szorzó (súly) 3360 * 33,34= millió Ft

Intervallumbecslés (átlagból kiindulva):
véges korrekciós faktor négyzetgyöke: 95%-os megbízhatóságnál a z=1,96; az intervallum félhosszának becslése: az értékösszegre. Az intervallum határai: 93,3 és 130,7 milliárd Ft

Sokasági aránybecslés
A P sokasági arány becslésekor elegendően nagy mintával dolgozunk normális közelítést alkalmazzuk. A mintából számított arány torzítatlanul becsli a P sokasági arányt és a standard hiba a véges korrekciós faktor négyzetgyökével szorzódik. Intervallumbecslésünk tehát:

Sokasági előfordulás, gyakoriság becslése
Ha nem a sokasági arányt, hanem egy előfordulást, gyakoriságot akarunk becsülni, akkor először becsüljük a megfelelő arányt, majd ezt szorozzuk a sokaság nagyságával. A kapott N∙p becslőfüggvény tulajdonságai a p tulajdonságaiból adódnak. Itt is, mint az értékösszegbecslésnél, csak a konstans sokasági elemszámmal (N) kell szorozni a standard hibát, illetve az intervallumhatárokat.

Kétmintás becslések Eddig 1 mintából 1 jellemzőt becsültünk, de
lehetséges 2 vagy több mintából is a becslés. Két sokaság és az azokból vett minták legfőbb jellemzői: Különbség Hányados A sokaság megne- vezése A sokaság jellemzői A minta jellemzői Várható érték Arány Szórásnégyzet Nagyság Átlag Y-sokaság X-sokaság

Kétmintás becslések Páros minták:
ha két sokaság elemei értelmesen egymáshoz rendelhetők, párosíthatók. Mind a megfelelő sokaságok, mind a minták elemszáma megegyezik. Jobb, pontosabb következtetést lehet levonni (a párosság információt hordoz) pl. a férj és a feleség vásárlási szokásainak vizsgálata, ugyanazon személyek vizsgálata kezelés előtt és kezelés után (orvosi / biológiai kísérletekben), ugyanazon gazdasági szervezetek eredményei egy intézkedés meghozatala előtt és után.

Kétmintás becslések Független minták:
ha a megfelelő mintaelemek elemi szinten nem párosíthatók össze. pl. két ország makromutatóit vetjük össze (termelékenység, egy főre jutó jövedelem, …) a sokaság párosítható, de összekeverjük az elemeket Független minták elemszáma nem kell, hogy azonos legyen. Páros sokaság páros minta Független sokaság független minta

Különbségbecslés független mintákból
Becsüljük az különbséget független mintákból. A pontbecslés (az intervallum közepe) a Ezt követően a mintából becsülnünk kell a közös szórásnégyzetet. Ezt a becslést a mintából számított kombinált (pooled) szórásnégyzettel végezzük el: Ami a két becsült szórásnégyzet súlyozott átlaga. Ebből a különbség standard hibája

Különbségbecslés független mintákból
Belátható, hogy a Amiből a konfidencia-intervallum alsó és felső határai:

Kétmintás becslések: a különbség becslése
2005-ben épült lakások nettó építési költsége (Ft/m2) Budapesten (20 lakás) és Pécsett (10 lakás) Határozzuk meg a különbség konfidencia-intervallumát 95%-os megbízhatósággal (a költségek normális eloszlását feltételezve)

A δ becslőfüggvénye lesz, értéke 40000Ft/m2. A közös sokasági szórásnégyzet becslése: standard hiba

Így levonható az a következtetés, hogy ez az intervallum nem tartalmazza a nullát, ami azt jelenti, hogy a két város között az építési költségeket illetően valóságos a különbség, ez a különbség nem tudható be csupán annak, hogy véletlen minták alapján számítottuk.

Becslés rétegzett mintából
A sokaságban lévő heterogenitást lehet-e csökkenteni?? A becslőfüggvények varianciája (standard hibája) kisebb sokasági variancia esetén kisebb. Ha a sokaság homogénebb, pontosabb becslések készíthetők. Ezért a becslések pontosabbá tételére alkalmazzák a rétegzést. (mintavétel előtt, külső információk alapján képeznek a sokaságból homogén részsokaságokat (rétegeket)

Társadalomstatisztikai felvételekben (háztartás az egység): a háztartás nagysága, a háztartásfő iskolai végzettsége, a munkaerőpiacon betöltött státusza (aktív, munkanélküli, nyugdíjas, …) szerint Gazdaságstatisztikai felvételekben ( pl. vállalkozásokra vonatkozóan): a vállalkozás nagysága, működési területe, ágazati, regionális hovatartozása, …. szerint Politikai-közvéleménykutatási felvételekben: (pl. választópolgároktól) a megkérdezett kora, iskolai végzettsége, pártszimpátiája, …. szerint

A sokasági átlag becslése rétegzett EV mintából
A rétegzett becslésnél azt feltételezzük, hogy a rétegek száma M, és a kiválasztás a következő séma szerint történik: Y11Y21…YN11; Y12Y22…YN22; Y1MY2M…YNMM; 1. sokasági réteg 2. sokasági réteg M-edik sokasági réteg y11y21…yn11; y12y22…yn22; y1My2M…ynMM; mintabeli réteg 2. mintabeli réteg M-edik mintabeli réteg A j-edik (j=1, 2, …, M) sokasági átlagot -vel, a j-edik mintaátlagot -vel jelöljük. A j-edik rétegben a sokaság elemszáma Nj, a mintáé nj. Szükséges még a részsokaságok varianciája (általános eleme σ2j), valamint ezek becslései rétegenként torzítatlanul (s2j).

A becslés tárgya a sokasági főátlag, amely felírható a részátlagok súlyozott számtani átlagaként: Ekkor, rétegenként elkészíthetők a rétegátlagok torzítatlan becslései.

A főátlag torzítatlan becslése a következő: ahol a Wj súlyok az egyes sokasági rétegek relatív nagyságát jellemzik.

A becslőfüggvény azt mondja, hogy rétegzett minta esetén a rétegminták átlagait sokasági súlyokkal átlagolva, torzítatlan becslést kapunk a keresett sokasági főátlagra. Ha a minta arányosan rétegzett volt, akkor a mintasúlyokat is használhatjuk A becslőfüggvény és a mintabeli súlyokat tartalmazó becslőfüggvény megegyezik:

A rétegzett minta a sokasági súlyokkal átlagolva mindig torzítatlan pontbecslést ad a sokasági átlagra. A rétegzett minta, csak ha arányosan rétegzett ad a mintasúlyokkal torzítatlan pontbecslést a sokasági átlagra.

A rétegzett átlagbecslés varianciája a rétegátlagok varianciáiból, majd ezeket összesítve a főátlag varianciája is számítható. Mivel a j-edik részátlag varianciája EV minta esetén

A rétegzés nagy előnye, hogy csökkenti a becslés varianciáját. (a rétegvarianciák nem súlyozódnak össze, így ha Wj arányt jelent (0 és 1 közötti számot), akkor négyzetére igaz, hogy Ezek összege is kisebb lesz 1-nél, ezért a képlet nem valódi súlyozást jelent, hanem a rétegvarianciák valamiféle „összehúzó” kompozícióját.

Arányos rétegzés esetén a variancia a következő formára egyszerűsíthető: ahol a belső szórásnégyzetet jelent. Az n elemű EV minta esetén az átlag (nem rétegzett átlag) varianciája Ez abban különbözik az arányos rétegzés utáni becslés varianciájától, hogy ott helyett szerepelt.

Mivel a varianciafelbontás tétele alapján , amiből következően , ami ismét a rétegzés kisebb varianciáját mutatja. A vegyes kapcsolat szorosságát jellemző H2 mutató akkor vesz fel nagy értéket, ha a kapcsolat erős (csoportképző és mért ismérv között), azaz ha a varianciafelbontásban komponens súlya nagy. Ha a rétegképző ismérv és a mért ismérv kapcsolata szoros, akkor súlya kicsi lesz, ami a rétegzés hatékonyságára utal. Mivel a sokasági variancia nem mindig ismert, ebben az esetben a korrigált nj– 1-gyel osztott torzítatlan variancia becslést kell végeznünk.

A pontbecslés után az intervallumbecslésre áttérve feltételezzük az átlagbecslés normális eloszlását. Így a rétegzett mintából történő átlagbecslés becsült standard hibája alapján: és az intervallumbecslés:

Nagy sokaságok esetén (a gyakorlatban ezek a jellemzők) az EV minta helyett az egyszerűbb FAE minta is alkalmazható, így a becslési formulákból a véges korrekciós faktor gyakran elhagyható. Ha az minden j esetén (minden rétegben) nagyobb 0,99-nél, akkor elhagyható, illetve 1-nek tekinthető.

A becslést rétegzett mintából végezzük el.
Magyarországi szállodák árainak becslése - becslés rétegzett mintából (értékösszeg-becslés) 2004. évben a magyar szállodák átlagos egy éjszakára jutó díját, és a szállodák ebből adódó összes éves bevételét szeretnénk becsülni. A becslést rétegzett mintából végezzük el. 95%-os megbízhatósági intervallumban kívánjuk megkapni.

Magyarországi szállodák árainak becslése - becslés rétegzett mintából
A magyarországi szállodák néhány adata, 2004 Kategória Vendégéjszakák száma Egy éjszakára jutó díj (a mintában) Összesen Mintában átlaga szórása (s) (ezer éjszaka) (éjszaka) (Ft/éjszaka) * és ** 1500 200 2 500 500 *** és **** 9800 6 200 1 200 ***** 1200 300 20 000 5 000 12500 1000 …

Célszerű kiszámítani a W sokasági súlyokat:

Az átlag varianciájának becslése:

A becsült standard hiba:

Becslés összetett minták és mutatók esetén
A gyakorlati statisztikában nem ritka a bonyolultabb mutatók és összetett mintavételi tervek alkalmazása, általában a sokasági eloszlást sem ismerjük. Az egyetlen rendelkezésre álló mintából többet készítünk, majd az így kapott mintákból külön-külön készítünk becsléseket és a minták átlagaiból vonunk le következtetéseket.

Becslés összetett minták és mutatók esetén
Csoportosításuk: független részminták módszere (1946 Mahalanobis; a meglévő mintát feldarabolja több részmintára) jackknife módszercsalád (először az első, majd a második, végül az utolsó minta elemet elhagyva n számú n-1 elemű másodlagos mintához jutunk bootstrap módszer az induló mintából (parent sample) visszatevéssel választ ki nagyszámú véletlen mintát Ezeket számítógép intenzív módszereknek nevezik.

STATISZTIKA II. 4. Előadás

Hasonló előadás

Az előadások a következő témára: "STATISZTIKA II. 4. Előadás"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

STATISZTIKA II. 4. Előadás

Hasonló előadás

Az előadások a következő témára: "STATISZTIKA II. 4. Előadás"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés