STATISZTIKA II. 4. Előadás

Slides:



Advertisements
Hasonló előadás
Hipotézis-ellenőrzés (Statisztikai próbák)
Advertisements

I. előadás.
II. előadás.
Statisztika II. I. Dr. Szalka Éva, Ph.D..
BECSLÉS A sokasági átlag becslése
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Gazdaságelemzési és Statisztikai Tanszék
Rangszám statisztikák
Gazdaságelemzési és Statisztikai Tanszék
Két változó közötti összefüggés
Általános statisztika II.
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék STATISZTIKA I. 11. Előadás.
Gazdaságelemzési és Statisztikai Tanszék
Gazdaságelemzési és Statisztikai Tanszék
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
Mintavételes eljárások
A középérték mérőszámai
Regresszióanalízis 10. gyakorlat.
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Statisztika II. III. Dr. Szalka Éva, Ph.D..
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
STATISZTIKA II. 2. Előadás
STATISZTIKA II. 3. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
STATISZTIKA II. 6. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
3. előadás Heterogén sokaságok Szórásnégyzet-felbontás
Kvantitatív Módszerek
Valószínűségszámítás
Gazdaságstatisztika Bevezetés szeptember 11.
Gazdaságstatisztika 14. előadás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Hipotézis vizsgálat (2)
Következtető statisztika 9.
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Adatleírás.
t A kétoldalú statisztikai próba alapfogalmai
Mintavételes eljárások
I. előadás.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
A szóráselemzés gondolatmenete
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Valószínűségszámítás II.
A számítógépes elemzés alapjai
Bevezetés, tippek Ea-gyak kapcsolata Statisztika II -más tárgyak kapcsolata Hogyan tanulj? Interaktív órák, kérdezz, ha valami nem világos! tananyag =előadások.
Kvantitatív módszerek Becsléselmélet október 15.
Leíró statisztika, részekre bontott sokaság, becslés Árva Gábor PhD Hallgató.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Gazdaságstatisztika Becsléselmélet október 30. és november 5.
A számítógépes elemzés alapjai
Kvantitatív módszerek
Részekre bontott sokaság vizsgálata, gyakorló feladatok
II. előadás.
Becsléselmélet - Konzultáció
Gazdaságstatisztika konzultáció
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
I. Előadás bgk. uni-obuda
Gazdaságinformatikus MSc
Előadás másolata:

STATISZTIKA II. 4. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék

Becslés EV mintából EV minta jellemzői FAE mintával szemben: Mekkora az N nagysága (alapsokaság nagysága), nincs visszatevés, elemeivel adott sokaság (nem eloszlásával) Az egymást követően kiválasztott mintaelemek nem függetlenek egymástól Átlag eloszlása nem pontosan normális, Mintabeli arány hipergeometriai (nem binomiális), Student eloszlás nem vezethető le, Khi-négyzet eloszlás sem érvényes

Hipergeometriai eloszlás: Binomiális eloszlás:

Becslés EV mintából EV minta jellemzői: nem túl kis minták esetén a mintából számított átlag, értékösszeg, arány közelítőleg normális eloszlást követ. Ezért csak nagymintás eredményeket tárgyalunk.

Becslés EV mintából Az átlag becslésekor felhasználjuk azt, hogy a mintaátlag várható értéke nem független mintaelemek esetén is megegyezik a sokasági átlaggal, azaz a mintaátlag torzítatlan pontbecslést ad a sokasági átlagra: Mivel véges számú (N) sokasági elemet feltételezünk, a sokasági várható érték (μ) célszerűen helyettesíthető -gal.

Becslés EV mintából A mintaátlag varianciája (a nem független mintaelemek miatt) egy véges korrekciós faktorral szorzódik:

Becslés EV mintából véges korrekciós faktor: mindig pozitív, kisebb 1-nél azaz az EV mintából való becslés pontosabb (hatásosabb), mint a hasonló méretű FAE mintából, lényegi eleme a kiválasztási arány: ha kicsi a faktor közel áll 1-hez.

Becslés EV mintából A sokasági átlag EV mintából történő intervallumbecslése nem túl kis minták (30 vagy felette) esetén hasonló a FAE mintáéhoz, de a standard hiba szorzódik a véges korrekciós faktor négyzetgyökével, és a mintanagyság miatt feltételezzük, hogy akár ismeretlen sokasági szórás esetén is a z szorzót használjuk t helyett. Ha a nem ismert, akkor s szerepel helyette.

Minta elemszám Ha felírjuk az 1-α megbízhatósághoz tartozó intervallum határokat, azt kapjuk, hogy Ezt n-re átrendezve azt kapjuk, hogy

Minta elemszám A szükséges mintanagyság a variancia növekedésével nő, ami azt jelenti, hogy nagyobb sokasági szóródás esetén azonos megbízhatóság mellett azonos pontosság eléréséhez nagyobb minta szükséges. Ha a megbízhatóságot mutató z nő, minden más tényező változatlansága esetén n is nő, azaz a nagyobb megbízhatóság nagyobb mintát igényel. Ha pontosabb becslést akarunk elérni, akkor szűkebb intervallumot keresünk, azaz Δ értékét csökkentjük, ami növeli n-t. Ez azt jelenti, hogy nagyobb pontosság eléréséhez nagyobb minta szükséges.

Értékösszeg becslés A gazdaságstatisztikában (pl. összes GDP becslése mintából, lakossági rétegek összes jövedelmének becslése) A minta értékösszegből kiindulva: ad torzítatlan becslést a sokasági értékösszegre. A mintából számított értékösszeget felszorozva a kiválasztási arány reciprokával, kapunk torzítatlan becslést a sokasági értékösszegre. A N/n szorzó (súly) megmutatja, hogy egy mintaelem hány sokasági elemet reprezentál.

Értékösszeg becslés pl. 5%-os kiválasztási arány esetén a szorzó azaz egy mintaelem átlagosan 20 sokasági elemet képvisel Teljeskörűsítés: A hivatalos statisztikában használják, amikor a mintabeli értékösszegből becsüljük a sokasági értékösszeget. Értékösszegbecslés esetén az átlagra kapott intervallumhatárokat meg kell szorozni a sokaság nagyságát jelentő N-nel.

Becslés EV mintából 2004-ben a H jelű nemzetgazdasági ág (szálláshely-szolgáltatás és vendéglátás) bruttó hozzáadott értékének becslése (EV minta) N=10003 n=300 minta BHÉ=3360 millió Ft minta szórás=16,8 millió Ft Egyszerű pontbecslés a mintabeli értékösszegből: N/n=33,34 szorzó (súly) 3360 * 33,34=112034 millió Ft

Intervallumbecslés (átlagból kiindulva): véges korrekciós faktor négyzetgyöke: 95%-os megbízhatóságnál a z=1,96; az intervallum félhosszának becslése: az értékösszegre. Az intervallum határai: 93,3 és 130,7 milliárd Ft

Sokasági aránybecslés A P sokasági arány becslésekor elegendően nagy mintával dolgozunk normális közelítést alkalmazzuk. A mintából számított arány torzítatlanul becsli a P sokasági arányt és a standard hiba a véges korrekciós faktor négyzetgyökével szorzódik. Intervallumbecslésünk tehát:

Sokasági előfordulás, gyakoriság becslése Ha nem a sokasági arányt, hanem egy előfordulást, gyakoriságot akarunk becsülni, akkor először becsüljük a megfelelő arányt, majd ezt szorozzuk a sokaság nagyságával. A kapott N∙p becslőfüggvény tulajdonságai a p tulajdonságaiból adódnak. Itt is, mint az értékösszegbecslésnél, csak a konstans sokasági elemszámmal (N) kell szorozni a standard hibát, illetve az intervallumhatárokat.

Kétmintás becslések Eddig 1 mintából 1 jellemzőt becsültünk, de lehetséges 2 vagy több mintából is a becslés. Két sokaság és az azokból vett minták legfőbb jellemzői: Különbség Hányados A sokaság megne- vezése A sokaság jellemzői A minta jellemzői Várható érték Arány Szórásnégyzet Nagyság Átlag Y-sokaság X-sokaság

Kétmintás becslések Páros minták: ha két sokaság elemei értelmesen egymáshoz rendelhetők, párosíthatók. Mind a megfelelő sokaságok, mind a minták elemszáma megegyezik. Jobb, pontosabb következtetést lehet levonni (a párosság információt hordoz) pl. a férj és a feleség vásárlási szokásainak vizsgálata, ugyanazon személyek vizsgálata kezelés előtt és kezelés után (orvosi / biológiai kísérletekben), ugyanazon gazdasági szervezetek eredményei egy intézkedés meghozatala előtt és után.

Kétmintás becslések Független minták: ha a megfelelő mintaelemek elemi szinten nem párosíthatók össze. pl. két ország makromutatóit vetjük össze (termelékenység, egy főre jutó jövedelem, …) a sokaság párosítható, de összekeverjük az elemeket Független minták elemszáma nem kell, hogy azonos legyen. Páros sokaság páros minta Független sokaság független minta

Különbségbecslés független mintákból Becsüljük az különbséget független mintákból. A pontbecslés (az intervallum közepe) a Ezt követően a mintából becsülnünk kell a közös szórásnégyzetet. Ezt a becslést a mintából számított kombinált (pooled) szórásnégyzettel végezzük el: Ami a két becsült szórásnégyzet súlyozott átlaga. Ebből a különbség standard hibája

Különbségbecslés független mintákból Belátható, hogy a Amiből a konfidencia-intervallum alsó és felső határai:

Kétmintás becslések: a különbség becslése 2005-ben épült lakások nettó építési költsége (Ft/m2) Budapesten (20 lakás) és Pécsett (10 lakás) Határozzuk meg a különbség konfidencia-intervallumát 95%-os megbízhatósággal (a költségek normális eloszlását feltételezve)

Kétmintás becslések: a különbség becslése A δ becslőfüggvénye lesz, értéke 40000Ft/m2. A közös sokasági szórásnégyzet becslése: standard hiba

Kétmintás becslések: a különbség becslése Így levonható az a következtetés, hogy ez az intervallum nem tartalmazza a nullát, ami azt jelenti, hogy a két város között az építési költségeket illetően valóságos a különbség, ez a különbség nem tudható be csupán annak, hogy véletlen minták alapján számítottuk.

Becslés rétegzett mintából A sokaságban lévő heterogenitást lehet-e csökkenteni?? A becslőfüggvények varianciája (standard hibája) kisebb sokasági variancia esetén kisebb. Ha a sokaság homogénebb, pontosabb becslések készíthetők. Ezért a becslések pontosabbá tételére alkalmazzák a rétegzést. (mintavétel előtt, külső információk alapján képeznek a sokaságból homogén részsokaságokat (rétegeket)

Becslés rétegzett mintából Társadalomstatisztikai felvételekben (háztartás az egység): a háztartás nagysága, a háztartásfő iskolai végzettsége, a munkaerőpiacon betöltött státusza (aktív, munkanélküli, nyugdíjas, …) szerint Gazdaságstatisztikai felvételekben ( pl. vállalkozásokra vonatkozóan): a vállalkozás nagysága, működési területe, ágazati, regionális hovatartozása, …. szerint Politikai-közvéleménykutatási felvételekben: (pl. választópolgároktól) a megkérdezett kora, iskolai végzettsége, pártszimpátiája, …. szerint

A sokasági átlag becslése rétegzett EV mintából A rétegzett becslésnél azt feltételezzük, hogy a rétegek száma M, és a kiválasztás a következő séma szerint történik: Y11Y21…YN11; Y12Y22…YN22; Y1MY2M…YNMM; 1. sokasági réteg 2. sokasági réteg M-edik sokasági réteg y11y21…yn11; y12y22…yn22; y1My2M…ynMM; mintabeli réteg 2. mintabeli réteg M-edik mintabeli réteg A j-edik (j=1, 2, …, M) sokasági átlagot -vel, a j-edik mintaátlagot -vel jelöljük. A j-edik rétegben a sokaság elemszáma Nj, a mintáé nj. Szükséges még a részsokaságok varianciája (általános eleme σ2j), valamint ezek becslései rétegenként torzítatlanul (s2j).

A sokasági átlag becslése rétegzett EV mintából A becslés tárgya a sokasági főátlag, amely felírható a részátlagok súlyozott számtani átlagaként: Ekkor, rétegenként elkészíthetők a rétegátlagok torzítatlan becslései.

A sokasági átlag becslése rétegzett EV mintából A főátlag torzítatlan becslése a következő: ahol a Wj súlyok az egyes sokasági rétegek relatív nagyságát jellemzik.

A sokasági átlag becslése rétegzett EV mintából A becslőfüggvény azt mondja, hogy rétegzett minta esetén a rétegminták átlagait sokasági súlyokkal átlagolva, torzítatlan becslést kapunk a keresett sokasági főátlagra. Ha a minta arányosan rétegzett volt, akkor a mintasúlyokat is használhatjuk A becslőfüggvény és a mintabeli súlyokat tartalmazó becslőfüggvény megegyezik:

A sokasági átlag becslése rétegzett EV mintából A rétegzett minta a sokasági súlyokkal átlagolva mindig torzítatlan pontbecslést ad a sokasági átlagra. A rétegzett minta, csak ha arányosan rétegzett ad a mintasúlyokkal torzítatlan pontbecslést a sokasági átlagra.

Becslés rétegzett mintából A rétegzett átlagbecslés varianciája a rétegátlagok varianciáiból, majd ezeket összesítve a főátlag varianciája is számítható. Mivel a j-edik részátlag varianciája EV minta esetén

Becslés rétegzett mintából A rétegzés nagy előnye, hogy csökkenti a becslés varianciáját. (a rétegvarianciák nem súlyozódnak össze, így ha Wj arányt jelent (0 és 1 közötti számot), akkor négyzetére igaz, hogy Ezek összege is kisebb lesz 1-nél, ezért a képlet nem valódi súlyozást jelent, hanem a rétegvarianciák valamiféle „összehúzó” kompozícióját.

Becslés rétegzett mintából Arányos rétegzés esetén a variancia a következő formára egyszerűsíthető: ahol a belső szórásnégyzetet jelent. Az n elemű EV minta esetén az átlag (nem rétegzett átlag) varianciája Ez abban különbözik az arányos rétegzés utáni becslés varianciájától, hogy ott helyett szerepelt.

Becslés rétegzett mintából Mivel a varianciafelbontás tétele alapján , amiből következően , ami ismét a rétegzés kisebb varianciáját mutatja. A vegyes kapcsolat szorosságát jellemző H2 mutató akkor vesz fel nagy értéket, ha a kapcsolat erős (csoportképző és mért ismérv között), azaz ha a varianciafelbontásban komponens súlya nagy. Ha a rétegképző ismérv és a mért ismérv kapcsolata szoros, akkor súlya kicsi lesz, ami a rétegzés hatékonyságára utal. Mivel a sokasági variancia nem mindig ismert, ebben az esetben a korrigált nj– 1-gyel osztott torzítatlan variancia becslést kell végeznünk.

Becslés rétegzett mintából A pontbecslés után az intervallumbecslésre áttérve feltételezzük az átlagbecslés normális eloszlását. Így a rétegzett mintából történő átlagbecslés becsült standard hibája alapján: és az intervallumbecslés:

Becslés rétegzett mintából Nagy sokaságok esetén (a gyakorlatban ezek a jellemzők) az EV minta helyett az egyszerűbb FAE minta is alkalmazható, így a becslési formulákból a véges korrekciós faktor gyakran elhagyható. Ha az minden j esetén (minden rétegben) nagyobb 0,99-nél, akkor elhagyható, illetve 1-nek tekinthető.

A becslést rétegzett mintából végezzük el. Magyarországi szállodák árainak becslése - becslés rétegzett mintából (értékösszeg-becslés) 2004. évben a magyar szállodák átlagos egy éjszakára jutó díját, és a szállodák ebből adódó összes éves bevételét szeretnénk becsülni. A becslést rétegzett mintából végezzük el. 95%-os megbízhatósági intervallumban kívánjuk megkapni.

Magyarországi szállodák árainak becslése - becslés rétegzett mintából A magyarországi szállodák néhány adata, 2004 Kategória Vendégéjszakák száma   Egy éjszakára jutó díj (a mintában) Összesen Mintában átlaga szórása (s) (ezer éjszaka) (éjszaka) (Ft/éjszaka) * és ** 1500 200 2 500 500 *** és **** 9800 6 200 1 200 ***** 1200 300 20 000 5 000 12500 1000 …

Becslés rétegzett mintából Célszerű kiszámítani a W sokasági súlyokat:

Becslés rétegzett mintából

Becslés rétegzett mintából Az átlag varianciájának becslése:

Becslés rétegzett mintából A becsült standard hiba:

Becslés rétegzett mintából

Becslés összetett minták és mutatók esetén A gyakorlati statisztikában nem ritka a bonyolultabb mutatók és összetett mintavételi tervek alkalmazása, általában a sokasági eloszlást sem ismerjük. Az egyetlen rendelkezésre álló mintából többet készítünk, majd az így kapott mintákból külön-külön készítünk becsléseket és a minták átlagaiból vonunk le következtetéseket.

Becslés összetett minták és mutatók esetén Csoportosításuk: független részminták módszere (1946 Mahalanobis; a meglévő mintát feldarabolja több részmintára) jackknife módszercsalád (először az első, majd a második, végül az utolsó minta elemet elhagyva n számú n-1 elemű másodlagos mintához jutunk bootstrap módszer az induló mintából (parent sample) visszatevéssel választ ki nagyszámú véletlen mintát Ezeket számítógép intenzív módszereknek nevezik.