Kvantitatív módszerek MINTAVÉTEL, LEÍRÓ STATISZTIKA 2015. szeptember 29.
Valószínűségszámítás - Matematikai statisztika Valószínűségszámítás: a véletlen tömegjelenségekben rejlő statisztikai törvényszerűségek vizsgálata Valószínűségelmélet: ismert az eloszlásfüggvény és annak paraméterei Valóság: a paraméterek ismerete nélkül a kérdéses valószínűségeket nem tudjuk meghatározni A matematikai statisztika célja következtetés tapasztalati (megfigyelési, mérési) adatokból események ismeretlen valószínűségeire, valószínűségi változók ismeretlen eloszlásfüggvényére vagy azok paramétereire. mintavétel, adatfeldolgozás, leíró statisztika, következtető statisztika (becslés és hipotézisvizsgálat)
Matematikai statisztika lényege Következtetés Sokaság Minta Mintavétel
Mintavételi hiba Mintavétellel kapcsolatos hibák két nagy csoportja: Adatgyűjtéshez kapcsolódó hibák: pl. definíciós hibák, nemválaszolási hibák, végrehajtási hibák – NEM MINTAVÉTELI HIBA A technika fejlődésével sokféle módon lehet ellene védekezni A teljes sokaság megismeréséről való lemondás ára – MINTAVÉTELI HIBA és számszerűsítési képessége olyan eljárásokat keresünk, hogy ez a lehető legkisebb legyen
Mintavételi hiba A mintából számított bármely mutató értéke mintáról mintára változik. A mintából számított értékek a megfelelő sokasági jellemző körül szóródnak. Ez a szóródás kisebb minták esetében nagyobb, nagyobb minták esetében kisebb. A mintavételi hiba a vizsgált mutató lehetséges mintákból számított értékeinek átlagos eltérését mutatja a megfelelő sokasági értéktől.
Adatfelvételi módok Adatfelvétel Teljes körű – csak véges sokaság esetén Részleges Mintavételes megfigyelés Kísérleti eredmények gyűjtése Egyéb részleges megfigyelés Véletlen(szerű) kiválasztás Nemvéletlen(szerű) kiválasztás reprezentativitás Mintavételi hiba számszerűsítési képessége ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye
Véletlen mintavételi eljárások Statisztikai minta: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye Független, azonos eloszlású minta (FAE): a minta elemeknek azonos eloszlásúnak és függetlennek kell lennie homogén és végtelen nagy sokaságból veszünk véletlen, visszatevéses vagy visszatevés nélküli mintát vagy véges sokaságból egyenlő valószínűséggel visszatevéses mintát Gyakorlati alkalmazása: tömegtermelés minőségellenőrzése, általában nem áll teljes lista rendelkezésre, ezért részleges listákkal pótoljuk, ritka a gyakorlatban Mintanagyság meghatározása:
Véletlen mintavételi eljárások Egyszerű véletlen (EV) mintavétel Homogén, véges elemszámú sokaság esetén, visszatevés nélküli minta Minden lehetséges n elemű minta kiválasztásának azonos valószínűséget biztosítva Társadalmi-gazdasági elemzések esetén ritka EV minta készítése: Komplett lista összeállítása Mintanagyság meghatározása Kiválasztás tervezett véletlen módon Szisztematikus kiválasztás Teljes lista k=N/n lépésköz meghatározása, k0 véletlen kiindulópont, a k lépésköz n-szeri felvétele Ha a lista a vizsgált ismérv szerint véletlenszerűen van sorba rendezve, akkor megegyezik a véletlen kiválasztással
Véletlen mintavételi eljárások Szisztematikus kiválasztás problémái Nem lesz véletlen a minta, ha: ha a lista a vizsgált tulajdonság, jellemző szerint nem véletlenszerűen van sorba rendezve, hanem van közöttük sztochasztikus kapcsolat ha a lista a vizsgált ismérv szerint periodikus hullámzást mutat FAE vs. EV minta Véges sokaságok FAE visszatevéssel, az EV visszatevés nélkül készül Az FAE kényelmesebb elméleti tulajdonságok, EV gyakorlati hasznosság Nagy sokaság esetén egymással helyettesíthetőek
Véletlen mintavételi módok Rétegzett (R) minta alkalmazása: Véges heterogén sokaság Feltétel a rétegképző ismérv és rétegenkénti listák ismerete Rétegeken belül egymástól függetlenül EV mintavétel – jó rétegezés = kisebb elemszámú minta Előnye: Azonos mintanagyság mellett kisebb mintavételi hibát eredményez, mint az EV minta (ha jól választunk rétegképző ismérvet) A sokaság rétegeinek száma: M, az egyes rétegeken belül a sokaság N1, N2, …., Nj, …, NM elemet tartalmaz. A minta elemszáma: n, az egyes rétegeken belül n1, n2, …., nj, …, nM elemű mintát veszünk:
Véletlen mintavételi módok Rétegzett minta elosztásának formái: a minta teljes elemszámát hogyan osszuk szét az egyes rétegek között? Egyenletes elosztás: n elemű mintából minden rétegbe (M) azonos számú mintaelem (nj) kerül ha a rétegek egyforma nagyságúak, akkor egyben arányos is lesz ha az egyes rétegek mutatóira is kíváncsiak vagyunk, akkor az egyes rétegek mintavételi hibáinak összege minimális Arányos elosztás: a mintába a sokasági arányoknak megfelelően választjuk meg az elemszámot a mintában ugyanazok a súlyarányok érvényesülnek, mint a sokaságban alapvető mutatók mintavételi hibája minimális (ha a rétegenkénti sokasági szórások nem ismertek, és azonosnak tekinthetők)
Véletlen mintavételi módok Neyman-féle optimális elosztás: a rétegenkénti sokasági szórások ismertek nagyobb szórású rétegekből nagyobb mintát veszünk. a főátlagot ilyen mintából számítva (adott n mellett) minimális mintavételi hibát kapunk Költségoptimális elosztás: a sokasági szórások és az egyes rétegek megfigyelési egységköltségei ismertek (πj) A teljes felvétel költségfüggvénye: Előre megadott C esetén az átlag mintavételi hibáját minimalizáló elosztás:
Véletlen mintavételi módok Csoportos mintavétel (CS) alkalmazása: Homogén, véges sokaságok esetén Nem áll rendelkezésre teljes lista, de nagyobb csoportokra igen Csoportok olcsóbban megfigyelhetőek koncentráltságuk miatt Egyszerűbb és olcsóbb, mint az azonos nagyságú EV minta Lépései: Csoportok közül választunk EV mintavétellel A kiválasztott csoportot teljes körűen megfigyeljük Megjegyzés: R minta esetén a rétegen belüli homogenitás, CS minta esetén a csoportokon belüli heterogenitás a kedvező tulajdonság Az R minta azonos elemszám esetén az EV mintánál kisebb hibát eredményez, nagyobb költséggel, a CS minta nagyobb hibákhoz vezet, kisebb költséggel
Véletlen mintavételi módok Többlépcsős mintavétel alkalmazása: Kétlépcsős változata: (1) csoportos mintavétel; (2) csoportokból is egyszerű véletlen minta Azonos mintanagyság mellett kisebb hibát eredményez, mint a csoportos mintavétel
Összefoglalás – véletlen mintavétel Reprezentativitás – véletlen kiválasztás A véletlen tömegjelenségek törvényszerűségei lehetővé teszik, hogy a sokaságra többé-kevésbé jellemző mintát kapjunk Mintavételi hiba számszerűsítése Ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye
Nemvéletlen mintavételi eljárások Szisztematikus mintavétel: Amennyiben a megfigyelések a listán a vizsgált ismérvtől független sorrendben szerepelnek, akkor egyszerű véletlen mintának is tekinthető. Kvóta szerinti mintavétel: nem véletlenszerű a kiválasztás, de a sokaság bizonyos ismérvek szerinti megoszlását tartani kell. Ezen ismérvek szerint reprezentatív lesz, de más ismérvek szerint a választás önkényes, ez torzítja az összetételt. Koncentrált minta: A sokaságból egy fontosnak tekintett mennyiségi ismérv szerint azokat veszik a mintába, amelyek a sokaság nagy részét az ismérv szerint koncentrálják. Hólabda kiválasztás: Ritka, nehezen számba vehető sokaságok esetén Néhány kiválasztott egyedből indulnak, majd ezek mindegyike ismeretségi körében keresi az újabb mintaelemeket és így tovább Önkényes minta: Teljesen önkényes kiválasztása az elemeknek.
Mintavétel KÖVETKEZTETŐ STATISZTIKA Következtetés LEÍRÓ STATISZTIKA
Statisztikai módszertan ágai LEÍRÓ vagy DESKRIPTÍV statisztika A vizsgálat tárgyát képező jelenség tömör, számszerű jellemzését adja. Nem lép túl a megfigyelés körén, de a megfigyelt adatok legjobb megértésére, bemutatására, összefoglaló jellemzésére törekszik. Például: Népszámlálási adatok feldolgozása, elemzése, a népesség számával, összetételével kapcsolatos jellemzők közzététele, megjelenítése Gazdasági szervezetek legfontosabb adatainak közzététele statisztikai évkönyvekben Lakásépítésről, oktatásról készített statisztikai összefoglaló Vállalat gazdálkodásának vizsgálata
Statisztikai módszertan ágai KÖVETKEZTETŐ statisztika Fő célja a mintából való következtetés, általánosítás a teljes sokaságra vonatkozóan. Például: Minőségellenőrzés Lakosság jövedelmi különbségeinek elemzése Ingatlan árbecslések Befektetési tanácsadások Könyvvizsgálat Mezőgazdaság
Leíró statisztika Feladatai: adatgyűjtés adatok ábrázolása adatok csoportosítása, osztályozása adatokkal végzett egyszerűbb aritmetikai műveletek eredmények megjelenítése
1. Adatgyűjtés Az egyedi mérésekből származó adatok (mennyiségi ismérvek) lehetnek diszkrétek és folytonosak. Egy diszkrét mennyiségi ismérv csak véges vagy megszámlálhatóan sok, egymástól jól elkülöníthető értéket vehet fel. Háztartások nagysága Gazdálkodó szervezetek nagysága Balesetek száma Mogyorós csokiban a mogyorók száma Adott időszak alatti meghibásodások száma Egy folytonos mennyiségi ismérv valamely adott intervallumon belül bármilyen értéket felvehet. Háztartások jövedelme Lakások alapterülete Gépkocsi abroncsok futásteljesítménye Bux index havi hozamadata
2. Az adatok ábrázolása Eszközei: vonaldiagram oszlopdiagram kördiagram sávdiagram
3. Adatok csoportosítása, osztályozása Egy mennyiségi ismérv szerinti rendezés és osztályozás X mennyiségi ismérv (Xi változatai különbségi vagy arányskálán mért, valamilyen mértékegységgel rendelkező számértékek) X a továbbiakban változó, Xi (ismérv)érték Rangsor A rangsor a megfigyelési egységeknek és/vagy azokhoz tartozó Xi ismérvértékeknek monoton nemcsökkenő sorrendben történő felsorolása. Készítésének célja: megkönnyítse a sokaság egységeinek X változó szerinti osztályozását Osztályozás eredménye Gyakorisági sor, gyakorisági eloszlás
3. Adatok csoportosítása, osztályozása Az X szerint képzett osztály Osztály- közép Tapasz-talati Relatív alsó felső gyakoriság határa X10 X11 X1* f1 g1 X20 X21 X2* f2 g2 Xi0 Xi1 Xi* fi gi … Xk0 Xk1 Xk* fk gk Összesen N 1 Osztályközhosszúság:
3. Adatok csoportosítása, osztályozása X ismérv szerinti osztályozás kérdései: Az X változó diszkrét, és az általa felvehető értékek száma kicsi Annyi osztályt képezünk ahány különböző X érték lehetséges az i-edik osztály esetében fennáll az alsó és felső osztályhatár egybeesése Az X változó folytonos, vagy diszkrét ugyan, de az általa felvehető különböző értékek száma nagy X lehetséges értékeinek tartományát osztályközökre bontjuk az i-edik osztályköz Xi1 felső határa nem eshet egybe az (i+1)-dik osztályköz Xi+1,0 alsó határával Hány osztályt képezzünk? A gyakorlatban ehhez 5-15 osztály használata szinte mindig elegendő. Osztályok számának meghatározása:
3. Adatok csoportosítása, osztályozása A mennyiségi sorok grafikus ábrázolásának alapját a gyakorisági táblázat készítése jelenti. Osztályba sorolás (folytonos adatok és nagyszámú diszkrét megfigyelés esetén); gyakoriságok (fi) megállapítása; relatív gyakoriságok (gi) megállapítása összegzett (kumulált) gyakoriságok (fi’), illetve összegzett relatív gyakoriságok (gi’) megállapítása; gyakorisági táblázat készítése (fi , gi , fi’ , gi’ adataiból); gyakorisági (relatív gyakorisági), illetve összegzett gyakorisági (relatív gyakorisági) hisztogramok (folytonos adatok esetén a poligon és az ogiva) felvétele (tapasztalati eloszlások elkészítése); grafikus ábrázolás
Példa – kevés számú diszkrét adat A Gazdaságstatisztika c. tárgyat a 2012 őszi félévben felvett hallgatók érdemjegyeinek gyakorisági táblázata Diszkrét ismérv által felvehető értékek pálcikadiagram lépcső alakú diagram
Pálcikadiagram – diszkrét adat Érdemjegy Tapasztalati gyakoriság (fi) Relatív gyakoriság (gi) 1 68 0,089 2 280 0,368 3 274 0,361 4 91 0,120 5 47 0,062 Összesen 760
Kumulált tapasztalati gyakoriság (fi) Kumulált relatív gyakoriság (gi) Lépcső alakú diagram Érdemjegy Kumulált tapasztalati gyakoriság (fi) Kumulált relatív gyakoriság (gi) 1 68 0,089 2 348 0,458 3 622 0,818 4 713 0,938 5 760
Nagyszámú folytonos adat A Budapesti Értéktőzsde Részvényindexének (BUX) 2005 márciusától 2013 júniusáig tartó időszak havi hozamainak értékeit az alábbi táblázatban foglaltuk össze.
Gyakorisági táblázat Gyakorisági hisztogram v. alsó határ felső határ osztályközép fi gi [%] f’i g’i [%] -20,00% -15,00% -17,5% 2 2,02% -10,00% -12,5% 9 9,09% 11 11,11% -5,00% -7,5% 20 20,20% 0,00% -2,5% 23 23,23% 43 43,43% 5,00% 2,5% 32 32,32% 75 75,76% 10,00% 7,5% 15 15,15% 90 90,91% 15,00% 12,5% 8 8,08% 98 98,99% 20,00% 17,5% 1 1,01% 99 100,00% összesen Gyakorisági hisztogram v. Gyakorisági vonaldiagram Kumulált (rel.) gyakorisági hisztogram v. Kumulált (rel.) gyakorisági vonaldiagram
Gyakorisági hisztogram alsó határ felső határ osztályközép gi [%] -20,00% -15,00% -17,5% 2,02% -10,00% -12,5% 9,09% -5,00% -7,5% 0,00% -2,5% 23,23% 5,00% 2,5% 32,32% 10,00% 7,5% 15,15% 15,00% 12,5% 8,08% 20,00% 17,5% 1,01% összesen 100,00% GYAKORISÁGI HISZTOGRAM (tapasztalati (empirikus) sűrűségfüggvény) Gyakoriság vonaldiagramja
Gyakorisági vonaldiagram Gyakorisági görbe
Kumulált relatív gyakorisági hisztogram alsó határ felső határ osztályközép g’i [%] -20,00% -15,00% -17,5% 2,02% -10,00% -12,5% 11,11% -5,00% -7,5% 20,20% 0,00% -2,5% 43,43% 5,00% 2,5% 75,76% 10,00% 7,5% 90,91% 15,00% 12,5% 98,99% 20,00% 17,5% 100,00% összesen Kumulált relatív gyakoriság vonaldiagramja KUMULÁLT RELATÍV GYAKORISÁGI HISZTOGRAM
Kumulált relatív gyakoriság vonaldiagramja KUMULÁLT RELATÍV GYAKORISÁG VONALDIAGRAMJA (tapasztalati eloszlásfüggvény) Ogiva
Tapasztalati eloszlások jellegzetességei Középérték mutatók: Helyzeti és számított (Kvantilisek) Ingadozásmutatók: Abszolút és relatív (Momentumok) Alakmutatók: Aszimmetria és lapultság (csúcsosság) Középértékekkel szembeni elvárások: Közepes helyzetűek Tipikusak Egyértelműen meghatározhatóak Könnyen értelmezhetőek
Medián me annak a legelső osztályköznek a sorszáma, amelyre igaz, hogy helyzeti középérték mutató a változó azon számértéke, amelynél az összes előforduló számérték fele kisebb, fele pedig nagyobb, így a rangsorba állított sokasági számértékeket két egyenlő gyakoriságú osztályra bontja Becsülhető osztályközös gyakorisági sorból is: Előnye: Mindig egyértelműen meghatározható Érzéketlen a szélsőértékekre, és nem függ a többi ismérvértéktől sem. Hátránya: Nem használható, ha az adatsorban sok az egyforma ismérvérték Egyéb tulajdonsága: A mediánt tartalmazó osztály bal végpontja. A mediánt tartalmazó osztály hossza. ha
Módusz mo a legnagyobb gyakoriságú osztály(ok) sorszáma Hátránya: helyzeti középérték, a tipikus ismérvérték diszkrét ismérv esetén a módusz a leggyakrabban előforduló ismérvérték, folytonos ismérv esetén a gyakorisági görbe maximumhelye. Előnye: érzéketlen a szélsőértékekre, nem függ sem az összes, sem a kiugró ismérvértékektől. Hátránya: nem mindig határozható meg egyértelműen, és nem is mindig létezik nagy bizonytalansággal becsülhető Egyéb tulajdonsága: nyers módusz, osztályköz megválasztása Becsülhető osztályközös gyakorisági sorból is: A móduszt tartalmazó osztály bal végpontja. A móduszt tartalmazó osztály hossza. mo a legnagyobb gyakoriságú osztály(ok) sorszáma
Számtani átlag számított középértékfajta az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege változatlan marad. Számítása: Előnye: bármely alapadathalmazból egyértelműen meghatározható, minden alapadatot felhasznál Hátránya: érzékeny a szélsőértékekre nyesett átlag
Számtani átlag Egyéb fontos tulajdonsága: minimális, ha
Harmonikus átlag számított középértékmutató, az a szám, amellyel az átlagolandó értékeket helyettesítve azok reciprokainak összege változatlan marad Alkalmazása: ha az értékek reciprokainak összege értelmezhető, leíró statisztikai viszonyszámok és indexszámítás
Mértani átlag számított középértékmutató, az a szám, amellyel az átlagolandó értékeket helyettesítve azok szorzata változatlan marad Alkalmazása: ha az értékek szorzata értelmezhető, illetve az átlagolandó értékek exponenciálisan nőnek vagy csökkennek az időbeli fejlődés átlagos ütemének vizsgálatakor idősor-elemzés
Négyzetes átlag számított középérték-mutató, az a szám, amellyel az átlagolandó értékeket helyettesítve azok négyzetösszege változatlan marad Hátránya: a kiugróan magas értékekre érzékenyen reagál Alkalmazása: ha az előjeleknek nincs jelentősége szórásszámítás
Kvantilisek a rangsorban olyan osztópontok (osztályhatárok), amelyek egyenlő relatív gyakoriságokat fognak közre Az Xi/k i-edik k-ad rendű kvantilis az a szám, amelynél az összes előforduló ismérvértékek i/k-ad része kisebb, (1-i/k)-ad része pedig nagyobb, ahol k≥2 és i=1, 2 ,…, k-1.
Kvantilisek Becsülhető osztályközös gyakorisági sorból A keresett kvantilist az a q. osztály tartalmazza, amelyre először igaz, hogy A becslés képlete:
Ingadozásmutatók Csoportosításuk: Az adathalmazban szereplő értékek változékonyságát az egyes értékek egymás közötti különbségein, vagy egyes értékeknek egy kitüntetett értéktől (középérték) való eltérésein keresztül ragadja meg. Mértékegységüket tekintve: Abszolút mutatók: mértékegysége megegyezik az alapadatokéval Relatív mutatók: mértékegység nélküli
Terjedelem Interkvantilis terjedelem a szóródást az adathalmazban szereplő legnagyobb és legkisebb adat különbségeként jellemzi abszolút ingadozásmutató Előnye: a könnyű számítás Hátránya: értéke csak a két legszélsőségesebb ismérvértéktől függ, amelyeket sokszor a véletlen szeszélyeinek köszönhetünk. Interkvantilis terjedelem csökkenti a véletlen szélsőértékeket (legkisebb és legnagyobb értéket) alakító szerepét az adathalmaz két szélső k-adrendű kvantilisének különbsége
(Korrigált) tapasztalati szórás a szóródást az alapadatoknak egy kitüntetett értéktől (számtani átlagtól) való eltérésein keresztül méri abszolút ingadozásmutató A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga: azt mutatja, hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól. Olyan átlagos hiba, amit akkor követünk el, ha minden alapadatot a számtani átlaggal helyettesítünk. A számtani átlag tulajdonsága szerint ez a hiba minimális.
Relatív szórás relatív ingadozásmutató az ismérvértékek átlagtól vett átlagos eltérése százalékos formában kifejezve minél kisebb a relatív szórás, a számtani átlag annál jobban jellemzi az alapadatokat a szórás és a számtani átlag hányadosa, csak pozitív értékű alapadatok esetében számítható Alkalmazása: különböző sokaságok vagy ismérvek szóródásának összehasonlítására használják
Átlagos abszolút különbség (G) A szóródást az ismérvértékek egymás közötti különbségein keresztül méri, abszolút ingadozásmutató Azt mutatja meg, hogy az X ismérv értékei átlagosan mennyire különböznek egymástól. A minden lehetséges módon párba állított ismérvértékek különbségeinek abszolút értékéből számított számtani átlag. Kényelmetlen a számítása Alkalmazási területe: koncentráció elemzés
Átlagos abszolút eltérés (Δ) A szóródást az értékeknek egy kitüntetett értéktől való eltéréseire támaszkodva jellemzi abszolút ingadozásmutató Az egyes ismérvértékek és a számtani átlag különbségeinek abszolút értékeiből számított számtani átlag
Momentumok Yi ismérvértékek vagy a di eltérések helyett a alakú eltérések hatványait átlagolják, ahol A egy tetszőleges állandó. az Y ismérv vagy gyakorisági eloszlás A körüli r-edik momentumai:
Alakmutatók Csúcsosság:
Aszimmetria Pearson-féle mutatószám: