Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Kvantitatív módszerek

Hasonló előadás


Az előadások a következő témára: "Kvantitatív módszerek"— Előadás másolata:

1 Kvantitatív módszerek
MINTAVÉTEL, LEÍRÓ STATISZTIKA 2016. szeptember 29.

2 Valószínűségszámítás - Matematikai statisztika
Valószínűségszámítás: a véletlen tömegjelenségekben rejlő statisztikai törvényszerűségek vizsgálata Valószínűségelmélet: ismert az eloszlásfüggvény és annak paraméterei Valóság: a paraméterek ismerete nélkül a kérdéses valószínűségeket nem tudjuk meghatározni A matematikai statisztika célja következtetés tapasztalati (megfigyelési, mérési) adatokból események ismeretlen valószínűségeire, valószínűségi változók ismeretlen eloszlásfüggvényére vagy azok paramétereire. mintavétel, adatfeldolgozás, leíró statisztika, következtető statisztika (becslés és hipotézisvizsgálat)

3 Matematikai statisztika lényege
Következtetés Sokaság Minta Mintavétel

4 Mintavételi hiba Mintavétellel kapcsolatos hibák két nagy csoportja:
Adatgyűjtéshez kapcsolódó hibák: pl. definíciós hibák, nemválaszolási hibák, végrehajtási hibák – NEM MINTAVÉTELI HIBA A technika fejlődésével sokféle módon lehet ellene védekezni A teljes sokaság megismeréséről való lemondás ára – MINTAVÉTELI HIBA és számszerűsítési képessége olyan eljárásokat keresünk, hogy ez a lehető legkisebb legyen

5 Mintavételi hiba A mintából számított bármely mutató értéke mintáról mintára változik. A mintából számított értékek a megfelelő sokasági jellemző körül szóródnak. Ez a szóródás kisebb minták esetében nagyobb, nagyobb minták esetében kisebb. A mintavételi hiba a vizsgált mutató lehetséges mintákból számított értékeinek átlagos eltérését mutatja a megfelelő sokasági értéktől.

6 Adatfelvételi módok Adatfelvétel
Teljes körű – csak véges sokaság esetén Részleges Mintavételes megfigyelés Kísérleti eredmények gyűjtése Egyéb részleges megfigyelés Véletlen(szerű) kiválasztás Nemvéletlen(szerű) kiválasztás reprezentativitás Mintavételi hiba számszerűsítési képessége ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye

7 Véletlen mintavételi eljárások
Statisztikai minta: valamely valószínűségi változóra vonatkozó véges számú független kísérlet vagy megfigyelés (mérés) eredménye Független, azonos eloszlású minta (FAE): a minta elemeknek azonos eloszlásúnak és függetlennek kell lennie homogén és végtelen nagy sokaságból veszünk véletlen, visszatevéses vagy visszatevés nélküli mintát vagy véges sokaságból egyenlő valószínűséggel visszatevéses mintát Gyakorlati alkalmazása: tömegtermelés minőségellenőrzése, általában nem áll teljes lista rendelkezésre, ezért részleges listákkal pótoljuk, ritka a gyakorlatban Mintanagyság meghatározása:

8 Véletlen mintavételi eljárások
Egyszerű véletlen (EV) mintavétel Homogén, véges elemszámú sokaság esetén, visszatevés nélküli minta Minden lehetséges n elemű minta kiválasztásának azonos valószínűséget biztosítva Társadalmi-gazdasági elemzések esetén ritka EV minta készítése: Komplett lista összeállítása Mintanagyság meghatározása Kiválasztás tervezett véletlen módon Szisztematikus kiválasztás Teljes lista k=N/n lépésköz meghatározása, k0 véletlen kiindulópont, a k lépésköz n-szeri felvétele Ha a lista a vizsgált ismérv szerint véletlenszerűen van sorba rendezve, akkor megegyezik a véletlen kiválasztással

9 Véletlen mintavételi eljárások
Szisztematikus kiválasztás problémái Nem lesz véletlen a minta, ha: ha a lista a vizsgált tulajdonság, jellemző szerint nem véletlenszerűen van sorba rendezve, hanem van közöttük sztochasztikus kapcsolat ha a lista a vizsgált ismérv szerint periodikus hullámzást mutat FAE vs. EV minta Véges sokaságok FAE visszatevéssel, az EV visszatevés nélkül készül Az FAE kényelmesebb elméleti tulajdonságok, EV gyakorlati hasznosság Nagy sokaság esetén egymással helyettesíthetőek

10 Véletlen mintavételi módok
Rétegzett (R) minta alkalmazása: Véges heterogén sokaság Feltétel a rétegképző ismérv és rétegenkénti listák ismerete Rétegeken belül egymástól függetlenül EV mintavétel – jó rétegezés = kisebb elemszámú minta Előnye: Azonos mintanagyság mellett kisebb mintavételi hibát eredményez, mint az EV minta (ha jól választunk rétegképző ismérvet) A sokaság rétegeinek száma: M, az egyes rétegeken belül a sokaság N1, N2, …., Nj, …, NM elemet tartalmaz. A minta elemszáma: n, az egyes rétegeken belül n1, n2, …., nj, …, nM elemű mintát veszünk:

11 Véletlen mintavételi módok
Rétegzett minta elosztásának formái: a minta teljes elemszámát hogyan osszuk szét az egyes rétegek között? Egyenletes elosztás: n elemű mintából minden rétegbe (M) azonos számú mintaelem (nj) kerül ha a rétegek egyforma nagyságúak, akkor egyben arányos is lesz ha az egyes rétegek mutatóira is kíváncsiak vagyunk, akkor az egyes rétegek mintavételi hibáinak összege minimális Arányos elosztás: a mintába a sokasági arányoknak megfelelően választjuk meg az elemszámot a mintában ugyanazok a súlyarányok érvényesülnek, mint a sokaságban alapvető mutatók mintavételi hibája minimális (ha a rétegenkénti sokasági szórások nem ismertek, és azonosnak tekinthetők)

12 Véletlen mintavételi módok
Neyman-féle optimális elosztás: a rétegenkénti sokasági szórások ismertek nagyobb szórású rétegekből nagyobb mintát veszünk. a főátlagot ilyen mintából számítva (adott n mellett) minimális mintavételi hibát kapunk Költségoptimális elosztás: a sokasági szórások és az egyes rétegek megfigyelési egységköltségei ismertek (πj) A teljes felvétel költségfüggvénye: Előre megadott C esetén az átlag mintavételi hibáját minimalizáló elosztás:

13 Véletlen mintavételi módok
Csoportos mintavétel (CS) alkalmazása: Homogén, véges sokaságok esetén Nem áll rendelkezésre teljes lista, de nagyobb csoportokra igen Csoportok olcsóbban megfigyelhetőek koncentráltságuk miatt Egyszerűbb és olcsóbb, mint az azonos nagyságú EV minta Lépései: Csoportok közül választunk EV mintavétellel A kiválasztott csoportot teljes körűen megfigyeljük Megjegyzés: R minta esetén a rétegen belüli homogenitás, CS minta esetén a csoportokon belüli heterogenitás a kedvező tulajdonság Az R minta azonos elemszám esetén az EV mintánál kisebb hibát eredményez, nagyobb költséggel, a CS minta nagyobb hibákhoz vezet, kisebb költséggel

14 Véletlen mintavételi módok
Többlépcsős mintavétel alkalmazása: Kétlépcsős változata: (1) csoportos mintavétel; (2) csoportokból is egyszerű véletlen minta Azonos mintanagyság mellett kisebb hibát eredményez, mint a csoportos mintavétel

15 Összefoglalás – véletlen mintavétel
Reprezentativitás – véletlen kiválasztás A véletlen tömegjelenségek törvényszerűségei lehetővé teszik, hogy a sokaságra többé-kevésbé jellemző mintát kapjunk Mintavételi hiba számszerűsítése Ismert vagy meghatározható a sokaság elemeinek mintába kerülési esélye

16 Nemvéletlen mintavételi eljárások
Szisztematikus mintavétel: Amennyiben a megfigyelések a listán a vizsgált ismérvtől független sorrendben szerepelnek, akkor egyszerű véletlen mintának is tekinthető. Kvóta szerinti mintavétel: nem véletlenszerű a kiválasztás, de a sokaság bizonyos ismérvek szerinti megoszlását tartani kell. Ezen ismérvek szerint reprezentatív lesz, de más ismérvek szerint a választás önkényes, ez torzítja az összetételt. Koncentrált minta: A sokaságból egy fontosnak tekintett mennyiségi ismérv szerint azokat veszik a mintába, amelyek a sokaság nagy részét az ismérv szerint koncentrálják. Hólabda kiválasztás: Ritka, nehezen számba vehető sokaságok esetén Néhány kiválasztott egyedből indulnak, majd ezek mindegyike ismeretségi körében keresi az újabb mintaelemeket és így tovább Önkényes minta: Teljesen önkényes kiválasztása az elemeknek.

17 Mintavétel KÖVETKEZTETŐ STATISZTIKA Következtetés LEÍRÓ STATISZTIKA

18 Statisztikai módszertan ágai
LEÍRÓ vagy DESKRIPTÍV statisztika A vizsgálat tárgyát képező jelenség tömör, számszerű jellemzését adja. Nem lép túl a megfigyelés körén, de a megfigyelt adatok legjobb megértésére, bemutatására, összefoglaló jellemzésére törekszik. Például: Népszámlálási adatok feldolgozása, elemzése, a népesség számával, összetételével kapcsolatos jellemzők közzététele, megjelenítése Gazdasági szervezetek legfontosabb adatainak közzététele statisztikai évkönyvekben Lakásépítésről, oktatásról készített statisztikai összefoglaló Vállalat gazdálkodásának vizsgálata

19 Statisztikai módszertan ágai
KÖVETKEZTETŐ statisztika Fő célja a mintából való következtetés, általánosítás a teljes sokaságra vonatkozóan. Például: Minőségellenőrzés Lakosság jövedelmi különbségeinek elemzése Ingatlan árbecslések Befektetési tanácsadások Könyvvizsgálat Mezőgazdaság

20 Leíró statisztika Feladatai: adatgyűjtés adatok ábrázolása
adatok csoportosítása, osztályozása adatokkal végzett egyszerűbb aritmetikai műveletek eredmények megjelenítése

21 1. Adatgyűjtés Az egyedi mérésekből származó adatok (mennyiségi ismérvek) lehetnek diszkrétek és folytonosak. Egy diszkrét mennyiségi ismérv csak véges vagy megszámlálhatóan sok, egymástól jól elkülöníthető értéket vehet fel. Háztartások nagysága Gazdálkodó szervezetek nagysága Balesetek száma Mogyorós csokiban a mogyorók száma Adott időszak alatti meghibásodások száma Egy folytonos mennyiségi ismérv valamely adott intervallumon belül bármilyen értéket felvehet. Háztartások jövedelme Lakások alapterülete Gépkocsi abroncsok futásteljesítménye Bux index havi hozamadata

22 2. Az adatok ábrázolása Eszközei: vonaldiagram oszlopdiagram
kördiagram sávdiagram

23 3. Adatok csoportosítása, osztályozása
Egy mennyiségi ismérv szerinti rendezés és osztályozás X mennyiségi ismérv (Xi változatai különbségi vagy arányskálán mért, valamilyen mértékegységgel rendelkező számértékek) X a továbbiakban változó, Xi (ismérv)érték Rangsor A rangsor a megfigyelési egységeknek és/vagy azokhoz tartozó Xi ismérvértékeknek monoton nemcsökkenő sorrendben történő felsorolása. Készítésének célja: megkönnyítse a sokaság egységeinek X változó szerinti osztályozását Osztályozás eredménye Gyakorisági sor, gyakorisági eloszlás

24 3. Adatok csoportosítása, osztályozása
Az X szerint képzett osztály Osztály- közép Tapasz-talati Relatív alsó felső gyakoriság határa X10 X11 X1* f1 g1 X20 X21 X2* f2 g2 Xi0 Xi1 Xi* fi gi Xk0 Xk1 Xk* fk gk Összesen N 1 Osztályközhosszúság:

25 3. Adatok csoportosítása, osztályozása
X ismérv szerinti osztályozás kérdései: Az X változó diszkrét, és az általa felvehető értékek száma kicsi Annyi osztályt képezünk ahány különböző X érték lehetséges az i-edik osztály esetében fennáll az alsó és felső osztályhatár egybeesése Az X változó folytonos, vagy diszkrét ugyan, de az általa felvehető különböző értékek száma nagy X lehetséges értékeinek tartományát osztályközökre bontjuk az i-edik osztályköz Xi1 felső határa nem eshet egybe az (i+1)-dik osztályköz Xi+1,0 alsó határával Hány osztályt képezzünk? A gyakorlatban ehhez 5-15 osztály használata szinte mindig elegendő. Osztályok számának meghatározása:

26 3. Adatok csoportosítása, osztályozása
A mennyiségi sorok grafikus ábrázolásának alapját a gyakorisági táblázat készítése jelenti. Osztályba sorolás (folytonos adatok és nagyszámú diszkrét megfigyelés esetén); gyakoriságok (fi) megállapítása; relatív gyakoriságok (gi) megállapítása összegzett (kumulált) gyakoriságok (fi’), illetve összegzett relatív gyakoriságok (gi’) megállapítása; gyakorisági táblázat készítése (fi , gi , fi’ , gi’ adataiból); gyakorisági (relatív gyakorisági), illetve összegzett gyakorisági (relatív gyakorisági) hisztogramok (folytonos adatok esetén a poligon és az ogiva) felvétele (tapasztalati eloszlások elkészítése); grafikus ábrázolás

27 Példa – kevés számú diszkrét adat
A Gazdaságstatisztika c. tárgyat a 2012 őszi félévben felvett hallgatók érdemjegyeinek gyakorisági táblázata Diszkrét ismérv által felvehető értékek pálcikadiagram lépcső alakú diagram

28 Pálcikadiagram – diszkrét adat
Érdemjegy Tapasztalati gyakoriság (fi) Relatív gyakoriság (gi) 1 68 0,089 2 280 0,368 3 274 0,361 4 91 0,120 5 47 0,062 Összesen 760

29 Kumulált tapasztalati gyakoriság (fi) Kumulált relatív gyakoriság (gi)
Lépcső alakú diagram Érdemjegy Kumulált tapasztalati gyakoriság (fi) Kumulált relatív gyakoriság (gi) 1 68 0,089 2 348 0,458 3 622 0,818 4 713 0,938 5 760

30 Nagyszámú folytonos adat
A Budapesti Értéktőzsde Részvényindexének (BUX) 2005 márciusától 2013 júniusáig tartó időszak havi hozamainak értékeit az alábbi táblázatban foglaltuk össze.

31 Gyakorisági táblázat Gyakorisági hisztogram v.
alsó határ felső határ osztályközép fi gi [%] f’i g’i [%] -20,00% -15,00% -17,5% 2 2,02% -10,00% -12,5% 9 9,09% 11 11,11% -5,00% -7,5% 20 20,20% 0,00% -2,5% 23 23,23% 43 43,43% 5,00% 2,5% 32 32,32% 75 75,76% 10,00% 7,5% 15 15,15% 90 90,91% 15,00% 12,5% 8 8,08% 98 98,99% 20,00% 17,5% 1 1,01% 99 100,00% összesen Gyakorisági hisztogram v. Gyakorisági vonaldiagram Kumulált (rel.) gyakorisági hisztogram v. Kumulált (rel.) gyakorisági vonaldiagram

32 Gyakorisági hisztogram
alsó határ felső határ osztályközép gi [%] -20,00% -15,00% -17,5% 2,02% -10,00% -12,5% 9,09% -5,00% -7,5% 0,00% -2,5% 23,23% 5,00% 2,5% 32,32% 10,00% 7,5% 15,15% 15,00% 12,5% 8,08% 20,00% 17,5% 1,01% összesen 100,00% GYAKORISÁGI HISZTOGRAM (tapasztalati (empirikus) sűrűségfüggvény) Gyakoriság vonaldiagramja

33 Gyakorisági vonaldiagram
Gyakorisági görbe

34 Kumulált relatív gyakorisági hisztogram
alsó határ felső határ osztályközép g’i [%] -20,00% -15,00% -17,5% 2,02% -10,00% -12,5% 11,11% -5,00% -7,5% 20,20% 0,00% -2,5% 43,43% 5,00% 2,5% 75,76% 10,00% 7,5% 90,91% 15,00% 12,5% 98,99% 20,00% 17,5% 100,00% összesen Kumulált relatív gyakoriság vonaldiagramja KUMULÁLT RELATÍV GYAKORISÁGI HISZTOGRAM

35 Kumulált relatív gyakoriság vonaldiagramja
KUMULÁLT RELATÍV GYAKORISÁG VONALDIAGRAMJA (tapasztalati eloszlásfüggvény) Ogiva

36 Tapasztalati eloszlások jellegzetességei
Középérték mutatók: Helyzeti és számított (Kvantilisek) Ingadozásmutatók: Abszolút és relatív (Momentumok) Alakmutatók: Aszimmetria és lapultság (csúcsosság) Középértékekkel szembeni elvárások: Közepes helyzetűek Tipikusak Egyértelműen meghatározhatóak Könnyen értelmezhetőek

37 Medián me annak a legelső osztályköznek a sorszáma, amelyre igaz, hogy
helyzeti középérték mutató a változó azon számértéke, amelynél az összes előforduló számérték fele kisebb, fele pedig nagyobb, így a rangsorba állított sokasági számértékeket két egyenlő gyakoriságú osztályra bontja Becsülhető osztályközös gyakorisági sorból is: Előnye: Mindig egyértelműen meghatározható Érzéketlen a szélsőértékekre, és nem függ a többi ismérvértéktől sem. Hátránya: Nem használható, ha az adatsorban sok az egyforma ismérvérték Egyéb tulajdonsága: A mediánt tartalmazó osztály bal végpontja. A mediánt tartalmazó osztály hossza. ha

38 Módusz mo a legnagyobb gyakoriságú osztály(ok) sorszáma Hátránya:
helyzeti középérték, a tipikus ismérvérték diszkrét ismérv esetén a módusz a leggyakrabban előforduló ismérvérték, folytonos ismérv esetén a gyakorisági görbe maximumhelye. Előnye: érzéketlen a szélsőértékekre, nem függ sem az összes, sem a kiugró ismérvértékektől. Hátránya: nem mindig határozható meg egyértelműen, és nem is mindig létezik nagy bizonytalansággal becsülhető Egyéb tulajdonsága: nyers módusz, osztályköz megválasztása Becsülhető osztályközös gyakorisági sorból is: A móduszt tartalmazó osztály bal végpontja. A móduszt tartalmazó osztály hossza. mo a legnagyobb gyakoriságú osztály(ok) sorszáma

39 Számtani átlag számított középértékfajta
az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege változatlan marad. Számítása: Előnye: bármely alapadathalmazból egyértelműen meghatározható, minden alapadatot felhasznál Hátránya: érzékeny a szélsőértékekre  nyesett átlag

40 Számtani átlag Egyéb fontos tulajdonsága: minimális, ha

41 Harmonikus átlag számított középértékmutató, az a szám, amellyel az átlagolandó értékeket helyettesítve azok reciprokainak összege változatlan marad Alkalmazása: ha az értékek reciprokainak összege értelmezhető, leíró statisztikai viszonyszámok és indexszámítás

42 Mértani átlag számított középértékmutató, az a szám, amellyel az átlagolandó értékeket helyettesítve azok szorzata változatlan marad Alkalmazása: ha az értékek szorzata értelmezhető, illetve az átlagolandó értékek exponenciálisan nőnek vagy csökkennek az időbeli fejlődés átlagos ütemének vizsgálatakor idősor-elemzés

43 Négyzetes átlag számított középérték-mutató, az a szám, amellyel az átlagolandó értékeket helyettesítve azok négyzetösszege változatlan marad Hátránya: a kiugróan magas értékekre érzékenyen reagál Alkalmazása: ha az előjeleknek nincs jelentősége szórásszámítás

44 Kvantilisek a rangsorban olyan osztópontok (osztályhatárok), amelyek egyenlő relatív gyakoriságokat fognak közre Az Xi/k i-edik k-ad rendű kvantilis az a szám, amelynél az összes előforduló ismérvértékek i/k-ad része kisebb, (1-i/k)-ad része pedig nagyobb, ahol k≥2 és i=1, 2 ,…, k-1.

45 Kvantilisek Becsülhető osztályközös gyakorisági sorból
A keresett kvantilist az a q. osztály tartalmazza, amelyre először igaz, hogy A becslés képlete:

46 Ingadozásmutatók Csoportosításuk:
Az adathalmazban szereplő értékek változékonyságát az egyes értékek egymás közötti különbségein, vagy egyes értékeknek egy kitüntetett értéktől (középérték) való eltérésein keresztül ragadja meg. Mértékegységüket tekintve: Abszolút mutatók: mértékegysége megegyezik az alapadatokéval Relatív mutatók: mértékegység nélküli

47 Terjedelem Interkvantilis terjedelem
a szóródást az adathalmazban szereplő legnagyobb és legkisebb adat különbségeként jellemzi abszolút ingadozásmutató Előnye: a könnyű számítás Hátránya: értéke csak a két legszélsőségesebb ismérvértéktől függ, amelyeket sokszor a véletlen szeszélyeinek köszönhetünk. Interkvantilis terjedelem csökkenti a véletlen szélsőértékeket (legkisebb és legnagyobb értéket) alakító szerepét az adathalmaz két szélső k-adrendű kvantilisének különbsége

48 (Korrigált) tapasztalati szórás
a szóródást az alapadatoknak egy kitüntetett értéktől (számtani átlagtól) való eltérésein keresztül méri abszolút ingadozásmutató A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga: azt mutatja, hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól. Olyan átlagos hiba, amit akkor követünk el, ha minden alapadatot a számtani átlaggal helyettesítünk. A számtani átlag tulajdonsága szerint ez a hiba minimális.

49 Relatív szórás relatív ingadozásmutató
az ismérvértékek átlagtól vett átlagos eltérése százalékos formában kifejezve minél kisebb a relatív szórás, a számtani átlag annál jobban jellemzi az alapadatokat a szórás és a számtani átlag hányadosa, csak pozitív értékű alapadatok esetében számítható Alkalmazása: különböző sokaságok vagy ismérvek szóródásának összehasonlítására használják

50 Átlagos abszolút különbség (G)
A szóródást az ismérvértékek egymás közötti különbségein keresztül méri, abszolút ingadozásmutató Azt mutatja meg, hogy az X ismérv értékei átlagosan mennyire különböznek egymástól. A minden lehetséges módon párba állított ismérvértékek különbségeinek abszolút értékéből számított számtani átlag. Kényelmetlen a számítása Alkalmazási területe: koncentráció elemzés

51 Átlagos abszolút eltérés (Δ)
A szóródást az értékeknek egy kitüntetett értéktől való eltéréseire támaszkodva jellemzi abszolút ingadozásmutató Az egyes ismérvértékek és a számtani átlag különbségeinek abszolút értékeiből számított számtani átlag

52 Momentumok Yi ismérvértékek vagy a di eltérések helyett a
alakú eltérések hatványait átlagolják, ahol A egy tetszőleges állandó. az Y ismérv vagy gyakorisági eloszlás A körüli r-edik momentumai:

53 Alakmutatók Csúcsosság:

54 Aszimmetria Pearson-féle mutatószám:


Letölteni ppt "Kvantitatív módszerek"

Hasonló előadás


Google Hirdetések