Statisztikai alapfogalmak Eloszlásjellemzők 1. előadás Üzleti statisztika Dr. Varga Beatrix, Horváthné Csolák Erika
A statisztika fogalma gyakorlati tevékenység, amelynek eredményeképpen statisztikai adatokhoz jutunk; e tevékenység eredményeképpen kapott adatok összessége; a statisztikai tevékenység módszertana A statisztika - mint gyakorlati tevékenység - tömegesen előforduló jelenségek egyedeire vonatkozó információk gyűjtése, feldolgozása és elemzése, a vizsgált jelenség egészének tömör, számszerű jellemzése.
A KSH adatszolgáltatási tevékenysége A hivatal tájékoztatása során az alábbi alapelveket érvényesíti: objektivitás, szakszerűség, teljes nyilvánosság (az egyedi adatok egyidejű védelme mellett), egyidejű tájékoztatás.
Hivatalos statisztikai szolgálat Társadalmi, gazdasági, környezeti jelenségekre, folyamatokra, államháztartásra, önkormányzatokra, tevékenységeikre vonatkozik. Adatok gyűjtése, feldolgozása, tárolása, szolgáltatása, közzététele, elemzése. Elemei: KSH Minisztériumok Igazságszolgáltatás legfelsőbb szervei Egyéb országos hatáskörű szervek
1993. XLVI. törvény „ A statisztika feladata és célja, hogy valósághű, tárgyilagos képet adjon a társadalom, a gazdaság, a tulajdonviszonyok, a környezet állapotáról és változásairól az államhatalmi és a közigazgatási szervek, valamint a társadalom szervezetei és tagjai számára.”
1993. XLVI. törvény „ …a statisztikai célra gyűjtött egyedi adatot csak akkor lehet más célra használni, illetve mással közölni (átadni), ha az adatszolgáltató ehhez írásban hozzájárult, kivéve a közérdekű feladatot ellátó társadalmi és költségvetési szerveket, ezek adatai hozzájárulás nélkül is nyilvánosságra hozhatók.”
A statisztikai tevékenység ágai népességstatisztika gazdaságstatisztika ágazati statisztikák vállalati, üzemi statisztika társadalomstatisztika igazságügyi statisztika
Statisztikai munka fázisai 1. Tervezés (cél, milyen adatok, honnan) 2. Adatgyűjtés (teljes, részleges) Kikérdezés (interjú, telefon, postai út..) Megfigyelés (közvetlen megfigyelés, mérőműszer) Kísérlet (hipotézis ellenőrzése) 3. Feldolgozás 4. Elemzés 5. Közzététel
Statisztikai alapfogalmak Statisztikai sokaság: a statisztikai megfigyelés tárgyát képező egyedek összessége, halmaza. A sokaság egységei: a sokaságot alkotó egyedek Ismérvek: Azok a kritériumok, amelyek szerint a sokaság egységeit jellemezzük.
A sokaság tipizálása Véges: pl.: népesség adott időben, térben Végtelen: pl.: azonos körülmények közt tetszőlegesen sokszor megismételhető kísérlet eredményei Álló sokaság: állapot, időpont (stock) jellegű Mozgó sokaság: folyamat, időtartam (flow) jellegű
A sokaság definiálása egységek tételes felsorolása, vagy a közös tulajdonságok megadása
Az ismérvek tipizálása 1. Időbeli: időpont vagy időtartam megnevezéséből áll Területi: földrajzi megjelölés, Minőségi: pl. nem, foglalkozás, hajszín Mennyiségi: számmal jellemezzük diszkrét: csak egymástól jól elkülönülő értéket vehet fel. folytonos : egy adott intervallumon belül bármilyen értéket felvehet.
Statisztikai sorok és táblák Statisztikai sor: Statisztikai adatoknak meghatározott összefüggésben, valamilyen ismérv szerinti felsorolása A sort létrehozó összefüggés származhat: 1. egy sokaság osztályozásából (csoportosító sor); 2. egy sokaság nagyságának összehasonlításából (összehasonlító sor); 3. egyazon jelenséghez tartozó többféle sokaság felsorolásából (leíró sor). A csoportosító és összehasonlító sorok osztályozhatóak az ismérv fajtája szerint: - minőségi - mennyiségi - területi - időbeli
Összehasonlító sor Azonos fajta és mértékegységű adatokat tartalmaz, de azok általában nem adhatók össze. leggyakoribb altípusai: 1. idősorok Az idősorok a jelenségek, folyamatok időbeli alakulását mutatják, lehetővé teszik az időbeli összehasonlítást. állapot idősor: álló sokaságok időbeli alakulását mutatja tartam idősor: mozgó sokaságok időbeli alakulását mutatja. 2. területi sorok A területi sorok esetében a csoportképző ismérv a terület. Ez lehet egy ország vagy az országon belül egy régió, megye, város, stb.
Csoportosító sorok Azonos fajta és mértékegységű adatokat tartalmaz. Egy fősokaság és a megfelelő részsokaságok nagyságát adják meg. Tartozéka az összesítő adat.
Leíró sor Általában különböző fajta és különböző mértékegységű adatokat tartalmaz Az adatok mindegyike egy meghatározott jelenségre, társadalmi vagy gazdasági egységre vonatkozik
Statisztikai táblák 2.) csoportosítás szerepe szempontjából: egyszerű A táblák csoportosítása: 1.) rendeltetése szerint: feldolgozói: az adatok feldolgozása közben összeállított közlési: a munka végső eredményeit foglalja össze munkatábla: azért készítjük, hogy belőle további számításokat végezzünk 2.) csoportosítás szerepe szempontjából: egyszerű csoportosító kombinációs
A statisztikai táblák szerkesztésének szabályai A tábla részei formai szempontból: oszlop a tábla függőleges része, sor a tábla vízszintes része, rovat a sor és az oszlop találkozása. Szöveget is tartalmazó rovatok: fejrovat a táblában felül helyezkednek el, oldalrovat a sorok előtt találhatók, összegrovat a sorok és az oszlopok adatainak összegzését tartalmazó rovatok.
Statisztikai sorok/táblák tartozékai cím mértékegység időpont, időszak forrás megjelölés üres sort, oszlopot, rovatot nem tartalmazhat
Munkaerő-piaci helyzet a régiókban Munkanélküliségi ráta (%) 2010 II. né. 2011 II. né. Közép-Magyarország 8,9 Közép-Dunántúl 10,4 9,3 Nyugat-Dunántúl 9,5 7,3 Dél-Dunántúl 11,8 11,9 Észak-Magyarország 16,0 16,6 Észak-Alföld 14,3 14,5 Dél-Alföld 10,3 10,6 Országos átlag 11,1 10,9 Forrás: www.ksh.hu
Magyarország néhány adata (2010) Megnevezés Adatok Területe (ezer km2) 93,0 Évközepi népesség (millió fő) 10,0 Alkalmazásban állók átl. létszáma (ezer fő) 2701,9 Munkanélküliségi ráta (%) 11,2 Bruttó hazai termék (GDP) (milliárd euró) 98,4* Ezer lakosra jutó élveszületés (‰) 9,0 Nettó átlagkereset (ezer Ft) 140,3 Bruttó átlagkereset (ezer Ft) 211,4 Fogyasztói árindex (%) 104,7 Forrás: www.ksh.hu *EUROSTAT előrejelzés
A bruttó hazai termék összefoglaló adatai Volumen-index 2008/2000 (%) Részesedés a világ össztermeléséből, % Egy főre jutó GDP 2008-ban vásárlóerő-paritáson (PPP) 2000 2008 EU-27 117 25,2 22,1 29950 USA 119 23,5 20,7 46860 Japán 111 7,7 6,4 34100 Kína 217 7,2 11,4 5960 India 176 3,6 4,8 2760 Forrás: www.ksh.hu
A munkanélküliség alakulása Magyarországon Időszak Munkanélküliségi ráta (%) 2009. I. n.év 9,7 II. n.év 9,6 III. n.év 10,4 IV. n.év 10,5 2010. 11,9 11,2 10,9 2011. 11,7
Fogyasztóiár-index Magyarországon 2010 Árufőcsoport (%) Élelmiszerek 103,2 Szeszes italok, dohányáruk 108,2 Ruházkodási cikkek 99,6 Tartós fogyasztási cikkek 100,2 Háztartási energia 106,3 Egyéb cikkek, üzemanyagok 108,8 Szolgáltatások 104,3 Összesen 104,9 Forrás: www.ksh.hu
Regionális munkaügyi adatok 2011. II. negyedév Területi árindex Foglalkoztatottak Munkanélküliek száma (ezer fő) Közép-Magyarország 1225,2 119,6 Közép-Dunántúl 443,4 45,5 Nyugat-Dunántúl 407,8 32,1 Dél-Dunántúl 334,8 45,2 Észak-Magyarország 383,2 76,3 Észak-Alföld 505,5 85,5 Dél-Alföld 476,8 56,4 Összesen 3776,8 460,6 Forrás: www.ksh.hu
Fogyasztói-árindex (%) Ország, országcsoport 2009. EU-27 101,0 Ausztria 100,4 Bulgária 102,5 Csehország 100,6 Észtország 100,2 Görögország 101,3 Lengyelország 104,0 Magyarország Németország Olaszország 100,8 Portugália 99,1 Románia 105,6 Szlovákia 100,9 Szlovénia Egyesült Államok 99,6 Japán 98,6 Forrás: www.ksh.hu
Eloszlásjellemzők
A sokaság/minta eloszlásának jellemzése tipikus értékek meghatározása; az adatok különbözőségének vizsgálata, a sokaság/minta eloszlásgörbéjének elemzése.
Eloszlásjellemzők
Középértékekkel szembeni követelmények egyértelmű számítás; tipikus, jellemző értékek legyenek; Szemléletes; jó értelmezhetőség; közepes helyzet Xmin K Xmax a mennyiségi ismérvet egyetlen számmal jellemzik. dimenziója: az ismérv mértékegysége.
Középértékek : Átlagok Helyzeti középértékek Számtani Módusz (Mo) Harmonikus Medián (Me) Mértani Négyzetes
Számtani átlag Az a szám, amelyet az átlagolandó értékek helyére téve azok összege változatlan marad.
Számtani átlag Egyedi értékeknél: Súlyozott forma:
A számtani átlag matematikai tulajdonságai Az egyes elemek - átlagolandó értékek - átlagtól való eltéréseinek összege 0: Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga "a"-val tér el az eredeti elemek átlagától. Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga "b"-szerese lesz az eredeti elemek átlagának.
A számtani átlag matematikai tulajdonságai Ha az x1, x2, ..., xn elemek átlaga, az: az y1, y2, ..., yn elemek átlaga, az: akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga lesz. Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az ,azaz minimális, ha a =
Példa a számtani átlag tulajdonságaira xi xi+50 xi·1,1 Z= 100 150 110 210 200 165 315 260 231 441 240 290 264 504 300 350 330 630 Σ 1000 1250 1100 2100 250 220 420
A számtani átlag előnyös tulajdonságai Világos, érthető fogalom, számítása egyszerű. Minden adathalmaznak létezik számtani átlaga, s egy van belőle. Minden elem figyelembe vételével kerül kiszámításra. Kiszámításához nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni.
A számtani átlag hátrányos tulajdonságai A kiugró értékekre (ún. outlier-ekre) érzékeny. (nyesett átlag –trimmed mean) Osztályközös gyakorisági sor alkalmazása esetén nem tudjuk figyelembe venni az egyedi értékeket. Nyitott osztályközök használatakor adatvesztés.
Geometriai átlag Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad. Egyedi értékek esetén: Súlyozott átlagforma:
Az egy főre jutó átlagos jövedelem alakulása Magyarországon Időszak Ft/fő/év 2010= 100% Előző év=100% 2010 947.775 100,00 …. 2011 996.548 105,15 2012 996.153 105,10 99,96 2013 1.048.863 110,67 105,29 2014 1.099.710 116,03 104,85 Forrás: www. ksh.hu A változás átlagos üteme:
Harmonikus átlag Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad. Egyedi értékek esetén: = Súlyozott átlag formában: = , ahol
Az összetett dinamikus viszonyszám meghatározásának módjai Telep Árbevétel (MFt) Árbevétel megoszlása Dinamikus viszonyszám (%) t0 t1 t0 (%) t1 (%) A 30 36 20 19 120 B 40 60 27 32 150 C 70 77 47 41 110 D 10 14,5 6 8 145 Összesen 187,5 100 125
Négyzetes átlag A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad. Kiszámítási módjai
Súlyozott átlagok xi: átlagolandó értékek fi: súlyok A súlyozott átlag nagysága függ: az átlagolandó értékek abszolút nagyságától, a súlyarányoktól (a súlyok egymáshoz viszonyított arányától), súlyként fi/n=gi is használható.
Mennyiségi csoportosító sorok fajtái Egy társasház vízfogyasztására vonatkozó adatok: Vízfogyasz-tás (m3) Lakások száma f’ g(%) g’(%) s(m3) z(%) – 15 5 10 50 3 15 – 25 17 22 34 44 340 24 25 – 35 15 37 30 74 450 32 35 – 45 8 45 16 90 320 23 45 – 100 250 18 Összesen - 1410
Helyzeti középértékek Medián A rangsorba rendezett adatok közül a középső elem (az előforduló értékek fele kisebb a medián-nál, fele pedig nagyobb)
Medián me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határa f'me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, (a mediánt tartalmazó osztályköz előtti elemek száma); fme = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található; h = a mediánt tartalmazó osztályköz hossza; n = az elemek száma;
Egy társasház vízfogyasztására vonatkozó adatok Vízfogyasztás (m3) Lakások száma f’ – 15 5 15 – 25 17 22 25 – 35 15 37 35 – 45 8 45 45 – 50 Összesen -
Medián előnyös tulajdonságai egyértelműen meghatározható, nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is, értéke független a szélső értékektől.
Medián hátrányos tulajdonságai Csak rangsorba rendezett elemekből számítható. Induktív statisztikai célra nem igazán alkalmas. Ha az egyedek jelentős hányada azonos ismérvértékkel rendelkezik, akkor nem célszerű használni.
Módusz (Mo) Diszkrét ismérv esetén: A leggyakrabban előforduló elem Folytonos ismérv esetén: A gyakorisági görbe maximuma.
Módusz mo = a móduszt tartalmazó, un. modális osztályköz alsó határa, k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége (fmo – fmo-1), k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbsége (fmo – fmo+1) h = a modális osztályköz hossza.
Egy társasház vízfogyasztására vonatkozó adatok: Vízfogyasztás (m3) Lakások száma f’ – 15 5 15 – 25 17 22 25 – 35 15 37 35 – 45 8 45 45 – 50 Összesen -
A módusz jellemzői Előnyös tulajdonságok: Tipikus érték Valamennyi mérési skála esetén alkalmazható. Nem érzékeny a szélső, kiugró értékekre. Hátrányos tulajdonságok: Nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle. Induktív statisztikai célra általában nem alkalmas
Kvantilisek Azok az értékek, melyeknél az összes előforduló értékek j/k-ad része kisebb, illetve az (1-j/k)-ad része nagyobb. (j=1,2,…,k-1) Fontosabb kvantilisek: Medián (Me) k=2 Tercilisek (Tj) k=3 Kvartilisek (Qj) k=4 Kvintilisek (Kj) k=5 Decilisek (Dj) k=10
Egy társasház vízfogyasztására vonatkozó adatok Vízfogyasztás (m3) Lakások száma f’ – 15 5 15 – 25 17 22 25 – 35 15 37 35 – 45 8 45 45 – 50 Összesen -
Eloszlásjellemzők
Szóródás számítás Szóródáson azonos fajta számszerű értékek különbözőségét értjük. Mérése: Szélső értékek eltérése alapján Átlagtól való eltérés alapján Egymástól való eltérés alapján
A szóródás mérőszámai A szóródás terjedelmének mutatói: A szóródás terjedelme: R=Xmax-Xmin Kifejezi, hogy mekkora értékkörben ingadoznak az ismérvértékek. A szóródás interkvartilis terjedelme: IQR=Q3-Q1 Kifejezi, hogy mekkora értékkörben ingadozik az ismérvértékek középső 50%-a. A szóródás interdecilis terjedelme: IDR=D9-D1 Kifejezi, hogy mekkora értékkörben ingadozik az ismérvértékek középső 80%-a.
Szórás (σ) A szórás az egyedi értékek átlagtól való eltéréseinek a négyzetes átlaga. A σ2-et varianciának is nevezzük.
Szórás (σ) főbb tulajdonságai Az xi értékek additív transzformációja esetén a szórás nem változik. Az xi értékek multiplikatív transzformációja esetén a szórás a transzformációnak megfelelően változik. Értéke 0, ha x=constans Értékhatára
Példa a szórás tulajdonságaira xi di=xi- yi di=yi- 100 -100 10000 150 -50 2500 200 210 +10 260 240 +40 1600 290 300 +100 350 Σ 1000 24200 1250 250 σ2=4840 σ=69,6
Példa a szórás tulajdonságaira xi di=xi- yi di=yi- 100 -100 10000 110 -110 12100 150 -50 2500 165 -55 3025 210 +10 231 +11 121 240 +40 1600 264 +44 1936 300 +100 330 +110 Σ 1000 24200 1100 29282 200 220 σ2=4840 σ2=5856,4 σ=69,6 σ=76,52
Relatív szórás (V) Kifejezi, hogy az egyedi értékek átlagosan hány %-kal térnek el az átlagos értéktől.
Relatív szórás (V) tulajdonságai értékhatárai: dimenzió nélküli különböző mértékegységű vagy nagyságrendű adatok szóródásának az összehasonlítására alkalmas
Egy társasház vízfogyasztására vonatkozó adatok Vízfogyasztás (m3) Lakások száma f’ – 15 5 15 – 25 17 22 25 – 35 15 37 35 – 45 8 45 45 – 50 Összesen -
Alakmutatók, és helyzetmutatók Az egymóduszú gyakorisági eloszlások lehetséges eltérései a normális gyakorisági görbétől.
Aszimmetria mutatók Pearson-féle A mutató Előjele az aszimmetria irányát mutatja. A 0 bal oldali, jobbra elnyúló aszimmetria A 0 jobb oldali, balra elnyúló aszimmetria A = 0 szimmetrikus eloszlás. Abszolút értékének nincs felső korlátja. A>1 meglehetősen erős aszimmetria
Eltérő jellegzetességű gyakorisági eloszlások
A helyzetmutatók elhelyezkedése szimmetrikus és aszimmetrikus eloszlás esetében
Gyakorisági eloszlások ábrázolása Pálcika diagram Néhány értéket felvevő diszkrét mennyiségi ismérvek esetében
Hisztogram, poligon Az oszlopok területe kell, hogy arányos legyen az ábrázolt gyakorisággal. Eltérő osztályközhosszúság esetén az fi gyakoriságok helyett az fi/hi egységnyi osztályközhosszúságra eső gyakoriságokat ábrázoljuk.
Box plot (doboz ábra)
A box plot ábra elemei
Köszönöm a figyelmet! stbea@uni-miskolc.hu