Osztóértékek, eloszlások Készítette: Horváthné Dr. Kovács Bernadett Dr. Nagy Mónika Zita KE – GTK- Regionális Tudományok és Statisztika Tanszék 2015.
Alapvető fogalmak bevezetése A statisztikai sokaságot alkotó elemek az elemzések tárgyát képező megfigyelések. Megfigyeléseinknek számos fontos alapvető jellemzője van – az azonosított tulajdonságukon (ismérvtípuson) kívül. Adataink (megfigyelt értékek, változók): xi, ahol i=1…n (természetes szám) Pl. szőke (hajszín); 3. (helyezés); 120000 Ft (jövedelem); stb. Azt a számot, amely megmutatja, hogy megfigyeléseinkből hány esetben vagy hány százalékban szerepel az adott adat, a megfigyelés tapasztalt, illetve relatív gyakoriságának nevezzük. Jelölései: fi vagy gi ahol i=1…n (természetes szám). A megfigyelések (adatok) gyakoriságát hisztogramon és gyakorisági eloszlás diagramon ábrázolhatjuk.
Gyakorisági eloszlás (Frequency distribution) Tapasztalati adatok, megfigyelések (egy valószínűségi változó realizálódott értékei) meghatározott szempont szerint kialakított csoportjai gyakoriságainak összessége. Grafikus megjelenítése a hisztogram. Az adatok nagyság szerinti csoportosításával kapott minden osztály fölé olyan téglalapot emelünk, melynek területe arányos a megfelelő osztályba eső adatok számával vagy relatív gyakoriságával A hisztogram vízszintes (x) tengelyén a mért értékek helyezkednek el, míg a függőleges (y) tengelyen az előfordulási gyakoriságok. A gyakoriságok összessége értelemszerűen azonos a minta elemszámával (N). Megadható a relatív gyakoriság is, ha a minta elemszámához viszonyított százalékos értékeket adjuk meg az y tengelyen.
Alapvető fogalmak bevezetése 2. Sűrűség-függvény (Probability distribution) A valószínűségi változó eloszlásának az a törvényszerűsége, amely szerint a valószínűségi változó az értékeit felveszi. (Relatív gyakoriságból származtatott 0 és 1 közé eső érték.) Valószínűségi változó eloszlásfüggvénye olyan függvény, amelynek x tengelyén a mért adatok, y tengelyén pedig a relatív kumulált gyakoriság jelenik meg és kifejezi annak valószínűségét, hogy legalább xi értéket vesz fel a változó. Legfontosabb eloszlások: Diszkrét Folytonos - egyenletes - normál - binomiális - egyenletes - Poisson - egyéb: gamma, exponenciális, khi- négyzet, F-eloszlás, Student-eloszlás
Alapvető fogalmak bevezetése 2. Diszkrét, egyenletes eloszlás: Folytonos , normál eloszlás:
Normál eloszlás A sokféle eloszlás közül a statisztikában, illetve a biológiai és társadalomtudományokban kiemelt jelentősége van a normális eloszlásnak. A normális eloszlás legtöbb statisztikai számításnak elvi előfeltétele. A normális eloszlás a folytonos eloszlások közé tartozik, grafikonját Gauss-görbének is szokás nevezni. A természeti jelenségek jelentős része gyakorisági megnyilvánulásaiban a Gauss-görbét követi. A normális eloszlás jellemzője, hogy szimmetrikus, alakja harang alakú, csúcsa kerekített, és gyorsan lelapuló ágai elvileg a végtelenbe tartanak. A görbe szélessége és magassága sokféle lehet, elvileg végtelen sok normális eloszlású görbe létezhet. A görbe szélességének és magasságának jellemzője a lapultság (kurtosis), míg a görbe szimmetriájának jellemzője a ferdeség (skewness). Az adatok mindig jelentős mértékben tömörülnek a középértékek körül, míg a szélső értékek felé egyre kisebb gyakoriságok fordulnak elő. A görbe negatív és pozitív irányban is a végtelen felé tart.
Normál eloszlás A normál görbének legfontosabb jellemzője, hogy adatok 68,26 %-a a középértéktől ± 1 szórásnyi távolságra helyezkedik el. Középtől ± 2 szórásnyi távolságra az adatok 95,44%-a, míg ± 3 szórásnyi távolságra az adatok 99,74%-a helyezkedik el. A 3 szórásnyi távolságokon túlmenő, „végtelenbe nyúló” széleken már csak az adatok 0,26%-a található, amelyek akár „extrém” értékeknek is tekinthetők.
Osztóértékek (kvantilisek)
Osztóértékek Olyan osztályköz-határokat (osztópontokat keresünk, amelyek egyenlő gyakoriságú (vagy relatív gyakoriságú) osztályokat eredményeznek. Tehát a nagyság szerint sorba rendezett adatsort egyenlő nagyságú részekre osztja.
Számítása Eredeti adatsor esetén: A kvantilis sorszámának kiszámítás ahol: n: elemszám j: az adott kvantilisen belüli sorszám k: az egyenlő részek száma A rangsorból a sorszámhoz tartozó érték megkeresése/becslése
Medián A medián nem más, mint a felező érték, amely a nagyság szerint sorrendbe rendezett adatokat két egyenlő nagyságú részre osztja. A negyedelő (kvartilis) értékek közül a második (Q2). A következő példában határozzuk meg a keresetek mediánját egy vállalkozásnál, ahol a keresetek rendre a következőképpen alakultak (ezer Ft): 51, 57, 53, 65, 76, 67, 87, 101, 120 adatok nagyság szerinti sorba rendezése: 51, 53, 57, 65, 67, 76, 87, 101, 120 Ez pedig azt jelenti, hogy a sorba rendezett adatainkat az 5. elem felezi, vagyis e felett és ez alatt egyaránt az adatok 50-50%-a helyezkedik el. A medián értékének megállapítása esetén, gyakorlatilag csak le kell olvasni a megfelelő sorszám melletti értéket. Nálunk tehát az 5. sorszám melletti érték a medián, ez pedig a 67 ezer Ft-os kereset.
Osztályközös gyakorisági sor esetén 1. az alapadatok nagyság szerinti sorba rendezése, ami gyakorlatilag a csoportosítással már megtörténik, 2. a medián sorszámának meghatározása (Sj), 3. a mediánt tartalmazó osztályköz meghatározása (gyakoriságok kumulálással), 4. a medián meghatározása (nyers és becsült medián)
Osztályközös gyakorisági sor esetén 2. Ahol Xj0: az osztóértéket tartalmazó osztályköz alsó határa Sj: a kvantilis sorszáma Ʃfi: a kvantilist tartalmazó osztályközhöz tartozó megelőző kummulált gyakoriság fj: a kvantilist tartalmazó osztályközhöz tartozó gyakoriság h: az osztályköz hossza, terjedelme
Osztályközös gyakorisági sor esetén 3. medián sorszáma (Sj). 2. mediánt tartalmazó osztályköz meghatározása az osztálygyakoriságok kumulálásával (összegzésével, halmozásával). 3. medián meghatározása: Az árbevételek alakulása egy régió nagyvállalatainál Árbevétel kategóriák, millió Ft Vállalatok száma, db Kumulatív gyakoriság, db - 20 30 21 – 40 42 72 41 – 60 54 126 61 – 80 38 164 81 – 100 23 187 Összesen - Tehát a becsült medián értéke 48,148 millió Ft. Meg kell jegyeznünk, hogy osztályközös gyakorisági sor alapján csak becsült értéket kaptunk, függetlenül attól, hogy melyik módszert alkalmaztuk. Pontos mediánt csak akkor tudunk meghatározni, ha ismerjük az eredeti adatokat.
Osztóértékek-Kvartilisek (negyedelők) 1. A nagyság szerint sorba rendezett adatsort négy egyenlő részre osztja. Fajtái: alsó (első), középső (medián), felső (harmadik) negyedelő Eredeti adatsor alapján (N=páratlan) Az árbevételek (mFt) egy régió nagyvállalatainál: 47; 53; 56; 48; 54; 49; 63 Az adatok sorbarendezése: 47; 48; 49; 53; 54; 56; 63 A negyedelők sorszámának meghatározása. A negyedelők értékének meghatározása. Alsó negyedelő: A vállalkozások negyede 48 Mft-nál kevesebb, három-negyede ennél több árbevétellel rendelkezik. Középső negyedelő: A vállalkozások felének a bevétele 53 mft-nál kevesebb, illetve több. A vállalkozások negyede 56 Mft-nál több, három-negyede ennél kevesebbárbevétellel rendelkezik. Eredeti adatsor alapján (N=páros) Az árbevételek (mFt) egy régió nagyvállalatainál: 47; 63; 56; 48; 53; 49; 1. Az adatok sorbarendezése: 47; 48; 49; 53; 56; 63 A negyedelő sorszámának meghatározása. A negyedelő értékének meghatározása. 47; 48; 49; 53; 56; 63;
Osztóértékek-Kvartilisek (negyedelők) 2. Osztályközös gyakorisági sor alapján Az árbevételek egy régió nagyvállalatainál Az adatok sorbarendezése: A táblázatban árbevétel alapján sorba vannak rendezve az adatok. A negyedelők sorszámának meghatározása. 3. A negyedelőket tartalmazó osztályközök kiválasztása. Alsó negyedelő: 21-40 Középső negyedelő: 41-60 Felső negyedelő: 61-80 4. Negyedelők becslése.
Osztóértékek-Kvartilisek (negyedelők) 3. Relatív osztályközös gyakorisági sor alapján Az árbevételek egy régió nagyvállalatainál Az adatok sorbarendezése: A táblázatban árbevétel alapján sorba vannak rendezve az adatok. A negyedelők sorszámának meghatározása. 3. A negyedelőket tartalmazó osztályközök kiválasztása. Alsó negyedelő: 21-40 Középső negyedelő: 41-60 Felső negyedelő: 61-80 4. Negyedelők becslése.
Normál eloszlás alakjának jellemzői
Az asszimetria mérőszámai Az empírikus eloszlások két fő csoportja: - az egymóduszú (egy csúcsú ami lehet szimmetrikus és asszimetrikus) és a - több móduszú (több csúcsú; u és m alakú) eloszlások. Az asszimetria vizsgálatok az asszimetria meglétének, mértékének, irányának vizsgálatára összpontosítanak.
A szimmetrikus és az asszimetrikus eloszlások jellemzői
Az asszimmetria mérőszámai, alakmutatók 1. Tömör számszerű formában jellemezik az adatsort. Megadja, hogy milyen tekintetben és milyen mértékben tér el az adott eloszlás a normális eloszlás gyakorisági görbéjéből. Az asszimetria mérésére több mérőszámot is használhatunk, amelyek dimenzió nélküli számok és szimmetria esetén a 0 értéket veszik fel: F mutató - bármely két szélső kvantilisre kiszámítható (pl: Decilis1-Decilis9) - Számításának alapja az, hogy szimmetrikus eloszlásnál a medián az alsó és felső kvartilistől egyenlő távolságra helyezkedik el. - Az F mutató abszolút értékben vett felső korlátja 1.
Az asszimmetria mérőszámai, alakmutatók 2. Pearson féle asszimetria mutatók - két vagy több eloszlás asszimetriájának összehasonlítása - alapja, hogy szimmetrikus eloszlásnál az átlag és a módusz egybeesik. Különbség esetén asszimetria tapasztalható. - mértéke nagy mértékben függ a szórástól, minél nagyobb a szórás, az átlag és a módusz különbsége annál nagyobb lesz asszimetria mértéke nő. - A mutató abszolút értékének nincs felső korlátja, de általában -1 és +1 intervallumba esik, 0,5 feletti abszolút érték esetén pedig erős asszimetriát jelez. Egy adott eloszlás asszimetriája milyen fokú: Az F, A és a Pearson féle mutatószám - szimmetrikus eloszlásnál 0, - bal oldali eloszlásnál pozitív - jobb oldali eloszlásnál pedig negatív A különbség a mutatószámok között az, hogy az F mutató lényegesen kisebb abszolút értékkel jelzi az asszimetriát.
Csúcsosság, lapultság mérése „K” mutató megmutatja, hogy a gyakorisági eloszlás görbéjének csúcsa mennyivel van magasabban vagy alacsonyabban egy egymóduszú normális eloszlás görbéjétől. alapja, hogy minél csúcsosabb egy eloszlás, annál kisebb a különbség az első és a 9. decilis között. Normális eloszlás esetén a K~0,263. Amennyiben K> 0,263, akkor lapultabb az eloszlás a vele azonos szórású normális eloszláshoz képest, míg ha K< 0,263, akkor csúcsosabb az eloszlás a vele azonos szórású normális eloszláshoz képest.
Az asszimetria és a csúcsossági mutatók gyakorlati alkalmazása Az árbevételek egy régió vállalatainál Alapadatok: A már tanult módszerek alapján pedig a két szélső tizedelő is meghatározható: Asszimetria mutatók: Jobb oldali eloszlás Bal oldali eloszlás Lapultabb eloszlás
A koncentráció mérése 1. az a jelenség amikor a sokasághoz tartozó teljes értékösszeg jelentős hányada a sokaság viszonylag kevés egységére összpontosul. Az összevetés alapja tehát a sokaságbeli részarány, illetve az értékösszegből való részesedés, relatív gyakoriságok (gi) és a relatív értékösszegek (Zi) Amennyiben a gi és Zi értékek azonosak, akkor az a koncentráció hiányát jelenti (ez azonban igen ritka a gyakorlatban), ezen értékek eltérése pedig a koncentrációt jelzi. Mérése: Lorenz görbe, Herfindahl-index, Koncentrációs arányszám
A koncentráció mérése 2. A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett speciális vonaldiagram, amely a felfelé kumulált relatív gyakoriságok (gi’) függvényében ábrázolja a felfelé kumulált relatív értékösszegeket (Zi’). Ha koncentráció nem mérhető, akkor a görbe egybeesik az origóból induló átlóval. Minél erőteljesebb koncentráció figyelhető meg az adott sokaságban, a görbe annál távolabb esik az átlótól, de mindig az átló alatt helyezkedik el Koncentrációs terület zi’(%) Koncentrációs terület aránya-koncentrációs együttható gi’(%)
A koncentráció mérése 3. Herfindahl-index: - Az index 1/N és 1 határok között mozogva méri a koncentráció fokát. - Amikor minden egyes gyakoriság megegyezik akkor HI=1/N, azaz a koncentráció teljes hiányáról beszélünk, a lehető legteljesebb koncentráció esetén pedig HI=1. - A másik számítási mód a relatív szórást veszi figyelembe, amely azt jelenti, hogy ez a mutató a koncentrációt abszolút és relatív formában is figyelembe veszi. Koncentrációs-arányszám (CR): - Megmutatja, hogy a sokaság néhány egysége hogyan részesül a teljes értékösszegből. - A mutatószám általában a 3-5 legnagyobb relatív gyakoriság összegét veszi figyelembe, nagyobb adatbázisnál pedig az első 3-20 egység figyelembevétele a jellemző.
A koncentráció mérésének gyakorlati alkalmazása Az árbevételek egy régió vállalatainál Közepes mértékű koncentráció Kis mértékű koncentráció A vállalatok 61,5%-a (28,88+20,32+12,30) rendelkezik az összes regionális árbevétel 23%-ával