Osztóértékek, eloszlások

Slides:



Advertisements
Hasonló előadás
2. előadás.
Advertisements

I. előadás.
Petrovics Petra Doktorandusz
Kvantitatív Módszerek
Gazdaságelemzési és Statisztikai Tanszék
Mérési pontosság (hőmérő)
Gazdaságelemzési és Statisztikai Tanszék
Gazdaságelemzési és Statisztikai Tanszék
Microsoft Excel 2010 Gyakoriság.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Közlekedésstatisztika
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
TF Informatikai és Oktatástechnológiai Tanszék
Előadó: Prof. Dr. Besenyei Lajos
4. előadás.
5. előadás.
A középérték mérőszámai
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Matematikai alapok és valószínűségszámítás
Nemparaméteres próbák Statisztika II., 5. alkalom.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Logikai szita Izsó Tímea 9.B.
Statisztika.
Készítette: Horváth Zoltán (2012)
Kvantitatív módszerek
Valószínűségszámítás
Többváltozós adatelemzés
Alapsokaság (populáció)
Alapfogalmak.
Adatleírás.
© Farkas György : Méréstechnika
IV. Terjeszkedés 2..
Dr Gunther Tibor PhD II/2.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Valószínűségszámítás - Statisztika. P Két kockával dobunk, összeadjuk az értékeket Mindegyik.
Kvantitatív módszerek
Számtani és mértani közép
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Középértékek – helyzeti középértékek
x1 xi 10.Szemnagyság: A szemnagyság megadásának nehézségei
Valószínűségszámítás II.
A gyakorisági sorok grafikus ábrázolása
A számítógépes elemzés alapjai
Konzultáció – Leíró statisztika október 22. Gazdaságstatisztika.
2. előadás Gyakorisági sorok
A számítógépes elemzés alapjai
Leíró statisztika gyakorló feladatok október 15.
Szóródási mérőszámok, alakmutatók, helyzetmutatók
Kvantitatív módszerek MBA és Számvitel mesterszak
I. Előadás bgk. uni-obuda
Dr. Varga Beatrix egyetemi docens
Speciális szóródás: Koncentráció
2. előadás Gyakorisági sorok, Grafikus ábrázolás
Adatfeldolgozási ismeretek műszeres analitikus technikusok számára
Adatsorok típusai, jellegadó értékei
5. előadás.
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Rangsoroláson és pontozáson alapuló komplex mutatók
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Területi egyenlőtlenségek grafikus ábrázolása: Lorenz-görbe
4. előadás.
Mérési skálák, adatsorok típusai
Előadás másolata:

Osztóértékek, eloszlások Készítette: Horváthné Dr. Kovács Bernadett Dr. Nagy Mónika Zita KE – GTK- Regionális Tudományok és Statisztika Tanszék 2015.

Alapvető fogalmak bevezetése A statisztikai sokaságot alkotó elemek az elemzések tárgyát képező megfigyelések. Megfigyeléseinknek számos fontos alapvető jellemzője van – az azonosított tulajdonságukon (ismérvtípuson) kívül. Adataink (megfigyelt értékek, változók): xi, ahol i=1…n (természetes szám) Pl. szőke (hajszín); 3. (helyezés); 120000 Ft (jövedelem); stb. Azt a számot, amely megmutatja, hogy megfigyeléseinkből hány esetben vagy hány százalékban szerepel az adott adat, a megfigyelés tapasztalt, illetve relatív gyakoriságának nevezzük. Jelölései: fi vagy gi ahol i=1…n (természetes szám). A megfigyelések (adatok) gyakoriságát hisztogramon és gyakorisági eloszlás diagramon ábrázolhatjuk.

Gyakorisági eloszlás (Frequency distribution) Tapasztalati adatok, megfigyelések (egy valószínűségi változó realizálódott értékei) meghatározott szempont szerint kialakított csoportjai gyakoriságainak összessége. Grafikus megjelenítése a hisztogram. Az adatok nagyság szerinti csoportosításával kapott minden osztály fölé olyan téglalapot emelünk, melynek területe arányos a megfelelő osztályba eső adatok számával vagy relatív gyakoriságával A hisztogram vízszintes (x) tengelyén a mért értékek helyezkednek el, míg a függőleges (y) tengelyen az előfordulási gyakoriságok. A gyakoriságok összessége értelemszerűen azonos a minta elemszámával (N). Megadható a relatív gyakoriság is, ha a minta elemszámához viszonyított százalékos értékeket adjuk meg az y tengelyen.

Alapvető fogalmak bevezetése 2. Sűrűség-függvény (Probability distribution) A valószínűségi változó eloszlásának az a törvényszerűsége, amely szerint a valószínűségi változó az értékeit felveszi.  (Relatív gyakoriságból származtatott 0 és 1 közé eső érték.) Valószínűségi változó eloszlásfüggvénye olyan függvény, amelynek x tengelyén a mért adatok, y tengelyén pedig a relatív kumulált gyakoriság jelenik meg és kifejezi annak valószínűségét, hogy legalább xi értéket vesz fel a változó. Legfontosabb eloszlások: Diszkrét Folytonos - egyenletes - normál - binomiális - egyenletes - Poisson - egyéb: gamma, exponenciális, khi- négyzet, F-eloszlás, Student-eloszlás

Alapvető fogalmak bevezetése 2. Diszkrét, egyenletes eloszlás: Folytonos , normál eloszlás:

Normál eloszlás A sokféle eloszlás közül a statisztikában, illetve a biológiai és társadalomtudományokban kiemelt jelentősége van a normális eloszlásnak. A normális eloszlás legtöbb statisztikai számításnak elvi előfeltétele. A normális eloszlás a folytonos eloszlások közé tartozik, grafikonját Gauss-görbének is szokás nevezni. A természeti jelenségek jelentős része gyakorisági megnyilvánulásaiban a Gauss-görbét követi. A normális eloszlás jellemzője, hogy szimmetrikus, alakja harang alakú, csúcsa kerekített, és gyorsan lelapuló ágai elvileg a végtelenbe tartanak. A görbe szélessége és magassága sokféle lehet, elvileg végtelen sok normális eloszlású görbe létezhet. A görbe szélességének és magasságának jellemzője a lapultság (kurtosis), míg a görbe szimmetriájának jellemzője a ferdeség (skewness). Az adatok mindig jelentős mértékben tömörülnek a középértékek körül, míg a szélső értékek felé egyre kisebb gyakoriságok fordulnak elő. A görbe negatív és pozitív irányban is a végtelen felé tart.

Normál eloszlás A normál görbének legfontosabb jellemzője, hogy adatok 68,26 %-a a középértéktől ± 1 szórásnyi távolságra helyezkedik el. Középtől ± 2 szórásnyi távolságra az adatok 95,44%-a, míg ± 3 szórásnyi távolságra az adatok 99,74%-a helyezkedik el. A 3 szórásnyi távolságokon túlmenő, „végtelenbe nyúló” széleken már csak az adatok 0,26%-a található, amelyek akár „extrém” értékeknek is tekinthetők.

Osztóértékek (kvantilisek)

Osztóértékek Olyan osztályköz-határokat (osztópontokat keresünk, amelyek egyenlő gyakoriságú (vagy relatív gyakoriságú) osztályokat eredményeznek. Tehát a nagyság szerint sorba rendezett adatsort egyenlő nagyságú részekre osztja.

Számítása Eredeti adatsor esetén: A kvantilis sorszámának kiszámítás ahol: n: elemszám j: az adott kvantilisen belüli sorszám k: az egyenlő részek száma A rangsorból a sorszámhoz tartozó érték megkeresése/becslése

Medián A medián nem más, mint a felező érték, amely a nagyság szerint sorrendbe rendezett adatokat két egyenlő nagyságú részre osztja. A negyedelő (kvartilis) értékek közül a második (Q2). A következő példában határozzuk meg a keresetek mediánját egy vállalkozásnál, ahol a keresetek rendre a következőképpen alakultak (ezer Ft): 51, 57, 53, 65, 76, 67, 87, 101, 120 adatok nagyság szerinti sorba rendezése: 51, 53, 57, 65, 67, 76, 87, 101, 120 Ez pedig azt jelenti, hogy a sorba rendezett adatainkat az 5. elem felezi, vagyis e felett és ez alatt egyaránt az adatok 50-50%-a helyezkedik el. A medián értékének megállapítása esetén, gyakorlatilag csak le kell olvasni a megfelelő sorszám melletti értéket. Nálunk tehát az 5. sorszám melletti érték a medián, ez pedig a 67 ezer Ft-os kereset.

Osztályközös gyakorisági sor esetén 1. az alapadatok nagyság szerinti sorba rendezése, ami gyakorlatilag a csoportosítással már megtörténik, 2. a medián sorszámának meghatározása (Sj),   3. a mediánt tartalmazó osztályköz meghatározása (gyakoriságok kumulálással), 4. a medián meghatározása (nyers és becsült medián)

Osztályközös gyakorisági sor esetén 2. Ahol Xj0: az osztóértéket tartalmazó osztályköz alsó határa Sj: a kvantilis sorszáma Ʃfi: a kvantilist tartalmazó osztályközhöz tartozó megelőző kummulált gyakoriság fj: a kvantilist tartalmazó osztályközhöz tartozó gyakoriság h: az osztályköz hossza, terjedelme

Osztályközös gyakorisági sor esetén 3. medián sorszáma (Sj). 2. mediánt tartalmazó osztályköz meghatározása az osztálygyakoriságok kumulálásával (összegzésével, halmozásával). 3. medián meghatározása: Az árbevételek alakulása egy régió nagyvállalatainál Árbevétel kategóriák, millió Ft Vállalatok száma, db Kumulatív gyakoriság, db - 20 30 21 – 40 42 72 41 – 60 54 126 61 – 80 38 164 81 – 100 23 187 Összesen - Tehát a becsült medián értéke 48,148 millió Ft.   Meg kell jegyeznünk, hogy osztályközös gyakorisági sor alapján csak becsült értéket kaptunk, függetlenül attól, hogy melyik módszert alkalmaztuk. Pontos mediánt csak akkor tudunk meghatározni, ha ismerjük az eredeti adatokat.

Osztóértékek-Kvartilisek (negyedelők) 1. A nagyság szerint sorba rendezett adatsort négy egyenlő részre osztja. Fajtái: alsó (első), középső (medián), felső (harmadik) negyedelő Eredeti adatsor alapján (N=páratlan) Az árbevételek (mFt) egy régió nagyvállalatainál: 47; 53; 56; 48; 54; 49; 63 Az adatok sorbarendezése: 47; 48; 49; 53; 54; 56; 63 A negyedelők sorszámának meghatározása. A negyedelők értékének meghatározása. Alsó negyedelő: A vállalkozások negyede 48 Mft-nál kevesebb, három-negyede ennél több árbevétellel rendelkezik. Középső negyedelő: A vállalkozások felének a bevétele 53 mft-nál kevesebb, illetve több. A vállalkozások negyede 56 Mft-nál több, három-negyede ennél kevesebbárbevétellel rendelkezik. Eredeti adatsor alapján (N=páros) Az árbevételek (mFt) egy régió nagyvállalatainál: 47; 63; 56; 48; 53; 49; 1. Az adatok sorbarendezése: 47; 48; 49; 53; 56; 63 A negyedelő sorszámának meghatározása. A negyedelő értékének meghatározása. 47; 48; 49; 53; 56; 63;

Osztóértékek-Kvartilisek (negyedelők) 2. Osztályközös gyakorisági sor alapján Az árbevételek egy régió nagyvállalatainál Az adatok sorbarendezése: A táblázatban árbevétel alapján sorba vannak rendezve az adatok. A negyedelők sorszámának meghatározása. 3. A negyedelőket tartalmazó osztályközök kiválasztása. Alsó negyedelő: 21-40 Középső negyedelő: 41-60 Felső negyedelő: 61-80 4. Negyedelők becslése.

Osztóértékek-Kvartilisek (negyedelők) 3. Relatív osztályközös gyakorisági sor alapján Az árbevételek egy régió nagyvállalatainál Az adatok sorbarendezése: A táblázatban árbevétel alapján sorba vannak rendezve az adatok. A negyedelők sorszámának meghatározása. 3. A negyedelőket tartalmazó osztályközök kiválasztása. Alsó negyedelő: 21-40 Középső negyedelő: 41-60 Felső negyedelő: 61-80 4. Negyedelők becslése.

Normál eloszlás alakjának jellemzői

Az asszimetria mérőszámai Az empírikus eloszlások két fő csoportja: - az egymóduszú (egy csúcsú ami lehet szimmetrikus és asszimetrikus) és a - több móduszú (több csúcsú; u és m alakú) eloszlások. Az asszimetria vizsgálatok az asszimetria meglétének, mértékének, irányának vizsgálatára összpontosítanak.

A szimmetrikus és az asszimetrikus eloszlások jellemzői

Az asszimmetria mérőszámai, alakmutatók 1. Tömör számszerű formában jellemezik az adatsort. Megadja, hogy milyen tekintetben és milyen mértékben tér el az adott eloszlás a normális eloszlás gyakorisági görbéjéből. Az asszimetria mérésére több mérőszámot is használhatunk, amelyek dimenzió nélküli számok és szimmetria esetén a 0 értéket veszik fel: F mutató - bármely két szélső kvantilisre kiszámítható (pl: Decilis1-Decilis9) - Számításának alapja az, hogy szimmetrikus eloszlásnál a medián az alsó és felső kvartilistől egyenlő távolságra helyezkedik el. - Az F mutató abszolút értékben vett felső korlátja 1.

Az asszimmetria mérőszámai, alakmutatók 2. Pearson féle asszimetria mutatók - két vagy több eloszlás asszimetriájának összehasonlítása - alapja, hogy szimmetrikus eloszlásnál az átlag és a módusz egybeesik. Különbség esetén asszimetria tapasztalható. - mértéke nagy mértékben függ a szórástól, minél nagyobb a szórás, az átlag és a módusz különbsége annál nagyobb lesz asszimetria mértéke nő. - A mutató abszolút értékének nincs felső korlátja, de általában -1 és +1 intervallumba esik, 0,5 feletti abszolút érték esetén pedig erős asszimetriát jelez. Egy adott eloszlás asszimetriája milyen fokú: Az F, A és a Pearson féle mutatószám - szimmetrikus eloszlásnál 0, - bal oldali eloszlásnál pozitív - jobb oldali eloszlásnál pedig negatív A különbség a mutatószámok között az, hogy az F mutató lényegesen kisebb abszolút értékkel jelzi az asszimetriát.

Csúcsosság, lapultság mérése „K” mutató megmutatja, hogy a gyakorisági eloszlás görbéjének csúcsa mennyivel van magasabban vagy alacsonyabban egy egymóduszú normális eloszlás görbéjétől. alapja, hogy minél csúcsosabb egy eloszlás, annál kisebb a különbség az első és a 9. decilis között. Normális eloszlás esetén a K~0,263. Amennyiben K> 0,263, akkor lapultabb az eloszlás a vele azonos szórású normális eloszláshoz képest, míg ha K< 0,263, akkor csúcsosabb az eloszlás a vele azonos szórású normális eloszláshoz képest.

Az asszimetria és a csúcsossági mutatók gyakorlati alkalmazása Az árbevételek egy régió vállalatainál Alapadatok: A már tanult módszerek alapján pedig a két szélső tizedelő is meghatározható: Asszimetria mutatók: Jobb oldali eloszlás Bal oldali eloszlás Lapultabb eloszlás

A koncentráció mérése 1. az a jelenség amikor a sokasághoz tartozó teljes értékösszeg jelentős hányada a sokaság viszonylag kevés egységére összpontosul. Az összevetés alapja tehát a sokaságbeli részarány, illetve az értékösszegből való részesedés, relatív gyakoriságok (gi) és a relatív értékösszegek (Zi) Amennyiben a gi és Zi értékek azonosak, akkor az a koncentráció hiányát jelenti (ez azonban igen ritka a gyakorlatban), ezen értékek eltérése pedig a koncentrációt jelzi. Mérése: Lorenz görbe, Herfindahl-index, Koncentrációs arányszám

A koncentráció mérése 2. A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett speciális vonaldiagram, amely a felfelé kumulált relatív gyakoriságok (gi’) függvényében ábrázolja a felfelé kumulált relatív értékösszegeket (Zi’). Ha koncentráció nem mérhető, akkor a görbe egybeesik az origóból induló átlóval. Minél erőteljesebb koncentráció figyelhető meg az adott sokaságban, a görbe annál távolabb esik az átlótól, de mindig az átló alatt helyezkedik el Koncentrációs terület zi’(%) Koncentrációs terület aránya-koncentrációs együttható gi’(%)

A koncentráció mérése 3. Herfindahl-index: - Az index 1/N és 1 határok között mozogva méri a koncentráció fokát. - Amikor minden egyes gyakoriság megegyezik akkor HI=1/N, azaz a koncentráció teljes hiányáról beszélünk, a lehető legteljesebb koncentráció esetén pedig HI=1. - A másik számítási mód a relatív szórást veszi figyelembe, amely azt jelenti, hogy ez a mutató a koncentrációt abszolút és relatív formában is figyelembe veszi. Koncentrációs-arányszám (CR): - Megmutatja, hogy a sokaság néhány egysége hogyan részesül a teljes értékösszegből. - A mutatószám általában a 3-5 legnagyobb relatív gyakoriság összegét veszi figyelembe, nagyobb adatbázisnál pedig az első 3-20 egység figyelembevétele a jellemző.

A koncentráció mérésének gyakorlati alkalmazása Az árbevételek egy régió vállalatainál Közepes mértékű koncentráció Kis mértékű koncentráció A vállalatok 61,5%-a (28,88+20,32+12,30) rendelkezik az összes regionális árbevétel 23%-ával