Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
2. előadás
2
A sokaság/minta eloszlásának jellemzése
A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet: a sokaság/minta tipikus értékének vagy értékeinek meghatározása; az adatok különbözőségének vizsgálata, jellemzése; a sokaság/minta eloszlásgörbéjének elemzése.
3
A sokaság/minta eloszlásának jellemzése
Középértékekkel szembeni követelmények: egyértelműen és algebrailag könnyen számíthatók legyenek; tipikus, jellemző értékek legyenek; szemléletesen, jól lehessen őket értelmezni; közepes helyzetet foglaljanak el, azaz a legkisebb és a legnagyobb elem közé essenek: Xmin K Xmax
4
A sokaság/minta jellemzése középértékekkel
A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát. Típusai: Átlag Módusz Medián
5
Átlag Az átlag a legtöbb ember számára jól ismert fogalom. Ugyanakkor a hétköznapi értelemben szinte kivétel nélkül mindig a számtani átlagot jelenti. A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad.
6
Átlag Kiszámítási módja:
Legyenek X1, X2, ..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga Ha a teljes sokaság vizsgálata helyett annak csak egy részét, egy n elemű véletlen x1, x2, ..., xn mintát tekintünk, akkor a mintaátlag az
7
A számtani átlag matematikai tulajdonságai
Az egyes elemek - átlagolandó értékek - átlagtól való eltéréseinek összege 0: Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x1, x2, ..., xn, átlaga , akkor x1 + a; x2 + a; ...; xn + a átlaga + a lesz. Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x1, x2, ..., xn átlaga , akkor b x1; b x2; ...; b xn átlaga b lesz.
8
A számtani átlag matematikai tulajdonságai
Ha az x1, x2, ..., xn elemek átlaga , az y1, y2, ..., yn elemek átlaga , akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga lesz. Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az ,azaz minimális, ha a =
9
A számtani átlag előnyei
A számtani átlag a legtöbb ember számára világos, érthető fogalom, számítása egyszerű. Minden adathalmazból egyértelműen kiszámítható, azaz mindegyik adathalmaznak létezik számtani átlaga, s ugyanakkor pontosan egy van belőle. A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén. A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt". A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.
10
A számtani átlag hátrányai
Az adatok többségétől jelentősen eltérő, kiugróan alacsony vagy kiugróan magas értékek (ún. outlier-ek) is hatással vannak az átlagos érték nagyságára. Ekkor nem biztos, hogy a számtani átlag valóban jól jellemzi a sokaság vagy minta eloszlását. Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Ugyanis ekkor nem tudjuk valóban figyelembe venni az egyedi értékeket, hiszen azokat osztályközönként az osztályközéppel helyettesítettük a számítás elvégzéséhez, s így - mint azt a súlyozott számtani átlag bevezetésénél már említettük - az egész sokaság átlagának csak egy becslését, közelítését kapjuk. További problémát rejt a nyitott osztályközök használata. A nyitott osztályközöket általában ugyanolyan hosszúnak vesszük, mint alsó nyitott osztályköz esetén az utána következő, felső nyitott osztályköz esetén pedig az azt megelőző osztályköz hossza (feltéve, hogy a vizsgált jelenség esetén ez értelmezhető). Ekkor az így meghatározott osztályközök alsó határától kisebb illetve felső határától nagyobb értékeket (ha vannak ilyenek) az átlagszámítás során tulajdonképpen figyelmen kívül hagyjuk.
11
Medián Az adatok eloszlásának, elhelyezkedésének jellemzésére, a sokaság vagy minta tipikus értékének meghatározására alkalmas mutatószám lehet a középső elem meghatározása is. Definíció: A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük. Jele: Me A medián tehát az az érték, amitől az adatok fele kisebb, másik fele nagyobb. Ha a vizsgált elemek száma páratlan, akkor ténylegesen létezik az adatok között ún. középső elem, n számú adat esetén ez az ik elem.
12
Medián Medián képlete:
me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határa f'me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található; fme = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található; h = a mediánt tartalmazó osztályköz hossza; n = az elemek száma;
13
Medián előnyei Természetesen a mediánnak is vannak előnyös, illetve hátrányos tulajdonságai: A medián is - hasonlóan a számtani átlaghoz - egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle. A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is: A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Kiugróan magas vagy alacsony értékek esetén - mind azt az előző részben bemutattuk - a számtani átlag nem lesz tipikus érték, ekkor a medián "jobban" jellemzi az adatok elhelyezkedését.
14
Medián hátránya Természetesen néhány probléma is felmerül a medián meghatározásakor: csak rangsorba rendezett elemekből számítható; ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai- statisztikai szempontból alkalmasabb mutatószám (erről részletesen a statisztikai becslés témakörénél lesz szó).
15
Módusz Egy adathalmazt vizsgálva gyakran tapasztalhatjuk, hogy egy vagy több érték többször fordult elő a megfigyelés (adatfelvétel) során. Ebben az esetben a legtöbbször előforduló elem is alkalmas lehet a sokaság jellemzésére. Definíció: A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo
16
Módusz tulajdonságai A módusz előnye, hogy nem csak mennyiségi, hanem minőségi jellemzők esetén is meghatározható. Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre. Az előző előnyei ellenére azonban a módusz nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.
17
Módusz Módusz képlete:
mo = a móduszt tartalmazó, un. modális osztályköz alsó határa, k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége, k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbsége h = a modális osztályköz hossza.
18
Egyéb átlagformák
19
Geometriai átlag Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad. Kiszámítási módja x1, x2, ..., xn egyedi értékek esetén Ha valamelyik érték többször is előfordul, azaz x1 f1-szer; x2 f2-ször; ...; xk fn-szer, illetve osztályközös gyakorisági sor esetén a súlyozott átlagforma használható:
20
Harmonikus átlag Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad. Kiszámítási módja x1, x2, ..., xn elemek esetén = , illetve súlyozott átlag formában = , ahol
21
Négyzetes átlag A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad. Kiszámítási módjai
22
Szóródásszámítás Szóródáson azonos fajta számszerű értékek (általában egy mennyiségi ismérv értékeinek) különbözőségét értjük. A középérték a sokaság egészének általános, tömör jellemzését szolgálja, az ettől való eltérés a szóródás. A szóródás, vagyis az értékek különbözősége egyrészt az értékek egymástól való különbözőségében, másrészt valamely középértéktől való eltérésben fejeződik ki.
23
A szóródás terjedelme A terjedelem az előforduló elemek között a legnagyobb és legkisebb érték különbsége. A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.
24
Átlagos eltérés Az átlagos eltérés az egyedi értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja: ahol
25
Szórás A szórás az egyedi értékek átlagtól való eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés. Kiszámítási módjai: teljes sokaság esetén minta esetén
26
Szórás A szórás tulajdonságai:
Ha az xi értékekhez egy állandó „ a ” számot hozzáadunk (vagy levonjuk xi-ből ezt a számot), a szórás értéke nem változik: . Ha az egyes xi értékeket egy állandó számmal (b) szorozzuk (vagy osztjuk) az így kapott értékek szórása megegyezik az eredeti értékek szórásának b-szeresével (vagy b-ed részével): A számtani átlag négyzetes minimum tulajdonságából következik, hogy egy adott „ a ” értéktől számított eltérésnégyzetek számtani átlagának, illetve az eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás:
27
Relatív szórás Amely kifejezi, hogy az egyedi értékek átlagosan hány %-kal térnek el az átlagos értéktől. Kimutatható, hogy a relatív szórás egyenlő az egyedi eltérések viszonylagos nagyságainak négyzetes átlagával
28
Átlagos különbség Átlagos különbségnek ( Gini - mutatónak ) nevezzük az ismérvértékek egymástól mért abszolút eltéréseinek számtani átlagát. Jele: G (Gini olasz statisztikus után) A Gini – mutató elsősorban a koncentráció vizsgálatánál alkalmazható.
29
Gyakorisági sorok vizsgálatának további módszerei
gyakorisági görbe további vizsgálata grafikusan és mutatószámok segítségével, a valószínűség-eloszlások különböző típusainak elemzése.
30
Kvantilisek Legyen 0 q 1. Ha a rangsorba rendezett sokaságot egy ismérvérték q: (1 – q) arányban osztja ketté, akkor ezt az ismérvértéket q-ad rendű vagy q-adik kvantilisnek nevezzük (jele Qq). A leggyakrabban előforduló kvantiliseket külön névvel és jelöléssel is illetjük. Tercilisek: T1 (alsó tercilis), T2 (felső tercilis), Kvartilisek: Q1 (alsó kvartilis), Q2 = Me (medián), Q3 (felső kvartilis), Kvintilisek: K1, K2, K3, K4, Decilisek: D1, D2, …. , D9, Percentilisek: P1, P2, …. , P99.
31
Az aszimmetria mérőszámai
Az eloszlások következő típusaival foglalkozunk: -egymóduszú eloszlás szimmetrikus, aszimmetrikus (vagy ferde); -többmóduszú eloszlás.
32
Az aszimmetria mérőszámai
Többmóduszú gyakorisági sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük. Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.
33
Asszimetria mérőszámai
Az aszimmetria leggyakrabban használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.
34
Pearson-féle mutatószáma
Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul. A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.
35
F mutató Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb. E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.
36
A koncentráció vizsgálata
Koncentrációnak nevezzük azt a jelenséget, hogy – az ismérvértékek különbözősége következtében – a kisebb értékekkel rendelkező egységekhez az értékösszeg kisebb hányada tartozik, mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya, a sokaság nagyobb ismérvértékekkel rendelkező egységeinél pedig fordított a helyzet, azaz a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul.
37
Lorenz-görbe A koncentráció vizsgálatának egyik legfontosabb és egyben legelterjedtebb eszköze a Lorenz-görbe, amely a koncentráció meglétén kívül annak mértékét is szemléletesen mutatja. A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett vonaldiagram, mely a kummulált relatív gyakoriságok ( ) függvényében ábrázolja a kumulált relatív értékösszegeket ( ). A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha a koncentrációs területet a háromszög területéhez viszonyítjuk, akkor e hányados alapján következtetni tudunk a koncentráció fokára. A koncentrációs terület arányát a koncentrációs együtthatóval (jele: K) mérjük.
38
Köszönöm a figyelmet
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.