Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

2. előadás. A sokaság/minta eloszlásának jellemzése A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet:  a sokaság/minta.

Hasonló előadás


Az előadások a következő témára: "2. előadás. A sokaság/minta eloszlásának jellemzése A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet:  a sokaság/minta."— Előadás másolata:

1 2. előadás

2 A sokaság/minta eloszlásának jellemzése A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet:  a sokaság/minta tipikus értékének vagy értékeinek meghatározása;  az adatok különbözőségének vizsgálata, jellemzése;  a sokaság/minta eloszlásgörbéjének elemzése.

3 A sokaság/minta eloszlásának jellemzése Középértékekkel szembeni követelmények:  egyértelműen és algebrailag könnyen számíthatók legyenek;  tipikus, jellemző értékek legyenek;  szemléletesen, jól lehessen őket értelmezni;  közepes helyzetet foglaljanak el, azaz a legkisebb és a legnagyobb elem közé essenek: X min  K  X max

4 A sokaság/minta jellemzése középértékekkel A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát. Típusai:  Átlag  Módusz  Medián

5 Átlag  Az átlag a legtöbb ember számára jól ismert fogalom. Ugyanakkor a hétköznapi értelemben szinte kivétel nélkül mindig a számtani átlagot jelenti.  A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad.

6 Átlag Kiszámítási módja: Legyenek X1, X2,..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga Ha a teljes sokaság vizsgálata helyett annak csak egy részét, egy n elemű véletlen x1, x2,..., xn mintát tekintünk, akkor a mintaátlag az

7 A számtani átlag matematikai tulajdonságai  Az egyes elemek - átlagolandó értékek - átlagtól való eltéréseinek összege 0:  Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x 1, x 2,..., x n, átlaga, akkor x 1 + a; x 2 + a;...; x n + a átlaga + a lesz.  Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x 1, x 2,..., x n átlaga, akkor b  x 1 ; b  x 2 ;...; b  x n átlaga b  lesz.

8 A számtani átlag matematikai tulajdonságai  Ha az x 1, x 2,..., x n elemek átlaga, az y 1, y 2,..., y n elemek átlaga, akkor az x 1 + y 1 ; x 2 + y 2 ;...; x n + y n átlaga lesz.  Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az,azaz minimális, ha a =

9 A számtani átlag előnyei  A számtani átlag a legtöbb ember számára világos, érthető fogalom, számítása egyszerű.  Minden adathalmazból egyértelműen kiszámítható, azaz mindegyik adathalmaznak létezik számtani átlaga, s ugyanakkor pontosan egy van belőle.  A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén. A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt".  A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.

10 A számtani átlag hátrányai  Az adatok többségétől jelentősen eltérő, kiugróan alacsony vagy kiugróan magas értékek (ún. outlier-ek) is hatással vannak az átlagos érték nagyságára. Ekkor nem biztos, hogy a számtani átlag valóban jól jellemzi a sokaság vagy minta eloszlását.  Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Ugyanis ekkor nem tudjuk valóban figyelembe venni az egyedi értékeket, hiszen azokat osztályközönként az osztályközéppel helyettesítettük a számítás elvégzéséhez, s így - mint azt a súlyozott számtani átlag bevezetésénél már említettük - az egész sokaság átlagának csak egy becslését, közelítését kapjuk.  További problémát rejt a nyitott osztályközök használata. A nyitott osztályközöket általában ugyanolyan hosszúnak vesszük, mint alsó nyitott osztályköz esetén az utána következő, felső nyitott osztályköz esetén pedig az azt megelőző osztályköz hossza (feltéve, hogy a vizsgált jelenség esetén ez értelmezhető). Ekkor az így meghatározott osztályközök alsó határától kisebb illetve felső határától nagyobb értékeket (ha vannak ilyenek) az átlagszámítás során tulajdonképpen figyelmen kívül hagyjuk.

11 Medián  Az adatok eloszlásának, elhelyezkedésének jellemzésére, a sokaság vagy minta tipikus értékének meghatározására alkalmas mutatószám lehet a középső elem meghatározása is.  Definíció: A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük.  Jele: Me  A medián tehát az az érték, amitől az adatok fele kisebb, másik fele nagyobb.  Ha a vizsgált elemek száma páratlan, akkor ténylegesen létezik az adatok között ún. középső elem, n számú adat esetén ez az - ik elem.

12 Medián Medián képlete: me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határa f' me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található; f me = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található; h = a mediánt tartalmazó osztályköz hossza; n = az elemek száma;

13 Medián előnyei Természetesen a mediánnak is vannak előnyös, illetve hátrányos tulajdonságai:  A medián is - hasonlóan a számtani átlaghoz - egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle.  A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is:  A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Kiugróan magas vagy alacsony értékek esetén - mind azt az előző részben bemutattuk - a számtani átlag nem lesz tipikus érték, ekkor a medián "jobban" jellemzi az adatok elhelyezkedését.

14 Medián hátránya Természetesen néhány probléma is felmerül a medián meghatározásakor:  csak rangsorba rendezett elemekből számítható;  ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai- statisztikai szempontból alkalmasabb mutatószám (erről részletesen a statisztikai becslés témakörénél lesz szó).

15 Módusz  Egy adathalmazt vizsgálva gyakran tapasztalhatjuk, hogy egy vagy több érték többször fordult elő a megfigyelés (adatfelvétel) során. Ebben az esetben a legtöbbször előforduló elem is alkalmas lehet a sokaság jellemzésére.  Definíció: A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo

16 Módusz tulajdonságai  A módusz előnye, hogy nem csak mennyiségi, hanem minőségi jellemzők esetén is meghatározható.  Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre.  Az előző előnyei ellenére azonban a módusz nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.

17 Módusz Módusz képlete: mo = a móduszt tartalmazó, un. modális osztályköz alsó határa, k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége, k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbsége h = a modális osztályköz hossza.

18 Egyéb átlagformák

19 Geometriai átlag Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad. Kiszámítási módja x1, x2,..., xn egyedi értékek esetén Ha valamelyik érték többször is előfordul, azaz x1 f1-szer; x2 f2-ször;...; xk fn-szer, illetve osztályközös gyakorisági sor esetén a súlyozott átlagforma használható:

20 Harmonikus átlag Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad. Kiszámítási módja x1, x2,..., xn elemek esetén =, illetve súlyozott átlag formában =, ahol

21 Négyzetes átlag A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad. Kiszámítási módjai

22 Szóródásszámítás  Szóródáson azonos fajta számszerű értékek (általában egy mennyiségi ismérv értékeinek) különbözőségét értjük.  A középérték a sokaság egészének általános, tömör jellemzését szolgálja, az ettől való eltérés a szóródás. A szóródás, vagyis az értékek különbözősége egyrészt az értékek egymástól való különbözőségében, másrészt valamely középértéktől való eltérésben fejeződik ki.

23 A szóródás terjedelme  A terjedelem az előforduló elemek között a legnagyobb és legkisebb érték különbsége.  A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek.  Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.

24 Átlagos eltérés  Az átlagos eltérés az egyedi értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja: ahol

25 Szórás  A szórás az egyedi értékek átlagtól való eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés. Kiszámítási módjai: teljes sokaság esetén minta esetén

26 Szórás A szórás tulajdonságai:  Ha az x i értékekhez egy állandó „ a ” számot hozzáadunk (vagy levonjuk x i -ből ezt a számot), a szórás értéke nem változik:.  Ha az egyes x i értékeket egy állandó számmal (b) szorozzuk (vagy osztjuk) az így kapott értékek szórása megegyezik az eredeti értékek szórásának b-szeresével (vagy b-ed részével):.  A számtani átlag négyzetes minimum tulajdonságából következik, hogy egy adott „ a ” értéktől számított eltérésnégyzetek számtani átlagának, illetve az eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás:

27 Relatív szórás  Amely kifejezi, hogy az egyedi értékek átlagosan hány %-kal térnek el az átlagos értéktől. Kimutatható, hogy a relatív szórás egyenlő az egyedi eltérések viszonylagos nagyságainak négyzetes átlagával

28 Átlagos különbség  Átlagos különbségnek ( Gini - mutatónak ) nevezzük az ismérvértékek egymástól mért abszolút eltéréseinek számtani átlagát. Jele: G (Gini olasz statisztikus után)  A Gini – mutató elsősorban a koncentráció vizsgálatánál alkalmazható.

29 Gyakorisági sorok vizsgálatának további módszerei  gyakorisági görbe további vizsgálata grafikusan és mutatószámok segítségével,  a valószínűség-eloszlások különböző típusainak elemzése.

30 Kvantilisek  Legyen 0  q  1. Ha a rangsorba rendezett sokaságot egy ismérvérték q: (1 – q) arányban osztja ketté, akkor ezt az ismérvértéket q-ad rendű vagy q-adik kvantilisnek nevezzük (jele Q q ). A leggyakrabban előforduló kvantiliseket külön névvel és jelöléssel is illetjük.  Tercilisek: T 1 (alsó tercilis), T 2 (felső tercilis),  Kvartilisek: Q 1 (alsó kvartilis), Q 2 = Me (medián), Q 3 (felső kvartilis),  Kvintilisek: K 1, K 2, K 3, K 4,  Decilisek: D 1, D 2, …., D 9,  Percentilisek: P 1, P 2, …., P 99.

31 Az aszimmetria mérőszámai Az eloszlások következő típusaival foglalkozunk: -egymóduszú eloszlás  szimmetrikus,  aszimmetrikus (vagy ferde); -többmóduszú eloszlás.

32 Az aszimmetria mérőszámai  Többmóduszú gyakorisági sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük.  Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.

33 Asszimetria mérőszámai  Az aszimmetria leggyakrabban használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.

34 Pearson-féle mutatószáma  Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul.  A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A  0, jobb oldali, balra elnyúló aszimmetria esetén A  0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.

35 F mutató  Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q 1 ), míg jobb oldali aszimmetria esetén a felső (Q 3 ) kvartilishez esik közelebb.  E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.

36 A koncentráció vizsgálata  Koncentrációnak nevezzük azt a jelenséget, hogy – az ismérvértékek különbözősége következtében – a kisebb értékekkel rendelkező egységekhez az értékösszeg kisebb hányada tartozik, mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya, a sokaság nagyobb ismérvértékekkel rendelkező egységeinél pedig fordított a helyzet, azaz a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul.

37 Lorenz-görbe  A koncentráció vizsgálatának egyik legfontosabb és egyben legelterjedtebb eszköze a Lorenz-görbe, amely a koncentráció meglétén kívül annak mértékét is szemléletesen mutatja.  A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett vonaldiagram, mely a kummulált relatív gyakoriságok ( ) függvényében ábrázolja a kumulált relatív értékösszegeket ( ).  A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha a koncentrációs területet a háromszög területéhez viszonyítjuk, akkor e hányados alapján következtetni tudunk a koncentráció fokára. A koncentrációs terület arányát a koncentrációs együtthatóval (jele: K) mérjük.

38 Köszönöm a figyelmet


Letölteni ppt "2. előadás. A sokaság/minta eloszlásának jellemzése A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet:  a sokaság/minta."

Hasonló előadás


Google Hirdetések