2. előadás.

Slides:



Advertisements
Hasonló előadás
I. előadás.
Advertisements

Petrovics Petra Doktorandusz
Statisztika I. VI. Dr. Szalka Éva, Ph.D..
Gazdaságelemzési és Statisztikai Tanszék
Gazdaságelemzési és Statisztikai Tanszék
Adattípusok, adatsorok jellegadó értékei
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Mérési pontosság (hőmérő)
Gazdaságelemzési és Statisztikai Tanszék
Közlekedésstatisztika
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Adatfeldolgozás.
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Előadó: Prof. Dr. Besenyei Lajos
4. előadás.
5. előadás.
3. előadás.
3. előadás.
A középérték mérőszámai
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Matematikai alapok és valószínűségszámítás
Matematikai alapok és valószínűségszámítás
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Statisztika.
Készítette: Horváth Zoltán (2012)
Kvantitatív módszerek
Leíró statisztika III..
Valószínűségszámítás
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Többváltozós adatelemzés
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Adatleírás.
Két kvantitatív változó kapcsolatának vizsgálata
I. előadás.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Viszonyszámok A viszonyszám két egymással logikai kapcsolatban álló statisztikai adat hányadosa V= A/B V: a viszonyszám A:a viszonyítás alapját képező.
Osztóértékek, eloszlások
Középértékek – helyzeti középértékek
Valószínűségszámítás II.
A gyakorisági sorok grafikus ábrázolása
4. előadás.
A számítógépes elemzés alapjai
Konzultáció – Leíró statisztika október 22. Gazdaságstatisztika.
2. előadás Gyakorisági sorok
A számítógépes elemzés alapjai
Leíró statisztika gyakorló feladatok október 15.
MINTAVÉTEL, LEÍRÓ STATISZTIKA
Szóródási mérőszámok, alakmutatók, helyzetmutatók
I. Előadás bgk. uni-obuda
Dr. Varga Beatrix egyetemi docens
Speciális szóródás: Koncentráció
Statisztikai alapfogalmak Eloszlásjellemzők
2. előadás Gyakorisági sorok, Grafikus ábrázolás
Adatfeldolgozási ismeretek műszeres analitikus technikusok számára
Adatsorok típusai, jellegadó értékei
5. előadás.
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Rangsoroláson és pontozáson alapuló komplex mutatók
Területi egyenlőtlenségek grafikus ábrázolása: Lorenz-görbe
4. előadás.
Mérési skálák, adatsorok típusai
Előadás másolata:

2. előadás

A sokaság/minta eloszlásának jellemzése A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet: a sokaság/minta tipikus értékének vagy értékeinek meghatározása; az adatok különbözőségének vizsgálata, jellemzése; a sokaság/minta eloszlásgörbéjének elemzése.

A sokaság/minta eloszlásának jellemzése Középértékekkel szembeni követelmények: egyértelműen és algebrailag könnyen számíthatók legyenek; tipikus, jellemző értékek legyenek; szemléletesen, jól lehessen őket értelmezni; közepes helyzetet foglaljanak el, azaz a legkisebb és a legnagyobb elem közé essenek: Xmin  K  Xmax

A sokaság/minta jellemzése középértékekkel A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát. Típusai: Átlag Módusz Medián

Átlag Az átlag a legtöbb ember számára jól ismert fogalom. Ugyanakkor a hétköznapi értelemben szinte kivétel nélkül mindig a számtani átlagot jelenti. A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad.

Átlag Kiszámítási módja: Legyenek X1, X2, ..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga Ha a teljes sokaság vizsgálata helyett annak csak egy részét, egy n elemű véletlen x1, x2, ..., xn mintát tekintünk, akkor a mintaátlag az

A számtani átlag matematikai tulajdonságai Az egyes elemek - átlagolandó értékek - átlagtól való eltéréseinek összege 0: Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x1, x2, ..., xn, átlaga , akkor x1 + a; x2 + a; ...; xn + a átlaga + a lesz. Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x1, x2, ..., xn átlaga , akkor b  x1; b  x2; ...; b  xn átlaga b  lesz.

A számtani átlag matematikai tulajdonságai Ha az x1, x2, ..., xn elemek átlaga , az y1, y2, ..., yn elemek átlaga , akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga lesz. Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az ,azaz minimális, ha a =

A számtani átlag előnyei A számtani átlag a legtöbb ember számára világos, érthető fogalom, számítása egyszerű. Minden adathalmazból egyértelműen kiszámítható, azaz mindegyik adathalmaznak létezik számtani átlaga, s ugyanakkor pontosan egy van belőle. A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén. A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt". A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.

A számtani átlag hátrányai Az adatok többségétől jelentősen eltérő, kiugróan alacsony vagy kiugróan magas értékek (ún. outlier-ek) is hatással vannak az átlagos érték nagyságára. Ekkor nem biztos, hogy a számtani átlag valóban jól jellemzi a sokaság vagy minta eloszlását. Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Ugyanis ekkor nem tudjuk valóban figyelembe venni az egyedi értékeket, hiszen azokat osztályközönként az osztályközéppel helyettesítettük a számítás elvégzéséhez, s így - mint azt a súlyozott számtani átlag bevezetésénél már említettük - az egész sokaság átlagának csak egy becslését, közelítését kapjuk. További problémát rejt a nyitott osztályközök használata. A nyitott osztályközöket általában ugyanolyan hosszúnak vesszük, mint alsó nyitott osztályköz esetén az utána következő, felső nyitott osztályköz esetén pedig az azt megelőző osztályköz hossza (feltéve, hogy a vizsgált jelenség esetén ez értelmezhető). Ekkor az így meghatározott osztályközök alsó határától kisebb illetve felső határától nagyobb értékeket (ha vannak ilyenek) az átlagszámítás során tulajdonképpen figyelmen kívül hagyjuk.

Medián Az adatok eloszlásának, elhelyezkedésének jellemzésére, a sokaság vagy minta tipikus értékének meghatározására alkalmas mutatószám lehet a középső elem meghatározása is. Definíció: A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük. Jele: Me A medián tehát az az érték, amitől az adatok fele kisebb, másik fele nagyobb. Ha a vizsgált elemek száma páratlan, akkor ténylegesen létezik az adatok között ún. középső elem, n számú adat esetén ez az - ik elem.

Medián Medián képlete: me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határa f'me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található; fme = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található; h = a mediánt tartalmazó osztályköz hossza; n = az elemek száma;

Medián előnyei Természetesen a mediánnak is vannak előnyös, illetve hátrányos tulajdonságai: A medián is - hasonlóan a számtani átlaghoz - egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle. A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is: A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Kiugróan magas vagy alacsony értékek esetén - mind azt az előző részben bemutattuk - a számtani átlag nem lesz tipikus érték, ekkor a medián "jobban" jellemzi az adatok elhelyezkedését.

Medián hátránya Természetesen néhány probléma is felmerül a medián meghatározásakor: csak rangsorba rendezett elemekből számítható; ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai- statisztikai szempontból alkalmasabb mutatószám (erről részletesen a statisztikai becslés témakörénél lesz szó).

Módusz Egy adathalmazt vizsgálva gyakran tapasztalhatjuk, hogy egy vagy több érték többször fordult elő a megfigyelés (adatfelvétel) során. Ebben az esetben a legtöbbször előforduló elem is alkalmas lehet a sokaság jellemzésére.  Definíció: A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo

Módusz tulajdonságai A módusz előnye, hogy nem csak mennyiségi, hanem minőségi jellemzők esetén is meghatározható. Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre. Az előző előnyei ellenére azonban a módusz nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.

Módusz Módusz képlete: mo = a móduszt tartalmazó, un. modális osztályköz alsó határa, k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége, k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbsége h = a modális osztályköz hossza.

Egyéb átlagformák

Geometriai átlag Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad. Kiszámítási módja x1, x2, ..., xn egyedi értékek esetén Ha valamelyik érték többször is előfordul, azaz x1 f1-szer; x2 f2-ször; ...; xk fn-szer, illetve osztályközös gyakorisági sor esetén a súlyozott átlagforma használható:

Harmonikus átlag Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad. Kiszámítási módja x1, x2, ..., xn elemek esetén = , illetve súlyozott átlag formában = , ahol

Négyzetes átlag A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad. Kiszámítási módjai

Szóródásszámítás Szóródáson azonos fajta számszerű értékek (általában egy mennyiségi ismérv értékeinek) különbözőségét értjük. A középérték a sokaság egészének általános, tömör jellemzését szolgálja, az ettől való eltérés a szóródás. A szóródás, vagyis az értékek különbözősége egyrészt az értékek egymástól való különbözőségében, másrészt valamely középértéktől való eltérésben fejeződik ki.

A szóródás terjedelme A terjedelem az előforduló elemek között a legnagyobb és legkisebb érték különbsége. A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.

Átlagos eltérés Az átlagos eltérés az egyedi értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja: ahol

Szórás A szórás az egyedi értékek átlagtól való eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés. Kiszámítási módjai: teljes sokaság esetén minta esetén

Szórás A szórás tulajdonságai: Ha az xi értékekhez egy állandó „ a ” számot hozzáadunk (vagy levonjuk xi-ből ezt a számot), a szórás értéke nem változik: . Ha az egyes xi értékeket egy állandó számmal (b) szorozzuk (vagy osztjuk) az így kapott értékek szórása megegyezik az eredeti értékek szórásának b-szeresével (vagy b-ed részével): A számtani átlag négyzetes minimum tulajdonságából következik, hogy egy adott „ a ” értéktől számított eltérésnégyzetek számtani átlagának, illetve az eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás:

Relatív szórás Amely kifejezi, hogy az egyedi értékek átlagosan hány %-kal térnek el az átlagos értéktől. Kimutatható, hogy a relatív szórás egyenlő az egyedi eltérések viszonylagos nagyságainak négyzetes átlagával

Átlagos különbség Átlagos különbségnek ( Gini - mutatónak ) nevezzük az ismérvértékek egymástól mért abszolút eltéréseinek számtani átlagát. Jele: G (Gini olasz statisztikus után) A Gini – mutató elsősorban a koncentráció vizsgálatánál alkalmazható.

Gyakorisági sorok vizsgálatának további módszerei gyakorisági görbe további vizsgálata grafikusan és mutatószámok segítségével, a valószínűség-eloszlások különböző típusainak elemzése.

Kvantilisek Legyen 0  q  1. Ha a rangsorba rendezett sokaságot egy ismérvérték q: (1 – q) arányban osztja ketté, akkor ezt az ismérvértéket q-ad rendű vagy q-adik kvantilisnek nevezzük (jele Qq). A leggyakrabban előforduló kvantiliseket külön névvel és jelöléssel is illetjük. Tercilisek: T1 (alsó tercilis), T2 (felső tercilis), Kvartilisek: Q1 (alsó kvartilis), Q2 = Me (medián), Q3 (felső kvartilis), Kvintilisek: K1, K2, K3, K4, Decilisek: D1, D2, …. , D9, Percentilisek: P1, P2, …. , P99.

Az aszimmetria mérőszámai Az eloszlások következő típusaival foglalkozunk: -egymóduszú eloszlás szimmetrikus, aszimmetrikus (vagy ferde); -többmóduszú eloszlás.

Az aszimmetria mérőszámai Többmóduszú gyakorisági sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük. Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.

Asszimetria mérőszámai Az aszimmetria leggyakrabban használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.

Pearson-féle mutatószáma Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul. A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A  0, jobb oldali, balra elnyúló aszimmetria esetén A  0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.

F mutató Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb. E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.

A koncentráció vizsgálata Koncentrációnak nevezzük azt a jelenséget, hogy – az ismérvértékek különbözősége következtében – a kisebb értékekkel rendelkező egységekhez az értékösszeg kisebb hányada tartozik, mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya, a sokaság nagyobb ismérvértékekkel rendelkező egységeinél pedig fordított a helyzet, azaz a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul.

Lorenz-görbe A koncentráció vizsgálatának egyik legfontosabb és egyben legelterjedtebb eszköze a Lorenz-görbe, amely a koncentráció meglétén kívül annak mértékét is szemléletesen mutatja. A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett vonaldiagram, mely a kummulált relatív gyakoriságok ( ) függvényében ábrázolja a kumulált relatív értékösszegeket ( ). A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha a koncentrációs területet a háromszög területéhez viszonyítjuk, akkor e hányados alapján következtetni tudunk a koncentráció fokára. A koncentrációs terület arányát a koncentrációs együtthatóval (jele: K) mérjük.

Köszönöm a figyelmet