RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA Gazdaságstatisztika RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA 2017. Október 17, 19.
Leíró statisztikai mutatószámok Helyzetmutatók, középértékek: Az eloszlás helyzetét egyetlen, az adatokkal azonos mértékegységű számértékkel jellemzik Ingadozásmutatók: Az adathalmaz szóródása, változékonysága Az adatok egymás közötti különbségei Kitüntetett értéktől való eltérés, ingadozás valamilyen középérték körül
Számtani átlag számított középértékfajta az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege változatlan marad. Számítása: Előnye: bármely alapadathalmazból egyértelműen meghatározható, minden alapadatot felhasznál Hátránya: érzékeny a szélsőértékekre nyesett átlag Tulajdonsága: 𝑿 𝒎𝒊𝒏 ≤ 𝑿 ≤ 𝑿 𝒎𝒂𝒙 !!!
Számtani átlag Egyéb fontos tulajdonsága: minimális, ha
(Korrigált) tapasztalati szórás a szóródást az alapadatoknak egy kitüntetett értéktől (számtani átlagtól) való eltérésein keresztül méri, abszolút ingadozásmutató A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga: azt mutatja, hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól. Olyan átlagos hiba, amit akkor követünk el, ha minden alapadatot a számtani átlaggal helyettesítünk. A számtani átlag tulajdonsága szerint ez a hiba minimális. Torzítatlan: a becsülni kívánt paraméter körül ingadozzék!
Tapasztalati szórás meghatározása 500 mg-os néveleges töltőtömegű cukorkák minőségellenőrzése során egy 5 elemű minta töltőtömegét vizsgálták. Az 5 vizsgált csomag töltőtömege az alábbi: 504 gr, 497 gr, 502 gr, 498 gr, 504 gr. Határozza meg a töltőtömeg szórását! Értékösszeg
Tapasztalati szórás meghatározása Eltérés-négyzetösszeg Tapasztalati szórás meghatározása
Tapasztalati szórás meghatározása Egy vasútvonalon egy hétig minden vonaton feljegyezték az utasok számát. Az eredményeket az alábbi táblázat tartalmazza: Számítsa ki a szórást illetve a korrigált tapasztalati szórást! Utasok száma Vonatok száma 𝟎≤𝑿<𝟑𝟎 6 𝟑𝟎≤𝑿<𝟔𝟎 12 𝟔𝟎≤𝑿<𝟗𝟎 28 𝟗𝟎≤𝑿<𝟏𝟐𝟎 30 𝟏𝟐𝟎≤𝑿<𝟏𝟓𝟎 16 𝟏𝟓𝟎≤𝑿≤𝟏𝟖𝟎 8
Tapasztalati szórás meghatározása Számtani átlag meghatározása Eltérés-négyzetösszeg meghatározása Tapasztalati szórás Korrigált tapasztalati szórás
Részekre bontott sokaság vizsgálata Heterogén sokaság: a vizsgált ismérv szempontjából lényegesen eltérő jellegzetességeket mutató sokaság A sokaságot célszerű részekre bontva elemezni 𝑀 (𝑀≥2) részsokaságot alakítunk ki Ehhez úgy kell csoportképző ismérvet választani, hogy megmutassa a részsokaságok közötti heterogenitást. Csoportképzés valamilyen minőségi vagy területi ismérv alapján Vegyes kapcsolat: Az egyik vizsgált változó területi vagy minőségi ismérv, a másik változó mennyiségi ismérv
Példa A C A B C D D Van-e kapcsolat a vonat célállomása (minőségi ismérv) és a vonaton utazók száma között (mennyiségi ismérv)? Ha igen, milyen szoros ez a kapcsolat? B
Viszonyszámok Def: Két összefüggő statisztikai adat hányadosa 𝑉𝑖𝑠𝑧𝑜𝑛𝑦𝑠𝑧á𝑚= 𝑉𝑖𝑠𝑧𝑜𝑛𝑦í𝑡𝑎𝑛𝑑ó 𝑎𝑑𝑎𝑡 𝑉𝑖𝑠𝑧𝑜𝑛𝑦í𝑡á𝑠𝑖 𝑎𝑙𝑎𝑝 Megoszlási viszonyszám: Valamely részadat az egészhez való viszonyát fejezi ki Nyugdíjasok aránya, piaci részesedés Intenzitási viszonyszám: Két, egymással kapcsolatban lévő, különböző adat hányadosa. Fajlagos: gépkocsi fogyasztása 100 km-en, egy főre jutó GDP Sűrűségi, ellátottsági mérőszám: népsűrűség, gépkocsi/1000 fő Arányszám: születés, halálozási arányszám (1000 főre vetítve) Dinamikus viszonyszám: Két összehasonlítandó időszak vagy időpont adatának hányadosa, ahol a viszonyítandó adat a tárgyidőszak adata, a viszonyítási alap pedig a bázis időszak adata. Fogyasztói árindex változása
Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság
Rész- és főátlagok N Fősokaság részsokaság A j-edik részsokaság értékösszege 2. részsokaság M. részsokaság N i. részsokaság
Példa Ismeretes, hogy a budapesti lakótelepeken a lakásárak különböző tényezők következtében lényegesen eltérnek egymástól. Ennek illusztrálása céljából egy hirdetési újságból kigyűjtötték mindazoknak a 3+1 fél szobás lakásoknak az árát, amelyek egy adott napon az újságban Budapest III. kerületében meghirdetésre kerültek. A négy lakótelepről aznap eladásra kínált sokaságokat egy-egy részsokaságnak tekintették. Az adatokat az alábbi táblázat tartalmazza (mFt-ban):
Példa Első feladatunk az, hogy határozzuk meg és hasonlítsuk össze egymással az egyes részsokaságokba tartozó lakások átlagos kínálati árát, és állítsuk elő azokból az adott napon eladásra kínált 45 lakás átlagos árát.
Példa
Teljes-, belső- és külső eltérés Fősokaság részsokaság 2. részsokaság dij Bij Kj M. részsokaság i. részsokaság
Teljes-, belső- és külső eltérés A szórásszámítás alapja: belső eltérés külső eltérés A teljes eltérés azt mutatja, hogy Yij eltérhet a főátlagtól, mert: az ismérvértékek ingadoznak a részátlag körül => belső eltérések a részátlagok ingadoznak a főátlag körül => külső eltérések Csoportképző ismérven kívüli összes egyéb tényezőnek tulajdonítható Csoportképző ismérvnek tulajdonítható
Szorgalmi feladat 1 pont A Posta 8, a fővárosban és 5, vidéki városokban található hivatalban vizsgálta az egy műszak alatt az egy ügyintéző által kiszolgált ügyfelek számát. Az eredményeket az alábbi táblázat tartalmazza. Határozza meg a részátlagokat és a főátlagot! Hivatal helye Kiszolgált ügyfelek száma Budapest 106, 118, 88, 104, 120, 100, 122, 90 Vidék 73, 61, 40, 72, 44
Szorgalmi feladat megoldása A budapesti részsokaság értékösszege Budapesti hivatalok részátlaga Értelmezése: A budapesti postahivatalokban a dolgozók egy műszak alatt átlagosan 106 ügyfelet szolgálnak ki. Vidéki hivatalok részátlaga Értelmezése: A vidéki postahivatalokban egy műszak alatt átlagosan 58 ügyfelet szolgál ki egy dolgozó.
Szorgalmi feladat megoldása A főátlag meghatározása Értelmezése: A vizsgált postahivatalokban (a fősokaságban) az alkalmazottak átlagosan 87,538 ügyfelet szolgálnak ki egy műszak alatt.
Részszórás Fősokaság részsokaság 2. részsokaság M. részsokaság
Belső szórás Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság
A részvarianciák és a belső variancia kapcsolata A j-edik részsokaság varianciája Ebből A belső variancia Egyes részvarianciák részsokasági elemszámmal súlyozott számtani átlaga
Külső szórás Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság
Teljes szórás Fősokaság részsokaság 2. részsokaság M. részsokaság i. részsokaság
Teljes-, belső- és külső szórás Teljes eltérés-négyzetösszeg: SST Teljes szórás Részszórás: A j-edik részsokaság szórása Belső szórás A fősokaság egyes egységeihez tartozó Yij ismérvértékek átlagosan mennyivel térnek el a saját részátlaguktól – a részsokaságok összességére vonatkozik Külső szórás A részátlagok átlagosan mennyivel térnek el a főátlagtól Belső eltérés-négyzetösszeg: SSB Külső eltérés-négyzetösszeg: SSK
SST=SSB+SSK SST=SSB+SSK Teljes eltérés-négyzetösszeg: Belső eltérés-négyzetösszeg: Külső eltérés-négyzetösszeg: SST=SSB+SSK
Bizonyítás SSB+SSK Az egyenlet bal oldalát átírva: A számtani átlag megismert tulajdonsága: Így: SSB+SSK =0???
A teljes-, a belső- és a külső variancia kapcsolata
Az Y ismérv SST teljes eltérés-négyzetösszegének, változékonyságának SST, SSB, SSK Az Y ismérv SST teljes eltérés-négyzetösszegének, változékonyságának SSK nagyságú része a részsokaságok képzésére használt csoportképző ismérvnek tulajdonítható, azzal magyarázható. SSK csak a külső eltérésektől függ. SSB nagyságú rész az Y ismérv szóródását előidéző más, kiemelten nem vizsgált tényezők együttes hatásának tudható be. SSB csak a belső eltérésektől függ.
Ismérvek közötti kapcsolat Két ismérv, X és Y között háromféle kapcsolat lehetséges: A két ismérv független egymástól. A két ismérv között sztochasztikus kapcsolat van: nincs egyértelmű függvénykapcsolat, de egy tendencia jellegű kapcsolat van A két ismérv függvényszerű, determinisztikus kapcsolatban van: ez azt jelenti, hogy az egyik ismérv adott értékéhez a másik ismérv adott értéke tartozik. Ismérvek közötti kapcsolat elemzése: Van-e kapcsolat a vizsgált ismérvek között? Milyen szoros a kapcsolat? Hogyan lehet felhasználni az ismérvek közötti kapcsolat természetének ismeretét arra, hogy egy adott egység bizonyos ismérvek szerinti milyenségéből következtethessünk annak más ismérv szerinti hovatartozására?
Egyidejűleg vizsgált két ismérv közötti kapcsolat a változók mérési szintje szerint Asszociációs kapcsolat: az egymással kapcsolatban álló ismérvek minőségi vagy területi ismérvek (mindkét változó nominális mérési szintű) Vegyes kapcsolat: az egyik vizsgált ismérv mennyiségi, a másik pedig minőségi vagy területi ismérv (az egyik változó különbségi vagy arányskálán, a másik pedig nominális skálán mérhető) Korrelációs kapcsolat: mindkét vizsgált ismérv mennyiségi ismérv (mindkét változó különbségi vagy arányskálán mérhető) Rangkorrelációs kapcsolat: mindkét változó sorrendi skálán mérhető
Vegyes kapcsolat szorossága, a varianciahányados X: csoportképző minőségi ismérv Y: mennyiségi ismérv X és Y kapcsolatának szorosságát mérő mutatót H2-tel jelöljük, és varianciahányadosnak, vagy szórásnégyzet-hányadosnak nevezzük: A H2 az Y ismérv szórásnégyzetének az X ismérv által magyarázott hányada. H2=0, ha SSK=σ2k=0, vagyis az X ismérv szerint képzett osztályok részátlagai egyformák H2=1, ha σ2k= σ2T, azaz σ2B=0, vagyis az X szerint képzett csoportokon belül nem szóródik Y.
A vegyes kapcsolat szorosságának mérése: a szóráshányados H a szóráshányados, ami ugyancsak 0 és 1 között mozog. H=0 értéke a vizsgált két ismérv függetlenségét jelzi, H=1 pedig az X és Y közötti függvényszerű kapcsolatra utal. Nem fejezhető ki százalékosan, hanem kizárólag a kapcsolat szorosságának megítélésére használható a 0-hoz, illetve az 1-hez való közelségét figyelembe véve.
Példa Ismeretes, hogy a budapesti lakótelepeken a lakásárak különböző tényezők következtében lényegesen eltérnek egymástól. Ennek illusztrálása céljából egy hirdetési újságból kigyűjtötték mindazoknak a 3+1 fél szobás lakásoknak az árát, amelyek egy adott napon az újságban Budapest III. kerületében meghirdetésre kerültek. A négy lakótelepről aznap eladásra kínált sokaságokat egy-egy részsokaságnak tekintették. Az adatokat az alábbi táblázat tartalmazza (mFt-ban):
Példa Első feladatunk az, hogy határozzuk meg és hasonlítsuk össze egymással az egyes részsokaságokba tartozó lakások átlagos kínálati árát, és állítsuk elő azokból az adott napon eladásra kínált 45 lakás átlagos árát.
Példa
Példa Varianciahányados: vegyes kapcsolat (mennyiségi ismérv:ár; területi ismérv: lakás elhelyezkedése) A kínálati lakásárak ingadozásának mintegy 71%-a azzal magyarázható, hogy a lakás a négy lakótelep közül melyiken található. Az ingadozás 29%-a pedig egyéb, itt külön nem vizsgált tényezőknek (pl. hányadik emeleten van a lakás, milyen a tájolása, tömegközlekedési viszonyok, a lakótelep infrastruktúrája stb.) tulajdonítható. Szóráshányados: Közepesnél erősebb kapcsolat a két ismérv között.
Példa A Gazdaságstatisztika tantárgy 2015/2016 őszi félévének első zárthelyijén elért eredményeket vizsgáljuk. Az érintett szakokhoz kapcsolódó eredményeket foglalja össze az alábbi táblázat: Értelmezzük a táblázatban szereplő értékeket! Vizsgáljuk meg a szóródást, és számszerűsítsük, hogy a szak az elért eredmények ingadozását milyen mértékben magyarázza! Mennyire erős a kapcsolat a szak és az elért eredmény között? Szak Zh-t megírók száma (fő) átlagok Tapasztalati szórások AK 2 15 4,24 GM 116 14,98 6,25 MM 156 15,86 6,27 NG 108 16,19 Összesen 382
Példa Főátlag: Szak Zh-t megírók száma (fő) átlagok Tapasztalati szórások AK 2 15 4,24 GM 116 14,98 6,25 MM 156 15,86 6,27 NG 108 16,19 Összesen 382 K: A szakonkénti átlagpontszámok átlagosan 0,4878 ponttal térnek el az átlagpontszámtól. B: az átlagos pontszámtól való átlagos eltérés (a részátlagoktól való átlagos eltérés) 6,25 pont (a pontszámok átlagosan 6,25 ponttal térnek el a szakok átlagos pontszámaitól).
szerinti hovatartozás a pontszámok ingadozásának 0,6%-át magyarázza… Példa Varianciahányados mutató: Szóráshányados mutató: A szak szerinti hovatartozás a pontszámok ingadozásának 0,6%-át magyarázza… Igen gyenge a kapcsolat a szak szerinti hovatartozás és az elért eredmények között.
Szorgalmi feladat 2 pont A Posta 8, a fővárosban és 5, vidéki városokban található hivatalban vizsgálta az egy műszak alatt az egy ügyintéző által kiszolgált ügyfelek számát. Az eredményeket az alábbi táblázat tartalmazza. Határozza meg a belső, a külső és a teljes szórást! Milyen szoros kapcsolat van a hivatal elhelyezkedése és a kiszolgált ügyfelek száma között? Hivatal helye Kiszolgált ügyfelek száma Részátlag Budapest 106, 118, 88, 104, 120, 100, 122, 90 106 Vidék 73, 61, 40, 72, 44 58 Főátlag 87,538
Szorgalmi feladat megoldás A budapesti részsokaság eltérés-négyzetösszege Részszórások Budapest Értelmezése: Az egyes budapesti postahivatalokban az egy műszakban kiszolgált ügyfelek száma átlagosan 12,329 fővel tér el a budapesti hivatalokban kiszolgált ügyfelek átlagos számától. Vidék Értelmezése: Az egyes vidéki postahivatalokban az egy műszakban kiszolgált ügyfelek száma átlagosan 13,784 fővel tér el a vidéki hivatalokban kiszolgált ügyfelek átlagos számától. A vidéki részsokaság eltérés-négyzetösszege
Szorgalmi feladat megoldás Belső szórás: Értelmezése: Az egyes postahivatalokban kiszolgált ügyfelek száma (ezek az egyedi ismérvértékeink) átlagosan 12,908 fővel tér el az ugyanazon településtípuson kiszolgált ügyfelek átlagos számától (t. i. az ugyanazon településtípuson kiszolgált ügyfelek átlagos száma jelenti az egyes részátlagokat) . SSB
Szorgalmi feladat megoldás Külső szórás meghatározása Értelmezése: Az egyes településeken található hivatalokban kiszolgált ügyfelek átlagos száma (esetünkben ezek a részátlagok) átlagosan 23,352 fővel térnek el a valamennyi vizsgált postán kiszolgált ügyfelek átlagos számától (esetünkben ez a főátlag) Teljes szórás meghatározása Értelmezése: Az egyes postahivatalokban kiszolgált ügyfelek száma (egyedi ismérvértékek) átlagosan 26,682 fővel tér el a valamennyi vizsgált postán kiszolgált ügyfelek átlagos számától (azaz a főátlagtól) SSK
Szorgalmi feladat megoldás Varianciahányados mutató A mennyiségi ismért ingadozásának csoportképző ismérv által magyarázott hányada Értelmezése: A postahivatal elhelyezkedése a kiszolgált ügyfelek számának szóródását 76,6%-ban magyarázza. Szóráshányados mutató A kapcsolat szorosságát méri a területi vagy minőségi, csoportképzésre használt ismérv és a mennyiségi ismérv között Értelmezése: Erős kapcsolat van a postahivatal helye és az egy műszak alatt kiszolgált ügyfelek száma között.
Köszönöm a figyelmet! Árva Gábor