Adattípusok, adatsorok jellegadó értékei dr. Jeney László egyetemi adjunktus jeney@caesar.elte.hu Regionális és környezeti elemzési módszerek I. BME Regionális és környezeti gazdaságtan mesterszak (MSc), levelező 2014/2015, I. félév BCE Gazdaságföldrajz és Jövőkutatás Tanszék
Mérési skálák
Statisztikai fogalmak Sokaság: A megismerni kívánt, megfigyelt egységek halmaza Ismérvek: A sokaság jellemzésére, részekre bontására alkalmas vizsgálati szempontok Területi elemzések: legalább 2 ismérv Területi ismérv Változók: időbeli, mennyiségi, minőségi ismérvek Adatok jól csoportosíthatók az összehasonlíthatóságuk szerint mérési (vagy adat) skálák rendszere
A mérési skálák rendszere Tulajdonság Sajátosságok Jellemző példák Arány xa / xb Megkülönböztetés, sorrend, különbség, arány Van elméleti minimum, azonos előjelű Népességszám, jövedelem, utasforgalom Intervallum xa – xb Megkülönböztetés, sorrend, különbség Pozitív és negatív értékek Vándorlási különbözet Ordinális (sorrendi) xa ≥ xb Megkülönböztetés, sorrend Nehezen mérhető, csak sorrendbe állítható Sorrendek, rangok, eltérő funkcionális szintek Nominális xa ≠ xb Megkülönböztetés Nem számszerű Név, születési hely, nem
Mérési skálák hierarchiája Mindegyik mérési skála rendelkezik az alatt lévő tulajdonságaival A „hierarchia csúcsán” az arányskála áll Legteljesebb összehasonlításra ad lehetőséget Mérési skála meghatározza a matematikai-statisztikai módszereket Brazil válogatott nem 63X jobb mint a magyar 0 átlagú adatsort nem lehet az átlag %-ában megadni Többváltozós vizsgálatoknál: Többféle mérési skála, de azonos mérési skálájú adatokra van szükség adat-transzformáció
Mérési skálák transzformációja Leggyakrabban: Intervallum- vagy arányskálán mért jellemzők ordinális adatskálára átalakítása (pl. komplex mutatóknál: rangsorolás) Azonos értékek: rangszámok is azonosak Páratlan számú (pl. 3) adat egyezése: középső rangszám (8., 9. és 10. helyett 9., 9. és 9.) Páros számú (pl. 2) adat egyezése: rangszámok átlaga (4. és 5. helyett 4,5. és 4,5.) Nincs holtversenyben elsőség 1. és 2. helyett 1,5. és 1,5 (1. és 1. helyett)
Adattípusok
Adatsorok 2 fő típusa: nem fajlagos és fajlagos mutatók Nem fajlagos (abszolút) mutatók Pl. népességszám, GDP, személygépkocsik száma, terület, városlakók száma Jelölése: xi azaz x abszolút mutató értéke adott „i” régióban Fajlagos mutatók (relatív vagy származtatott mutatók) Pl. egy főre jutó GDP, ezer lakosra jutó személygépkocsik, népsűrűség, városlakók aránya Lehet százalékos részesedés is: pl. városlakók aránya Jelölése: yi azaz y fajlagos mutató értéke adott „i” régióban Általában 2 nem fajlagos mutató hányadosa, pl. GDP és népesség (ritkán 2 fajlagos mutató hányadosa, pl. megyei GDP/fő az országos átlagos GDP/fő %-ában) Esetükben súlyozni kell (pl. súlyozott átlag, súlyozott szórás) A súly a fajlagos mutató képletének nevezőjében van, jelölése fi azaz f súly értéke adott „i” régióban Súly gyakran népességszám, de nem mindig 8
Nem fajlagos – fajlagos mutatók valamint a súly közötti átszámítások Ha a nem fajlagos mutató (GDP) és a súly (népességszám) ismert A fajlagos mutató (GDP/fő): a nem fajlagos mutató és a súly hányadosa Ha a nem fajlagos (GDP) és a fajlagos mutató ismert (GDP/fő) A súly (népesség): a nem fajlagos és a fajlagos mutató hányadosa Ha a fajlagos mutató (GDP/fő) és a súly (népesség) ismert Nem fajlagos mutató (GDP): a fajlagos mutató és a súly szorzata 9
Adatsorok jellegadó értékei
Adatsorok jellegadó értékei Középértékek Számtani átlag / súlyozott számtani átlag Mértani átlag Helyzeti középértékek (módusz, medián) Szélső értékek Maximum Minimum Adatsor terjedelme és szórása (átvezet a területi egyenlőtlenségi mutatók felé) Terjedelem-típusú mutatók Szórás-típusú mutatók
Középértékek: átlagok Számtani átlag Az eredeti számok helyébe helyettesítve azok összege változatlan n db adat (xi) Excel fx= ÁTLAG() Súlyozott számtani átlag n db fajlagos adat (yi) Súly (fi): a fajlagos mutató nevezőjében szereplő adat Mértani átlag Az eredeti számok helyébe helyettesítve azok szorzata változatlan
Helyzeti középértékek Medián Az az érték, aminél kisebb és nagyobb adatok száma egyenlő (felező pont) Extrém adatokat tartalmazó adatsorok esetében érdemes használni Kvantilisek: kvartilis (negyedelő), kvintilis (ötödölő), decilis (tizedelő), percentilis (századoló) Medián/átlag: egyenlőtlenségi mutató (minél kisebb, annál nagyobb az egyenlőtlenség) Excel fx= MEDIÁN() Módusz („divatos érték”) A legtöbbször előforduló érték Lehet többmóduszú (többcsúcsú) adatsor is Excel fx= MÓDUSZ()
A szélső értékek és a terjedelem típusú egyenlőtlenségi mutatók Maximum Az adatsor legnagyobb értéke (xmax) Excel fx= MAX() Minimum Az adatsor legkisebb értéke (xmin) Excel fx= MIN() Alapja a terjedelem típusú egyenlőtlenségi mutatóknak Range (szóródás terjedelme) Range-arány (adatsor terjedelme) Relatív range
Súlyozatlan relatív terjedelem kiszámításának lépései (abszolút mutatóknál) Ki kell számítani az adatsor maximumát (függvényvarázsló: max) Ki kell számítani az adatsor minimumát (függvényvarázsló: min) Ki kell vonni a maximális értékből a minimálist (ez a terjedelem) Ki kell számítani az adatsor (sima) átlagát (függvényvarázsló: átlag) El kell osztani a terjedelmet az átlaggal
Súlyozatlan relatív terjedelem kiszámítása Excelben 1 xa xb 2 1. régió 24 10 3 2. régió 4 3. régió 5 4. régió 12 6 maximum =MAX(B2:B5) =MAX(C2:C5) 7 minimum =MIN(B2:B5) =MIN(C2:C5) 8 terjedelem 24 =B6-B7 0 =C6-C7 9 átlag 10 =ÁTLAG(B2:B5) 10 =ÁTLAG(C2:C5) relatív terjedelem 2,4 =B8/B9 0 =C8/C9
Súlyozott relatív terjedelem kiszámításának lépései (fajlagos mutatóknál) Ki kell számítani az adatsor maximumát (függvényvarázsló: max) Ki kell számítani az adatsor minimumát (függvényvarázsló: min) Ki kell vonni a maximális értékből a minimálist (ez a terjedelem) Ki kell számítani az adatsor súlyozott átlagát El kell osztani a terjedelmet a súlyozott átlaggal
Súlyozott relatív terjedelem kiszámítása Excelben F G 1 ya fa xa yb fb Xb 2 1. régió 24 =B2*C2 10 =E2*F2 3 2. régió 4 3,5 14 35 3. régió 4,5 45 5 4. régió 12 6 összeg 50 100 7 max. 24 =MAX(B2:B5) 10 =MAX(E2:E5) 8 min. 0 =MIN(B2:B5) 10 =MIN(E2:E5) 9 terj. 24 =B6-B7 0 =E6-E7 s. átlag 5 =D6/C6 10 =G6/F6 11 rel terj 4,8 =B9/B10 0 =E9/E10
A szórás típusú egyenlőtlenségi mutatók
Szórás-típusú egyenlőtlenségi mutatók Nem fajlagos (abszolút) mutatók (xi): (súlyozatlan) szórás Fajlagos mutatók (yi): súlyozott szórás A valódi egyenlőtlenségeket a relatív szórással mérhetjük Nem fajlagos: (súlyozatlan) relatív szórás (szórás az átlag %-ában) Fajlagos mutatók: súlyozott relatív szórás (súlyozott szórás a súlyozott átlag %-ában) 20
(Súlyozatlan) szórás: nem fajlagos mutatók esetében Adatsorok egyes értékeinek (xi) az átlagtól való négyzetes eltérésének az átlaga Képlete Xi = abszolút mutató i régióban n = elemszám Kiszámítása Excel: fx= SZÓRÁSP() ( és nem SZÓRÁS) Angol nyelvű Excel fx= STDEVP() Értékkészlete: 0 ≤ σ ≤ ∞ Minél nagyobb az értéke, annál nagyobb az egyenlőtlenség Mértékegysége: mint az eredeti értékek (Xi) mértékegysége 21
(Súlyozatlan) relatív szórás: nem fajlagos mutatók esetében A valódi egyenlőtlenségeket a relatív szórással mérhetjük Relatív szórás: abszolút mutatók esetében Képlete: σ = Xi adatsor szórása x = Xi adatsor átlaga Kiszámítása a szórás értékeket elosztjuk az átlaggal és megszorozzuk 100-zal (a szórás értékeit az átlag százalékában fejezzük ki) Értékkészlete: 0 ≤ v ≤ ∞ Minél nagyobb az értéke, annál nagyobb az egyenlőtlenség Mértékegysége: % 22
Súlyozott szórás: fajlagos mutatók esetében Fajlagos mutatók (yi) esetében Adatsorok egyes értékeinek (yi) az átlagtól való négyzetes eltérésének az átlaga Képlete yi = fajlagos mutató i régióban fi = súly (fajlagos mutató nevezője) Értékkészlete: 0 ≤ σ ≤ ∞ Minél nagyobb az értéke, annál nagyobb az egyenlőtlenség Mértékegysége: mint az eredeti értékek (yi) mértékegysége 23
Súlyozott szórás kiszámításának lépései Kiszámítom a fajlagos mutató súlyozott átlagát Minden térség esetében kiszámítom a vizsgált fajlagos mutató értékeinek eltérését a súlyozott átlagtól (Excel $) Minden térség esetében a kapott különbségeket négyzetre emelem (Excel jobb oldali Alt+3 együtt, majd 2 = ^2) Minden térség esetében a kapott értékeket megszorzom a térséghez tartozó súllyal 2–4. lépések egy oszlopban is megoldhatók Az így kapott szorzatokat összegzem Ezt az összeget elosztom a súlyok összegével Ennek a hányadosnak a négyzetgyökét veszem (^0,5) 24
Súlyozott relatív szórás: fajlagos mutatók esetében A valódi egyenlőtlenségeket a relatív szórással mérhetjük Fajlagos mutatók esetében: súlyozott relatív szórással Képlete: σ = yi adatsor súlyozott szórása y = yi adatsor súlyozott átlaga Kiszámítása A súlyozott szórás értékeket elosztjuk a súlyozott átlaggal és megszorozzuk 100-zal (a súlyozott szórás értékeit a súlyozott átlag százalékában fejezzük ki) Értékkészlete: 0 ≤ v ≤ ∞ Minél nagyobb az értéke, annál nagyobb az egyenlőtlenség Mértékegysége: % 25
Súlyozott relatív szórás kiszámítása Excelben D E F G 1 y f x átl elt négyzet súlyozás 2 1. régió 24 24 =B2*C2 19 =B2-B$7 361 =E2^2 361 =F2*C2 3 2. régió 4 3,5 14 –1 3. régió 4,5 –5 25 112,5 5 4. régió 12 7 49 6 összeg 10 50 =SZUM(D2:D5) 526 =SZUM(G2:G5) s. átlag 5 =D6/C6 52,6 =G6/C6 8 s. szórás 7,25 =G7^0,5 9 s. relatív szórás 145,05 =B8/B7*100 26