Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK 8. Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
A szórás tulajdonságai és felhasználásuk Ha az xi értékhez egy állandó számot hozzáadunk vagy levonunk a szórás nem változik. Ha az xi értékeket egy konstans számmal megszorozzuk vagy elosztjuk, akkor az eredeti értékek szórásából ugyanazzal a művelettel kapjuk meg az új értékek szórását. Egy bizonyos ‘a’ értéktől számított eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás. ‘a’ esetén a különbség
Kvantilisek A rendezett mintából tovább származtatott statisztikák összefoglaló neve, amikor a rendezett mintát több egyenlő részre osztjuk, és a részhatárokon levő mintaelemek értékét tekintjük. A felosztás mértéke alapján: Medián (2) Kvartilis (4) Centilis (10) Percentilis (100)
Kvartilisek A nagyság szerint rendezett értéksor negyedelésével állítható elő. Az alsó kvartilis a legkisebb és a medián között középen elhelyezkedő adat számértéke a rendezett mintában. A felső kvartilis hasonlóan a medián és a legnagyobb érték között van középen.
Kvartilisek gyakorisági sorokból - a kvartilis adat sorszámának megfelelő osztály alsó határa - az i-edik kvartilis adat sorszáma - a kvartilist tartalmazó osztályig terjedő halmozott gyakoriságok összege - a kvartilist tartalmazó osztály gyakorisága i - az osztályköz terjedelme
Interkvartilis terjedelem Az első és harmadik kvartilis különbsége. Jele: IQR. Az észlelési adatok 50 %-át foglalja magában. Az első negyed feletti és a harmadik negyed alatti értékek. Számítása:
Kvartilis eltérés A terjedelemhez nagyon hasonló mérőszám, amely az alsó és a felső kvartilis különbségének a fele. A nyitott osztályközű gyakorisági soroknál van jelentősége. Számítása:
Decilisek A decilisek a minimumtól a maximumig sorbarendezett adatsor egytizedét jelenti. Az első decilis-csoport az első tized (pl.: az összes háztartás azon 10%-a, amelyik a legkevesebb jövedelemmel rendelkezik). Az utolsó decilis pl.: a háztartások azon tizede, amelyik a legmagasabb jövedelemmel rendelkezik.
Percentilis Ha elég adatunk van, akkor percentilisek is definiálhatók. Pl. az n%-os (vagy n-edik) percentilis azt jelenti, hogy az adatok n%-a kisebb, mint ez az érték. (Így a medián az 50%-os percentilisnek, az alsó és felső kvartilisek pedig a 25% ill. 75%-os percentilisnek felelnek meg.) A percentiliseknek óriási jelentősége van a 'mit tekintünk normálisnak?' kérdés eldöntésében. Az alsó és felső néhány percentilis közötti részt (2,5% - 97,5% vagy 5% - 95%) szokás normális (referencia) értéknek elfogadni. A percentilisek összessége valójában a tapasztalati eloszlásnak felel meg. Ilyen alapon a tapasztalati eloszlásfüggvényt (és az abból származtatott dolgokat, pl. a hisztogramot) is tekinthetjük statisztikának.
Szélsőséges adatok kezelése A szélsőséges adatok rontják a kiszámított statisztikai jellemző használhatóságát. A szélsőséges adatok elhagyásával jellemzőbb statisztikai mutatószámokat kaphatunk. A szélsőséges adatok feltárására alkalmas lehet a box-plot ábrázolás. Ennek az a lényege, hogy az interkvantilis terjedelem alsó és felső határát csökkentik, illetve növelik.
Box-plot ábrázolás extrém pontok max. min. Q3 + 1.5 * IQR Q1 Q3
Box-plot ábrázolás a ’doboz’ az adatok középső 50 %-át tartalmazza, a ’doboz’ felső sarka az adatok 75 %-át (harmadik kvartilis), míg az alsó sarka a 25 %-át (első kvartilis) jelzi (interkvartilis terjedelem); a ’dobozban’ található vonal a mediánt jelzi; ha a ’dobozban’ található medián-vonal nem egyenlő távolságra van az alsó vagy a felső saroktól, akkor az adatok asszimetrikusak (ferdeség); a ’dobozból’ kiinduló vertikális vonalak végei a maximális és a minimális értéket jelzik, kivéve azt az esetet, amikor az adatok kívül esnek az interkvartilis távolság másfélszeresén; az extrém pontok (apró körökkel, pontokkal jelölve), ha az értékek kívül esnek az ”1.5 * IQR” távolságon akár az első, akár a harmadik kvartilis esetében.
Box-plot ábrázolás - Taxi beérkezési és kiindulási idők a Newark Repülőtéren
A boxplot erősségei grafikusan mutatja be egy változó értékeinek az elhelyezkedését és terjedelmét, jelzéseket ad az adatok szimmetriájáról és ferdeségéről, más módszerektől eltérően megmutatja, hogy az adathalmaznak vannak-e extrém pontjai, jó és gyors összehasonlítási lehetőséget biztosít különböző adathalmazok számára.