Adatleírás
Mérési skálák Nominális skála Ordinális skála Intervallum skála Arány skála (Bináris skála)
Nominális skála Nevekből álló kategóriális változó az értékek nem rendezhetők sorba (csak az egyenlő/nem egyenlő reláció van értelmezve) Példák: ivar betegség levélalak
Ordinális skála az értékek rangsorba állíthatók (értelmezve van a < és > reláció is) az értékék közötti különbség nem rögzített (ha számokkal kódoljuk, akkor sem lehet a számokkal műveleteket végezni) Példák indikátor-”számok” (pl. hőigény: alacsony, közepes, magas) aggresszív viselkedés (gyenge, közepes, erős intenzitású)
Intervallum skála a változó értékei rangsorba állíthatók az értékek közötti különbségnek van értelme (elvégezhető az összeadás és a kivonás) a skála nulla pontja önkényes (két érték hányadosa, az értékek logaritmusa, négyzetgyöke stb. nem értelmezhető) statisztikai szempontból nagyon hasonló az arány skálához Példák Celsius skála intelligenciahányados
Arány skála a változó értékei rangsorba állíthatók az értékek közötti különbségnek van értelme a skála nulla pontja nem önkényes Példák testsúly magasság növényzet borítása
Bináris skála nominális skála két kategóriával (pl. nem: férfi-nő) ordinális skála két kategóriával (pl. faj előfordul/hiányzik)
Skálatranszformációk I. Skálaszűkítés: magasabb információ-tartalmú skáláról térünk át alacsonyabb információ-tartalmúra. Mindig információ-vesztéssel jár, de ez nem mindig jelentős. Skálabővítés: alacsonyabb információ-tartalmú skáláról térünk át magasabb információ-tartalmúra. Ritkán kerül rá sor, mert kiegészítő információra van szükség.
Skálatranszformációk II. Arány vagy intervallum skála ordinális skála nem kell átkódolni az adatokat, a legtöbb statisztika kiszámításakor az eredeti értékeket rangszámokkal helyettesítjük Folytonos skála nominális skála intervallumokon belül minden értéket ugyanazzal a nominális értékkel helyettesítünk
Skálatranszformációk III. Hogyan határozzuk meg az intervallumokat, amikor áttérünk arány skáláról intervallum skálára? szakmailag indokolt határok, ne legyenek nagyon ritka értékek: minden értékből legyen legalább 5 (10).
Adatjellemzés: deszkriptív statisztikák, táblázatok, ábrák Célja: előzetes ellenőrzés pl. eloszlás alakjának előzetes ellenőrzése alapján dönjük el, szükséges-e transzformáció a normális eloszlást feltételező próbák előtt eredmények szemléltetése Az adatok skálájától függ, hogy milyen deszkriptív statisztikákat, illetve milyen típusú ábrákat használhatunk.
Adatfeltárás - hipotézis generálás Probléma: a statisztikai módszerek hibáit csak akkor tudjuk kiszámítani, ha a priori (lehetőleg a kísérlet elvégzése, de mindenképpen az adatok megnézése előtt kitalált) hipotéziseket tesztelünk az adatjellemzés alapján újabb hipotéziseket fogalmazhatunk meg Megoldás:két részre osztjuk az adatainkat, az egyik rész elemzése alapján létrehozott hipotéziseket a másik rész adatain teszteljük Megjegyzés: ha az adatjellemzés célja új hipotézisek létrehozása akkor adatfeltárásnak nevezzük.
Adatjellemzés: nominális skála I. gyakorisági táblázat Megjegyzés: A sorok sorrendje felcserélhető
Adatjellemzés: nominális skála II. hisztogram Megjegyzés: Az oszlopok sorrendje felcserélhető
Adatjellemzés: nominális skála III. módusz és diverzitás módusz: a leggyakoribb kategória (az előző példában az EUA) entrópia:
Adatjellemzés: ordinális skála Ugyanazok a jellemzők használhatók, mint a nominális skálánál A medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Nem mindig számítható ki a mintából, de mindig elvéhezhetők a mediánra vonatkozó próbák!
Adatjellemzés: kontingenciatábla Megjegyzés: Az oszlopok és sorrendje nominális skálán felcserélhető, egyébként nem.
Adatjellemzés: intervallum skála Az arány skálánál tárgyaltak igazak erre a skálára is.
Adatjellemzés: arány skála I. középértékek (számtani) átlag: hátránya, hogy érzékeny a kiugró (outlier) értékekre medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Kiszámítása: páratlan számú elem esetén az adatsor középső eleme, páros számú elem esetén a két középső elem átlaga Kiugró értékekre az átlagnál kevésbé érzékeny
Adatjellemzés: arány skála II. a szóródás mérőszámai 1. korrigált szórásnégyzet (variancia): korrigált szórás: a variancia négyzetgyöke. az átlag szórása (standard error): Hátrányuk, hogy érzékenyek a kiugró (outlier) értékekre
Adatjellemzés: arány skála II. a szóródás mérőszámai 2. interkvartilis terjedelem: az első és a harmadik kvartilis különbsége. A kvartilisek 4 egyenlő méretű részre osztják a mintát. Az első kvartilisnél a mintaelemek 25%-a kisebb, 75%-a nagyobb, a harmadik kvartilisnél a mintaelemek 75%-a kisebb, 25%-a nagyobb Hátránya, hogy kis mintákból rosszul becsülhető, előnye, hogy (megfelelő mintaméret esetén) a kiugró értékekre a szórásnál kevésbé érzékeny
Adatjellemzés: arány skála III. box-plot 1.
Adatjellemzés: arány skála III. box-plot 2.