Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Adatleírás
2
Mérési skálák Nominális skála Ordinális skála Intervallum skála
Arány skála (Bináris skála)
3
Nominális skála Nevekből álló kategóriális változó
az értékek nem rendezhetők sorba (csak az egyenlő/nem egyenlő reláció van értelmezve) Példák: ivar betegség levélalak
4
Ordinális skála az értékek rangsorba állíthatók (értelmezve van a < és > reláció is) az értékék közötti különbség nem rögzített (ha számokkal kódoljuk, akkor sem lehet a számokkal műveleteket végezni) Példák indikátor-”számok” (pl. hőigény: alacsony, közepes, magas) aggresszív viselkedés (gyenge, közepes, erős intenzitású)
5
Intervallum skála a változó értékei rangsorba állíthatók
az értékek közötti különbségnek van értelme (elvégezhető az összeadás és a kivonás) a skála nulla pontja önkényes (két érték hányadosa, az értékek logaritmusa, négyzetgyöke stb. nem értelmezhető) statisztikai szempontból nagyon hasonló az arány skálához Példák Celsius skála intelligenciahányados
6
Arány skála a változó értékei rangsorba állíthatók
az értékek közötti különbségnek van értelme a skála nulla pontja nem önkényes Példák testsúly magasság növényzet borítása
7
Bináris skála nominális skála két kategóriával (pl. nem: férfi-nő)
ordinális skála két kategóriával (pl. faj előfordul/hiányzik)
8
Skálatranszformációk I.
Skálaszűkítés: magasabb információ-tartalmú skáláról térünk át alacsonyabb információ-tartalmúra. Mindig információ-vesztéssel jár, de ez nem mindig jelentős. Skálabővítés: alacsonyabb információ-tartalmú skáláról térünk át magasabb információ-tartalmúra. Ritkán kerül rá sor, mert kiegészítő információra van szükség.
9
Skálatranszformációk II.
Arány vagy intervallum skála ordinális skála nem kell átkódolni az adatokat, a legtöbb statisztika kiszámításakor az eredeti értékeket rangszámokkal helyettesítjük Folytonos skála nominális skála intervallumokon belül minden értéket ugyanazzal a nominális értékkel helyettesítünk
10
Skálatranszformációk III.
Hogyan határozzuk meg az intervallumokat, amikor áttérünk arány skáláról intervallum skálára? szakmailag indokolt határok, ne legyenek nagyon ritka értékek: minden értékből legyen legalább 5 (10).
11
Adatjellemzés: deszkriptív statisztikák, táblázatok, ábrák
Célja: előzetes ellenőrzés pl. eloszlás alakjának előzetes ellenőrzése alapján dönjük el, szükséges-e transzformáció a normális eloszlást feltételező próbák előtt eredmények szemléltetése Az adatok skálájától függ, hogy milyen deszkriptív statisztikákat, illetve milyen típusú ábrákat használhatunk.
12
Adatfeltárás - hipotézis generálás
Probléma: a statisztikai módszerek hibáit csak akkor tudjuk kiszámítani, ha a priori (lehetőleg a kísérlet elvégzése, de mindenképpen az adatok megnézése előtt kitalált) hipotéziseket tesztelünk az adatjellemzés alapján újabb hipotéziseket fogalmazhatunk meg Megoldás:két részre osztjuk az adatainkat, az egyik rész elemzése alapján létrehozott hipotéziseket a másik rész adatain teszteljük Megjegyzés: ha az adatjellemzés célja új hipotézisek létrehozása akkor adatfeltárásnak nevezzük.
13
Adatjellemzés: nominális skála I. gyakorisági táblázat
Megjegyzés: A sorok sorrendje felcserélhető
14
Adatjellemzés: nominális skála II. hisztogram
Megjegyzés: Az oszlopok sorrendje felcserélhető
15
Adatjellemzés: nominális skála III. módusz és diverzitás
módusz: a leggyakoribb kategória (az előző példában az EUA) entrópia:
16
Adatjellemzés: ordinális skála
Ugyanazok a jellemzők használhatók, mint a nominális skálánál A medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Nem mindig számítható ki a mintából, de mindig elvéhezhetők a mediánra vonatkozó próbák!
17
Adatjellemzés: kontingenciatábla
Megjegyzés: Az oszlopok és sorrendje nominális skálán felcserélhető, egyébként nem.
18
Adatjellemzés: intervallum skála
Az arány skálánál tárgyaltak igazak erre a skálára is.
19
Adatjellemzés: arány skála I. középértékek
(számtani) átlag: hátránya, hogy érzékeny a kiugró (outlier) értékekre medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Kiszámítása: páratlan számú elem esetén az adatsor középső eleme, páros számú elem esetén a két középső elem átlaga Kiugró értékekre az átlagnál kevésbé érzékeny
20
Adatjellemzés: arány skála II. a szóródás mérőszámai 1.
korrigált szórásnégyzet (variancia): korrigált szórás: a variancia négyzetgyöke. az átlag szórása (standard error): Hátrányuk, hogy érzékenyek a kiugró (outlier) értékekre
21
Adatjellemzés: arány skála II. a szóródás mérőszámai 2.
interkvartilis terjedelem: az első és a harmadik kvartilis különbsége. A kvartilisek 4 egyenlő méretű részre osztják a mintát. Az első kvartilisnél a mintaelemek 25%-a kisebb, 75%-a nagyobb, a harmadik kvartilisnél a mintaelemek 75%-a kisebb, 25%-a nagyobb Hátránya, hogy kis mintákból rosszul becsülhető, előnye, hogy (megfelelő mintaméret esetén) a kiugró értékekre a szórásnál kevésbé érzékeny
22
Adatjellemzés: arány skála III. box-plot 1.
23
Adatjellemzés: arány skála III. box-plot 2.
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.