Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatleírás.

Hasonló előadás


Az előadások a következő témára: "Adatleírás."— Előadás másolata:

1 Adatleírás

2 Mérési skálák Nominális skála Ordinális skála Intervallum skála
Arány skála (Bináris skála)

3 Nominális skála Nevekből álló kategóriális változó
az értékek nem rendezhetők sorba (csak az egyenlő/nem egyenlő reláció van értelmezve) Példák: ivar betegség levélalak

4 Ordinális skála az értékek rangsorba állíthatók (értelmezve van a < és > reláció is) az értékék közötti különbség nem rögzített (ha számokkal kódoljuk, akkor sem lehet a számokkal műveleteket végezni) Példák indikátor-”számok” (pl. hőigény: alacsony, közepes, magas) aggresszív viselkedés (gyenge, közepes, erős intenzitású)

5 Intervallum skála a változó értékei rangsorba állíthatók
az értékek közötti különbségnek van értelme (elvégezhető az összeadás és a kivonás) a skála nulla pontja önkényes (két érték hányadosa, az értékek logaritmusa, négyzetgyöke stb. nem értelmezhető) statisztikai szempontból nagyon hasonló az arány skálához Példák Celsius skála intelligenciahányados

6 Arány skála a változó értékei rangsorba állíthatók
az értékek közötti különbségnek van értelme a skála nulla pontja nem önkényes Példák testsúly magasság növényzet borítása

7 Bináris skála nominális skála két kategóriával (pl. nem: férfi-nő)
ordinális skála két kategóriával (pl. faj előfordul/hiányzik)

8 Skálatranszformációk I.
Skálaszűkítés: magasabb információ-tartalmú skáláról térünk át alacsonyabb információ-tartalmúra. Mindig információ-vesztéssel jár, de ez nem mindig jelentős. Skálabővítés: alacsonyabb információ-tartalmú skáláról térünk át magasabb információ-tartalmúra. Ritkán kerül rá sor, mert kiegészítő információra van szükség.

9 Skálatranszformációk II.
Arány vagy intervallum skála  ordinális skála nem kell átkódolni az adatokat, a legtöbb statisztika kiszámításakor az eredeti értékeket rangszámokkal helyettesítjük Folytonos skála  nominális skála intervallumokon belül minden értéket ugyanazzal a nominális értékkel helyettesítünk

10 Skálatranszformációk III.
Hogyan határozzuk meg az intervallumokat, amikor áttérünk arány skáláról intervallum skálára? szakmailag indokolt határok, ne legyenek nagyon ritka értékek: minden értékből legyen legalább 5 (10).

11 Adatjellemzés: deszkriptív statisztikák, táblázatok, ábrák
Célja: előzetes ellenőrzés pl. eloszlás alakjának előzetes ellenőrzése alapján dönjük el, szükséges-e transzformáció a normális eloszlást feltételező próbák előtt eredmények szemléltetése Az adatok skálájától függ, hogy milyen deszkriptív statisztikákat, illetve milyen típusú ábrákat használhatunk.

12 Adatfeltárás - hipotézis generálás
Probléma: a statisztikai módszerek hibáit csak akkor tudjuk kiszámítani, ha a priori (lehetőleg a kísérlet elvégzése, de mindenképpen az adatok megnézése előtt kitalált) hipotéziseket tesztelünk az adatjellemzés alapján újabb hipotéziseket fogalmazhatunk meg Megoldás:két részre osztjuk az adatainkat, az egyik rész elemzése alapján létrehozott hipotéziseket a másik rész adatain teszteljük Megjegyzés: ha az adatjellemzés célja új hipotézisek létrehozása akkor adatfeltárásnak nevezzük.

13 Adatjellemzés: nominális skála I. gyakorisági táblázat
Megjegyzés: A sorok sorrendje felcserélhető

14 Adatjellemzés: nominális skála II. hisztogram
Megjegyzés: Az oszlopok sorrendje felcserélhető

15 Adatjellemzés: nominális skála III. módusz és diverzitás
módusz: a leggyakoribb kategória (az előző példában az EUA) entrópia:

16 Adatjellemzés: ordinális skála
Ugyanazok a jellemzők használhatók, mint a nominális skálánál A medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Nem mindig számítható ki a mintából, de mindig elvéhezhetők a mediánra vonatkozó próbák!

17 Adatjellemzés: kontingenciatábla
Megjegyzés: Az oszlopok és sorrendje nominális skálán felcserélhető, egyébként nem.

18 Adatjellemzés: intervallum skála
Az arány skálánál tárgyaltak igazak erre a skálára is.

19 Adatjellemzés: arány skála I. középértékek
(számtani) átlag: hátránya, hogy érzékeny a kiugró (outlier) értékekre medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Kiszámítása: páratlan számú elem esetén az adatsor középső eleme, páros számú elem esetén a két középső elem átlaga Kiugró értékekre az átlagnál kevésbé érzékeny

20 Adatjellemzés: arány skála II. a szóródás mérőszámai 1.
korrigált szórásnégyzet (variancia): korrigált szórás: a variancia négyzetgyöke. az átlag szórása (standard error): Hátrányuk, hogy érzékenyek a kiugró (outlier) értékekre

21 Adatjellemzés: arány skála II. a szóródás mérőszámai 2.
interkvartilis terjedelem: az első és a harmadik kvartilis különbsége. A kvartilisek 4 egyenlő méretű részre osztják a mintát. Az első kvartilisnél a mintaelemek 25%-a kisebb, 75%-a nagyobb, a harmadik kvartilisnél a mintaelemek 75%-a kisebb, 25%-a nagyobb Hátránya, hogy kis mintákból rosszul becsülhető, előnye, hogy (megfelelő mintaméret esetén) a kiugró értékekre a szórásnál kevésbé érzékeny

22 Adatjellemzés: arány skála III. box-plot 1.

23 Adatjellemzés: arány skála III. box-plot 2.


Letölteni ppt "Adatleírás."

Hasonló előadás


Google Hirdetések