Matematikai alapok és valószínűségszámítás Az adatok megtekintése
Adatok megtekintése Vizsgálataink során tehát kérdést (kérdéseket) fogalmazunk meg, meghatározzuk azon sokaságot, vagy más néven populációt, amelyre az érdeklődésünk irányul, majd a sokaságból mintát veszünk (lehetőleg nagyszámú, véletlen mintát) és a mintába került megfigyelési egységeinkről adatokat gyűjtünk különböző statisztikai változók (a megfigyelési egységek jellemzői, ismérvei) mentén. Az összegyűjtött adatokat adatmátrixban rögzítjük, melyben jellemzően egy megfigyelési egység (eset) egy sor, míg az egyes oszlopok egy-egy változót reprezentálnak.
Adatok megtekintése Minthogy azonban az ideális minta nagyszámú megfigyelési egységet tartalmaz, és jellemzően minden megfigyelési egységről számos változó vonatkozásában gyűjtünk adatokat, az adatmátrix általában túlontúl terjedelmes ahhoz, hogy egyszerű megtekintés útján megállapíthassuk az adatok lényeges tulajdonságait. Erre a célra használhatunk: Grafikus módszereket Az adatokból számolt összegző statisztikákat, ún. leíró statisztikákat.
Leíró statisztikák Statisztikai függvénynek vagy statisztikáknak nevezzük azokat az adatokból számolt mutatókat, melyek egy függvénnyel (képlettel) az adatokból meghatározhatóak. A leíró statisztikák az adathalmaz néhány jellemző tulajdonságát könnyedén megragadó statisztikák. A legegyszerűbb leíró statisztikák pl. -a minta elemszáma (mintanagyság) -az értékek maximuma -az értékek minimuma -a minta terjedeleme: a maximum és a minimum különbsége
Gyakorisági eloszlás (diszkrét változó) Egy változó jellemezhető azzal, hogy különböző értékei hányszor, milyen gyakran fordulnak elő az adott mintában. A gyakorisági eloszlás éppen ezt, a változó értékeinek gyakoriságát fejezi ki. Pl. Etnikai hovatartozás gyakoriság relatív gyakoriság százalék Latin 135 .26 26 % Fehér 309 .60 60 % Ázsiai 5 .01 1 % Afrikai 9 .02 2 % Indián 9 .02 2 % Multietnikai 13 .03 3% Egyéb 38 .07 7 %
Kördiagram
Oszlopdiagram
Oszlopdiagram
Gyakorisági eloszlás (diszkrét változó) Pl. iskolai végzettség: gyakoriság rel. gyak. % kumulatív gyak. Kumulatív % középiskola 210 .40 40 210 40 2 év főiskola 118 .23 23 328 63 4 év főiskola 143 .28 28 471 91 master 38 .07 7 509 98 PhD 10 .02 2 519 100
Oszlopdiagram
Gyakorisági eloszlás (folytonos változó) Pl. naponta elszívott cigaretták száma érték gyakoriság 1 1 2 2 4 5 5 7 6 4 7 2 8 2 9 1 10 35 12 14 14 2 15 36 16 2 17 1 18 12 20 138 Érték gyakoriság 22 6 23 1 24 2 25 53 28 1 29 2 30 75 32 1 33 1 35 23 40 54 45 11 50 16 60 11 65 1 80 1
Oszlopdiagram Mint a bal oldali ábra is illusztrálja, folytonos változók esetén az oszlopdiagram nem a megfelelő megoldás az adatok grafikus megjelenítésére, mert a változónak túl nagyszámú értéke van, amelyek gyakorisága meglehetősen kicsi lesz, még nagy minta esetén is.
Hisztogram Ezért nem az egyes értékek gyakoriságát nézzük, illetve ábrázoljuk, hanem az értékeket intervallumokba soroljuk, és az egyes intervallumokba eső értékek gyakoriságára koncentrálunk. Ha pl a naponta elszívott cigik számát 8 intervallumba (1-10, 11-20, 21-30,…, 71-80) soroljuk, a balra látható hisztogramot kapjuk.
Hisztogram Az intervallumok száma (bizonyos határok között) önkényesen megválasztható, azonban a túl sok vagy túl kevés intervallum sem jó, mivel az előbbi esetben nem tömörítjük kellőképpen az információt, míg az utóbbi esetben pedig éppen fordítva, olyannyira tömörítjük, ami már információvesztést okozhat.
Hisztogram