Adatleírás.

Slides:



Advertisements
Hasonló előadás
I. előadás.
Advertisements

Petrovics Petra Doktorandusz
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Rangszám statisztikák
Gazdaságelemzési és Statisztikai Tanszék
Adattípusok, adatsorok jellegadó értékei
Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
A megoldás főbb lépései:
Mérési pontosság (hőmérő)
Gazdaságelemzési és Statisztikai Tanszék
Közlekedésstatisztika
Adatfeldolgozás.
TF Informatikai és Oktatástechnológiai Tanszék
4. előadás.
A középérték mérőszámai
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
Nem-paraméteres eljárások, több csoport összehasonlítása
Statisztika II. III. Dr. Szalka Éva, Ph.D..
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Matematikai alapok és valószínűségszámítás
Matematikai alapok és valószínűségszámítás
Nemparaméteres próbák Statisztika II., 5. alkalom.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Az F-próba szignifikáns
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Statisztika.
Készítette: Horváth Zoltán (2012)
Kvantitatív módszerek
Leíró statisztika III..
Valószínűségszámítás
Statisztikai módszerek a pedagógiai kutatásban
Hipotézis vizsgálat (2)
Statisztikai módszerek áttekintése módszerválasztási tanácsok Makara Gábor.
Többváltozós adatelemzés
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Lineáris regresszió.
Dr Gunther Tibor PhD II/2.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Számtani és mértani közép
Vargha András KRE és ELTE, Pszichológiai Intézet
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Valószínűségszámítás II.
Átlag, medián.
4. előadás.
A számítógépes elemzés alapjai
Konzultáció – Leíró statisztika október 22. Gazdaságstatisztika.
A számítógépes elemzés alapjai
Leíró statisztika gyakorló feladatok október 15.
Szóródási mérőszámok, alakmutatók, helyzetmutatók
Adatelemzési gyakorlatok
I. Előadás bgk. uni-obuda
Dr. Varga Beatrix egyetemi docens
Adatfeldolgozási ismeretek műszeres analitikus technikusok számára
Adatsorok típusai, jellegadó értékei
5. előadás.
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Rangsoroláson és pontozáson alapuló komplex mutatók
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
4. előadás.
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Mérési skálák, adatsorok típusai
Előadás másolata:

Adatleírás

Mérési skálák Nominális skála Ordinális skála Intervallum skála Arány skála (Bináris skála)

Nominális skála Nevekből álló kategóriális változó az értékek nem rendezhetők sorba (csak az egyenlő/nem egyenlő reláció van értelmezve) Példák: ivar betegség levélalak

Ordinális skála az értékek rangsorba állíthatók (értelmezve van a < és > reláció is) az értékék közötti különbség nem rögzített (ha számokkal kódoljuk, akkor sem lehet a számokkal műveleteket végezni) Példák indikátor-”számok” (pl. hőigény: alacsony, közepes, magas) aggresszív viselkedés (gyenge, közepes, erős intenzitású)

Intervallum skála a változó értékei rangsorba állíthatók az értékek közötti különbségnek van értelme (elvégezhető az összeadás és a kivonás) a skála nulla pontja önkényes (két érték hányadosa, az értékek logaritmusa, négyzetgyöke stb. nem értelmezhető) statisztikai szempontból nagyon hasonló az arány skálához Példák Celsius skála intelligenciahányados

Arány skála a változó értékei rangsorba állíthatók az értékek közötti különbségnek van értelme a skála nulla pontja nem önkényes Példák testsúly magasság növényzet borítása

Bináris skála nominális skála két kategóriával (pl. nem: férfi-nő) ordinális skála két kategóriával (pl. faj előfordul/hiányzik)

Skálatranszformációk I. Skálaszűkítés: magasabb információ-tartalmú skáláról térünk át alacsonyabb információ-tartalmúra. Mindig információ-vesztéssel jár, de ez nem mindig jelentős. Skálabővítés: alacsonyabb információ-tartalmú skáláról térünk át magasabb információ-tartalmúra. Ritkán kerül rá sor, mert kiegészítő információra van szükség.

Skálatranszformációk II. Arány vagy intervallum skála  ordinális skála nem kell átkódolni az adatokat, a legtöbb statisztika kiszámításakor az eredeti értékeket rangszámokkal helyettesítjük Folytonos skála  nominális skála intervallumokon belül minden értéket ugyanazzal a nominális értékkel helyettesítünk

Skálatranszformációk III. Hogyan határozzuk meg az intervallumokat, amikor áttérünk arány skáláról intervallum skálára? szakmailag indokolt határok, ne legyenek nagyon ritka értékek: minden értékből legyen legalább 5 (10).

Adatjellemzés: deszkriptív statisztikák, táblázatok, ábrák Célja: előzetes ellenőrzés pl. eloszlás alakjának előzetes ellenőrzése alapján dönjük el, szükséges-e transzformáció a normális eloszlást feltételező próbák előtt eredmények szemléltetése Az adatok skálájától függ, hogy milyen deszkriptív statisztikákat, illetve milyen típusú ábrákat használhatunk.

Adatfeltárás - hipotézis generálás Probléma: a statisztikai módszerek hibáit csak akkor tudjuk kiszámítani, ha a priori (lehetőleg a kísérlet elvégzése, de mindenképpen az adatok megnézése előtt kitalált) hipotéziseket tesztelünk az adatjellemzés alapján újabb hipotéziseket fogalmazhatunk meg Megoldás:két részre osztjuk az adatainkat, az egyik rész elemzése alapján létrehozott hipotéziseket a másik rész adatain teszteljük Megjegyzés: ha az adatjellemzés célja új hipotézisek létrehozása akkor adatfeltárásnak nevezzük.

Adatjellemzés: nominális skála I. gyakorisági táblázat Megjegyzés: A sorok sorrendje felcserélhető

Adatjellemzés: nominális skála II. hisztogram Megjegyzés: Az oszlopok sorrendje felcserélhető

Adatjellemzés: nominális skála III. módusz és diverzitás módusz: a leggyakoribb kategória (az előző példában az EUA) entrópia:

Adatjellemzés: ordinális skála Ugyanazok a jellemzők használhatók, mint a nominális skálánál A medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Nem mindig számítható ki a mintából, de mindig elvéhezhetők a mediánra vonatkozó próbák!

Adatjellemzés: kontingenciatábla Megjegyzés: Az oszlopok és sorrendje nominális skálán felcserélhető, egyébként nem.

Adatjellemzés: intervallum skála Az arány skálánál tárgyaltak igazak erre a skálára is.

Adatjellemzés: arány skála I. középértékek (számtani) átlag: hátránya, hogy érzékeny a kiugró (outlier) értékekre medián: az adatsor „közepe”, ugyanannyi érték kisebb nála, mint amennyi nagyobb. Kiszámítása: páratlan számú elem esetén az adatsor középső eleme, páros számú elem esetén a két középső elem átlaga Kiugró értékekre az átlagnál kevésbé érzékeny

Adatjellemzés: arány skála II. a szóródás mérőszámai 1. korrigált szórásnégyzet (variancia): korrigált szórás: a variancia négyzetgyöke. az átlag szórása (standard error): Hátrányuk, hogy érzékenyek a kiugró (outlier) értékekre

Adatjellemzés: arány skála II. a szóródás mérőszámai 2. interkvartilis terjedelem: az első és a harmadik kvartilis különbsége. A kvartilisek 4 egyenlő méretű részre osztják a mintát. Az első kvartilisnél a mintaelemek 25%-a kisebb, 75%-a nagyobb, a harmadik kvartilisnél a mintaelemek 75%-a kisebb, 25%-a nagyobb Hátránya, hogy kis mintákból rosszul becsülhető, előnye, hogy (megfelelő mintaméret esetén) a kiugró értékekre a szórásnál kevésbé érzékeny

Adatjellemzés: arány skála III. box-plot 1.

Adatjellemzés: arány skála III. box-plot 2.