Rangszám statisztikák
Rangszámok A rangszámok kiszámításához a minta (vagy több egyesített minta) értékeit növekvő sorrendbe rendezzük és ezután minden értéket a rangsorban elfoglalt helyének sorszámával helyettesítünk. Például: eredeti értékek: 3 5 7 8 11 13 15 22 rangszámok: 1 2 3 4 5 6 7 8
Rangszámok Ha vannak egyező értékek, akkor azok a sorszámaik átlagát kapják. Például: eredeti értékek: 3 5 5 8 11 11 11 22 rangszámok: 1 2.5 2.5 4 6 6 6 8 Az ilyen egyezések (angolul ties) számát és hosszát (a példában 2 egyezés van, az egyik hossza 2, a másiké 3) a statisztikák kiszámításakor mint korrekciós tényezőt kell figyelembe venni.
A rangszám statisztikák előnyei kevésbé érzékenyek a kilógó értékekre, mint a paraméteres statisztikák, ordinális skálán is használhatók (ha nincs túl sok egyező érték), nem feltételeznek az adatokról valamilyen nevezetes gyakoriságeloszlást.
A rangszám statisztikák hátrányai ha a paraméteres statisztika alkalmazási feltételei teljesülnek (vagy legalábbis nem sérülnek nagyon) a rangszám statisztikák ereje lényegesen kisebb mint az analóg paraméteres statisztikáké bonyolultabb kísérleti elrendezések értékelésére nem használhatók Megjegyzés: minden rangszám statisztikák párba állítható ugyan 1-1 paraméteres statisztikával, de a tesztelt mull-hipotézis egyik esetben sem teljesen azonos
Mann-Whitney U teszt (Wilcoxon teszt)
A próba célja két alapsokaság mediánjának összehasonlítása a kétmintás t-próba nemparaméteres analógjának szokták tekinteni, de a t-próba a várhatóértékre vonatkozó null-hipotézist teszteli a medián és a várhatóérték is középérték, de csak a szimmetrikus eloszlásoknál esnek egybe
A próba feltételei a valószínűségi változó folytonos a két sűrűségfüggvény alakja megegyezik (azonos szórás!) független mintaelemek
A próba logikája egyesítjük a mintákat, az egyes értékeket rangszámokkal helyettesítjük, és mindkét mintában kiszámítjuk a rangszámok összegét ha a két alapsokaság mediánja azonos, akkor a két minta rangszámainak összege is közel azonos. ha viszont az egyik alapsokaság mediánja lényegesen magasabb, akkor a belőle vett minta rangszámösszege is lényegesen magasabb lesz
Kétoldali próba H0: a két minta mediánja azonos H1: a két minta mediánja különböző A próbastatisztika: Wilcoxon W = a nagyobbik rangszámösszeg Mann-Whitney U = azoknak a mintaelemeknek a száma, amelyek a másik minta összes eleménél nagyobbak. Mindkét mintára ki kell számolni, és a nagyobbikat használni. a két mintaelemszám ismeretében a W és az U érték átszámítható egymásba kis mintaméretnél egzakt teszt közelítés normális eloszlással - akkor működik jól, ha mindkét minta nagy és nincs sok egyezés
Egyoldali próba H0: a két minta mediánja azonos H1: az első minta mediánja nagyobb az első fajú hiba valószínűsége az egzakt tesztnél külön kell kiszámolni az aszimptotikus közelítésnél a kétoldali próbánál kapott érték fele
(non-parametric ANOVA) Kruskal-Wallis teszt (non-parametric ANOVA)
A próba célja kettőnél több alapsokaság mediánjainak összehasonlítása az elsőfajú hiba valószínűségének megnövekedése miatt nem végezhetünk Mann-Whitney próbát minden párosításban az ANOVA nemparaméteres analógjának szokták tekinteni, de az ANOVA a várhatóértékre vonatkozó null-hipotézist teszteli
A próba feltételei a valószínűségi változó folytonos a két sűrűségfüggvények alakja megegyezik (azonos szórás!) független mintaelemek
A próba logikája egyesítjük a mintákat, az egyes értékeket rangszámokkal helyettesítjük, és mindem mintában kiszámítjuk a rangszámok összegét ha az alapsokaságok mediánjai azonosak, akkor a minták rangszámainak átlaga is közel azonos. ha a minták rangszámainak átlagai közel azonosak, akkor a a rangszámok főátlagától sem térnek el nagyon
H0: a minták mediánjai azonosak H1: a legalább egy mintapár mediánjai különbözőek A próbastatisztika: a minták rangszámátlagainak varianciája, korrigálva a mintamérettel és az egyezésekkel (ties) kis mintaméretnél egzakt teszt közelítés khi-négyzet eloszlással - akkor működik jól, ha minden minta nagy és nincs sok egyezés Ha szignifikáns: Dunn’s post hoc teszt