Nem-paraméteres eljárások, több csoport összehasonlítása Makara Gábor
A véletlen hiba nem mindig követi a Gauss féle normális eloszlást A megoldás felé több út vezet: transzformálással „normalizáljuk” az eloszlást megvizsgálhatjuk, vajon a módszer kellően robusztus-e? Ha igen alkalmazzuk a szuboptimális módszert.. „Eloszlás-mentes” másszóval „nem-paraméteres” módszereket alkalmazunk (rendezett minták elméletét alkalmazzuk) folytonos eloszlásfüggvényt feltételezünk, azaz azt, hogy az összes mintaelem 1,0 valószínűséggel különbözik
Rang transzformáció A megfigyeléseket nagyság szerint sorba állítjuk A megfigyelések helyett vesszük a sorszámukat. A rangokból számolhatunk rangstatisztikákat. A rangstatisztikák invariánsak a minta elemek minden szigorúan monoton transzformálására. Vegyünk a [0,1] intervallumban egyenletes eloszlású valószínűségi változót, vegyünk ebből egy n elemű mintát, és a rendezett minta k-adik mintaelemének értékére: várható érték: k/(n+1) szórás várható értéke: k(k+1)/(n+1)(n+2) szórásnégyzet várható értéke: k(n-k+1)/(n+1)2(n+2)
Feladatok lehetnek: Eloszlásfüggvény (sürüségfüggvény) becslése (illeszkedés vizsgálat) Eloszlás jellemzők becslése (várható érték, szórás) Hipotézis vizsgálat
Kiinduló feltételezések A mért változó nominális skálán ordinális skálán (rangskálán) numerikus skálán (diszkrét, vagy folytonos) (eloszlása nem standard normális) A null hipotézis eloszlások azonossága a mediánok azonossága A minták száma Lehet 1, 2, >2
A hipotézis vizsgálat kimenetele
Módszerek választása
A döntési küszöbök értékei Elsőfajú hiba (alfa), második fajú hiba (béta) A nem paraméteres módszereknél a béta meghatározása nehéz, a “power”, a módszer ereje gyakran ismeretlen, modellezéssel meghatározható Az optimális próbát kell megkeresnünk! Egy vagy kétoldalú próbát is végezhetünk
Rangösszeg próba
Kruskal-Wallis próba Kettőnél több minta összehasonlítása Modell: Xij=+i+ij Ho : 1 = 2 = 3 = 4 = 5 = …… = n H1 : i nem mind egyenlök Az eljárás: minden megfigyelést együtt rangsorolunk, majd az eredeti adatok mellé irjuk csoportosítva a rangszámokat. A rangszám összegekből számoljuk a H statisztikát, aminek eloszlása 2(k-1, )
Friedman próba A blokk hatás kiküszöbölésére. Modell: Xij = m + ti + bj + eij itt a bj a kiküszöbölendő blokk „hatás” A S t I =0 és a S bj = 0 összefüggések teljesülnek Ho: 1 = 2 = 3 = 4 = 5 = …… = n H1 : i nem mind egyenlök Eljárás: minden blokkban külön rendezzük az adatokat, és helyettesítjük öket a rangszámokkal. S statisztikát számolunk, ami C2 eloszlású
Nem teljes elrendezések (Durbin kritériuma) A blokkok= sorok; az értékelendők (mérendők)=oszlopok;, egy személy 3-at értékel; 1,2,3-as rangsorral A példa bor kóstolásra vonatkozik, * p. 113-114, Vincze-Varbanova Nemparaméteres matematikai statisztikaAkadémiai Kiadó, 1993.
Durbin kritériuma (folytatás) k kezelés van, minden blokkban r darab értékeléssel Minden sorban ugyanannyi a sorösszeg:r(r+1)/2 n számú sor van az oszlopösszegek összege, Rj : nr(r+1)/2 s db rangszám van minden oszlopban Ezekből lehet egy T statisztikát számolni (képlet a *könyvben). Ennek eloszlása C2 , (k-1) és (1-a) kvantilis A példában C26, 0,95 értéke 12,59, éppen nem szignifikáns
Képlet a T statisztika kiszámítására