Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet Teaching Mathematics and Statistics in Sciences HU-SRB/0901/221/088 A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, 2011. május 19-21. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
Egy kis bevezetés Egy matematikus, egy alkalmazott matematikus és egy statisztikus mindhárman egy bizonyos munkára jelentkeztek. A felvételi beszélgetésen megkérdezték tőlük, hogy mennyi 1+1? Matematikus: Be tudom bizonyítani, hogy létezik, de azt nem, hogy csak egy megoldás van. Alkalmazott matematikus: A válasz közelítően 1.99, a becslés szórása 0.01. Statisztikus (kilépett a szobából, majd hirtelen visszatért és érdeklődött): tehát mit szeretnétek, mennyi legyen? http://www.ilstu.edu/~gcramsey/Gallery.html Biostatisztikai alapismeretek Boda Krisztina
Ajánlott irodalom Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007. Biostatisztikai alapismeretek Boda Krisztina
Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban. Medicina Kiadó Biostatisztikai alapismeretek Boda Krisztina
Ajánlott irodalom Gachályi Béla (szerk.) - Lakner Géza (szerk.): Klinikai farmakológia a gyakorlatban - A humán klinikai gyógyszerfejlesztés módszertana. Statisztikai alapelvek fejezet (Singer Júlia) SpringMed Kiadó Biostatisztikai alapismeretek Boda Krisztina
Amiről szó lesz Hipotézisvizsgálatok, kiemelve a következőket: Populáció, minta, leíró statisztikák A véletlen ingadozás vizsgálata, a statisztikai próbák elve Konfidenciaintervallum és a statisztikai szignifikancia Egyváltozós statisztikák, mikor mit? t-próbák, 2 próbák, korreláció/regresszió Többszörös összehasonlítások problémái Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek, kockázati tényezők Elemszámbecslés, statisztikai erő számítása Biostatisztikai alapismeretek Boda Krisztina
Populáció (sokaság), minta Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Példák Adathalmazok Minta Sokaság Gyógyszerészhallgatók egy csoportja által kitöltött kérdőívek 20 egészséges nő vérnyomásértékei … Sokaság Gyógyszerészhallgatók hallgatók Általában az egészséges nők vérnyomása … Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Minta Sokaság (megközelíti) Kategóriás változó lehetséges értékeinek gyakoriságai, relatív gyakoriságai A változó (sokaság) eloszlása Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Minta Sokaság Egy folytonos változóról készített hisztogram (megközelíti) Egy folytonos változóról készített hisztogram A folytonos változó eloszlását (sűrűségfüggvényét) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Minta Sokaság Átlag (x) Standard deviáció (SD) (megközelíti) Átlag (x) Standard deviáció (SD) Medián Sokaság-átlag (ismeretlen) A sokaság standard deviációja (ismeretlen) A sokaság mediánja (ismeretlen) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az eloszlás közepének jellemzése Átlag: Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a „két középső elem” átlaga Példaadatok: 1 2 4 1 átlag=(1+2+4+1)/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: 1 1 2 4 Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Kvartilisek, percentilisek: 25%-os percentilis (első kvartilis): az a szám, aminél az adatok 25%-a kisebb. A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az adatokat. A szóródás megadására használják a 25%-os és 75%-os kvartilist A variancia A standard deviáció: az adatok szóródása az átlag körül Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Példa. A szóródás jellemzői Adatok: 1 2 4 1, rendezve: 1 1 2 4 Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: 1 1-2=-1 2 2-2=0 4 4-2=2 Összeg 6 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az átlag szórása, standard error of mean, SE, SEM Azt fejezi ki, hogy az átlag, amit a mintából számoltunk, mennyire megbízható. Ha többször is meg tudnánk ismételni a mérést (végtelen sokszor), akkor mindegyik mérés-sorozat átlagának a szóródását mutatja a populáció átlag körül Számítása: SE=SD/n Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Standard deviáció vagy standard error?? Standard deviáció, SD: a minta szórása, a mintaadatok szóródása az átlag körül. Normális eloszlás esetén az átlag 2SD-n belül van az adatok kb. 95%-a Standard error (SE=SD/n): az átlag megbízhatósága, a mintaátlag szóródása az (ismeretlen) populáció átlag körül. Normális eloszlás esetén az átlag 2SE-n belül van az igazi átlag kb. 95%-os valószínűséggel. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Normális eloszlások Jelölés: N(, ) A hisztogramot „kisimító” görbe gyakran szimmetrikus, egycsúcsú, harang alakú görbe. Ez a görbe egyértelműen leírható két paraméterrel: a középpel és a standard deviációval (szórás). Az ábrán a kék vonalat a mintából számolt átlag és szórás alapján rajzoltuk be. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A 68-95-99.7 szabály Egy és paraméterekkel meghatározott normális eloszlás esetén: A megfigyelések 68% -a esik a középtől egyszeres távolságra A megfigyelések 95% -a esik a középtől kétszeres távolságra A megfigyelések 99.7% -a esik a középtől 3-szoros távolságra Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az eloszlás elképzelése adott átlag és szórás (SD) alapján (normális eloszlást feltételezve) A cikkekben a táblázatok leggyakrabban az átlagot és a szórást ismertetik. Ezek alapján el tudjuk képzelni, milyen lehet az eloszlás Pl. életkor (év) 55.2 15.7 86.6 23.8 Ebben az intervallumban van az adatok 95.44%-a Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az SD ferde eloszlások esetén Stent length per lesion (mm): 18.8 10.5 Ezekkel a paraméterekkel a következő eloszlás képzelhető el: A szórás a ferde eloszlás miatt lett „nagy”. Ezért gyakran a standard deviáció helyett a standard errort adják meg a táblázatokban vagy ábrákon. Az valóban kisebb, de mást jelent. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A közép és a szóródás jellemzőinek „párosítása” Közlés cikkekben Átlag Standard deviáció, Standard error Átlag (SD) Átlag SD Átlag SE Átlag SEM Medián Min, max 5%-os, 95%-os percentilis 25 % , 75% (Kvartilisek) Med (min, max) Med(25%, 75%) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Ábratípusok a számolt jellemzők alapján Átlag-szórás ábra Átlag + SD Átlag + SE Átlag + 95% CI Átlag SE Átlag 95% CI Átlag SD Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Ábratípusok a számolt jellemzők alapján Doboz-ábra (box diagram) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Hipotézisvizsgálatok A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai minta) alapján az egész jelenség (populáció) tulajdonságaira következtetünk. Azt vizsgáljuk, hogy a tapasztalt eredmény (különbség) nagyobb-e, mint amit a véletlen önmagában okoz. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Mintavétel, szimuláció Legyen a populáció 120 átlagú, 10 szórású normális eloszlás, ebből veszünk 50 elemű mintákat Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
120 átlagú, 10 szórású populációból származó 50 elemű minták (ismételt mérések) átlagai és szórásai Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Mekkora lehet a véletlen ingadozás? A minták átlagai 120 körül ingadoznak, ha „nem történik semmi”, csak sima ismétlés Két mérés különbségének átlaga a 0 körül ingadozik Mekkora az a különbség, amit már nem a véletlen okoz? Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Hipotézisek Nullhipotézis: véletlen ingadozást mértem, „semmi nem történt”. A különbség 0 körül ingadozik Alternatív hipotézis: a véletlen ingadozásnál nagyobbat mértem, „valami történt” A különbség 0-tól eltérő szám körül ingadozik ??? Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A nullhipotézis fennállása esetén ismerjük a különbség-átlag eloszlását Pontosabban: az abból számolt t-statisztika eloszlását ismerjük t=különbség átlag/különbség SE Ha igaz a nullhipotézis (igazából nincs különbség a populáció átlagok között), a t-érték nagy valószínűséggel (95%) ide esik. A kimaradó valószínűség 5% () Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Statisztikai próba: kiszámítjuk adatainkból a t=átlag/SE próbastatisztikát és megnézzük, hova esik Döntés: az eltérés nem szignifikáns |t|<ttábla Döntés: az eltérés szignifikáns |t|>ttábla Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Döntési szabály p-érték alapján p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Annak valószínűsége, hogy a puszta véletlen legalább ekkora különbséget okoz p>, a különbség nem szignifikáns adott szinten p<, a különbség szignifikáns adott szinten Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Miért éppen 5%? A tévedés valószínűségét mi állapítjuk meg előre, még a kísérlet megkezdése előtt. Tehát egyáltalán nem kötelező a 95% illetve az 5% betartása, mégis ez a kialakult „szokásrendszer”. Oka*: „Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket … A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. „Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt van, az elég erősen arra vall, hogy hipotézisünk nem elegendő magyarázat a tényekre. Talán nem tévedünk majd túl gyakran, ha a határvonalat 0,05-nál húzzuk meg...” . Fontos itt megjegyeznünk, hogy Fisher mindig is hangsúlyozta: a p-érték interpretálása végső soron a kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez.” *Sifting the evidence—what's wrong with significance tests? Jonathan A C Sterne, George Davey Smith, BMJ 2001;322:226–31 *A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal? Jonathan A. C. Sterne, George Davey Smith. BMJ Magyar Kiadás 2001;3:175-80. http://www.lam.hu/folyoiratok/bmj/0103/17.htm Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A konfidenciaintervallum fogalma (bizonyossági intervallum) Olyan, a mintaelemekből számolt intervallum, amely nagy valószínűséggel tartalmazza a populáció-paraméter valódi (ismeretlen) értékét Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a mintaelemekből számolt intervallum, ami 95% valószínűséggel tartalmazza a populáció valódi átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatósági szint) tőlünk függ. Szokásos értékei: 0.90, 0.95, 0.99 ) A becslés „hibája” (-val jelöljük) a megbízhatósági szint függvényében 1-0.90=0.1, 1-0.95=0.05, 1-0.99=0.01 Leggyakrabban használt megbízhatósági szint 95% (0.95), tehát -ra leggyakrabban =0.05 értéket alkalmazzák. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az átlagra vonatkozó 95%-os bizonyossági intervallum szemléltetése az adott kísérlet képzeletbeli ismétléseivel http://www.kuleuven.ac.be/ucs/java/index.htm Ha a kísérletet képzeletben 100-szor megismételnénk, a 100 kapott 95%-os konfidencia intervallum közül várhatóan 95 fogja tartalmazni a populáció átlagát, és 5 nem. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Szignifikancia és a konfidenciaintervallum A mintát az adott (átlagú) populációból vettük. A populációátlag =0. Ez lehet pl. annak a nullhipotézisnek megfelelő eloszlás, hogy a kezelés előtti és a kezelés utáni populációátlag ugyanaz. A konfidenciaintervallum tartalmazza az adott átlagot – jelen esetben a nullát. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Szignifikancia vizsgálatok és a konfidenciaintervallum kapcsolata (H0: μ1= μ2, azaz μ1- μ2 =0, Ha: μ1 μ2) p-érték szignifikancia 95% CI (p1 – p2)-re p<0.05 szign. 5%-os szinten pl. (4.5, 10.7) 0 nincs benne a konf. intervallumban p > 0.05 nem szign. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. intervallumban Szignifikáns, p<0.05 Szignifikáns. p<0.05 Nem szignifikáns, p>0.05 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk, akkor a konfidenciaintervallumban az 1-et keressük Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Ha van két adatsorom, mikor „kell” t-próbát (és akkor melyiket), khi-négyzet próbát, vagy korrelációt stb… számítani??? Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A próba megválasztása függ Az analízis céljától (összehasonlítás vagy kapcsolat) Az adatok típusától A kísérleti elrendezéstől …. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
t-próba „Szokásos” ábrák átlagokat hasonlít. Akkor alkalmazzuk, ha két csoportban folytonos változóink vannak, amelyekből van értelme átlagot számolni (pl. kor, vérnyomás, stb.) Feltétele: Normalitás Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
2 (khi-négyzet) próba Gyakoriságokat (%-okat), „Szokásos” ábrák Gyakoriságokat (%-okat), (gyakorisági eloszlásokat hasonlít) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Korreláció-regresszió Két folytonos változó lineáris kapcsolata Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A hipotézisvizsgálat menete Hipotézisek felállítása Nullhipotézis: semmi nem történt Alternatív hipotézis: valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az elemszámtól) Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns %-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Egy minta esete: egymintás t-próba Két minta esete: Normális eloszlást feltételezve, az átlagok összehasonlítására használható próbák Egy minta esete: egymintás t-próba Két minta esete: Összetartozó minták: (előtt-után, baloldal-jobboldal): páros t-próba= egymintás t-próba a különbségekre Független minták (placebo-kezelés, férfi-nő, beteg-egészséges): kétmintás t-próba Azonos szórások esetén „klasszikus” Különböző szórások esetén „módosított” (Welch, D) Szórások egyezésének tesztelése: F-próba, Levene-próba Több (>2) minta esete: varianciaanalízis Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Egymintás t-próba Egy kezelés során szükségessé vált annak ellenőrzése, hogy az milyen hatással van a vérnyomásra. A vizsgált paciensek korcsoportjában a systolés vérnyomás normálértéke 120. n=9 személyt megmérve a következő értékeket kapták: 182.00 152.00 178.00 157.00 194.00 163.00 144.00 114.00 174.00 (átlag=162, SD=23.92 . Mondhatjuk-e a mintaadatok alapján, hogy az adott korcsoport populációjában az átlagos vérnyomás 120 Hgmm? Nullhipotézis (HO): A populáció átlag 120, =120 Alternatív hipotézis (Ha): A populáció átlag nem 120 , 120 (kétoldalas) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Döntési szabály a konfidencia intervallum alapján Konfidencia intervallum alapján: adjuk meg a populáció-átlagra vonatkozó 95%-os konfidencia intervallumot! A konfidencia intervallum: (átlag - t*SE, átlag + t * SE )= (162-2.306*23.92/9, 62+2.306*7.97)=(143.61,180.386) Döntési szabály a konfidencia intervallum alapján: benne van-e az adott szám a konfidencia-intervallumban? Ha igen: a különbség nem szignifikáns adott szinten Ha nem: a különbség szignifikáns adott szinten Esetünkben 120 nincs benne a konfidencia intervallumban, tehát a különbség szignifikáns 5%-os szinten Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Döntési szabály a t-érték alapján Számítsuk ki a t-értéket: t= (átlag - c)/SE=(162-120)/7.97=5.26. szabadságfok: n-1=9-1=7 és hasonlítsuk az abszolút értékét a t8,0.05=2.306 táblázatbeli értékhez : 5.26>2.306 Döntési szabály: ha |t|>ttábla, a különbség szignifikáns adott szinten Az elfogadási tartomány a változó azon értékeinek halmaza, amelyekre elfogadjuk a nullhipotézist (- ttábla ,ttábla) A kritikus tartomány ennek ellentettje. A kritikus tartomány értékeire a nullhipotézist nem fogadjuk el. Esetünkben a különbség szignifikáns 5%-os szinten Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Döntési szabály a p-érték alapján p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Ha a p<, akkor a különbség szignifikáns adott szinten Esetünkben p=0.001<0.05 Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Páros t-próba Önkontrollos kísérlet, vagy Más módon összetartozó adatok: Jobb oldal-bal oldal Illesztett párok- matched pairs (különböző személyek, de a kísérlet szempontjából párba állíthatók) Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen) Alternatív hipotézis: a két minta-átlag két különböző populáció-átlagnak a közelítése (van hatás) Döntési szabály: Konfidenica intervallum a különbségre t-érték számítás és összehasonítás a táblázattal p-érték (szoftver) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Páros t-próba, példa (folyt). Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: HO: előtt= után or különbség= 0 (c=0)!! HA: előtt ≠ után or különbség ≠ 0 Legyen =0.05. A szabadságfok=10-1=9, ttáblázat=t0.05,9=2.262 átlag=4, SD=3.333 SE=3.333/10=1.054 Döntés a konfidenciaintervallum alapján: 95%CI: (4-2.262*1.054, 4+2.262*1.054)=(1.615, 6.384) Ha H0 igaz, akkor a 0 benne van a konfidencia-intervallumban Most 0 nincs benne a 95%-os konfidencia-intervalluman, ezért döntésünk az, hogy a különbség szignifikáns 5%-os szinten, a kezelés hatásos volt Az átlagos súlyveszteség 4 kg, ami akár 6.36 is lehetne, de minimum 1.615, 95% valószínűséggel. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Páros t-próba, példa (folytatás) Döntés a próbastatisztika alapján (t-érték: Azt hasonlítjuk a táblabeli kritikus értékhez. |t|=3.795>2.262(=t0.05,9), a különbség szignifikáns 5%-os szinten Döntés p-érték alapján: p=0.004, p<0.05, a különbség szignifikáns 5%-os szinten Elfogadási tartomány tszámított, próbastatisztika ttábla, kritikus érték Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Példa az orvosi irodalomból V Példa az orvosi irodalomból V. Lindén: Vitamin D and Myocardial Infarction. BMJ 1974,3,647-650 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kísérleti elrendezések Páros t-próba Minden egyedet kétszer vizsgálunk 1. 2. x1 y1 x2 y2 … … xn yn Kétmintás t-próba Minden egyedet csak egyszer vizsgálunk, és mindegyik egy és csak egy csoportban lehet. Csoport Mérések 1 x1 1 x2 … … 1 xn 2 y1 2 y2 2 ym Az elemszám nem feltétlenül azonos a két mintában Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kétmintás t-próba Két független minta összehasonlítása Feltételek: A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Különböző varianciák esetén: Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kétmintás t-próba Két független minta összehasonlítása Feltételek: A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Azonos varianciák esetén: Szabadságfok: n+m-2 Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A varianciák összehasonlítása Ha:21 > 22 vagy 21 > 22 (egyoldalú próba) A próbastatisztika (F): a nagyobbik standard deviáció négyzetét osztjuk a kisebbel: Szabadságfokok: nagyobb SD-hez tartozó minta elemszáma-1 Kisebb SD-hez tartozó minta elemszáma-1 Döntés: F táblázat alapján Ha F>Fα,táblázat, a két variancia szignifikánsan különbözik α szinten Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az F-eloszlás táblázata (részlet) α=0.05 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Példa Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Eredmény SPSS-sel A varianciák összehasonlítása. p=0.93>0.05, nem szignifikáns. Elfogadjuk a varianciák azonosságát Az átlagok összehasonlítása (t-próba). Első sor: egyenlő varianciák esete. t=6.657, df=16, p<0.001 Az átlagos vérnyomás szignifikánsan különbözik a két populációban 5%-os szinten Második sor: az átlagok összehasonlítása (t-próba) különböző varianciák esetén. Most nem használjuk fel az itt található információt, mert elfogadtuk a varianciák azonosságát Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kategórikus változók elemzése 2 próbák (khi-négyzet) Két kategóriás változó kapcsolata. Pl. 2 közúti ellenőrzés során az ittasok aránya 1.5% ill. 0.5 % Pl. a sikeres műtétek gyakorisága 2 féle eljárás esetén 33.3% és 66.6%*. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
2x2-es táblázatok A gyakoriságok kontingencia táblázatba rendezhetők. 2 formula könnyen számítható Yates korrekció: pontosabb közelítés Ha a várt gyakoriságokra vonatkozó feltétel nem teljesül: Fisher féle egzakt próba Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
2 próba az 1*. példa adataira Nullhipotézis: Az ittasság aránya azonos a két vizsgálatban, az ittasság független attól, hogy mikor nézték. Gyakorisági táblázat (amiből számolunk) A függetlenség esetén várható gyakoriságok 2=2.205, p=0.137 , nem szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) – nem teljesül!!! Megoldás: Fisher próba (p=0.216) *Bernholdt HPB, Dubben HH. A tojást rakó kutya.Budapest:Magyar Könyvklub; 2001. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
2 próba a 2. példa adataira Nullhipotézis: A siker valószínűsége azonos a két eljárás esetén. Az eljárás sikeressége független attól, hogy új vagy hagyományos eljárásról van-e szó. Gyakorisági táblázat (amiből számolunk) 2=5.406, p=0.02 , szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) teljesül!!! ( Fisher próba p=0.038) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
2x3-as kontingencia táblázat Két kategóriás változó kapcsolata. Pl. diabetes gyakorisága a 3 csoportban csoportban: 31%, 27% és 25%*. Kérdés: különbözik-e a diabetes gyakorisága az egyes csoportokban? DIAB CS1 Cs2 Cs3 Total yes 31 27 25 83 no 69 73 75 217 100 300 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A 2 próba végrehajtása, feltételei H0 teljesülése esetén a várt gyakoriságok számítása (Ei=sorösszeg*oszlopösszeg/total) 2 statisztika számítása: 2 =Σ(Oi-Ei)2/Ei Szabadságfok: sorok száma-1)*(oszlopok száma-1) Döntés táblázat alapján: 2 > 2 táblázat, , df Feltétel: 5-nél kisebb várt gyakoriságot tartalmazó cellák száma max. 20% Egzakt tesztek (Fisher): nincs feltétele, a pontos p-értéket adják 2 =0.933 Df=(3-1)*(2-1)=2 0.933<5.99(= 2 táblázat, 0.05,2) p=0.627 Teljesül Egzakt p=0.663 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Korreláció-regresszió: két folytonos változó közötti (lineáris) kapcsolat vizsgálata. A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra). Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot. A két változó mért értékeivel mint koordinátákkal berajzoljuk a megfelelő pontokat. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Lehetséges kapcsolatok Negatív korreláció Pozitív korreláció Nincs korreláció Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r ) és tulajdonságai A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1r 1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között. b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció. c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kiugró értékek hatása Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt. r=-0.21 r=0.74 r=0.998 r=-0.26 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A korreláció csak a lineáris kapcsolat szorosságát méri Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi r=2.8 E-15 r=0.157 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A korreláció nem jelent oksági kapcsolatot Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A korrelációs együttható szignifikanciája Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H0: ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) Ha: ρ ≠ 0 (a populációs korrelációs együttható ≠ 0) Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ Döntés t-táblázat alapján: Ha |t|>tα,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Ha |t|<tα,n-2, a különbség nem szignifikáns α szinten, nem vetjük el a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható nem tér el 0-tól.. Döntés p-érték alapján: Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A lineáris kapcsolat becslése: lineáris regresszió Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A legkisebb négyzetek elve ->min A korrelációs együttható kiszámítása a regressziós együttható segítségével Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A determinációs együttható, r2 A korrelációs együttható négyzete 100-zal szorozva a determinációs együttható. Megadja, hogy az y (függő) változó össz-varianciájának hány %-a magyarázható az x-től való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r =0.9989. A determinációs együttható, r2 = 0.917 . Tehát a nyelvtudás össz-szóródásának 91.7%-a magyarázható a matematikától való lineáris függésével. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Regresszió transzformációk alkalmazásával. Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat . Az alakzat exponenciális kapcsolatot sejtet. Ha az y logaritmusát vesszük, az x és ln(y) közötti kapcsolat lineáris lesz Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A próbák feltételeinek figyelembe vétele: paraméteres és nemparaméteres próbák Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Rangsoroláson alapuló eljárások (nemparaméteres próbák egyik fajtája) Mi van, ha a t-próba feltételei (normalitás, varianciák azonossága) nem teljesül??? Transzformációk alkalmazása (log, négyzetgyök, arcsin, …) Nemparaméteres próbák – rangsoroláson alapuló eljárások Akkor alkalmazhatjuk, ha A paraméteres próbák feltételei nem teljesülnek Nem tudjuk ellenőrizni (kis elemszám) Nem akarjuk ellenőrizni Ordinális változók (mennyire örülök a tavasznak??? Kicsit-közepesen-nagyon) Csak az adatok nagyságrendje számít, az nem, hogy mennyivel nagyobb egyik adat a másiknál Számítás: rangsorolás alapján De: nem ugyanazt a nullhipotézist tesztelik, mint a paraméteres próbák. Tehát nem tekinthetők úgy, mint a paraméteres próbák nem paraméteres „megfelelői”. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Leggyakrabban alkalmazott nemparaméteres próbák Két összetartozó minta: Előjelpróba Előjeles rangpóba (Wilcoxon próba, Wilxocon’s signed rank test) Két független minta: Mann-Whitney U-próba Több összetartozó minta: Friedman próba Több független minta: Kruskal-Wallis próba Kategóriás adatok elemzése (2 próbák) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Egy- és kétoldalas próbák Kétoldalas próba H0: nincs változás Ha: van változás (bármilyen irányú) Egyoldalas próba H0: az átlag nem növekedett Ha: az átlag növekedett p-értékek esetén: p(egyoldalas)=p(kétoldalas)/2 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A szignifikancia értelmezése Szignifikáns különbség – p< , p<0.05. Az összehasonlított populációkról azt állítjuk, hogy különbözők. A döntés hibavalószínűsége kicsi (maximum - ez az ún. első fajta hiba – Type I. error). Nem szignifikáns különbség – p> , p>0.05. Ilyenkor csak annyit tudunk mondani, hogy nincs elegendő információ a különbség kimutatására. Lehet, hogy Valóban nincs is különbség Van különbség, csak kevés volt az elemszám Nagy volt a szórás Rossz volt a vizsgálati módszer … A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai szempontból jelentős-e A statisztikai szignifikancia megadásakor a p-érték feltüntetése is célszerű. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Több csoport, minta átlagainak összehasonlítása Pl. 4 féle „kezelés” Pl. több időpontban végzett mérések, a csoportok összehasonlítása minden egyes időpontban 3 3 mM mM K+ K 5 5 mM mM K K+ Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Miért nem jó, ha t-próbákat végzünk páronként? Mert a véletlen is okozhat „szignifikáns” eredményt – ha =0.05, akkor átlagosan minden 20-adik esetben. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Ugyanazon populációból származó minták páronkénti összehasonlítása t-próbával Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Emiatt hibás több csoport esetén az átlagok összehasonlítására páronkénti kétmintás t-próbákat végezni, vagy két csoport esetén több összefüggő változót szintén kétmintás t-próbákkal vagy más, egyváltozós eljárással összehasonlítani, korrelációjukat vizsgálni – tehát bármely egyváltozós módszert ismételten alkalmazni. Nem tudhatjuk ugyanis, hogy a szignifikáns eredmények közül melyek tulajdoníthatók a véletlennek, és melyek tükröznek valódi különbséget. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Megoldás: sok t-próba helyett egyetlen varianciaanalízis Az egyedi p-értékek korrekciója Bonferroni Holm FDR (False Discovery Rate) … Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Bonferroni korrekció Adott (H01 és H02 és... H0n ) nullhipotézis, a hozzátartozó szignifikanciaszint 1, 2, …, n Hogyan válasszuk meg i-t ahhoz, hogy a (H01 és H02 és... H0n ) hipotézis szignifikanciszintje ne legyen nagyobb, mint egy kiválasztott ? (0,1) A p-értéket osztjuk az összehasonlítások számával. (H01 és H02 és... H0n )-t elvetjük, ha legalább egy pi</n Tehát 5 hipotézis esetén =0.05 helyett =0.01 szinten kell szignifikánsbak lenni bármelyik hipotézisnek, hogy az együttes döntés hibája maximum 0.05 legyen. Sok összehasonlítás esetén túl konzervatív módszer (nem mutat ki valós különbségeket sem). Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Egyedi p-értékek korrekciója a SAS rendszerrel The SAS System The Multtest Procedure p-Values False Stepdown Discovery Test Raw Bonferroni Hochberg Rate 1 0.9999 1.0000 0.9999 0.9999 2 0.2318 0.9272 0.9272 0.5795 3 0.3771 1.0000 0.9999 0.6285 4 0.8231 1.0000 0.9999 0.9999 5 0.0141 0.0705 0.0705 0.0705 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Egyszempontos ANOVA Adott több független minta Cél az átlagok összehasonlítása Feltételek: Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a minták független minták (egy egyed csak egy csoportba kerülhet). Az összehasonlítandó értékeket tartalmazó változó folytonos. A minták normális eloszlású populációból származnak. Azok a populációk, amelyekből a minták származnak, azonos varianciájúak. Nullhipotézis: A független minták azonos eloszlású populációból származnak, azaz a populáció-átlagok megegyeznek Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Példa Egy kísérletben (Farkas és mtsai, 2003.) lokális iszkémiának alávetett, izolált patkányszívben a szívfrekvencia és a QT szakasz hosszának változását vizsgálták három antiaritmiás gyógyszer hatására. 5 Mm K+ kálium ion koncentráció esetén, 25 perccel a lokális iszkémia után a QT szakasz hosszára a 4.8. táblázatban látható értékeket kapták. Vizsgáljuk meg, hogy a 4 csoportban van-e különbség a QT szakasz átlagos hosszában! Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Módszer Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja: Csoportok közötti Csoportokon belüli Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, akkor a populációban a csoportok közötti és a csoportokon belüli variancia is megegyezik. A kettő hasonlításával lehet következtetni az átlagok azonosságára. ‘új’ nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli variancia megegyezik. Tesztelése: a két variancia becslését táblázatban tüntenjük fel. A próbastatisztika a két variancia hányadosa, tesztelése: F-próba (egyoldalas). Egy p-értéket ad: ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0) ha p<0.05, akkor van az átlagok között különböző Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A varianciaanalízis táblázata példafeladat adataira F(3,19)=14.426, p<0.001, a különbség szignifikáns, csoport-átlagok között van legalább egy, a többitől eltérő Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Páronkénti hasonlítások Módosított t-próbák (LSD) Bonferroni Scheffé Tukey Dunnett- egy kontrollhoz hasonlítja a többi csoportot Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A „post-hoc” összehasonlítás veszélyei Ideális esetben a kísérlet előtt már tudnunk kell, hogy mely csoportok közötti különbség érdekel bennünket. A gyakorlatban mégis gyakori, hogy a kísérlet elvégzése után kapott eredmények ismeretében előre nem tervezett összehasonlításokat is elvégezünk. Ha pl. két csoport között nem vártunk eltérést, mégis nagyon különböző átlagokat kaptunk, késztetést érezhetünk arra, hogy ezt a különbséget is teszteljük. Ha csak a legnagyobb eltérést mutató csoportok közötti különbséget hasonlítjuk össze, annak valószínűsége, hogy szignifikáns különbséget kapunk, nagyobb lesz ahhoz képest, mintha két, a vizsgálat megkezdése előtt véletlenszerűen választott különbség-párt tesztelnénk. Ilyen esetben a kísérletre vonatkozó első fajta hiba megnő, nagyobb lesz az előre deklaráltnál. A konzervatívabb többszörös összehasonlítási módszerekkel megkereshetjük, mely átlagok különböznek melyektől, minden lehetséges párt összehasonlítva. Ha a csoportok páronkénti összehasonlítását azután végezzük, miután a kísérletet elvégeztük, ezeket a konzervatív módszereket kell alkalmaznunk. Egyedül Scheffé módszere enged meg ilyen utólagos „kutakodást”. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A szívfrekvencia elemzése ismételt méréses varianciaanalízissel Vizsgálható: Kálium hatása (kezelés) Idő hatása Interakció: a kálium-hatás nagysága függ-e az időtől? * * * A szívfrekvencia magas kálium-ion koncentrációnál átlagosan szignifikánsan magasabb; függetlenül az időponttól Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Relatív kockázat számítás 2x2-es táblázatok alapján Prospektív (kohorsz) vizsgálatokban számítható Vizsgált tényező előfordulásának valószínűsége (kockázat) az 1. csoportban: p1=a/(a+c) a 2. csoportban: p2=b/(b+d) Relatív kockázat: a tényező fennállása esetén hányszorosára változik a kockázat RR=p1/p2=[a/(a+c)]/[b/(b+d)] Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Esélyhányados számítás 2x2-es táblázatok alapján Retrospektív (eset-kontroll- case-control) vizsgálatokban számítható Ilyenkor nem tudunk kockázatot becsülni, hiszen a csoport létszámát (a nevezőt ) mi állapítottuk meg Vizsgált tényező előfordulásának esélye az 1. csoportban: a:c a 2. csoportban: b:d Esélyhányados: a tényező fennállása esetén hányszorosára változik az esély OR=(a/c)/b/d) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Diagnosztikus eljárások összehasonlítása Referencia teszt Összeg Új módszer + - a b a+b c d c+d a+c b+d a+b+c+d Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Referencia teszt Össz. Új módszer Pozitív Negatív 231 32 263 27 54 81 231 32 263 27 54 81 Összesen 258 86 344 Szenzitivitás: 231/258=0,9. A valóban pozitívak közül mennyit ítélt az új módszer is pozitívnak Specificitás: 54/86=0,63. A valóban negatívak közül mennyit ítélt az új módszer is negatívnak Pozitív prediktív érték: 231/263=0,88. Az új módszer szerinti pozitív esetek közül mennyi a valóban pozitív Negatív prediktív érték: 54/81=0,67. Az új módszer szerinti negatív esetek közül mennyi a valóban negatív Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 5-nél „elvágva”: 32 betegből 18-at helyesen osztályozok, szenz=18/32=0.56. 93 egészségesből 92-t osztályozok helyesen, 1-et hibásan, spec=92/93=0.9892 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 7-nél „elvágva”: 32 betegből 18+7=25-öt helyesen osztályozok, szenz=25/32=0.78. 93 egészségesből 75-t osztályozok helyesen, 18-at hibásan, spec=75/93=0.8065 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 9-nél „elvágva”: 32 betegből 18+7+4=29-et helyesen osztályozok, szenz=29/32=0.9063. 93 egészségesből 39-t osztályozok helyesen, spec=39/93=0.194 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
ROC görbe Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
„Optimális” szétválasztás Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe ROC görbe, Hatásfokmérő karakterisztika (Receiver operating characteristic) Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe A görbe alatti terület alkalmas mérték különböző módszerek hasznosságának, prediktív erejének összehasonlítására, a nagyobb érték nagyobb prediktív erőt jelent. Teljes szétválasztás esetén a görbe háromszöggé válik, a görbe alatti terület =1. Teljes egyezés esetén a görbe a zölddel jelzett átlóba megy át, ekkor a terület 0.5. A ROC görbe segíthet valamely diagnosztikai próba küszöbértékének kiválasztásában is. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
ROC görbe alatti terület ROC = 0,5 Nem használható a teszt ROC < 0,7 Gyenge szétválaszthatóság 0,7 ≤ ROC < 0,8 Elfogadható a teszt 0,8 ≤ ROC < 0,9 Jó diagnosztikus teszt ROC ≥ 0,9 Kiváló diagnosztikus teszt Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Többváltozós módszerek, kockázati tényezők keresése több célváltozót vizsgálunk önmagában, vagy egy vagy több célváltozót vizsgálunk több másik (független) változó függvényében Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Logisztikus regresszió Többváltozós módszer, amelyben Több tényező (jellemző, tünet) alapján valamely betegség előfordulásának valószínűségét becsüljük a függő változó kategorikus, legtöbbször bináris a független változók eloszlására nincs feltétel Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A „7 perces” neurokognitív szűrési teszt magyarországi standardizálása A demencia szindrómákkal kapcsolatos problémák: A betegség aluldiagnosztizált A korai felismerés jelentősége Meglevő gyorstesztek: Mini Mentál Teszt (Janka és mtsai, 1988) Óra Rajzolási Teszt (Kálmán és mtsai, 1995) Új, „7 perces” szűrővizsgálatot dolgoztak ki, mely szerintük 100 % biztonságban felismeri az Alzheimer kórt (Solomon, PR, Hirschoff A, Kelly B. et al: (1988). A 7 minute neurocognitive screening battery highly sensitive to Alzheimer's disease. Arch. Neurol. 55: 349-355. ) Részei: Időorientáció Memória Verbális flencia Vizuospaciális képességek Ezekből kijön egy összpontszám, illetve ezeknek egy logisztikus regressziós modellből számolt becsült valószínűség alapján lehet dönteni. A teszt magyarországi standardizálása: Kálmán J., Boda K., Bende Zs., Janka Z.: Dementia szindrómák szűrése: a 7 perces teszt magyaroroszági alkalmazása. Orvosi Hetilap 2003; 144(39):1929-1938. Krisztina Boda and János Kálmán: Evaluation of the „7 Minute” Neurocognitive Screening test using logistic regression models. 23rd Annual COnference. The International Society forClinical Biostatistics, Sept.9-13 2002, Dijon, France. Pp 180. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Logisztikus regressziók eredménye Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
ROC görbe Kontroll és demenciabetegek szétválasztása Kontroll és Alzheimer-kóros betegek szétválasztása Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Eredményközlés, példa az irodalomból Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Elemszámbecslés Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Miért fontos? Gazdasági okok: Etikai szempontok Tudományos: Túl kevés elem esetén nem tudjuk kimutatni a kívánt hatást Túl kevés elem esetén olyan eredmény kimutatására pazaroljuk az erőt, amely gyakorlatilag nem érdekes Etikai szempontok Tudományos: Ha elegendő elemszám esetén kapunk negatív eredményt, akkor az eredményt tudjuk értelmezni Ha nem elegendő esetszám esetén kapunk negatív eredményt, klinikailag fontos hatást dobhatunk ki az ablakon Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az elemszámbecslést meghatározó (befolyásoló) tényezők A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome): kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A próba ereje A próba ereje annak valószínűsége, hogy egy különbséget — adott mintanagyság és szignifikancia-szint mellett — egy statisztikai próba kimutat. A vizsgálatok tervezésének gyakorlatában az erő nagyságának előre megszabott értékéből kiindulva határozzák meg a szükséges mintaelemszámot. A statisztika elméletének fontos része olyan döntési szabályok keresése, amely a próbát a lehető legerősebbé teszi adott esetén. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A próba ereje adott elemszám és esetén, különböző alternatív hipotézisek mellett Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
A próba ereje adott elemszám és esetén, különböző alternatív hipotézisek mellett Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
PS, Power and Sample Size Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Az elemszámbecslést meghatározó (befolyásoló) tényezők A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome):kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Lépések A probléma megértése A statisztikai próba megválasztása Az elsődleges kérdés megfogalmazása (becslés v. hipotézis teszt); H0, Ha meghatározása A végpont meghatározása, a fő hatásmutató kiválasztása ,1- rögzítése (korai fázisoknál 0.1 és 0.9, később 0.05 és 0.8-0.9) A klinikailag jelentős különbség (ekvivalencia-non-inferiority vizsgálatoknál a maximum irreleváns vagy nem jelentős különbség) meghatározása A variabilitás becslése – korábbi vizsgálatok alapján Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Lépések folyt. Különböző körülmények (-t és -t variálva) és a paraméterek különböző kombinációira végezzünk számításokat Befolyásolhatja még: Hiányzó adatok Többszörös összehasonlítások Nem egyenlő csoportelemszámok Paraméteres v. nemparaméteres módszer Noninferiority vagy ekvivalencia vizsgálat … Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Korrigálás A fő hatásmutatóra számítjuk ki általában Több fontos változó figyelembe vétele: Mindegyikre külön számítsunk, és vegyük a maximumot núj=n(1-r2), ahol r a kovariáns változó és a a fő hatásmutató közötti korreláció Multiplicitás: Bonferroni korrekciót kell alkalmazni, ha legalább egy szignifikáns eredményt szeretnénk (pl. legalább egyet a több páronkénti hasonlítás közül) A válaszadás aránya és a vizsgálatból való kiesés miatti korrekció: núj=n/(1-L), ahol L a „loss to follow-up rate” Csoportonként különböző elemszámok: Számítsuk ki egyenlőkre, majd k=n2/n1 n1=n(k+1)/(2k), n2=n(k+1)/2 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Korrigálás Nemparaméteres módszerek: általában az elemszámot paraméteres próbák alapján határozzák meg Ha a paraméteres próbák feltételei nem teljesülnek, a nemparaméteres próbák alkalmazásához korrekció (létezik) Ekvivalencia/noninferiority vizsgálatok Rétegezés, blokkok képzése, illesztés (matching) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Két arány különbsége Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Elemszámbecslés bináris adatokra (két arány különbsége) H0: p1=p2 vs. Ha: p1 ≠ p2; Kétoldalas α = 5%, β = 20%, Chi-négyzet próbával/Z-próbával tesztelve az arányok egyenlőségét P1 és p2 különböző értékeire az elemszám: Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Példa A mintaelemszám meghatározás korábbi retrospektív vizsgálat alapján történt. Ahhoz, hogy posztoperatív komplikációk klinikailag jelentős csökkenését ki tudjuk mutatni az URI és URI-mentes gyerekek között (42%-ról 23%-ra), 94 eset kell csoportonként (= 0.05 and = 20%, kétoldalas teszt). „Sample size determination was based on our previous retrospective study using overall postoperative complications as the outcome measure. Based on the clinically important difference in incidence of this outcome between children with URIs and those without URIs (i.e., 42 vs. 23%), we calculated that we would need 94 subjects per group to detect a statistically significant difference at least that large ( = 0.05 and = 20%, two tailed).” S. Malviya, T. Voepel-Lewis, M. Siewert,, U. A. Pandit,, Lori Q. Riegger, Alan R. Tait. Risk Factors for Adverse Postoperative Outcomes in Children Presenting for Cardiac Surgery with Upper Respiratory Tract Infections. Anesthesiology 2003; 98:628–32. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Ajánlás Nemszignifikáns eredmény diszkussziójakor – ha nem volt előzetes elemszámbecslés – meg kell adni a próba erejét. Kis erejű nemszignifikáns eredményt nem lehet úgy értelmezni, hogy az összehasonlított változók (csoportok) azonosak. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
Hasznos Web oldalak Angol nyelvű Magyar nyelvű Rice Virtual Lab in Statistics http://davidmlane.com/hyperstat/intro_ANOVA.html Statistics on the Web http://www.claviusweb.net/statistics.shtml Hisztogram alakjának változása – Old Faithful http://www.stat.sc.edu/~west/javahtml/Histogram.html Statisztikai bemutatók (Java) http://www-stat.stanford.edu/~naras/jsm http://www.math.csusb.edu/faculty/stanton/m262/index.html Magyar nyelvű http://www.biostat.hu – Klinikai Biostatisztikai Társaság
Idézet egy egyetemi hallgató feljegyzéseiből „Ha csak egy nap lenne hátra az életemből, azt a statisztika órán szeretném eltölteni – így sokkal hosszabbnak fog tűnni”. http://www.uwo.ca/epidem/bsuhum.htm (már nem működő lap )