Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaBenjámin Fodor Megváltozta több, mint 10 éve
1
Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
Teaching Mathematics and Statistics in Sciences HU-SRB/0901/221/088 A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, május Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
2
Egy kis bevezetés Egy matematikus, egy alkalmazott matematikus és egy statisztikus mindhárman egy bizonyos munkára jelentkeztek. A felvételi beszélgetésen megkérdezték tőlük, hogy mennyi 1+1? Matematikus: Be tudom bizonyítani, hogy létezik, de azt nem, hogy csak egy megoldás van. Alkalmazott matematikus: A válasz közelítően 1.99, a becslés szórása 0.01. Statisztikus (kilépett a szobából, majd hirtelen visszatért és érdeklődött): tehát mit szeretnétek, mennyi legyen? Biostatisztikai alapismeretek Boda Krisztina
3
Ajánlott irodalom Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007. Biostatisztikai alapismeretek Boda Krisztina
4
Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban.
Medicina Kiadó Biostatisztikai alapismeretek Boda Krisztina
5
Ajánlott irodalom Gachályi Béla (szerk.) - Lakner Géza (szerk.): Klinikai farmakológia a gyakorlatban - A humán klinikai gyógyszerfejlesztés módszertana. Statisztikai alapelvek fejezet (Singer Júlia) SpringMed Kiadó Biostatisztikai alapismeretek Boda Krisztina
6
Amiről szó lesz Hipotézisvizsgálatok, kiemelve a következőket:
Populáció, minta, leíró statisztikák A véletlen ingadozás vizsgálata, a statisztikai próbák elve Konfidenciaintervallum és a statisztikai szignifikancia Egyváltozós statisztikák, mikor mit? t-próbák, 2 próbák, korreláció/regresszió Többszörös összehasonlítások problémái Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek, kockázati tényezők Elemszámbecslés, statisztikai erő számítása Biostatisztikai alapismeretek Boda Krisztina
7
Populáció (sokaság), minta
Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
8
Példák Adathalmazok Minta Sokaság
Gyógyszerészhallgatók egy csoportja által kitöltött kérdőívek 20 egészséges nő vérnyomásértékei … Sokaság Gyógyszerészhallgatók hallgatók Általában az egészséges nők vérnyomása … Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
9
Minta Sokaság (megközelíti) Kategóriás változó lehetséges értékeinek gyakoriságai, relatív gyakoriságai A változó (sokaság) eloszlása Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
10
Minta Sokaság Egy folytonos változóról készített hisztogram
(megközelíti) Egy folytonos változóról készített hisztogram A folytonos változó eloszlását (sűrűségfüggvényét) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
11
Minta Sokaság Átlag (x) Standard deviáció (SD)
(megközelíti) Átlag (x) Standard deviáció (SD) Medián Sokaság-átlag (ismeretlen) A sokaság standard deviációja (ismeretlen) A sokaság mediánja (ismeretlen) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
12
Az eloszlás közepének jellemzése
Átlag: Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a „két középső elem” átlaga Példaadatok: átlag=( )/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
13
A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Kvartilisek, percentilisek: 25%-os percentilis (első kvartilis): az a szám, aminél az adatok 25%-a kisebb. A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az adatokat. A szóródás megadására használják a 25%-os és 75%-os kvartilist A variancia A standard deviáció: az adatok szóródása az átlag körül Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
14
Példa. A szóródás jellemzői
Adatok: , rendezve: Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: 1 1-2=-1 2 2-2=0 4 4-2=2 Összeg 6 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
15
Az átlag szórása, standard error of mean, SE, SEM
Azt fejezi ki, hogy az átlag, amit a mintából számoltunk, mennyire megbízható. Ha többször is meg tudnánk ismételni a mérést (végtelen sokszor), akkor mindegyik mérés-sorozat átlagának a szóródását mutatja a populáció átlag körül Számítása: SE=SD/n Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
16
Standard deviáció vagy standard error??
Standard deviáció, SD: a minta szórása, a mintaadatok szóródása az átlag körül. Normális eloszlás esetén az átlag 2SD-n belül van az adatok kb. 95%-a Standard error (SE=SD/n): az átlag megbízhatósága, a mintaátlag szóródása az (ismeretlen) populáció átlag körül. Normális eloszlás esetén az átlag 2SE-n belül van az igazi átlag kb. 95%-os valószínűséggel. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
17
Normális eloszlások Jelölés: N(, )
A hisztogramot „kisimító” görbe gyakran szimmetrikus, egycsúcsú, harang alakú görbe. Ez a görbe egyértelműen leírható két paraméterrel: a középpel és a standard deviációval (szórás). Az ábrán a kék vonalat a mintából számolt átlag és szórás alapján rajzoltuk be. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
18
A szabály Egy és paraméterekkel meghatározott normális eloszlás esetén: A megfigyelések 68% -a esik a középtől egyszeres távolságra A megfigyelések 95% -a esik a középtől kétszeres távolságra A megfigyelések 99.7% -a esik a középtől 3-szoros távolságra Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
19
Az eloszlás elképzelése adott átlag és szórás (SD) alapján (normális eloszlást feltételezve)
A cikkekben a táblázatok leggyakrabban az átlagot és a szórást ismertetik. Ezek alapján el tudjuk képzelni, milyen lehet az eloszlás Pl. életkor (év) 55.2 15.7 86.6 23.8 Ebben az intervallumban van az adatok 95.44%-a Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
20
Az SD ferde eloszlások esetén
Stent length per lesion (mm): 18.8 10.5 Ezekkel a paraméterekkel a következő eloszlás képzelhető el: A szórás a ferde eloszlás miatt lett „nagy”. Ezért gyakran a standard deviáció helyett a standard errort adják meg a táblázatokban vagy ábrákon. Az valóban kisebb, de mást jelent. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
21
A közép és a szóródás jellemzőinek „párosítása”
Közlés cikkekben Átlag Standard deviáció, Standard error Átlag (SD) Átlag SD Átlag SE Átlag SEM Medián Min, max 5%-os, 95%-os percentilis 25 % , 75% (Kvartilisek) Med (min, max) Med(25%, 75%) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
22
Ábratípusok a számolt jellemzők alapján
Átlag-szórás ábra Átlag + SD Átlag + SE Átlag + 95% CI Átlag SE Átlag 95% CI Átlag SD Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
23
Ábratípusok a számolt jellemzők alapján
Doboz-ábra (box diagram) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
24
Hipotézisvizsgálatok
A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai minta) alapján az egész jelenség (populáció) tulajdonságaira következtetünk. Azt vizsgáljuk, hogy a tapasztalt eredmény (különbség) nagyobb-e, mint amit a véletlen önmagában okoz. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
25
Mintavétel, szimuláció
Legyen a populáció 120 átlagú, 10 szórású normális eloszlás, ebből veszünk 50 elemű mintákat Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
26
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
27
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
28
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
29
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
30
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
31
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
32
120 átlagú, 10 szórású populációból származó 50 elemű minták (ismételt mérések) átlagai és szórásai
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
33
Mekkora lehet a véletlen ingadozás?
A minták átlagai 120 körül ingadoznak, ha „nem történik semmi”, csak sima ismétlés Két mérés különbségének átlaga a 0 körül ingadozik Mekkora az a különbség, amit már nem a véletlen okoz? Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
34
Hipotézisek Nullhipotézis: véletlen ingadozást mértem, „semmi nem történt”. A különbség 0 körül ingadozik Alternatív hipotézis: a véletlen ingadozásnál nagyobbat mértem, „valami történt” A különbség 0-tól eltérő szám körül ingadozik ??? Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
35
A nullhipotézis fennállása esetén ismerjük a különbség-átlag eloszlását
Pontosabban: az abból számolt t-statisztika eloszlását ismerjük t=különbség átlag/különbség SE Ha igaz a nullhipotézis (igazából nincs különbség a populáció átlagok között), a t-érték nagy valószínűséggel (95%) ide esik. A kimaradó valószínűség 5% () Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
36
Statisztikai próba: kiszámítjuk adatainkból a t=átlag/SE próbastatisztikát és megnézzük, hova esik
Döntés: az eltérés nem szignifikáns |t|<ttábla Döntés: az eltérés szignifikáns |t|>ttábla Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
37
Döntési szabály p-érték alapján
p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Annak valószínűsége, hogy a puszta véletlen legalább ekkora különbséget okoz p>, a különbség nem szignifikáns adott szinten p<, a különbség szignifikáns adott szinten Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
38
Miért éppen 5%? A tévedés valószínűségét mi állapítjuk meg előre, még a kísérlet megkezdése előtt. Tehát egyáltalán nem kötelező a 95% illetve az 5% betartása, mégis ez a kialakult „szokásrendszer”. Oka*: „Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket … A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. „Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt van, az elég erősen arra vall, hogy hipotézisünk nem elegendő magyarázat a tényekre. Talán nem tévedünk majd túl gyakran, ha a határvonalat 0,05-nál húzzuk meg...” . Fontos itt megjegyeznünk, hogy Fisher mindig is hangsúlyozta: a p-érték interpretálása végső soron a kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez.” *Sifting the evidence—what's wrong with significance tests? Jonathan A C Sterne, George Davey Smith, BMJ 2001;322:226–31 *A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal? Jonathan A. C. Sterne, George Davey Smith. BMJ Magyar Kiadás 2001;3: Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
39
A konfidenciaintervallum fogalma (bizonyossági intervallum)
Olyan, a mintaelemekből számolt intervallum, amely nagy valószínűséggel tartalmazza a populáció-paraméter valódi (ismeretlen) értékét Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a mintaelemekből számolt intervallum, ami 95% valószínűséggel tartalmazza a populáció valódi átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatósági szint) tőlünk függ. Szokásos értékei: 0.90, 0.95, 0.99 ) A becslés „hibája” (-val jelöljük) a megbízhatósági szint függvényében 1-0.90=0.1, =0.05, =0.01 Leggyakrabban használt megbízhatósági szint 95% (0.95), tehát -ra leggyakrabban =0.05 értéket alkalmazzák. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
40
Az átlagra vonatkozó 95%-os bizonyossági intervallum szemléltetése az adott kísérlet képzeletbeli ismétléseivel Ha a kísérletet képzeletben 100-szor megismételnénk, a 100 kapott 95%-os konfidencia intervallum közül várhatóan 95 fogja tartalmazni a populáció átlagát, és 5 nem. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
41
Szignifikancia és a konfidenciaintervallum
A mintát az adott (átlagú) populációból vettük. A populációátlag =0. Ez lehet pl. annak a nullhipotézisnek megfelelő eloszlás, hogy a kezelés előtti és a kezelés utáni populációátlag ugyanaz. A konfidenciaintervallum tartalmazza az adott átlagot – jelen esetben a nullát. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
42
Szignifikancia vizsgálatok és a konfidenciaintervallum kapcsolata (H0: μ1= μ2, azaz μ1- μ2 =0, Ha: μ1 μ2) p-érték szignifikancia 95% CI (p1 – p2)-re p<0.05 szign. 5%-os szinten pl. (4.5, 10.7) 0 nincs benne a konf. intervallumban p > 0.05 nem szign. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. intervallumban Szignifikáns, p<0.05 Szignifikáns. p<0.05 Nem szignifikáns, p>0.05 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk, akkor a konfidenciaintervallumban az 1-et keressük Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
43
Ha van két adatsorom, mikor „kell” t-próbát (és akkor melyiket), khi-négyzet próbát, vagy korrelációt stb… számítani??? Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
44
A próba megválasztása függ
Az analízis céljától (összehasonlítás vagy kapcsolat) Az adatok típusától A kísérleti elrendezéstől …. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
45
t-próba „Szokásos” ábrák átlagokat hasonlít. Akkor alkalmazzuk, ha két csoportban folytonos változóink vannak, amelyekből van értelme átlagot számolni (pl. kor, vérnyomás, stb.) Feltétele: Normalitás Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
46
2 (khi-négyzet) próba Gyakoriságokat (%-okat),
„Szokásos” ábrák Gyakoriságokat (%-okat), (gyakorisági eloszlásokat hasonlít) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
47
Korreláció-regresszió Két folytonos változó lineáris kapcsolata
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
48
A hipotézisvizsgálat menete
Hipotézisek felállítása Nullhipotézis: semmi nem történt Alternatív hipotézis: valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az elemszámtól) Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns %-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
49
Egy minta esete: egymintás t-próba Két minta esete:
Normális eloszlást feltételezve, az átlagok összehasonlítására használható próbák Egy minta esete: egymintás t-próba Két minta esete: Összetartozó minták: (előtt-után, baloldal-jobboldal): páros t-próba= egymintás t-próba a különbségekre Független minták (placebo-kezelés, férfi-nő, beteg-egészséges): kétmintás t-próba Azonos szórások esetén „klasszikus” Különböző szórások esetén „módosított” (Welch, D) Szórások egyezésének tesztelése: F-próba, Levene-próba Több (>2) minta esete: varianciaanalízis Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
50
Egymintás t-próba Egy kezelés során szükségessé vált annak ellenőrzése, hogy az milyen hatással van a vérnyomásra. A vizsgált paciensek korcsoportjában a systolés vérnyomás normálértéke 120. n=9 személyt megmérve a következő értékeket kapták: (átlag=162, SD= Mondhatjuk-e a mintaadatok alapján, hogy az adott korcsoport populációjában az átlagos vérnyomás 120 Hgmm? Nullhipotézis (HO): A populáció átlag 120, =120 Alternatív hipotézis (Ha): A populáció átlag nem 120 , 120 (kétoldalas) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
51
Döntési szabály a konfidencia intervallum alapján
Konfidencia intervallum alapján: adjuk meg a populáció-átlagra vonatkozó 95%-os konfidencia intervallumot! A konfidencia intervallum: (átlag - t*SE, átlag + t * SE )= ( *23.92/9, *7.97)=(143.61, ) Döntési szabály a konfidencia intervallum alapján: benne van-e az adott szám a konfidencia-intervallumban? Ha igen: a különbség nem szignifikáns adott szinten Ha nem: a különbség szignifikáns adott szinten Esetünkben 120 nincs benne a konfidencia intervallumban, tehát a különbség szignifikáns 5%-os szinten Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
52
Döntési szabály a t-érték alapján
Számítsuk ki a t-értéket: t= (átlag - c)/SE=( )/7.97=5.26. szabadságfok: n-1=9-1=7 és hasonlítsuk az abszolút értékét a t8,0.05=2.306 táblázatbeli értékhez : 5.26>2.306 Döntési szabály: ha |t|>ttábla, a különbség szignifikáns adott szinten Az elfogadási tartomány a változó azon értékeinek halmaza, amelyekre elfogadjuk a nullhipotézist (- ttábla ,ttábla) A kritikus tartomány ennek ellentettje. A kritikus tartomány értékeire a nullhipotézist nem fogadjuk el. Esetünkben a különbség szignifikáns 5%-os szinten Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
53
Döntési szabály a p-érték alapján
p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Ha a p<, akkor a különbség szignifikáns adott szinten Esetünkben p=0.001<0.05 Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
54
Páros t-próba Önkontrollos kísérlet, vagy
Más módon összetartozó adatok: Jobb oldal-bal oldal Illesztett párok- matched pairs (különböző személyek, de a kísérlet szempontjából párba állíthatók) Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen) Alternatív hipotézis: a két minta-átlag két különböző populáció-átlagnak a közelítése (van hatás) Döntési szabály: Konfidenica intervallum a különbségre t-érték számítás és összehasonítás a táblázattal p-érték (szoftver) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
55
Páros t-próba, példa (folyt).
Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: HO: előtt= után or különbség= 0 (c=0)!! HA: előtt ≠ után or különbség ≠ 0 Legyen =0.05. A szabadságfok=10-1=9, ttáblázat=t0.05,9=2.262 átlag=4, SD=3.333 SE=3.333/10=1.054 Döntés a konfidenciaintervallum alapján: 95%CI: ( *1.054, *1.054)=(1.615, 6.384) Ha H0 igaz, akkor a 0 benne van a konfidencia-intervallumban Most 0 nincs benne a 95%-os konfidencia-intervalluman, ezért döntésünk az, hogy a különbség szignifikáns 5%-os szinten, a kezelés hatásos volt Az átlagos súlyveszteség 4 kg, ami akár 6.36 is lehetne, de minimum 1.615, 95% valószínűséggel. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
56
Páros t-próba, példa (folytatás)
Döntés a próbastatisztika alapján (t-érték: Azt hasonlítjuk a táblabeli kritikus értékhez. |t|=3.795>2.262(=t0.05,9), a különbség szignifikáns 5%-os szinten Döntés p-érték alapján: p=0.004, p<0.05, a különbség szignifikáns 5%-os szinten Elfogadási tartomány tszámított, próbastatisztika ttábla, kritikus érték Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
57
Példa az orvosi irodalomból V
Példa az orvosi irodalomból V. Lindén: Vitamin D and Myocardial Infarction. BMJ 1974,3, Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
58
Kísérleti elrendezések
Páros t-próba Minden egyedet kétszer vizsgálunk 1. 2. x1 y1 x2 y2 … … xn yn Kétmintás t-próba Minden egyedet csak egyszer vizsgálunk, és mindegyik egy és csak egy csoportban lehet. Csoport Mérések 1 x1 1 x2 … … 1 xn 2 y1 2 y2 2 ym Az elemszám nem feltétlenül azonos a két mintában Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
59
Kétmintás t-próba Két független minta összehasonlítása Feltételek:
A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Különböző varianciák esetén: Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
60
Kétmintás t-próba Két független minta összehasonlítása Feltételek:
A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Azonos varianciák esetén: Szabadságfok: n+m-2 Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
61
A varianciák összehasonlítása
Ha:21 > 22 vagy 21 > 22 (egyoldalú próba) A próbastatisztika (F): a nagyobbik standard deviáció négyzetét osztjuk a kisebbel: Szabadságfokok: nagyobb SD-hez tartozó minta elemszáma-1 Kisebb SD-hez tartozó minta elemszáma-1 Döntés: F táblázat alapján Ha F>Fα,táblázat, a két variancia szignifikánsan különbözik α szinten Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
62
Az F-eloszlás táblázata (részlet) α=0.05
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
63
Példa Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
64
Eredmény SPSS-sel A varianciák összehasonlítása.
p=0.93>0.05, nem szignifikáns. Elfogadjuk a varianciák azonosságát Az átlagok összehasonlítása (t-próba). Első sor: egyenlő varianciák esete. t=6.657, df=16, p<0.001 Az átlagos vérnyomás szignifikánsan különbözik a két populációban 5%-os szinten Második sor: az átlagok összehasonlítása (t-próba) különböző varianciák esetén. Most nem használjuk fel az itt található információt, mert elfogadtuk a varianciák azonosságát Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
65
Kategórikus változók elemzése 2 próbák (khi-négyzet)
Két kategóriás változó kapcsolata. Pl. 2 közúti ellenőrzés során az ittasok aránya 1.5% ill. 0.5 % Pl. a sikeres műtétek gyakorisága 2 féle eljárás esetén 33.3% és 66.6%*. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
66
2x2-es táblázatok A gyakoriságok kontingencia táblázatba rendezhetők.
2 formula könnyen számítható Yates korrekció: pontosabb közelítés Ha a várt gyakoriságokra vonatkozó feltétel nem teljesül: Fisher féle egzakt próba Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
67
2 próba az 1*. példa adataira
Nullhipotézis: Az ittasság aránya azonos a két vizsgálatban, az ittasság független attól, hogy mikor nézték. Gyakorisági táblázat (amiből számolunk) A függetlenség esetén várható gyakoriságok 2=2.205, p=0.137 , nem szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) – nem teljesül!!! Megoldás: Fisher próba (p=0.216) *Bernholdt HPB, Dubben HH. A tojást rakó kutya.Budapest:Magyar Könyvklub; 2001. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
68
2 próba a 2. példa adataira
Nullhipotézis: A siker valószínűsége azonos a két eljárás esetén. Az eljárás sikeressége független attól, hogy új vagy hagyományos eljárásról van-e szó. Gyakorisági táblázat (amiből számolunk) 2=5.406, p=0.02 , szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) teljesül!!! ( Fisher próba p=0.038) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
69
2x3-as kontingencia táblázat
Két kategóriás változó kapcsolata. Pl. diabetes gyakorisága a 3 csoportban csoportban: 31%, 27% és 25%*. Kérdés: különbözik-e a diabetes gyakorisága az egyes csoportokban? DIAB CS1 Cs2 Cs3 Total yes 31 27 25 83 no 69 73 75 217 100 300 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
70
A 2 próba végrehajtása, feltételei
H0 teljesülése esetén a várt gyakoriságok számítása (Ei=sorösszeg*oszlopösszeg/total) 2 statisztika számítása: 2 =Σ(Oi-Ei)2/Ei Szabadságfok: sorok száma-1)*(oszlopok száma-1) Döntés táblázat alapján: 2 > 2 táblázat, , df Feltétel: 5-nél kisebb várt gyakoriságot tartalmazó cellák száma max. 20% Egzakt tesztek (Fisher): nincs feltétele, a pontos p-értéket adják 2 =0.933 Df=(3-1)*(2-1)=2 0.933<5.99(= 2 táblázat, 0.05,2) p=0.627 Teljesül Egzakt p=0.663 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
71
Korreláció-regresszió: két folytonos változó közötti (lineáris) kapcsolat vizsgálata. A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra). Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot. A két változó mért értékeivel mint koordinátákkal berajzoljuk a megfelelő pontokat. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
72
Lehetséges kapcsolatok
Negatív korreláció Pozitív korreláció Nincs korreláció Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
73
Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r ) és tulajdonságai
A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1r 1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között. b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció. c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
74
Kiugró értékek hatása Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt. r=-0.21 r=0.74 r=0.998 r=-0.26 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
75
A korreláció csak a lineáris kapcsolat szorosságát méri
Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi r=2.8 E-15 r=0.157 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
76
A korreláció nem jelent oksági kapcsolatot
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
77
A korrelációs együttható szignifikanciája
Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H0: ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) Ha: ρ ≠ 0 (a populációs korrelációs együttható ≠ 0) Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ Döntés t-táblázat alapján: Ha |t|>tα,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Ha |t|<tα,n-2, a különbség nem szignifikáns α szinten, nem vetjük el a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható nem tér el 0-tól.. Döntés p-érték alapján: Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
78
p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól.
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
79
A lineáris kapcsolat becslése: lineáris regresszió
Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
80
A legkisebb négyzetek elve
->min A korrelációs együttható kiszámítása a regressziós együttható segítségével Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
81
A determinációs együttható, r2
A korrelációs együttható négyzete 100-zal szorozva a determinációs együttható. Megadja, hogy az y (függő) változó össz-varianciájának hány %-a magyarázható az x-től való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r = A determinációs együttható, r2 = Tehát a nyelvtudás össz-szóródásának 91.7%-a magyarázható a matematikától való lineáris függésével. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
82
Regresszió transzformációk alkalmazásával.
Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat . Az alakzat exponenciális kapcsolatot sejtet. Ha az y logaritmusát vesszük, az x és ln(y) közötti kapcsolat lineáris lesz Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
83
A próbák feltételeinek figyelembe vétele: paraméteres és nemparaméteres próbák
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
84
Rangsoroláson alapuló eljárások (nemparaméteres próbák egyik fajtája)
Mi van, ha a t-próba feltételei (normalitás, varianciák azonossága) nem teljesül??? Transzformációk alkalmazása (log, négyzetgyök, arcsin, …) Nemparaméteres próbák – rangsoroláson alapuló eljárások Akkor alkalmazhatjuk, ha A paraméteres próbák feltételei nem teljesülnek Nem tudjuk ellenőrizni (kis elemszám) Nem akarjuk ellenőrizni Ordinális változók (mennyire örülök a tavasznak??? Kicsit-közepesen-nagyon) Csak az adatok nagyságrendje számít, az nem, hogy mennyivel nagyobb egyik adat a másiknál Számítás: rangsorolás alapján De: nem ugyanazt a nullhipotézist tesztelik, mint a paraméteres próbák. Tehát nem tekinthetők úgy, mint a paraméteres próbák nem paraméteres „megfelelői”. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
85
Leggyakrabban alkalmazott nemparaméteres próbák
Két összetartozó minta: Előjelpróba Előjeles rangpóba (Wilcoxon próba, Wilxocon’s signed rank test) Két független minta: Mann-Whitney U-próba Több összetartozó minta: Friedman próba Több független minta: Kruskal-Wallis próba Kategóriás adatok elemzése (2 próbák) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
86
Egy- és kétoldalas próbák
Kétoldalas próba H0: nincs változás Ha: van változás (bármilyen irányú) Egyoldalas próba H0: az átlag nem növekedett Ha: az átlag növekedett p-értékek esetén: p(egyoldalas)=p(kétoldalas)/2 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
87
A szignifikancia értelmezése
Szignifikáns különbség – p< , p<0.05. Az összehasonlított populációkról azt állítjuk, hogy különbözők. A döntés hibavalószínűsége kicsi (maximum - ez az ún. első fajta hiba – Type I. error). Nem szignifikáns különbség – p> , p>0.05. Ilyenkor csak annyit tudunk mondani, hogy nincs elegendő információ a különbség kimutatására. Lehet, hogy Valóban nincs is különbség Van különbség, csak kevés volt az elemszám Nagy volt a szórás Rossz volt a vizsgálati módszer … A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai szempontból jelentős-e A statisztikai szignifikancia megadásakor a p-érték feltüntetése is célszerű. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
88
Több csoport, minta átlagainak összehasonlítása
Pl. 4 féle „kezelés” Pl. több időpontban végzett mérések, a csoportok összehasonlítása minden egyes időpontban 3 3 mM mM K+ K 5 5 mM mM K K+ Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
89
Miért nem jó, ha t-próbákat végzünk páronként?
Mert a véletlen is okozhat „szignifikáns” eredményt – ha =0.05, akkor átlagosan minden 20-adik esetben. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
90
Ugyanazon populációból származó minták páronkénti összehasonlítása t-próbával
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
91
Emiatt hibás több csoport esetén az átlagok összehasonlítására páronkénti kétmintás t-próbákat végezni, vagy két csoport esetén több összefüggő változót szintén kétmintás t-próbákkal vagy más, egyváltozós eljárással összehasonlítani, korrelációjukat vizsgálni – tehát bármely egyváltozós módszert ismételten alkalmazni. Nem tudhatjuk ugyanis, hogy a szignifikáns eredmények közül melyek tulajdoníthatók a véletlennek, és melyek tükröznek valódi különbséget. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
92
Megoldás: sok t-próba helyett egyetlen varianciaanalízis
Az egyedi p-értékek korrekciója Bonferroni Holm FDR (False Discovery Rate) … Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
93
Bonferroni korrekció Adott (H01 és H02 és... H0n ) nullhipotézis, a hozzátartozó szignifikanciaszint 1, 2, …, n Hogyan válasszuk meg i-t ahhoz, hogy a (H01 és H02 és... H0n ) hipotézis szignifikanciszintje ne legyen nagyobb, mint egy kiválasztott ? (0,1) A p-értéket osztjuk az összehasonlítások számával. (H01 és H02 és... H0n )-t elvetjük, ha legalább egy pi</n Tehát 5 hipotézis esetén =0.05 helyett =0.01 szinten kell szignifikánsbak lenni bármelyik hipotézisnek, hogy az együttes döntés hibája maximum 0.05 legyen. Sok összehasonlítás esetén túl konzervatív módszer (nem mutat ki valós különbségeket sem). Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
94
Egyedi p-értékek korrekciója a SAS rendszerrel
The SAS System The Multtest Procedure p-Values False Stepdown Discovery Test Raw Bonferroni Hochberg Rate Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
95
Egyszempontos ANOVA Adott több független minta
Cél az átlagok összehasonlítása Feltételek: Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a minták független minták (egy egyed csak egy csoportba kerülhet). Az összehasonlítandó értékeket tartalmazó változó folytonos. A minták normális eloszlású populációból származnak. Azok a populációk, amelyekből a minták származnak, azonos varianciájúak. Nullhipotézis: A független minták azonos eloszlású populációból származnak, azaz a populáció-átlagok megegyeznek Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
96
Példa Egy kísérletben (Farkas és mtsai, 2003.) lokális iszkémiának alávetett, izolált patkányszívben a szívfrekvencia és a QT szakasz hosszának változását vizsgálták három antiaritmiás gyógyszer hatására. 5 Mm K+ kálium ion koncentráció esetén, 25 perccel a lokális iszkémia után a QT szakasz hosszára a 4.8. táblázatban látható értékeket kapták. Vizsgáljuk meg, hogy a 4 csoportban van-e különbség a QT szakasz átlagos hosszában! Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
97
Módszer Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja: Csoportok közötti Csoportokon belüli Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, akkor a populációban a csoportok közötti és a csoportokon belüli variancia is megegyezik. A kettő hasonlításával lehet következtetni az átlagok azonosságára. ‘új’ nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli variancia megegyezik. Tesztelése: a két variancia becslését táblázatban tüntenjük fel. A próbastatisztika a két variancia hányadosa, tesztelése: F-próba (egyoldalas). Egy p-értéket ad: ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0) ha p<0.05, akkor van az átlagok között különböző Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
98
A varianciaanalízis táblázata példafeladat adataira
F(3,19)=14.426, p<0.001, a különbség szignifikáns, csoport-átlagok között van legalább egy, a többitől eltérő Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
99
Páronkénti hasonlítások
Módosított t-próbák (LSD) Bonferroni Scheffé Tukey Dunnett- egy kontrollhoz hasonlítja a többi csoportot Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
100
A „post-hoc” összehasonlítás veszélyei
Ideális esetben a kísérlet előtt már tudnunk kell, hogy mely csoportok közötti különbség érdekel bennünket. A gyakorlatban mégis gyakori, hogy a kísérlet elvégzése után kapott eredmények ismeretében előre nem tervezett összehasonlításokat is elvégezünk. Ha pl. két csoport között nem vártunk eltérést, mégis nagyon különböző átlagokat kaptunk, késztetést érezhetünk arra, hogy ezt a különbséget is teszteljük. Ha csak a legnagyobb eltérést mutató csoportok közötti különbséget hasonlítjuk össze, annak valószínűsége, hogy szignifikáns különbséget kapunk, nagyobb lesz ahhoz képest, mintha két, a vizsgálat megkezdése előtt véletlenszerűen választott különbség-párt tesztelnénk. Ilyen esetben a kísérletre vonatkozó első fajta hiba megnő, nagyobb lesz az előre deklaráltnál. A konzervatívabb többszörös összehasonlítási módszerekkel megkereshetjük, mely átlagok különböznek melyektől, minden lehetséges párt összehasonlítva. Ha a csoportok páronkénti összehasonlítását azután végezzük, miután a kísérletet elvégeztük, ezeket a konzervatív módszereket kell alkalmaznunk. Egyedül Scheffé módszere enged meg ilyen utólagos „kutakodást”. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
101
A szívfrekvencia elemzése ismételt méréses varianciaanalízissel
Vizsgálható: Kálium hatása (kezelés) Idő hatása Interakció: a kálium-hatás nagysága függ-e az időtől? * * * A szívfrekvencia magas kálium-ion koncentrációnál átlagosan szignifikánsan magasabb; függetlenül az időponttól Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
102
Relatív kockázat számítás 2x2-es táblázatok alapján
Prospektív (kohorsz) vizsgálatokban számítható Vizsgált tényező előfordulásának valószínűsége (kockázat) az 1. csoportban: p1=a/(a+c) a 2. csoportban: p2=b/(b+d) Relatív kockázat: a tényező fennállása esetén hányszorosára változik a kockázat RR=p1/p2=[a/(a+c)]/[b/(b+d)] Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
103
Esélyhányados számítás 2x2-es táblázatok alapján
Retrospektív (eset-kontroll- case-control) vizsgálatokban számítható Ilyenkor nem tudunk kockázatot becsülni, hiszen a csoport létszámát (a nevezőt ) mi állapítottuk meg Vizsgált tényező előfordulásának esélye az 1. csoportban: a:c a 2. csoportban: b:d Esélyhányados: a tényező fennállása esetén hányszorosára változik az esély OR=(a/c)/b/d) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
104
Diagnosztikus eljárások összehasonlítása
Referencia teszt Összeg Új módszer + - a b a+b c d c+d a+c b+d a+b+c+d Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
105
Referencia teszt Össz. Új módszer Pozitív Negatív 231 32 263 27 54 81
231 32 263 27 54 81 Összesen 258 86 344 Szenzitivitás: 231/258=0,9. A valóban pozitívak közül mennyit ítélt az új módszer is pozitívnak Specificitás: 54/86=0,63. A valóban negatívak közül mennyit ítélt az új módszer is negatívnak Pozitív prediktív érték: 231/263=0,88. Az új módszer szerinti pozitív esetek közül mennyi a valóban pozitív Negatív prediktív érték: 54/81=0,67. Az új módszer szerinti negatív esetek közül mennyi a valóban negatív Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
106
Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 5-nél „elvágva”: 32 betegből 18-at helyesen osztályozok, szenz=18/32=0.56. 93 egészségesből 92-t osztályozok helyesen, 1-et hibásan, spec=92/93=0.9892 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
107
Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 7-nél „elvágva”: 32 betegből 18+7=25-öt helyesen osztályozok, szenz=25/32=0.78. 93 egészségesből 75-t osztályozok helyesen, 18-at hibásan, spec=75/93=0.8065 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
108
Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 9-nél „elvágva”: 32 betegből =29-et helyesen osztályozok, szenz=29/32= 93 egészségesből 39-t osztályozok helyesen, spec=39/93=0.194 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
109
ROC görbe Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
110
„Optimális” szétválasztás
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
111
Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe
ROC görbe, Hatásfokmérő karakterisztika (Receiver operating characteristic) Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe A görbe alatti terület alkalmas mérték különböző módszerek hasznosságának, prediktív erejének összehasonlítására, a nagyobb érték nagyobb prediktív erőt jelent. Teljes szétválasztás esetén a görbe háromszöggé válik, a görbe alatti terület =1. Teljes egyezés esetén a görbe a zölddel jelzett átlóba megy át, ekkor a terület 0.5. A ROC görbe segíthet valamely diagnosztikai próba küszöbértékének kiválasztásában is. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
112
ROC görbe alatti terület
ROC = 0,5 Nem használható a teszt ROC < 0, Gyenge szétválaszthatóság 0,7 ≤ ROC < 0,8 Elfogadható a teszt 0,8 ≤ ROC < 0,9 Jó diagnosztikus teszt ROC ≥ 0,9 Kiváló diagnosztikus teszt Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
113
Többváltozós módszerek, kockázati tényezők keresése
több célváltozót vizsgálunk önmagában, vagy egy vagy több célváltozót vizsgálunk több másik (független) változó függvényében Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
114
Logisztikus regresszió
Többváltozós módszer, amelyben Több tényező (jellemző, tünet) alapján valamely betegség előfordulásának valószínűségét becsüljük a függő változó kategorikus, legtöbbször bináris a független változók eloszlására nincs feltétel Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
115
A „7 perces” neurokognitív szűrési teszt magyarországi standardizálása
A demencia szindrómákkal kapcsolatos problémák: A betegség aluldiagnosztizált A korai felismerés jelentősége Meglevő gyorstesztek: Mini Mentál Teszt (Janka és mtsai, 1988) Óra Rajzolási Teszt (Kálmán és mtsai, 1995) Új, „7 perces” szűrővizsgálatot dolgoztak ki, mely szerintük 100 % biztonságban felismeri az Alzheimer kórt (Solomon, PR, Hirschoff A, Kelly B. et al: (1988). A 7 minute neurocognitive screening battery highly sensitive to Alzheimer's disease. Arch. Neurol. 55: ) Részei: Időorientáció Memória Verbális flencia Vizuospaciális képességek Ezekből kijön egy összpontszám, illetve ezeknek egy logisztikus regressziós modellből számolt becsült valószínűség alapján lehet dönteni. A teszt magyarországi standardizálása: Kálmán J., Boda K., Bende Zs., Janka Z.: Dementia szindrómák szűrése: a 7 perces teszt magyaroroszági alkalmazása. Orvosi Hetilap 2003; 144(39): Krisztina Boda and János Kálmán: Evaluation of the „7 Minute” Neurocognitive Screening test using logistic regression models. 23rd Annual COnference. The International Society forClinical Biostatistics, Sept , Dijon, France. Pp 180. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
116
Logisztikus regressziók eredménye
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
117
ROC görbe Kontroll és demenciabetegek szétválasztása
Kontroll és Alzheimer-kóros betegek szétválasztása Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
118
Eredményközlés, példa az irodalomból
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
119
Elemszámbecslés Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
120
Miért fontos? Gazdasági okok: Etikai szempontok Tudományos:
Túl kevés elem esetén nem tudjuk kimutatni a kívánt hatást Túl kevés elem esetén olyan eredmény kimutatására pazaroljuk az erőt, amely gyakorlatilag nem érdekes Etikai szempontok Tudományos: Ha elegendő elemszám esetén kapunk negatív eredményt, akkor az eredményt tudjuk értelmezni Ha nem elegendő esetszám esetén kapunk negatív eredményt, klinikailag fontos hatást dobhatunk ki az ablakon Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
121
Az elemszámbecslést meghatározó (befolyásoló) tényezők
A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome): kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
122
A próba ereje A próba ereje annak valószínűsége, hogy egy különbséget — adott mintanagyság és szignifikancia-szint mellett — egy statisztikai próba kimutat. A vizsgálatok tervezésének gyakorlatában az erő nagyságának előre megszabott értékéből kiindulva határozzák meg a szükséges mintaelemszámot. A statisztika elméletének fontos része olyan döntési szabályok keresése, amely a próbát a lehető legerősebbé teszi adott esetén. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
123
A próba ereje adott elemszám és esetén, különböző alternatív hipotézisek mellett
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
124
A próba ereje adott elemszám és esetén, különböző alternatív hipotézisek mellett
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
125
PS, Power and Sample Size
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
126
Az elemszámbecslést meghatározó (befolyásoló) tényezők
A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome):kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
127
Lépések A probléma megértése A statisztikai próba megválasztása
Az elsődleges kérdés megfogalmazása (becslés v. hipotézis teszt); H0, Ha meghatározása A végpont meghatározása, a fő hatásmutató kiválasztása ,1- rögzítése (korai fázisoknál 0.1 és 0.9, később 0.05 és ) A klinikailag jelentős különbség (ekvivalencia-non-inferiority vizsgálatoknál a maximum irreleváns vagy nem jelentős különbség) meghatározása A variabilitás becslése – korábbi vizsgálatok alapján Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
128
Lépések folyt. Különböző körülmények (-t és -t variálva) és a paraméterek különböző kombinációira végezzünk számításokat Befolyásolhatja még: Hiányzó adatok Többszörös összehasonlítások Nem egyenlő csoportelemszámok Paraméteres v. nemparaméteres módszer Noninferiority vagy ekvivalencia vizsgálat … Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
129
Korrigálás A fő hatásmutatóra számítjuk ki általában
Több fontos változó figyelembe vétele: Mindegyikre külön számítsunk, és vegyük a maximumot núj=n(1-r2), ahol r a kovariáns változó és a a fő hatásmutató közötti korreláció Multiplicitás: Bonferroni korrekciót kell alkalmazni, ha legalább egy szignifikáns eredményt szeretnénk (pl. legalább egyet a több páronkénti hasonlítás közül) A válaszadás aránya és a vizsgálatból való kiesés miatti korrekció: núj=n/(1-L), ahol L a „loss to follow-up rate” Csoportonként különböző elemszámok: Számítsuk ki egyenlőkre, majd k=n2/n1 n1=n(k+1)/(2k), n2=n(k+1)/2 Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
130
Korrigálás Nemparaméteres módszerek: általában az elemszámot paraméteres próbák alapján határozzák meg Ha a paraméteres próbák feltételei nem teljesülnek, a nemparaméteres próbák alkalmazásához korrekció (létezik) Ekvivalencia/noninferiority vizsgálatok Rétegezés, blokkok képzése, illesztés (matching) Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
131
Két arány különbsége Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
132
Elemszámbecslés bináris adatokra (két arány különbsége)
H0: p1=p2 vs. Ha: p1 ≠ p2; Kétoldalas α = 5%, β = 20%, Chi-négyzet próbával/Z-próbával tesztelve az arányok egyenlőségét P1 és p2 különböző értékeire az elemszám: Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
133
Példa A mintaelemszám meghatározás korábbi retrospektív vizsgálat alapján történt. Ahhoz, hogy posztoperatív komplikációk klinikailag jelentős csökkenését ki tudjuk mutatni az URI és URI-mentes gyerekek között (42%-ról 23%-ra), 94 eset kell csoportonként (= 0.05 and = 20%, kétoldalas teszt). „Sample size determination was based on our previous retrospective study using overall postoperative complications as the outcome measure. Based on the clinically important difference in incidence of this outcome between children with URIs and those without URIs (i.e., 42 vs. 23%), we calculated that we would need 94 subjects per group to detect a statistically significant difference at least that large ( = 0.05 and = 20%, two tailed).” S. Malviya, T. Voepel-Lewis, M. Siewert,, U. A. Pandit,, Lori Q. Riegger, Alan R. Tait. Risk Factors for Adverse Postoperative Outcomes in Children Presenting for Cardiac Surgery with Upper Respiratory Tract Infections. Anesthesiology 2003; 98:628–32. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
134
Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
135
Ajánlás Nemszignifikáns eredmény diszkussziójakor – ha nem volt előzetes elemszámbecslés – meg kell adni a próba erejét. Kis erejű nemszignifikáns eredményt nem lehet úgy értelmezni, hogy az összehasonlított változók (csoportok) azonosak. Biostatisztikai alapismeretek Boda Krisztina Leíró statisztika A véletlen ingadozás Konfidenciaintervallum Egyváltozós módszerek Többszörös összehasonlítások Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek Elemszámbecslés
136
Hasznos Web oldalak Angol nyelvű Magyar nyelvű
Rice Virtual Lab in Statistics Statistics on the Web Hisztogram alakjának változása – Old Faithful Statisztikai bemutatók (Java) Magyar nyelvű – Klinikai Biostatisztikai Társaság
137
Idézet egy egyetemi hallgató feljegyzéseiből
„Ha csak egy nap lenne hátra az életemből, azt a statisztika órán szeretném eltölteni – így sokkal hosszabbnak fog tűnni”. (már nem működő lap )
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.