Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, 2011. május 19-21. Boda Krisztina PhD SZTE ÁOK.

Hasonló előadás


Az előadások a következő témára: "A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, 2011. május 19-21. Boda Krisztina PhD SZTE ÁOK."— Előadás másolata:

1 A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, május Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet Teaching Mathematics and Statistics in Sciences HU-SRB/0901/221/088

2 2 Egy kis bevezetés Egy matematikus, egy alkalmazott matematikus és egy statisztikus mindhárman egy bizonyos munkára jelentkeztek. A felvételi beszélgetésen megkérdezték tőlük, hogy mennyi 1+1? Matematikus: Be tudom bizonyítani, hogy létezik, de azt nem, hogy csak egy megoldás van. Alkalmazott matematikus: A válasz közelítően 1.99, a becslés szórása Statisztikus (kilépett a szobából, majd hirtelen visszatért és érdeklődött): tehát mit szeretnétek, mennyi legyen?  Biostatisztikai alapismeretek  Boda Krisztina 

3 3 Ajánlott irodalom Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, Biostatisztikai alapismeretek  Boda Krisztina 

4 4 Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban. Medicina Kiadó Biostatisztikai alapismeretek  Boda Krisztina 

5 5 Ajánlott irodalom Gachályi Béla (szerk.) - Lakner Géza (szerk.): Klinikai farmakológia a gyakorlatban - A humán klinikai gyógyszerfejlesztés módszertana.  Statisztikai alapelvek fejezet (Singer Júlia) SpringMed Kiadó Biostatisztikai alapismeretek  Boda Krisztina 

6 6 Amiről szó lesz Hipotézisvizsgálatok, kiemelve a következőket: 1.Populáció, minta, leíró statisztikák 2.A véletlen ingadozás vizsgálata, a statisztikai próbák elve 3.Konfidenciaintervallum és a statisztikai szignifikancia 4.Egyváltozós statisztikák, mikor mit? t-próbák,  2 próbák, korreláció/regresszió 5.Többszörös összehasonlítások problémái 6.Varianciaanalízis 7.Diagnosztikus tesztek 8.Többváltozós módszerek, kockázati tényezők 9.Elemszámbecslés, statisztikai erő számítása Biostatisztikai alapismeretek  Boda Krisztina 

7 7 Populáció (sokaság), minta Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

8 8 Példák Adathalmazok Minta  Gyógyszerészhallgatók egy csoportja által kitöltött kérdőívek  20 egészséges nő vérnyomásértékei …… Sokaság  Gyógyszerészhallgatók  hallgatók  Általában az egészséges nők vérnyomása …… Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

9 9 MintaSokaság Kategóriás változó lehetséges értékeinek gyakoriságai, relatív gyakoriságai A változó (sokaság) eloszlása (megközelíti) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

10 10 MintaSokaság Egy folytonos változóról készített hisztogram A folytonos változó eloszlását (sűrűségfüggvényét) (megközelíti) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

11 11 MintaSokaság Átlag (x) Standard deviáció (SD) Medián Sokaság-átlag  (ismeretlen) A sokaság standard deviációja  (ismeretlen) A sokaság mediánja (ismeretlen) (megközelíti) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

12 12 Az eloszlás közepének jellemzése Átlag: Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a „két középső elem” átlaga Példaadatok: átlag=( )/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

13 13 A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Kvartilisek, percentilisek:  25%-os percentilis (első kvartilis): az a szám, aminél az adatok 25%-a kisebb.  A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az adatokat.  A szóródás megadására használják a 25%-os és 75%-os kvartilist A variancia A standard deviáció: az adatok szóródása az átlag körül Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

14 14 Példa. A szóródás jellemzői Adatok: , rendezve: Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: 11-2= = =24 Összeg06 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

15 15 Az átlag szórása, standard error of mean, SE, SEM Azt fejezi ki, hogy az átlag, amit a mintából számoltunk, mennyire megbízható. Ha többször is meg tudnánk ismételni a mérést (végtelen sokszor), akkor mindegyik mérés-sorozat átlagának a szóródását mutatja a populáció átlag körül Számítása: SE=SD/  n Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

16 16 Standard deviáció vagy standard error?? Standard deviáció, SD: a minta szórása, a mintaadatok szóródása az átlag körül. Normális eloszlás esetén az átlag  2SD-n belül van az adatok kb. 95%-a Standard error (SE=SD/  n): az átlag megbízhatósága, a mintaátlag szóródása az (ismeretlen) populáció átlag körül. Normális eloszlás esetén az átlag  2SE-n belül van az igazi átlag kb. 95%-os valószínűséggel. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

17 17 Normális eloszlások Jelölés: N( ,  ) A hisztogramot „kisimító” görbe gyakran szimmetrikus, egycsúcsú, harang alakú görbe. Ez a görbe egyértelműen leírható két paraméterrel: a  középpel és a  standard deviációval (szórás). Az ábrán a kék vonalat a mintából számolt átlag és szórás alapján rajzoltuk be. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

18 18 A szabály Egy  és  paraméterekkel meghatározott normális eloszlás esetén:  A megfigyelések 68% -a esik a  középtől egyszeres  távolságra  A megfigyelések 95% -a esik a  középtől kétszeres  távolságra  A megfigyelések 99.7% -a esik a  középtől 3-szoros  távolságra Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

19 19 Az eloszlás elképzelése adott átlag és szórás (SD) alapján (normális eloszlást feltételezve) A cikkekben a táblázatok leggyakrabban az átlagot és a szórást ismertetik. Ezek alapján el tudjuk képzelni, milyen lehet az eloszlás Pl. életkor (év) 55.2  Ebben az intervallumban van az adatok 95.44%-a Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

20 20 Az SD ferde eloszlások esetén Stent length per lesion (mm): 18.8  10.5 Ezekkel a paraméterekkel a következő eloszlás képzelhető el: A szórás a ferde eloszlás miatt lett „nagy”. Ezért gyakran a standard deviáció helyett a standard errort adják meg a táblázatokban vagy ábrákon. Az valóban kisebb, de mást jelent. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

21 21 A közép és a szóródás jellemzőinek „párosítása” KözépSzóródásKözlés cikkekben ÁtlagStandard deviáció, Standard error Átlag (SD) Átlag  SD Átlag  SE Átlag  SEM MediánMin, max 5%-os, 95%-os percentilis 25 %, 75% (Kvartilisek) Med (min, max) Med(25%, 75%) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

22 22 Ábratípusok a számolt jellemzők alapján Átlag-szórás ábra  Átlag + SD  Átlag + SE  Átlag + 95% CI Átlag  SE Átlag  SDÁtlag  95% CI Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

23 23 Ábratípusok a számolt jellemzők alapján Doboz-ábra (box diagram) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

24 24 Hipotézisvizsgálatok  A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai minta) alapján az egész jelenség (populáció) tulajdonságaira következtetünk.  Azt vizsgáljuk, hogy a tapasztalt eredmény (különbség) nagyobb-e, mint amit a véletlen önmagában okoz. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

25 25 Mintavétel, szimuláció Legyen a populáció 120 átlagú, 10 szórású normális eloszlás, ebből veszünk 50 elemű mintákat Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

26 26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

27 27 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

28 28 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

29 29 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

30 30 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

31 31 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

32 átlagú, 10 szórású populációból származó 50 elemű minták (ismételt mérések) átlagai és szórásai Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

33 33 Mekkora lehet a véletlen ingadozás? A minták átlagai 120 körül ingadoznak, ha „nem történik semmi”, csak sima ismétlés Két mérés különbségének átlaga a 0 körül ingadozik Mekkora az a különbség, amit már nem a véletlen okoz? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

34 34 Hipotézisek Nullhipotézis: véletlen ingadozást mértem, „semmi nem történt”. A különbség 0 körül ingadozik Alternatív hipotézis: a véletlen ingadozásnál nagyobbat mértem, „valami történt” A különbség 0-tól eltérő szám körül ingadozik ??? 0 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

35 35 A nullhipotézis fennállása esetén ismerjük a különbség-átlag eloszlását Ha igaz a nullhipotézis (igazából nincs különbség a populáció átlagok között), a t-érték nagy valószínűséggel (95%) ide esik. A kimaradó valószínűség 5% (  ) 0 Pontosabban: az abból számolt t-statisztika eloszlását ismerjük t=különbség átlag/különbség SE Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

36 36 Statisztikai próba: kiszámítjuk adatainkból a t=átlag/SE próbastatisztikát és megnézzük, hova esik Döntés: az eltérés nem szignifikáns |t|t tábla Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

37 37 Döntési szabály p-érték alapján p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Annak valószínűsége, hogy a puszta véletlen legalább ekkora különbséget okoz p< , a különbség szignifikáns adott  szinten p> , a különbség nem szignifikáns adott  szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

38 38 Miért éppen 5%? Oka*: „Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket … A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. „Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt van, az elég erősen arra vall, hogy hipotézisünk nem elegendő magyarázat a tényekre. Talán nem tévedünk majd túl gyakran, ha a határvonalat 0,05-nál húzzuk meg...”. Fontos itt megjegyeznünk, hogy Fisher mindig is hangsúlyozta: a p-érték interpretálása végső soron a kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez.” *Sifting the evidence—what's wrong with significance tests? Jonathan A C Sterne, George Davey Smith, BMJ 2001;322:226–31 *A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal? Jonathan A. C. Sterne, George Davey Smith. BMJ Magyar Kiadás 2001;3: A tévedés valószínűségét mi állapítjuk meg előre, még a kísérlet megkezdése előtt. Tehát egyáltalán nem kötelező a 95% illetve az 5% betartása, mégis ez a kialakult „szokásrendszer”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

39 39 A konfidenciaintervallum fogalma (bizonyossági intervallum) Olyan, a mintaelemekből számolt intervallum, amely nagy valószínűséggel tartalmazza a populáció-paraméter valódi (ismeretlen) értékét Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a mintaelemekből számolt intervallum, ami 95% valószínűséggel tartalmazza a populáció valódi átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatósági szint) tőlünk függ. Szokásos értékei: 0.90, 0.95, 0.99 ) A becslés „hibája” (  -val jelöljük) a megbízhatósági szint függvényében =0.1, =0.05, =0.01 Leggyakrabban használt megbízhatósági szint 95% (0.95), tehát  -ra leggyakrabban  =0.05 értéket alkalmazzák. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

40 40 Az átlagra vonatkozó 95%-os bizonyossági intervallum szemléltetése az adott kísérlet képzeletbeli ismétléseivel Ha a kísérletet képzeletben 100- szor megismételnénk, a 100 kapott 95%-os konfidencia intervallum közül várhatóan 95 fogja tartalmazni a populáció átlagát, és 5 nem. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

41 41 Szignifikancia és a konfidenciaintervallum A mintát az adott (átlagú) populációból vettük. A populációátlag =0. Ez lehet pl. annak a nullhipotézisnek megfelelő eloszlás, hogy a kezelés előtti és a kezelés utáni populációátlag ugyanaz. A konfidenciaintervallum tartalmazza az adott átlagot – jelen esetben a nullát. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

42 42 Szignifikancia vizsgálatok és a konfidenciaintervallum kapcsolata ( H0: μ 1 = μ 2, azaz μ 1 - μ 2 =0, Ha: μ 1  μ 2 ) p-értékszignifikancia 95% CI (p1 – p2)-re p<0.05szign. 5%-os szinten pl. (4.5, 10.7)0 nincs benne a konf. intervallumban p > 0.05nem szign. 5%-os sz.pl. (-1.72, 5.81)0 benne van a konf. intervallumban Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk, akkor a konfidenciaintervallumban az 1-et keressük 0 Nem szignifikáns, p>0.05 Szignifikáns, p<0.05 Szignifikáns. p<0.05 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

43 43 Ha van két adatsorom, mikor „kell” t-próbát (és akkor melyiket), khi-négyzet próbát, vagy korrelációt stb… számítani??? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

44 44 A próba megválasztása függ Az analízis céljától (összehasonlítás vagy kapcsolat) Az adatok típusától A kísérleti elrendezéstől …. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

45 45 t-próba átlagokat hasonlít. Akkor alkalmazzuk, ha két csoportban folytonos változóink vannak, amelyekből van értelme átlagot számolni (pl. kor, vérnyomás, stb.) Feltétele: Normalitás „Szokásos” ábrák Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

46 46  2 (khi-négyzet) próba Gyakoriságokat (%-okat), (gyakorisági eloszlásokat hasonlít) „Szokásos” ábrák Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

47 47 Korreláció-regresszió Két folytonos változó lineáris kapcsolata Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

48 48 A hipotézisvizsgálat menete Hipotézisek felállítása  Nullhipotézis: semmi nem történt  Alternatív hipotézis: valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése:  =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől,  -tól, az elemszámtól) Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség  szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns  %-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

49 49 Normális eloszlást feltételezve, az átlagok összehasonlítására használható próbák Egy minta esete: egymintás t-próba Két minta esete:  Összetartozó minták: (előtt-után, baloldal-jobboldal): páros t-próba= egymintás t-próba a különbségekre  Független minták (placebo-kezelés, férfi-nő, beteg- egészséges): kétmintás t-próba Azonos szórások esetén „klasszikus” Különböző szórások esetén „módosított” (Welch, D) Szórások egyezésének tesztelése: F-próba, Levene-próba Több (>2) minta esete: varianciaanalízis Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

50 50 Egymintás t-próba Egy kezelés során szükségessé vált annak ellenőrzése, hogy az milyen hatással van a vérnyomásra. A vizsgált paciensek korcsoportjában a systolés vérnyomás normálértéke 120. n=9 személyt megmérve a következő értékeket kapták: (átlag=162, SD= Mondhatjuk-e a mintaadatok alapján, hogy az adott korcsoport populációjában az átlagos vérnyomás 120 Hgmm? Nullhipotézis (HO): A populáció átlag 120,  =120 Alternatív hipotézis (Ha): A populáció átlag nem 120,  120 (kétoldalas) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

51 51 Döntési szabály a konfidencia intervallum alapján Konfidencia intervallum alapján: adjuk meg a populáció-átlagra vonatkozó 95%-os konfidencia intervallumot! A konfidencia intervallum: (átlag - t*SE, átlag + t * SE )= ( *23.92/  9, *7.97)=(143.61, ) Döntési szabály a konfidencia intervallum alapján: benne van-e az adott szám a konfidencia-intervallumban?  Ha igen: a különbség nem szignifikáns adott szinten  Ha nem: a különbség szignifikáns adott szinten Esetünkben 120 nincs benne a konfidencia intervallumban, tehát a különbség szignifikáns 5%-os szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

52 52 Döntési szabály a t-érték alapján Számítsuk ki a t-értéket: t= (átlag - c)/SE=( )/7.97=5.26. szabadságfok: n-1=9-1=7 és hasonlítsuk az abszolút értékét a t 8,0.05 =2.306 táblázatbeli értékhez : 5.26>2.306 Döntési szabály: ha |t|>t tábla, a különbség szignifikáns adott szinten Az elfogadási tartomány a változó azon értékeinek halmaza, amelyekre elfogadjuk a nullhipotézist (- t tábla, t tábla ) A kritikus tartomány ennek ellentettje. A kritikus tartomány értékeire a nullhipotézist nem fogadjuk el. Esetünkben a különbség szignifikáns 5%- os szinten t=5.26 Elfogadási tartomány Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

53 53 Döntési szabály a p-érték alapján p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Ha a p< , akkor a különbség szignifikáns adott  szinten Esetünkben p=0.001<0.05 t=5.26 Elfogadási tartomány Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

54 54 Páros t-próba Önkontrollos kísérlet, vagy Más módon összetartozó adatok:  Jobb oldal-bal oldal  Illesztett párok- matched pairs (különböző személyek, de a kísérlet szempontjából párba állíthatók) Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen) Alternatív hipotézis: a két minta-átlag két különböző populáció- átlagnak a közelítése (van hatás) Döntési szabály:  Konfidenica intervallum a különbségre  t-érték számítás és összehasonítás a táblázattal  p-érték (szoftver) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

55 55 Páros t-próba, példa (folyt). Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: HO:  előtt =  után or  különbség = 0 (c=0)!! HA:  előtt ≠  után or  különbség ≠ 0 Legyen  =0.05. A szabadságfok=10-1=9, t táblázat =t 0.05,9 =2.262 átlag=4, SD=3.333 SE=3.333/  10=1.054 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés Döntés a konfidenciaintervallum alapján:  95%CI: ( *1.054, *1.054)=(1.615, 6.384)  Ha H0 igaz, akkor a 0 benne van a konfidencia-intervallumban  Most  0 nincs benne a 95%-os konfidencia- intervalluman, ezért döntésünk az, hogy a különbség szignifikáns 5%-os szinten, a kezelés hatásos volt  Az átlagos súlyveszteség 4 kg, ami akár 6.36 is lehetne, de minimum 1.615, 95% valószínűséggel.

56 56 Páros t-próba, példa (folytatás) Döntés a próbastatisztika alapján (t-érték:  Azt hasonlítjuk a táblabeli kritikus értékhez.  |t|=3.795>2.262(=t 0.05,9 ), a különbség szignifikáns 5%- os szinten Döntés p-érték alapján:  p=0.004, p<0.05, a különbség szignifikáns 5%- os szinten Elfogadási tartomány t tábla, kritikus érték t számított, próbastatisztika Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

57 57 Példa az orvosi irodalomból V. Lindén: Vitamin D and Myocardial Infarction. BMJ 1974,3, Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

58 58 Kísérleti elrendezések Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés Páros t-próba Minden egyedet kétszer vizsgálunk 1.2. x 1 y 1 x 2 y 2 … x n y n Kétmintás t-próba Minden egyedet csak egyszer vizsgálunk, és mindegyik egy és csak egy csoportban lehet. CsoportMérések 1x 1 1x 2… 1x n 2y 1 2y 2… 2y m Az elemszám nem feltétlenül azonos a két mintában

59 59 Kétmintás t-próba Két független minta összehasonlítása Feltételek:  A minták függetlenek:  normális eloszlású populációból származnak:az x i -k N(µ 1,  ) és az y i --k N µ 2,  ) eloszlású populációból H 0 :  1 =  2, H a :  1  2 Próbastatisztika  Különböző varianciák esetén:  Döntés:  Ha |t|>t α,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

60 60 Kétmintás t-próba Két független minta összehasonlítása Feltételek:  A minták függetlenek:  normális eloszlású populációból származnak:az x i -k N(µ 1,  ) és az y i --k N µ 2,  ) eloszlású populációból H 0 :  1 =  2, H a :  1  2 Próbastatisztika  Azonos varianciák esetén:  Szabadságfok: n+m-2  Döntés:  Ha |t|>t α,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

61 61 A varianciák összehasonlítása H 0 :  2 1 =  2 2 H a :  2 1 >  2 2 vagy  2 1 >  2 2 (egyoldalú próba) A próbastatisztika (F): a nagyobbik standard deviáció négyzetét osztjuk a kisebbel: Szabadságfokok:  nagyobb SD-hez tartozó minta elemszáma-1  Kisebb SD-hez tartozó minta elemszáma-1 Döntés: F táblázat alapján  Ha F>F α,táblázat, a két variancia szignifikánsan különbözik α szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

62 62 Az F-eloszlás táblázata (részlet) α=0.05 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

63 63 Példa Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

64 64 Eredmény SPSS-sel Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés A varianciák összehasonlítása. p=0.93>0.05, nem szignifikáns. Elfogadjuk a varianciák azonosságát Az átlagok összehasonlítása (t-próba). Első sor: egyenlő varianciák esete. t=6.657, df=16, p<0.001 Az átlagos vérnyomás szignifikánsan különbözik a két populációban 5%-os szinten Második sor: az átlagok összehasonlítása (t-próba) különböző varianciák esetén. Most nem használjuk fel az itt található információt, mert elfogadtuk a varianciák azonosságát

65 65 Kategórikus változók elemzése  2 próbák (khi-négyzet) Két kategóriás változó kapcsolata. Pl. 2 közúti ellenőrzés során az ittasok aránya 1.5% ill. 0.5 % Pl. a sikeres műtétek gyakorisága 2 féle eljárás esetén 33.3% és 66.6%*. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

66 66 2x2-es táblázatok A gyakoriságok kontingencia táblázatba rendezhetők.  2 formula könnyen számítható Yates korrekció: pontosabb közelítés Ha a várt gyakoriságokra vonatkozó feltétel nem teljesül:  Fisher féle egzakt próba Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

67 67  2 próba az 1*. példa adataira Nullhipotézis: Az ittasság aránya azonos a két vizsgálatban, az ittasság független attól, hogy mikor nézték. Gyakorisági táblázat (amiből számolunk) A függetlenség esetén várható gyakoriságok  2 =2.205, p=0.137, nem szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) – nem teljesül!!! Megoldás: Fisher próba (p=0.216) *Bernholdt HPB, Dubben HH. A tojást rakó kutya.Budapest:Magyar Könyvklub; Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

68 68  2 próba a 2. példa adataira Nullhipotézis: A siker valószínűsége azonos a két eljárás esetén. Az eljárás sikeressége független attól, hogy új vagy hagyományos eljárásról van-e szó. Gyakorisági táblázat (amiből számolunk)  2 =5.406, p=0.02, szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) teljesül!!! ( Fisher próba p=0.038) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

69 69 2x3-as kontingencia táblázat Két kategóriás változó kapcsolata. Pl. diabetes gyakorisága a 3 csoportban csoportban: 31%, 27% és 25%*. Kérdés: különbözik-e a diabetes gyakorisága az egyes csoportokban? DIABCS1Cs2Cs3Total yes no Total Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

70 70 A  2 próba végrehajtása, feltételei H 0 teljesülése esetén a várt gyakoriságok számítása (E i =sorösszeg*oszlopösszeg/total)  2 statisztika számítása:  2 =Σ(O i -E i ) 2 /E i Szabadságfok: sorok száma- 1)*(oszlopok száma-1) Döntés táblázat alapján:  2 >  2 táblázat, , df Feltétel: 5-nél kisebb várt gyakoriságot tartalmazó cellák száma max. 20% Egzakt tesztek (Fisher): nincs feltétele, a pontos p-értéket adják  2 =0.933 Df=(3-1)*(2-1)= <5.99(=  2 táblázat, 0.05,2 ) p=0.627 Teljesül Egzakt p=0.663 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

71 71 Korreláció-regresszió: két folytonos változó közötti (lineáris) kapcsolat vizsgálata. A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra). Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot. A két változó mért értékeivel mint koordinátákkal berajzoljuk a megfelelő pontokat. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

72 72 Lehetséges kapcsolatok Pozitív korreláció Negatív korreláció Nincs korreláció Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

73 73 Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r ) és tulajdonságai A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1  r  1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között. b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció. c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

74 74 Kiugró értékek hatása Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt. r=-0.21 r=0.74 r=0.998r=-0.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

75 75 A korreláció csak a lineáris kapcsolat szorosságát méri Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi r=2.8 E-15 r=0.157 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

76 76 A korreláció nem jelent oksági kapcsolatot Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

77 77 A korrelációs együttható szignifikanciája Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H 0 : ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) H a : ρ ≠ 0 (a populációs korrelációs együttható ≠ 0) Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ Döntés t-táblázat alapján:  Ha |t|>t α,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól.  Ha |t|

78 78 p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

79 79 A lineáris kapcsolat becslése: lineáris regresszió Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

80 80 A legkisebb négyzetek elve ->min A korrelációs együttható kiszámítása a regressziós együttható segítségével Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

81 81 A determinációs együttható, r 2 A korrelációs együttható négyzete 100-zal szorozva a determinációs együttható. Megadja, hogy az y (függő) változó össz- varianciájának hány %-a magyarázható az x-től való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r = A determinációs együttható, r 2 = Tehát a nyelvtudás össz-szóródásának 91.7%-a magyarázható a matematikától való lineáris függésével. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

82 82 Regresszió transzformációk alkalmazásával. Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat. Az alakzat exponenciális kapcsolatot sejtet. Ha az y logaritmusát vesszük, az x és ln(y) közötti kapcsolat lineáris lesz Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

83 83 A próbák feltételeinek figyelembe vétele: paraméteres és nemparaméteres próbák Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

84 84 Rangsoroláson alapuló eljárások (nemparaméteres próbák egyik fajtája) Mi van, ha a t-próba feltételei (normalitás, varianciák azonossága) nem teljesül???  Transzformációk alkalmazása (log, négyzetgyök, arcsin, …)  Nemparaméteres próbák – rangsoroláson alapuló eljárások Akkor alkalmazhatjuk, ha  A paraméteres próbák feltételei nem teljesülnek  Nem tudjuk ellenőrizni (kis elemszám)  Nem akarjuk ellenőrizni  Ordinális változók (mennyire örülök a tavasznak??? Kicsit-közepesen-nagyon) Csak az adatok nagyságrendje számít, az nem, hogy mennyivel nagyobb egyik adat a másiknál Számítás: rangsorolás alapján De: nem ugyanazt a nullhipotézist tesztelik, mint a paraméteres próbák. Tehát nem tekinthetők úgy, mint a paraméteres próbák nem paraméteres „megfelelői”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

85 85 Leggyakrabban alkalmazott nemparaméteres próbák Két összetartozó minta:  Előjelpróba  Előjeles rangpóba (Wilcoxon próba, Wilxocon’s signed rank test) Két független minta:  Mann-Whitney U-próba Több összetartozó minta: Friedman próba Több független minta: Kruskal-Wallis próba Kategóriás adatok elemzése (  2 próbák) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

86 86 Egy- és kétoldalas próbák Kétoldalas próba  H 0 : nincs változás  H a : van változás (bármilyen irányú) Egyoldalas próba  H 0 : az átlag nem növekedett  H a : az átlag növekedett p-értékek esetén: p(egyoldalas)=p(kétoldalas)/2 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

87 87 A szignifikancia értelmezése Szignifikáns különbség – p< , p<0.05. Az összehasonlított populációkról azt állítjuk, hogy különbözők. A döntés hibavalószínűsége kicsi (maximum  - ez az ún. első fajta hiba – Type I. error). Nem szignifikáns különbség – p> , p>0.05. Ilyenkor csak annyit tudunk mondani, hogy nincs elegendő információ a különbség kimutatására. Lehet, hogy  Valóban nincs is különbség  Van különbség, csak kevés volt az elemszám  Nagy volt a szórás  Rossz volt a vizsgálati módszer …… A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai szempontból jelentős-e A statisztikai szignifikancia megadásakor a p-érték feltüntetése is célszerű. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

88 88 Több csoport, minta átlagainak összehasonlítása Pl. 4 féle „kezelés” Pl. több időpontban végzett mérések, a csoportok összehasonlítása minden egyes időpontban 3mMK 5 K 3 K+K+ 5 K+K+ Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

89 89 Miért nem jó, ha t-próbákat végzünk páronként? Mert a véletlen is okozhat „szignifikáns” eredményt – ha  =0.05, akkor átlagosan minden 20-adik esetben. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

90 90 Ugyanazon populációból származó minták páronkénti összehasonlítása t-próbával Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

91 91 Emiatt hibás több csoport esetén az átlagok összehasonlítására páronkénti kétmintás t-próbákat végezni, vagy két csoport esetén több összefüggő változót szintén kétmintás t-próbákkal vagy más, egyváltozós eljárással összehasonlítani, korrelációjukat vizsgálni – tehát bármely egyváltozós módszert ismételten alkalmazni. Nem tudhatjuk ugyanis, hogy a szignifikáns eredmények közül melyek tulajdoníthatók a véletlennek, és melyek tükröznek valódi különbséget. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

92 92 Megoldás: sok t-próba helyett egyetlen varianciaanalízis Az egyedi p-értékek korrekciója  Bonferroni  Holm  FDR (False Discovery Rate)  … Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

93 93 Bonferroni korrekció Adott (H 01 és H 02 és... H 0n ) nullhipotézis, a hozzátartozó szignifikanciaszint  1,  2, …,  n Hogyan válasszuk meg  i -t ahhoz, hogy a (H 01 és H 02 és... H 0n ) hipotézis szignifikanciszintje ne legyen nagyobb, mint egy kiválasztott  ?  (0,1) A p-értéket osztjuk az összehasonlítások számával. (H 01 és H 02 és... H 0n )-t elvetjük, ha legalább egy p i <  /n Tehát 5 hipotézis esetén  =0.05 helyett  =0.01 szinten kell szignifikánsbak lenni bármelyik hipotézisnek, hogy az együttes döntés hibája maximum 0.05 legyen. Sok összehasonlítás esetén túl konzervatív módszer (nem mutat ki valós különbségeket sem). Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

94 94 Egyedi p-értékek korrekciója a SAS rendszerrel The SAS System The Multtest Procedure p-Values False Stepdown Discovery Test Raw Bonferroni Hochberg Rate Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

95 95 Egyszempontos ANOVA Adott több független minta Cél az átlagok összehasonlítása Feltételek:  Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a minták független minták (egy egyed csak egy csoportba kerülhet).  Az összehasonlítandó értékeket tartalmazó változó folytonos.  A minták normális eloszlású populációból származnak.  Azok a populációk, amelyekből a minták származnak, azonos varianciájúak. Nullhipotézis:  A független minták azonos eloszlású populációból származnak, azaz a populáció-átlagok megegyeznek Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

96 96 Példa Egy kísérletben (Farkas és mtsai, 2003.) lokális iszkémiának alávetett, izolált patkányszívben a szívfrekvencia és a QT szakasz hosszának változását vizsgálták három antiaritmiás gyógyszer hatására. 5 Mm K+ kálium ion koncentráció esetén, 25 perccel a lokális iszkémia után a QT szakasz hosszára a 4.8. táblázatban látható értékeket kapták. Vizsgáljuk meg, hogy a 4 csoportban van-e különbség a QT szakasz átlagos hosszában! Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

97 97 Módszer Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja:  Csoportok közötti  Csoportokon belüli Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, akkor a populációban a csoportok közötti és a csoportokon belüli variancia is megegyezik. A kettő hasonlításával lehet következtetni az átlagok azonosságára. ‘új’ nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli variancia megegyezik. Tesztelése: a két variancia becslését táblázatban tüntenjük fel. A próbastatisztika a két variancia hányadosa, tesztelése: F-próba (egyoldalas). Egy p-értéket ad:  ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0)  ha p<0.05, akkor van az átlagok között különböző Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

98 98 A varianciaanalízis táblázata példafeladat adataira F(3,19)=14.426, p<0.001, a különbség szignifikáns, csoport-átlagok között van legalább egy, a többitől eltérő Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

99 99 Páronkénti hasonlítások Módosított t-próbák (LSD) Bonferroni Scheffé Tukey Dunnett- egy kontrollhoz hasonlítja a többi csoportot Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

100 100 A „post-hoc” összehasonlítás veszélyei Ideális esetben a kísérlet előtt már tudnunk kell, hogy mely csoportok közötti különbség érdekel bennünket. A gyakorlatban mégis gyakori, hogy a kísérlet elvégzése után kapott eredmények ismeretében előre nem tervezett összehasonlításokat is elvégezünk. Ha pl. két csoport között nem vártunk eltérést, mégis nagyon különböző átlagokat kaptunk, késztetést érezhetünk arra, hogy ezt a különbséget is teszteljük. Ha csak a legnagyobb eltérést mutató csoportok közötti különbséget hasonlítjuk össze, annak valószínűsége, hogy szignifikáns különbséget kapunk, nagyobb lesz ahhoz képest, mintha két, a vizsgálat megkezdése előtt véletlenszerűen választott különbség-párt tesztelnénk. Ilyen esetben a kísérletre vonatkozó első fajta hiba megnő, nagyobb lesz az előre deklaráltnál. A konzervatívabb többszörös összehasonlítási módszerekkel megkereshetjük, mely átlagok különböznek melyektől, minden lehetséges párt összehasonlítva. Ha a csoportok páronkénti összehasonlítását azután végezzük, miután a kísérletet elvégeztük, ezeket a konzervatív módszereket kell alkalmaznunk. Egyedül Scheffé módszere enged meg ilyen utólagos „kutakodást”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

101 101 A szívfrekvencia elemzése ismételt méréses varianciaanalízissel Vizsgálható:  Kálium hatása (kezelés)  Idő hatása  Interakció: a kálium- hatás nagysága függ-e az időtől? * * * A szívfrekvencia magas kálium-ion koncentrációnál átlagosan szignifikánsan magasabb; függetlenül az időponttól Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

102 102 Relatív kockázat számítás 2x2-es táblázatok alapján Prospektív (kohorsz) vizsgálatokban számítható Vizsgált tényező előfordulásának valószínűsége (kockázat)  az 1. csoportban: p 1 =a/(a+c)  a 2. csoportban: p 2 =b/(b+d) Relatív kockázat: a tényező fennállása esetén hányszorosára változik a kockázat RR=p 1 /p 2 =[a/(a+c)]/[b/(b+d)] Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

103 103 Esélyhányados számítás 2x2-es táblázatok alapján Retrospektív (eset-kontroll- case-control) vizsgálatokban számítható Ilyenkor nem tudunk kockázatot becsülni, hiszen a csoport létszámát (a nevezőt ) mi állapítottuk meg Vizsgált tényező előfordulásának esélye  az 1. csoportban: a:c  a 2. csoportban: b:d Esélyhányados: a tényező fennállása esetén hányszorosára változik az esély OR=(a/c)/b/d) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

104 104 Diagnosztikus eljárások összehasonlítása Referencia tesztÖsszeg Új módszer + - +aba+b -cdc+d Összega+cb+da+b+c+d Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

105 105 Referencia tesztÖssz. Új módszerPozitívNegatív Pozitív Negatív Összesen Szenzitivitás: 231/258=0,9. A valóban pozitívak közül mennyit ítélt az új módszer is pozitívnak Specificitás: 54/86=0,63. A valóban negatívak közül mennyit ítélt az új módszer is negatívnak Pozitív prediktív érték: 231/263=0,88. Az új módszer szerinti pozitív esetek közül mennyi a valóban pozitív Negatív prediktív érték: 54/81=0,67. Az új módszer szerinti negatív esetek közül mennyi a valóban negatív Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

106 106 Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 5-nél „elvágva”: 32 betegből 18-at helyesen osztályozok, szenz=18/32= egészségesből 92-t osztályozok helyesen, 1-et hibásan, spec=92/93= Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

107 107 Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 7-nél „elvágva”: 32 betegből 18+7=25-öt helyesen osztályozok, szenz=25/32= egészségesből 75-t osztályozok helyesen, 18-at hibásan, spec=75/93= Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

108 108 Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 9-nél „elvágva”: 32 betegből =29-et helyesen osztályozok, szenz=29/32= egészségesből 39-t osztályozok helyesen, spec=39/93=0.194 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

109 109 ROC görbe Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

110 110 „Optimális” szétválasztás Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

111 111 ROC görbe, Hatásfokmérő karakterisztika (Receiver operating characteristic) A görbe alatti terület alkalmas mérték különböző módszerek hasznosságának, prediktív erejének összehasonlítására, a nagyobb érték nagyobb prediktív erőt jelent. Teljes szétválasztás esetén a görbe háromszöggé válik, a görbe alatti terület =1. Teljes egyezés esetén a görbe a zölddel jelzett átlóba megy át, ekkor a terület 0.5. A ROC görbe segíthet valamely diagnosztikai próba küszöbértékének kiválasztásában is. Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

112 112 ROC görbe alatti terület ROC = 0,5 Nem használható a teszt ROC < 0,7 Gyenge szétválaszthatóság 0,7 ≤ ROC < 0,8 Elfogadható a teszt 0,8 ≤ ROC < 0,9Jó diagnosztikus teszt ROC ≥ 0,9Kiváló diagnosztikus teszt Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

113 113 Többváltozós módszerek, kockázati tényezők keresése több célváltozót vizsgálunk önmagában, vagy egy vagy több célváltozót vizsgálunk több másik (független) változó függvényében Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

114 114 Logisztikus regresszió Többváltozós módszer, amelyben  Több tényező (jellemző, tünet) alapján valamely betegség előfordulásának valószínűségét becsüljük  a függő változó kategorikus, legtöbbször bináris  a független változók eloszlására nincs feltétel Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

115 115 A „7 perces” neurokognitív szűrési teszt magyarországi standardizálása A demencia szindrómákkal kapcsolatos problémák:  A betegség aluldiagnosztizált  A korai felismerés jelentősége Meglevő gyorstesztek:  Mini Mentál Teszt (Janka és mtsai, 1988)  Óra Rajzolási Teszt (Kálmán és mtsai, 1995) Új, „7 perces” szűrővizsgálatot dolgoztak ki, mely szerintük 100 % biztonságban felismeri az Alzheimer kórt ( Solomon, PR, Hirschoff A, Kelly B. et al: (1988). A 7 minute neurocognitive screening battery highly sensitive to Alzheimer's disease. Arch. Neurol. 55: )  Részei: Időorientáció Memória Verbális flencia Vizuospaciális képességek Ezekből kijön egy összpontszám, illetve ezeknek egy logisztikus regressziós modellből számolt becsült valószínűség alapján lehet dönteni. A teszt magyarországi standardizálása: Kálmán J., Boda K., Bende Zs., Janka Z.: Dementia szindrómák szűrése: a 7 perces teszt magyaroroszági alkalmazása. Orvosi Hetilap 2003; 144(39): Krisztina Boda and János Kálmán: Evaluation of the „7 Minute” Neurocognitive Screening test using logistic regression models. 23rd Annual COnference. The International Society forClinical Biostatistics, Sept , Dijon, France. Pp 180. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

116 116 Logisztikus regressziók eredménye Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

117 117 ROC görbe Kontroll és demenciabetegek szétválasztása Kontroll és Alzheimer-kóros betegek szétválasztása Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

118 118 Eredményközlés, példa az irodalomból Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

119 119 Elemszámbecslés Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

120 120 Miért fontos? Gazdasági okok:  Túl kevés elem esetén nem tudjuk kimutatni a kívánt hatást  Túl kevés elem esetén olyan eredmény kimutatására pazaroljuk az erőt, amely gyakorlatilag nem érdekes Etikai szempontok Tudományos:  Ha elegendő elemszám esetén kapunk negatív eredményt, akkor az eredményt tudjuk értelmezni  Ha nem elegendő esetszám esetén kapunk negatív eredményt, klinikailag fontos hatást dobhatunk ki az ablakon Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

121 121 Az elemszámbecslést meghatározó (befolyásoló) tényezők A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome): kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége,  A próba ereje (1-  ) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

122 122 A próba ereje A próba ereje annak valószínűsége, hogy egy különbséget — adott mintanagyság és szignifikancia-szint mellett — egy statisztikai próba kimutat. A vizsgálatok tervezésének gyakorlatában az erő nagyságának előre megszabott értékéből kiindulva határozzák meg a szükséges mintaelemszámot. A statisztika elméletének fontos része olyan döntési szabályok keresése, amely a próbát a lehető legerősebbé teszi adott esetén. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

123 123 A próba ereje adott elemszám és  esetén, különböző alternatív hipotézisek mellett Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

124 124 A próba ereje adott elemszám és  esetén, különböző alternatív hipotézisek mellett Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

125 125 PS, Power and Sample Size Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

126 126 Az elemszámbecslést meghatározó (befolyásoló) tényezők A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome):kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége,  A próba ereje (1-  ) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

127 127 Lépések A probléma megértése A statisztikai próba megválasztása Az elsődleges kérdés megfogalmazása (becslés v. hipotézis teszt); H0, Ha meghatározása A végpont meghatározása, a fő hatásmutató kiválasztása ,1-  rögzítése (korai fázisoknál 0.1 és 0.9, később 0.05 és ) A klinikailag jelentős különbség (ekvivalencia-non- inferiority vizsgálatoknál a maximum irreleváns vagy nem jelentős különbség) meghatározása A variabilitás becslése – korábbi vizsgálatok alapján Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

128 128 Lépések folyt. Különböző körülmények (  -t és  -t variálva) és a paraméterek különböző kombinációira végezzünk számításokat Befolyásolhatja még:  Hiányzó adatok  Többszörös összehasonlítások  Nem egyenlő csoportelemszámok  Paraméteres v. nemparaméteres módszer  Noninferiority vagy ekvivalencia vizsgálat  … Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

129 129 Korrigálás A fő hatásmutatóra számítjuk ki általában Több fontos változó figyelembe vétele:  Mindegyikre külön számítsunk, és vegyük a maximumot  n új =n(1-r 2 ), ahol r a kovariáns változó és a a fő hatásmutató közötti korreláció Multiplicitás: Bonferroni korrekciót kell alkalmazni, ha legalább egy szignifikáns eredményt szeretnénk (pl. legalább egyet a több páronkénti hasonlítás közül) A válaszadás aránya és a vizsgálatból való kiesés miatti korrekció: n új =n/(1-L), ahol L a „loss to follow-up rate” Csoportonként különböző elemszámok:  Számítsuk ki egyenlőkre, majd k=n 2 /n 1  n 1 =n(k+1)/(2k), n 2 =n(k+1)/2 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

130 130 Korrigálás Nemparaméteres módszerek: általában az elemszámot paraméteres próbák alapján határozzák meg Ha a paraméteres próbák feltételei nem teljesülnek, a nemparaméteres próbák alkalmazásához korrekció (létezik) Ekvivalencia/noninferiority vizsgálatok Rétegezés, blokkok képzése, illesztés (matching) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

131 131 Két arány különbsége Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

132 132 Elemszámbecslés bináris adatokra (két arány különbsége) H 0 : p 1 =p 2 vs. H a : p 1 ≠ p 2 ; Kétoldalas α = 5%, β = 20%, Chi-négyzet próbával/Z-próbával tesztelve az arányok egyenlőségét P 1 és p 2 különböző értékeire az elemszám: Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

133 133 Példa A mintaelemszám meghatározás korábbi retrospektív vizsgálat alapján történt. Ahhoz, hogy posztoperatív komplikációk klinikailag jelentős csökkenését ki tudjuk mutatni az URI és URI-mentes gyerekek között (42%-ról 23%-ra), 94 eset kell csoportonként (  = 0.05 and  = 20%, kétoldalas teszt). „Sample size determination was based on our previous retrospective study using overall postoperative complications as the outcome measure. Based on the clinically important difference in incidence of this outcome between children with URIs and those without URIs (i.e., 42 vs. 23%), we calculated that we would need 94 subjects per group to detect a statistically significant difference at least that large (  = 0.05 and  = 20%, two tailed).” S. Malviya, T. Voepel-Lewis, M. Siewert,, U. A. Pandit,, Lori Q. Riegger, Alan R. Tait. Risk Factors for Adverse Postoperative Outcomes in Children Presenting for Cardiac Surgery with Upper Respiratory Tract Infections. Anesthesiology 2003; 98:628–32. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

134 134 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

135 135 Ajánlás Nemszignifikáns eredmény diszkussziójakor – ha nem volt előzetes elemszámbecslés – meg kell adni a próba erejét. Kis erejű nemszignifikáns eredményt nem lehet úgy értelmezni, hogy az összehasonlított változók (csoportok) azonosak. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

136 136 Hasznos Web oldalak Angol nyelvű  Rice Virtual Lab in Statistics  Statistics on the Web  Hisztogram alakjának változása – Old Faithful  Statisztikai bemutatók (Java)  html html Magyar nyelvű  – Klinikai Biostatisztikai Társaság

137 137 Idézet egy egyetemi hallgató feljegyzéseiből „Ha csak egy nap lenne hátra az életemből, azt a statisztika órán szeretném eltölteni – így sokkal hosszabbnak fog tűnni”. (már nem működő lap )http://www.uwo.ca/epidem/bsuhum.htm


Letölteni ppt "A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, 2011. május 19-21. Boda Krisztina PhD SZTE ÁOK."

Hasonló előadás


Google Hirdetések