Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Hasonló előadás


Az előadások a következő témára: "Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet"— Előadás másolata:

1 Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
Teaching Mathematics and Statistics in Sciences HU-SRB/0901/221/088 A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, május Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

2 Egy kis bevezetés Egy matematikus, egy alkalmazott matematikus és egy statisztikus mindhárman egy bizonyos munkára jelentkeztek. A felvételi beszélgetésen megkérdezték tőlük, hogy mennyi 1+1? Matematikus: Be tudom bizonyítani, hogy létezik, de azt nem, hogy csak egy megoldás van. Alkalmazott matematikus: A válasz közelítően 1.99, a becslés szórása 0.01. Statisztikus (kilépett a szobából, majd hirtelen visszatért és érdeklődött): tehát mit szeretnétek, mennyi legyen? Biostatisztikai alapismeretek  Boda Krisztina 

3 Ajánlott irodalom Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007. Biostatisztikai alapismeretek  Boda Krisztina 

4 Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban.
Medicina Kiadó Biostatisztikai alapismeretek  Boda Krisztina 

5 Ajánlott irodalom Gachályi Béla (szerk.) - Lakner Géza (szerk.): Klinikai farmakológia a gyakorlatban - A humán klinikai gyógyszerfejlesztés módszertana. Statisztikai alapelvek fejezet (Singer Júlia) SpringMed Kiadó Biostatisztikai alapismeretek  Boda Krisztina 

6 Amiről szó lesz Hipotézisvizsgálatok, kiemelve a következőket:
Populáció, minta, leíró statisztikák A véletlen ingadozás vizsgálata, a statisztikai próbák elve Konfidenciaintervallum és a statisztikai szignifikancia Egyváltozós statisztikák, mikor mit? t-próbák, 2 próbák, korreláció/regresszió Többszörös összehasonlítások problémái Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek, kockázati tényezők Elemszámbecslés, statisztikai erő számítása Biostatisztikai alapismeretek  Boda Krisztina 

7 Populáció (sokaság), minta
Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

8 Példák Adathalmazok Minta Sokaság
Gyógyszerészhallgatók egy csoportja által kitöltött kérdőívek 20 egészséges nő vérnyomásértékei Sokaság Gyógyszerészhallgatók hallgatók Általában az egészséges nők vérnyomása Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

9 Minta Sokaság (megközelíti) Kategóriás változó lehetséges értékeinek gyakoriságai, relatív gyakoriságai A változó (sokaság) eloszlása Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

10 Minta Sokaság Egy folytonos változóról készített hisztogram
(megközelíti) Egy folytonos változóról készített hisztogram A folytonos változó eloszlását (sűrűségfüggvényét) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

11 Minta Sokaság Átlag (x) Standard deviáció (SD)
(megközelíti) Átlag (x) Standard deviáció (SD) Medián Sokaság-átlag  (ismeretlen) A sokaság standard deviációja  (ismeretlen) A sokaság mediánja (ismeretlen) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

12 Az eloszlás közepének jellemzése
Átlag: Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a „két középső elem” átlaga Példaadatok: átlag=( )/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

13 A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Kvartilisek, percentilisek: 25%-os percentilis (első kvartilis): az a szám, aminél az adatok 25%-a kisebb. A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az adatokat. A szóródás megadására használják a 25%-os és 75%-os kvartilist A variancia A standard deviáció: az adatok szóródása az átlag körül Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

14 Példa. A szóródás jellemzői
Adatok: , rendezve: Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: 1 1-2=-1 2 2-2=0 4 4-2=2 Összeg 6 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

15 Az átlag szórása, standard error of mean, SE, SEM
Azt fejezi ki, hogy az átlag, amit a mintából számoltunk, mennyire megbízható. Ha többször is meg tudnánk ismételni a mérést (végtelen sokszor), akkor mindegyik mérés-sorozat átlagának a szóródását mutatja a populáció átlag körül Számítása: SE=SD/n Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

16 Standard deviáció vagy standard error??
Standard deviáció, SD: a minta szórása, a mintaadatok szóródása az átlag körül. Normális eloszlás esetén az átlag 2SD-n belül van az adatok kb. 95%-a Standard error (SE=SD/n): az átlag megbízhatósága, a mintaátlag szóródása az (ismeretlen) populáció átlag körül. Normális eloszlás esetén az átlag  2SE-n belül van az igazi átlag kb. 95%-os valószínűséggel. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

17 Normális eloszlások Jelölés: N(, )
A hisztogramot „kisimító” görbe gyakran szimmetrikus, egycsúcsú, harang alakú görbe. Ez a görbe egyértelműen leírható két paraméterrel: a  középpel és a  standard deviációval (szórás). Az ábrán a kék vonalat a mintából számolt átlag és szórás alapján rajzoltuk be. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

18 A szabály Egy  és  paraméterekkel meghatározott normális eloszlás esetén: A megfigyelések 68% -a esik a  középtől egyszeres  távolságra A megfigyelések 95% -a esik a  középtől kétszeres  távolságra A megfigyelések 99.7% -a esik a  középtől 3-szoros  távolságra Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

19 Az eloszlás elképzelése adott átlag és szórás (SD) alapján (normális eloszlást feltételezve)
A cikkekben a táblázatok leggyakrabban az átlagot és a szórást ismertetik. Ezek alapján el tudjuk képzelni, milyen lehet az eloszlás Pl. életkor (év) 55.2  15.7 86.6 23.8 Ebben az intervallumban van az adatok 95.44%-a Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

20 Az SD ferde eloszlások esetén
Stent length per lesion (mm): 18.8  10.5 Ezekkel a paraméterekkel a következő eloszlás képzelhető el: A szórás a ferde eloszlás miatt lett „nagy”. Ezért gyakran a standard deviáció helyett a standard errort adják meg a táblázatokban vagy ábrákon. Az valóban kisebb, de mást jelent. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

21 A közép és a szóródás jellemzőinek „párosítása”
Közlés cikkekben Átlag Standard deviáció, Standard error Átlag (SD) Átlag  SD Átlag  SE Átlag  SEM Medián Min, max 5%-os, 95%-os percentilis 25 % , 75% (Kvartilisek) Med (min, max) Med(25%, 75%) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

22 Ábratípusok a számolt jellemzők alapján
Átlag-szórás ábra Átlag + SD Átlag + SE Átlag + 95% CI Átlag  SE Átlag  95% CI Átlag  SD Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

23 Ábratípusok a számolt jellemzők alapján
Doboz-ábra (box diagram) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

24 Hipotézisvizsgálatok
A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai minta) alapján az egész jelenség (populáció) tulajdonságaira következtetünk. Azt vizsgáljuk, hogy a tapasztalt eredmény (különbség) nagyobb-e, mint amit a véletlen önmagában okoz. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

25 Mintavétel, szimuláció
Legyen a populáció 120 átlagú, 10 szórású normális eloszlás, ebből veszünk 50 elemű mintákat Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

27 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

28 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

29 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

30 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

31 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

32 120 átlagú, 10 szórású populációból származó 50 elemű minták (ismételt mérések) átlagai és szórásai
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

33 Mekkora lehet a véletlen ingadozás?
A minták átlagai 120 körül ingadoznak, ha „nem történik semmi”, csak sima ismétlés Két mérés különbségének átlaga a 0 körül ingadozik Mekkora az a különbség, amit már nem a véletlen okoz? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

34 Hipotézisek Nullhipotézis: véletlen ingadozást mértem, „semmi nem történt”. A különbség 0 körül ingadozik Alternatív hipotézis: a véletlen ingadozásnál nagyobbat mértem, „valami történt” A különbség 0-tól eltérő szám körül ingadozik ??? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

35 A nullhipotézis fennállása esetén ismerjük a különbség-átlag eloszlását
Pontosabban: az abból számolt t-statisztika eloszlását ismerjük t=különbség átlag/különbség SE Ha igaz a nullhipotézis (igazából nincs különbség a populáció átlagok között), a t-érték nagy valószínűséggel (95%) ide esik. A kimaradó valószínűség 5% () Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

36 Statisztikai próba: kiszámítjuk adatainkból a t=átlag/SE próbastatisztikát és megnézzük, hova esik
Döntés: az eltérés nem szignifikáns |t|<ttábla Döntés: az eltérés szignifikáns |t|>ttábla Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

37 Döntési szabály p-érték alapján
p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Annak valószínűsége, hogy a puszta véletlen legalább ekkora különbséget okoz p>, a különbség nem szignifikáns adott  szinten p<, a különbség szignifikáns adott  szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

38 Miért éppen 5%? A tévedés valószínűségét mi állapítjuk meg előre, még a kísérlet megkezdése előtt. Tehát egyáltalán nem kötelező a 95% illetve az 5% betartása, mégis ez a kialakult „szokásrendszer”. Oka*: „Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket … A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. „Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt van, az elég erősen arra vall, hogy hipotézisünk nem elegendő magyarázat a tényekre. Talán nem tévedünk majd túl gyakran, ha a határvonalat 0,05-nál húzzuk meg...” . Fontos itt megjegyeznünk, hogy Fisher mindig is hangsúlyozta: a p-érték interpretálása végső soron a kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez.” *Sifting the evidence—what's wrong with significance tests? Jonathan A C Sterne, George Davey Smith, BMJ 2001;322:226–31 *A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal? Jonathan A. C. Sterne, George Davey Smith. BMJ Magyar Kiadás 2001;3: Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

39 A konfidenciaintervallum fogalma (bizonyossági intervallum)
Olyan, a mintaelemekből számolt intervallum, amely nagy valószínűséggel tartalmazza a populáció-paraméter valódi (ismeretlen) értékét Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a mintaelemekből számolt intervallum, ami 95% valószínűséggel tartalmazza a populáció valódi átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatósági szint) tőlünk függ. Szokásos értékei: 0.90, 0.95, 0.99 ) A becslés „hibája” (-val jelöljük) a megbízhatósági szint függvényében 1-0.90=0.1, =0.05, =0.01 Leggyakrabban használt megbízhatósági szint 95% (0.95), tehát  -ra leggyakrabban =0.05 értéket alkalmazzák. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

40 Az átlagra vonatkozó 95%-os bizonyossági intervallum szemléltetése az adott kísérlet képzeletbeli ismétléseivel Ha a kísérletet képzeletben 100-szor megismételnénk, a 100 kapott 95%-os konfidencia intervallum közül várhatóan 95 fogja tartalmazni a populáció átlagát, és 5 nem. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

41 Szignifikancia és a konfidenciaintervallum
A mintát az adott (átlagú) populációból vettük. A populációátlag =0. Ez lehet pl. annak a nullhipotézisnek megfelelő eloszlás, hogy a kezelés előtti és a kezelés utáni populációátlag ugyanaz. A konfidenciaintervallum tartalmazza az adott átlagot – jelen esetben a nullát. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

42 Szignifikancia vizsgálatok és a konfidenciaintervallum kapcsolata (H0: μ1= μ2, azaz μ1- μ2 =0, Ha: μ1 μ2) p-érték szignifikancia 95% CI (p1 – p2)-re p<0.05 szign. 5%-os szinten pl. (4.5, 10.7) 0 nincs benne a konf. intervallumban p > 0.05 nem szign. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. intervallumban Szignifikáns, p<0.05 Szignifikáns. p<0.05 Nem szignifikáns, p>0.05 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk, akkor a konfidenciaintervallumban az 1-et keressük Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

43 Ha van két adatsorom, mikor „kell” t-próbát (és akkor melyiket), khi-négyzet próbát, vagy korrelációt stb… számítani??? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

44 A próba megválasztása függ
Az analízis céljától (összehasonlítás vagy kapcsolat) Az adatok típusától A kísérleti elrendezéstől …. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

45 t-próba „Szokásos” ábrák átlagokat hasonlít. Akkor alkalmazzuk, ha két csoportban folytonos változóink vannak, amelyekből van értelme átlagot számolni (pl. kor, vérnyomás, stb.) Feltétele: Normalitás Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

46 2 (khi-négyzet) próba Gyakoriságokat (%-okat),
„Szokásos” ábrák Gyakoriságokat (%-okat), (gyakorisági eloszlásokat hasonlít) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

47 Korreláció-regresszió Két folytonos változó lineáris kapcsolata
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

48 A hipotézisvizsgálat menete
Hipotézisek felállítása Nullhipotézis: semmi nem történt Alternatív hipotézis: valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az elemszámtól) Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség  szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns %-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

49 Egy minta esete: egymintás t-próba Két minta esete:
Normális eloszlást feltételezve, az átlagok összehasonlítására használható próbák Egy minta esete: egymintás t-próba Két minta esete: Összetartozó minták: (előtt-után, baloldal-jobboldal): páros t-próba= egymintás t-próba a különbségekre Független minták (placebo-kezelés, férfi-nő, beteg-egészséges): kétmintás t-próba Azonos szórások esetén „klasszikus” Különböző szórások esetén „módosított” (Welch, D) Szórások egyezésének tesztelése: F-próba, Levene-próba Több (>2) minta esete: varianciaanalízis Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

50 Egymintás t-próba Egy kezelés során szükségessé vált annak ellenőrzése, hogy az milyen hatással van a vérnyomásra. A vizsgált paciensek korcsoportjában a systolés vérnyomás normálértéke 120. n=9 személyt megmérve a következő értékeket kapták: (átlag=162, SD= Mondhatjuk-e a mintaadatok alapján, hogy az adott korcsoport populációjában az átlagos vérnyomás 120 Hgmm? Nullhipotézis (HO): A populáció átlag 120, =120 Alternatív hipotézis (Ha): A populáció átlag nem 120 , 120 (kétoldalas) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

51 Döntési szabály a konfidencia intervallum alapján
Konfidencia intervallum alapján: adjuk meg a populáció-átlagra vonatkozó 95%-os konfidencia intervallumot! A konfidencia intervallum: (átlag - t*SE, átlag + t * SE )= ( *23.92/9, *7.97)=(143.61, ) Döntési szabály a konfidencia intervallum alapján: benne van-e az adott szám a konfidencia-intervallumban? Ha igen: a különbség nem szignifikáns adott szinten Ha nem: a különbség szignifikáns adott szinten Esetünkben 120 nincs benne a konfidencia intervallumban, tehát a különbség szignifikáns 5%-os szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

52 Döntési szabály a t-érték alapján
Számítsuk ki a t-értéket: t= (átlag - c)/SE=( )/7.97=5.26. szabadságfok: n-1=9-1=7 és hasonlítsuk az abszolút értékét a t8,0.05=2.306 táblázatbeli értékhez : 5.26>2.306 Döntési szabály: ha |t|>ttábla, a különbség szignifikáns adott szinten Az elfogadási tartomány a változó azon értékeinek halmaza, amelyekre elfogadjuk a nullhipotézist (- ttábla ,ttábla) A kritikus tartomány ennek ellentettje. A kritikus tartomány értékeire a nullhipotézist nem fogadjuk el. Esetünkben a különbség szignifikáns 5%-os szinten Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

53 Döntési szabály a p-érték alapján
p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Ha a p<, akkor a különbség szignifikáns adott  szinten Esetünkben p=0.001<0.05 Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

54 Páros t-próba Önkontrollos kísérlet, vagy
Más módon összetartozó adatok: Jobb oldal-bal oldal Illesztett párok- matched pairs (különböző személyek, de a kísérlet szempontjából párba állíthatók) Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen) Alternatív hipotézis: a két minta-átlag két különböző populáció-átlagnak a közelítése (van hatás) Döntési szabály: Konfidenica intervallum a különbségre t-érték számítás és összehasonítás a táblázattal p-érték (szoftver) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

55 Páros t-próba, példa (folyt).
Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: HO: előtt= után or különbség= 0 (c=0)!! HA:  előtt ≠  után or  különbség ≠ 0 Legyen =0.05. A szabadságfok=10-1=9, ttáblázat=t0.05,9=2.262 átlag=4, SD=3.333 SE=3.333/10=1.054 Döntés a konfidenciaintervallum alapján: 95%CI: ( *1.054, *1.054)=(1.615, 6.384) Ha H0 igaz, akkor a 0 benne van a konfidencia-intervallumban Most 0 nincs benne a 95%-os konfidencia-intervalluman, ezért döntésünk az, hogy a különbség szignifikáns 5%-os szinten, a kezelés hatásos volt Az átlagos súlyveszteség 4 kg, ami akár 6.36 is lehetne, de minimum 1.615, 95% valószínűséggel. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

56 Páros t-próba, példa (folytatás)
Döntés a próbastatisztika alapján (t-érték: Azt hasonlítjuk a táblabeli kritikus értékhez. |t|=3.795>2.262(=t0.05,9), a különbség szignifikáns 5%-os szinten Döntés p-érték alapján: p=0.004, p<0.05, a különbség szignifikáns 5%-os szinten Elfogadási tartomány tszámított, próbastatisztika ttábla, kritikus érték Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

57 Példa az orvosi irodalomból V
Példa az orvosi irodalomból V. Lindén: Vitamin D and Myocardial Infarction. BMJ 1974,3, Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

58 Kísérleti elrendezések
Páros t-próba Minden egyedet kétszer vizsgálunk 1. 2. x1 y1 x2 y2 … … xn yn Kétmintás t-próba Minden egyedet csak egyszer vizsgálunk, és mindegyik egy és csak egy csoportban lehet. Csoport Mérések 1 x1 1 x2 … … 1 xn 2 y1 2 y2 2 ym Az elemszám nem feltétlenül azonos a két mintában Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

59 Kétmintás t-próba Két független minta összehasonlítása Feltételek:
A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Különböző varianciák esetén: Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

60 Kétmintás t-próba Két független minta összehasonlítása Feltételek:
A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Azonos varianciák esetén: Szabadságfok: n+m-2 Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

61 A varianciák összehasonlítása
Ha:21 > 22 vagy 21 > 22 (egyoldalú próba) A próbastatisztika (F): a nagyobbik standard deviáció négyzetét osztjuk a kisebbel: Szabadságfokok: nagyobb SD-hez tartozó minta elemszáma-1 Kisebb SD-hez tartozó minta elemszáma-1 Döntés: F táblázat alapján Ha F>Fα,táblázat, a két variancia szignifikánsan különbözik α szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

62 Az F-eloszlás táblázata (részlet) α=0.05
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

63 Példa Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

64 Eredmény SPSS-sel A varianciák összehasonlítása.
p=0.93>0.05, nem szignifikáns. Elfogadjuk a varianciák azonosságát Az átlagok összehasonlítása (t-próba). Első sor: egyenlő varianciák esete. t=6.657, df=16, p<0.001 Az átlagos vérnyomás szignifikánsan különbözik a két populációban 5%-os szinten Második sor: az átlagok összehasonlítása (t-próba) különböző varianciák esetén. Most nem használjuk fel az itt található információt, mert elfogadtuk a varianciák azonosságát Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

65 Kategórikus változók elemzése 2 próbák (khi-négyzet)
Két kategóriás változó kapcsolata. Pl. 2 közúti ellenőrzés során az ittasok aránya 1.5% ill. 0.5 % Pl. a sikeres műtétek gyakorisága 2 féle eljárás esetén 33.3% és 66.6%*. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

66 2x2-es táblázatok A gyakoriságok kontingencia táblázatba rendezhetők.
2 formula könnyen számítható Yates korrekció: pontosabb közelítés Ha a várt gyakoriságokra vonatkozó feltétel nem teljesül: Fisher féle egzakt próba Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

67 2 próba az 1*. példa adataira
Nullhipotézis: Az ittasság aránya azonos a két vizsgálatban, az ittasság független attól, hogy mikor nézték. Gyakorisági táblázat (amiből számolunk) A függetlenség esetén várható gyakoriságok 2=2.205, p=0.137 , nem szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) – nem teljesül!!! Megoldás: Fisher próba (p=0.216) *Bernholdt HPB, Dubben HH. A tojást rakó kutya.Budapest:Magyar Könyvklub; 2001. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

68 2 próba a 2. példa adataira
Nullhipotézis: A siker valószínűsége azonos a két eljárás esetén. Az eljárás sikeressége független attól, hogy új vagy hagyományos eljárásról van-e szó. Gyakorisági táblázat (amiből számolunk) 2=5.406, p=0.02 , szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) teljesül!!! ( Fisher próba p=0.038) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

69 2x3-as kontingencia táblázat
Két kategóriás változó kapcsolata. Pl. diabetes gyakorisága a 3 csoportban csoportban: 31%, 27% és 25%*. Kérdés: különbözik-e a diabetes gyakorisága az egyes csoportokban? DIAB CS1 Cs2 Cs3 Total yes 31 27 25 83 no 69 73 75 217 100 300 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

70 A 2 próba végrehajtása, feltételei
H0 teljesülése esetén a várt gyakoriságok számítása (Ei=sorösszeg*oszlopösszeg/total) 2 statisztika számítása: 2 =Σ(Oi-Ei)2/Ei Szabadságfok: sorok száma-1)*(oszlopok száma-1) Döntés táblázat alapján: 2 > 2 táblázat, , df Feltétel: 5-nél kisebb várt gyakoriságot tartalmazó cellák száma max. 20% Egzakt tesztek (Fisher): nincs feltétele, a pontos p-értéket adják 2 =0.933 Df=(3-1)*(2-1)=2 0.933<5.99(= 2 táblázat, 0.05,2) p=0.627 Teljesül Egzakt p=0.663 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

71 Korreláció-regresszió: két folytonos változó közötti (lineáris) kapcsolat vizsgálata. A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra). Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot. A két változó mért értékeivel mint koordinátákkal berajzoljuk a megfelelő pontokat. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

72 Lehetséges kapcsolatok
Negatív korreláció Pozitív korreláció Nincs korreláció Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

73 Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r ) és tulajdonságai
A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1r 1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között. b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció. c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

74 Kiugró értékek hatása Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt. r=-0.21 r=0.74 r=0.998 r=-0.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

75 A korreláció csak a lineáris kapcsolat szorosságát méri
Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi r=2.8 E-15 r=0.157 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

76 A korreláció nem jelent oksági kapcsolatot
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

77 A korrelációs együttható szignifikanciája
Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H0: ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) Ha: ρ ≠ 0 (a populációs korrelációs együttható ≠ 0) Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ Döntés t-táblázat alapján: Ha |t|>tα,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Ha |t|<tα,n-2, a különbség nem szignifikáns α szinten, nem vetjük el a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható nem tér el 0-tól.. Döntés p-érték alapján: Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

78 p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól.
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

79 A lineáris kapcsolat becslése: lineáris regresszió
Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

80 A legkisebb négyzetek elve
->min A korrelációs együttható kiszámítása a regressziós együttható segítségével Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

81 A determinációs együttható, r2
A korrelációs együttható négyzete 100-zal szorozva a determinációs együttható. Megadja, hogy az y (függő) változó össz-varianciájának hány %-a magyarázható az x-től való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r = A determinációs együttható, r2 = Tehát a nyelvtudás össz-szóródásának 91.7%-a magyarázható a matematikától való lineáris függésével. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

82 Regresszió transzformációk alkalmazásával.
Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat . Az alakzat exponenciális kapcsolatot sejtet. Ha az y logaritmusát vesszük, az x és ln(y) közötti kapcsolat lineáris lesz Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

83 A próbák feltételeinek figyelembe vétele: paraméteres és nemparaméteres próbák
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

84 Rangsoroláson alapuló eljárások (nemparaméteres próbák egyik fajtája)
Mi van, ha a t-próba feltételei (normalitás, varianciák azonossága) nem teljesül??? Transzformációk alkalmazása (log, négyzetgyök, arcsin, …) Nemparaméteres próbák – rangsoroláson alapuló eljárások Akkor alkalmazhatjuk, ha A paraméteres próbák feltételei nem teljesülnek Nem tudjuk ellenőrizni (kis elemszám) Nem akarjuk ellenőrizni Ordinális változók (mennyire örülök a tavasznak??? Kicsit-közepesen-nagyon) Csak az adatok nagyságrendje számít, az nem, hogy mennyivel nagyobb egyik adat a másiknál Számítás: rangsorolás alapján De: nem ugyanazt a nullhipotézist tesztelik, mint a paraméteres próbák. Tehát nem tekinthetők úgy, mint a paraméteres próbák nem paraméteres „megfelelői”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

85 Leggyakrabban alkalmazott nemparaméteres próbák
Két összetartozó minta: Előjelpróba Előjeles rangpóba (Wilcoxon próba, Wilxocon’s signed rank test) Két független minta: Mann-Whitney U-próba Több összetartozó minta: Friedman próba Több független minta: Kruskal-Wallis próba Kategóriás adatok elemzése (2 próbák) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

86 Egy- és kétoldalas próbák
Kétoldalas próba H0: nincs változás Ha: van változás (bármilyen irányú) Egyoldalas próba H0: az átlag nem növekedett Ha: az átlag növekedett p-értékek esetén: p(egyoldalas)=p(kétoldalas)/2 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

87 A szignifikancia értelmezése
Szignifikáns különbség – p< , p<0.05. Az összehasonlított populációkról azt állítjuk, hogy különbözők. A döntés hibavalószínűsége kicsi (maximum - ez az ún. első fajta hiba – Type I. error). Nem szignifikáns különbség – p> , p>0.05. Ilyenkor csak annyit tudunk mondani, hogy nincs elegendő információ a különbség kimutatására. Lehet, hogy Valóban nincs is különbség Van különbség, csak kevés volt az elemszám Nagy volt a szórás Rossz volt a vizsgálati módszer A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai szempontból jelentős-e A statisztikai szignifikancia megadásakor a p-érték feltüntetése is célszerű. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

88 Több csoport, minta átlagainak összehasonlítása
Pl. 4 féle „kezelés” Pl. több időpontban végzett mérések, a csoportok összehasonlítása minden egyes időpontban 3 3 mM mM K+ K 5 5 mM mM K K+ Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

89 Miért nem jó, ha t-próbákat végzünk páronként?
Mert a véletlen is okozhat „szignifikáns” eredményt – ha =0.05, akkor átlagosan minden 20-adik esetben. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

90 Ugyanazon populációból származó minták páronkénti összehasonlítása t-próbával
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

91 Emiatt hibás több csoport esetén az átlagok összehasonlítására páronkénti kétmintás t-próbákat végezni, vagy két csoport esetén több összefüggő változót szintén kétmintás t-próbákkal vagy más, egyváltozós eljárással összehasonlítani, korrelációjukat vizsgálni – tehát bármely egyváltozós módszert ismételten alkalmazni. Nem tudhatjuk ugyanis, hogy a szignifikáns eredmények közül melyek tulajdoníthatók a véletlennek, és melyek tükröznek valódi különbséget. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

92 Megoldás: sok t-próba helyett egyetlen varianciaanalízis
Az egyedi p-értékek korrekciója Bonferroni Holm FDR (False Discovery Rate) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

93 Bonferroni korrekció Adott (H01 és H02 és... H0n ) nullhipotézis, a hozzátartozó szignifikanciaszint 1, 2, …, n Hogyan válasszuk meg i-t ahhoz, hogy a (H01 és H02 és... H0n ) hipotézis szignifikanciszintje ne legyen nagyobb, mint egy kiválasztott  ? (0,1) A p-értéket osztjuk az összehasonlítások számával. (H01 és H02 és... H0n )-t elvetjük, ha legalább egy pi</n Tehát 5 hipotézis esetén =0.05 helyett =0.01 szinten kell szignifikánsbak lenni bármelyik hipotézisnek, hogy az együttes döntés hibája maximum 0.05 legyen. Sok összehasonlítás esetén túl konzervatív módszer (nem mutat ki valós különbségeket sem). Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

94 Egyedi p-értékek korrekciója a SAS rendszerrel
The SAS System The Multtest Procedure p-Values False Stepdown Discovery Test Raw Bonferroni Hochberg Rate Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

95 Egyszempontos ANOVA Adott több független minta
Cél az átlagok összehasonlítása Feltételek: Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a minták független minták (egy egyed csak egy csoportba kerülhet). Az összehasonlítandó értékeket tartalmazó változó folytonos. A minták normális eloszlású populációból származnak. Azok a populációk, amelyekből a minták származnak, azonos varianciájúak. Nullhipotézis: A független minták azonos eloszlású populációból származnak, azaz a populáció-átlagok megegyeznek Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

96 Példa Egy kísérletben (Farkas és mtsai, 2003.) lokális iszkémiának alávetett, izolált patkányszívben a szívfrekvencia és a QT szakasz hosszának változását vizsgálták három antiaritmiás gyógyszer hatására. 5 Mm K+ kálium ion koncentráció esetén, 25 perccel a lokális iszkémia után a QT szakasz hosszára a 4.8. táblázatban látható értékeket kapták. Vizsgáljuk meg, hogy a 4 csoportban van-e különbség a QT szakasz átlagos hosszában! Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

97 Módszer Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja: Csoportok közötti Csoportokon belüli Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, akkor a populációban a csoportok közötti és a csoportokon belüli variancia is megegyezik. A kettő hasonlításával lehet következtetni az átlagok azonosságára. ‘új’ nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli variancia megegyezik. Tesztelése: a két variancia becslését táblázatban tüntenjük fel. A próbastatisztika a két variancia hányadosa, tesztelése: F-próba (egyoldalas). Egy p-értéket ad: ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0) ha p<0.05, akkor van az átlagok között különböző Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

98 A varianciaanalízis táblázata példafeladat adataira
F(3,19)=14.426, p<0.001, a különbség szignifikáns, csoport-átlagok között van legalább egy, a többitől eltérő Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

99 Páronkénti hasonlítások
Módosított t-próbák (LSD) Bonferroni Scheffé Tukey Dunnett- egy kontrollhoz hasonlítja a többi csoportot Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

100 A „post-hoc” összehasonlítás veszélyei
Ideális esetben a kísérlet előtt már tudnunk kell, hogy mely csoportok közötti különbség érdekel bennünket. A gyakorlatban mégis gyakori, hogy a kísérlet elvégzése után kapott eredmények ismeretében előre nem tervezett összehasonlításokat is elvégezünk. Ha pl. két csoport között nem vártunk eltérést, mégis nagyon különböző átlagokat kaptunk, késztetést érezhetünk arra, hogy ezt a különbséget is teszteljük. Ha csak a legnagyobb eltérést mutató csoportok közötti különbséget hasonlítjuk össze, annak valószínűsége, hogy szignifikáns különbséget kapunk, nagyobb lesz ahhoz képest, mintha két, a vizsgálat megkezdése előtt véletlenszerűen választott különbség-párt tesztelnénk. Ilyen esetben a kísérletre vonatkozó első fajta hiba megnő, nagyobb lesz az előre deklaráltnál. A konzervatívabb többszörös összehasonlítási módszerekkel megkereshetjük, mely átlagok különböznek melyektől, minden lehetséges párt összehasonlítva. Ha a csoportok páronkénti összehasonlítását azután végezzük, miután a kísérletet elvégeztük, ezeket a konzervatív módszereket kell alkalmaznunk. Egyedül Scheffé módszere enged meg ilyen utólagos „kutakodást”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

101 A szívfrekvencia elemzése ismételt méréses varianciaanalízissel
Vizsgálható: Kálium hatása (kezelés) Idő hatása Interakció: a kálium-hatás nagysága függ-e az időtől? * * * A szívfrekvencia magas kálium-ion koncentrációnál átlagosan szignifikánsan magasabb; függetlenül az időponttól Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

102 Relatív kockázat számítás 2x2-es táblázatok alapján
Prospektív (kohorsz) vizsgálatokban számítható Vizsgált tényező előfordulásának valószínűsége (kockázat) az 1. csoportban: p1=a/(a+c) a 2. csoportban: p2=b/(b+d) Relatív kockázat: a tényező fennállása esetén hányszorosára változik a kockázat RR=p1/p2=[a/(a+c)]/[b/(b+d)] Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

103 Esélyhányados számítás 2x2-es táblázatok alapján
Retrospektív (eset-kontroll- case-control) vizsgálatokban számítható Ilyenkor nem tudunk kockázatot becsülni, hiszen a csoport létszámát (a nevezőt ) mi állapítottuk meg Vizsgált tényező előfordulásának esélye az 1. csoportban: a:c a 2. csoportban: b:d Esélyhányados: a tényező fennállása esetén hányszorosára változik az esély OR=(a/c)/b/d) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

104 Diagnosztikus eljárások összehasonlítása
Referencia teszt Összeg Új módszer + - a b a+b c d c+d a+c b+d a+b+c+d Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

105 Referencia teszt Össz. Új módszer Pozitív Negatív 231 32 263 27 54 81
231 32 263 27 54 81 Összesen 258 86 344 Szenzitivitás: 231/258=0,9. A valóban pozitívak közül mennyit ítélt az új módszer is pozitívnak Specificitás: 54/86=0,63. A valóban negatívak közül mennyit ítélt az új módszer is negatívnak Pozitív prediktív érték: 231/263=0,88. Az új módszer szerinti pozitív esetek közül mennyi a valóban pozitív Negatív prediktív érték: 54/81=0,67. Az új módszer szerinti negatív esetek közül mennyi a valóban negatív Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

106 Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 5-nél „elvágva”: 32 betegből 18-at helyesen osztályozok, szenz=18/32=0.56. 93 egészségesből 92-t osztályozok helyesen, 1-et hibásan, spec=92/93=0.9892 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

107 Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 7-nél „elvágva”: 32 betegből 18+7=25-öt helyesen osztályozok, szenz=25/32=0.78. 93 egészségesből 75-t osztályozok helyesen, 18-at hibásan, spec=75/93=0.8065 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

108 Kritikus pont, „küszöb érték” keresése
125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 9-nél „elvágva”: 32 betegből =29-et helyesen osztályozok, szenz=29/32= 93 egészségesből 39-t osztályozok helyesen, spec=39/93=0.194 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

109 ROC görbe Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

110 „Optimális” szétválasztás
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

111 Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe
ROC görbe, Hatásfokmérő karakterisztika (Receiver operating characteristic) Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe A görbe alatti terület alkalmas mérték különböző módszerek hasznosságának, prediktív erejének összehasonlítására, a nagyobb érték nagyobb prediktív erőt jelent. Teljes szétválasztás esetén a görbe háromszöggé válik, a görbe alatti terület =1. Teljes egyezés esetén a görbe a zölddel jelzett átlóba megy át, ekkor a terület 0.5. A ROC görbe segíthet valamely diagnosztikai próba küszöbértékének kiválasztásában is. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

112 ROC görbe alatti terület
ROC = 0,5 Nem használható a teszt ROC < 0, Gyenge szétválaszthatóság 0,7 ≤ ROC < 0,8 Elfogadható a teszt 0,8 ≤ ROC < 0,9 Jó diagnosztikus teszt ROC ≥ 0,9 Kiváló diagnosztikus teszt Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

113 Többváltozós módszerek, kockázati tényezők keresése
több célváltozót vizsgálunk önmagában, vagy egy vagy több célváltozót vizsgálunk több másik (független) változó függvényében Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

114 Logisztikus regresszió
Többváltozós módszer, amelyben Több tényező (jellemző, tünet) alapján valamely betegség előfordulásának valószínűségét becsüljük a függő változó kategorikus, legtöbbször bináris a független változók eloszlására nincs feltétel Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

115 A „7 perces” neurokognitív szűrési teszt magyarországi standardizálása
A demencia szindrómákkal kapcsolatos problémák: A betegség aluldiagnosztizált A korai felismerés jelentősége Meglevő gyorstesztek: Mini Mentál Teszt (Janka és mtsai, 1988) Óra Rajzolási Teszt (Kálmán és mtsai, 1995) Új, „7 perces” szűrővizsgálatot dolgoztak ki, mely szerintük 100 % biztonságban felismeri az Alzheimer kórt (Solomon, PR, Hirschoff A, Kelly B. et al: (1988). A 7 minute neurocognitive screening battery highly sensitive to Alzheimer's disease. Arch. Neurol. 55: ) Részei: Időorientáció Memória Verbális flencia Vizuospaciális képességek Ezekből kijön egy összpontszám, illetve ezeknek egy logisztikus regressziós modellből számolt becsült valószínűség alapján lehet dönteni. A teszt magyarországi standardizálása: Kálmán J., Boda K., Bende Zs., Janka Z.: Dementia szindrómák szűrése: a 7 perces teszt magyaroroszági alkalmazása. Orvosi Hetilap 2003; 144(39): Krisztina Boda and János Kálmán: Evaluation of the „7 Minute” Neurocognitive Screening test using logistic regression models. 23rd Annual COnference. The International Society forClinical Biostatistics, Sept , Dijon, France. Pp 180. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

116 Logisztikus regressziók eredménye
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

117 ROC görbe Kontroll és demenciabetegek szétválasztása
Kontroll és Alzheimer-kóros betegek szétválasztása Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

118 Eredményközlés, példa az irodalomból
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

119 Elemszámbecslés Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

120 Miért fontos? Gazdasági okok: Etikai szempontok Tudományos:
Túl kevés elem esetén nem tudjuk kimutatni a kívánt hatást Túl kevés elem esetén olyan eredmény kimutatására pazaroljuk az erőt, amely gyakorlatilag nem érdekes Etikai szempontok Tudományos: Ha elegendő elemszám esetén kapunk negatív eredményt, akkor az eredményt tudjuk értelmezni Ha nem elegendő esetszám esetén kapunk negatív eredményt, klinikailag fontos hatást dobhatunk ki az ablakon Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

121 Az elemszámbecslést meghatározó (befolyásoló) tényezők
A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome): kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

122 A próba ereje A próba ereje annak valószínűsége, hogy egy különbséget — adott mintanagyság és szignifikancia-szint mellett — egy statisztikai próba kimutat. A vizsgálatok tervezésének gyakorlatában az erő nagyságának előre megszabott értékéből kiindulva határozzák meg a szükséges mintaelemszámot. A statisztika elméletének fontos része olyan döntési szabályok keresése, amely a próbát a lehető legerősebbé teszi adott esetén. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

123 A próba ereje adott elemszám és  esetén, különböző alternatív hipotézisek mellett
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

124 A próba ereje adott elemszám és  esetén, különböző alternatív hipotézisek mellett
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

125 PS, Power and Sample Size
Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

126 Az elemszámbecslést meghatározó (befolyásoló) tényezők
A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome):kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

127 Lépések A probléma megértése A statisztikai próba megválasztása
Az elsődleges kérdés megfogalmazása (becslés v. hipotézis teszt); H0, Ha meghatározása A végpont meghatározása, a fő hatásmutató kiválasztása ,1- rögzítése (korai fázisoknál 0.1 és 0.9, később 0.05 és ) A klinikailag jelentős különbség (ekvivalencia-non-inferiority vizsgálatoknál a maximum irreleváns vagy nem jelentős különbség) meghatározása A variabilitás becslése – korábbi vizsgálatok alapján Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

128 Lépések folyt. Különböző körülmények (-t és -t variálva) és a paraméterek különböző kombinációira végezzünk számításokat Befolyásolhatja még: Hiányzó adatok Többszörös összehasonlítások Nem egyenlő csoportelemszámok Paraméteres v. nemparaméteres módszer Noninferiority vagy ekvivalencia vizsgálat Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

129 Korrigálás A fő hatásmutatóra számítjuk ki általában
Több fontos változó figyelembe vétele: Mindegyikre külön számítsunk, és vegyük a maximumot núj=n(1-r2), ahol r a kovariáns változó és a a fő hatásmutató közötti korreláció Multiplicitás: Bonferroni korrekciót kell alkalmazni, ha legalább egy szignifikáns eredményt szeretnénk (pl. legalább egyet a több páronkénti hasonlítás közül) A válaszadás aránya és a vizsgálatból való kiesés miatti korrekció: núj=n/(1-L), ahol L a „loss to follow-up rate” Csoportonként különböző elemszámok: Számítsuk ki egyenlőkre, majd k=n2/n1 n1=n(k+1)/(2k), n2=n(k+1)/2 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

130 Korrigálás Nemparaméteres módszerek: általában az elemszámot paraméteres próbák alapján határozzák meg Ha a paraméteres próbák feltételei nem teljesülnek, a nemparaméteres próbák alkalmazásához korrekció (létezik) Ekvivalencia/noninferiority vizsgálatok Rétegezés, blokkok képzése, illesztés (matching) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

131 Két arány különbsége Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

132 Elemszámbecslés bináris adatokra (két arány különbsége)
H0: p1=p2 vs. Ha: p1 ≠ p2; Kétoldalas α = 5%, β = 20%, Chi-négyzet próbával/Z-próbával tesztelve az arányok egyenlőségét P1 és p2 különböző értékeire az elemszám: Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

133 Példa A mintaelemszám meghatározás korábbi retrospektív vizsgálat alapján történt. Ahhoz, hogy posztoperatív komplikációk klinikailag jelentős csökkenését ki tudjuk mutatni az URI és URI-mentes gyerekek között (42%-ról 23%-ra), 94 eset kell csoportonként (= 0.05 and = 20%, kétoldalas teszt). „Sample size determination was based on our previous retrospective study using overall postoperative complications as the outcome measure. Based on the clinically important difference in incidence of this outcome between children with URIs and those without URIs (i.e., 42 vs. 23%), we calculated that we would need 94 subjects per group to detect a statistically significant difference at least that large ( = 0.05 and = 20%, two tailed).” S. Malviya, T. Voepel-Lewis, M. Siewert,, U. A. Pandit,, Lori Q. Riegger, Alan R. Tait. Risk Factors for Adverse Postoperative Outcomes in Children Presenting for Cardiac Surgery with Upper Respiratory Tract Infections. Anesthesiology 2003; 98:628–32. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

134 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

135 Ajánlás Nemszignifikáns eredmény diszkussziójakor – ha nem volt előzetes elemszámbecslés – meg kell adni a próba erejét. Kis erejű nemszignifikáns eredményt nem lehet úgy értelmezni, hogy az összehasonlított változók (csoportok) azonosak. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

136 Hasznos Web oldalak Angol nyelvű Magyar nyelvű
Rice Virtual Lab in Statistics Statistics on the Web Hisztogram alakjának változása – Old Faithful Statisztikai bemutatók (Java) Magyar nyelvű – Klinikai Biostatisztikai Társaság

137 Idézet egy egyetemi hallgató feljegyzéseiből
„Ha csak egy nap lenne hátra az életemből, azt a statisztika órán szeretném eltölteni – így sokkal hosszabbnak fog tűnni”. (már nem működő lap )


Letölteni ppt "Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet"

Hasonló előadás


Google Hirdetések