Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Slides:



Advertisements
Hasonló előadás
Nevezetes eloszlások, normál eloszlás
Advertisements

Összetett kísérleti tervek és kiértékelésük:
Hipotézis-ellenőrzés (Statisztikai próbák)
4. Két összetartozó minta összehasonlítása
I. előadás.
Petrovics Petra Doktorandusz
Erőállóképesség mérése Találjanak teszteket az irodalomban
Összetett kísérleti tervek és kiértékelésük
Humánkineziológia szak
3. Két független minta összehasonlítása
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Közlekedésstatisztika
Adatfeldolgozás.
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
A középérték mérőszámai
Regresszióanalízis 10. gyakorlat.
Hipotézisvizsgálat (1. rész) Kontingencia táblák
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Kvantitatív módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem
Alapfogalmak Alapsokaság, valamilyen véletlen tömegjelenség.
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
Matematikai alapok és valószínűségszámítás
szakmérnök hallgatók számára
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Biostatisztika, MS Excel
Statisztika.
Készítette: Horváth Zoltán (2012)
Kvantitatív Módszerek
Kvantitatív módszerek
Valószínűségszámítás
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Alapsokaság (populáció)
Hipotézis vizsgálat.
Alapfogalmak.
Adatleírás.
Dr Gunther Tibor PhD II/2.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Statisztikai alapfogalmak
Valószínűségszámítás - Statisztika. P Két kockával dobunk, összeadjuk az értékeket Mindegyik.
Vargha András KRE és ELTE, Pszichológiai Intézet
Valószínűségszámítás II.
A számítógépes elemzés alapjai
Bevezetés, tippek Ea-gyak kapcsolata Statisztika II -más tárgyak kapcsolata Hogyan tanulj? Interaktív órák, kérdezz, ha valami nem világos! tananyag =előadások.
A számítógépes elemzés alapjai
Leíró statisztika gyakorló feladatok október 15.
Kiváltott agyi jelek informatikai feldolgozása 2016
I. Előadás bgk. uni-obuda
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Előadás másolata:

Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet Teaching Mathematics and Statistics in Sciences HU-SRB/0901/221/088 A biostatisztika alapjai gyakorlati alkalmazásokkal Matematikai modellek a természettudományokban Szeged, 2011. május 19-21. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Egy kis bevezetés Egy matematikus, egy alkalmazott matematikus és egy statisztikus mindhárman egy bizonyos munkára jelentkeztek. A felvételi beszélgetésen megkérdezték tőlük, hogy mennyi 1+1? Matematikus: Be tudom bizonyítani, hogy létezik, de azt nem, hogy csak egy megoldás van. Alkalmazott matematikus: A válasz közelítően 1.99, a becslés szórása 0.01. Statisztikus (kilépett a szobából, majd hirtelen visszatért és érdeklődött): tehát mit szeretnétek, mennyi legyen? http://www.ilstu.edu/~gcramsey/Gallery.html Biostatisztikai alapismeretek  Boda Krisztina 

Ajánlott irodalom Reiczigel Jenő, Harnos Andrea, Solymosi Norbert: Biostatisztika nem statisztikusoknak. Pars Kft. Nagykovácsi, 2007. Biostatisztikai alapismeretek  Boda Krisztina 

Ajánlott irodalom Dinya Elek: Biometria az orvosi gyakorlatban. Medicina Kiadó Biostatisztikai alapismeretek  Boda Krisztina 

Ajánlott irodalom Gachályi Béla (szerk.) - Lakner Géza (szerk.): Klinikai farmakológia a gyakorlatban - A humán klinikai gyógyszerfejlesztés módszertana. Statisztikai alapelvek fejezet (Singer Júlia) SpringMed Kiadó Biostatisztikai alapismeretek  Boda Krisztina 

Amiről szó lesz Hipotézisvizsgálatok, kiemelve a következőket: Populáció, minta, leíró statisztikák A véletlen ingadozás vizsgálata, a statisztikai próbák elve Konfidenciaintervallum és a statisztikai szignifikancia Egyváltozós statisztikák, mikor mit? t-próbák, 2 próbák, korreláció/regresszió Többszörös összehasonlítások problémái Varianciaanalízis Diagnosztikus tesztek Többváltozós módszerek, kockázati tényezők Elemszámbecslés, statisztikai erő számítása Biostatisztikai alapismeretek  Boda Krisztina 

Populáció (sokaság), minta Populáció: azoknak az egyedeknek, objektumoknak az összessége, amelyről egy vizsgálat során információt kívánunk nyerni. Minta: a sokaság azon részhalmaza, amelyet éppen vizsgálunk A minta kiválasztásakor arra törekszünk, hogy lehetőleg reprezentálja az egész populációt, vagy legalábbis következtetni lehessen a populációra. Követelmény a mintaelemek függetlensége is. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Példák Adathalmazok Minta Sokaság Gyógyszerészhallgatók egy csoportja által kitöltött kérdőívek 20 egészséges nő vérnyomásértékei … Sokaság Gyógyszerészhallgatók hallgatók Általában az egészséges nők vérnyomása … Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Minta Sokaság (megközelíti) Kategóriás változó lehetséges értékeinek gyakoriságai, relatív gyakoriságai A változó (sokaság) eloszlása Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Minta Sokaság Egy folytonos változóról készített hisztogram (megközelíti) Egy folytonos változóról készített hisztogram A folytonos változó eloszlását (sűrűségfüggvényét) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Minta Sokaság Átlag (x) Standard deviáció (SD) (megközelíti) Átlag (x) Standard deviáció (SD) Medián Sokaság-átlag  (ismeretlen) A sokaság standard deviációja  (ismeretlen) A sokaság mediánja (ismeretlen) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az eloszlás közepének jellemzése Átlag: Módusz: a leggyakrabban előforduló érték(ek) Medián: az a szám, amelynél az adatok fele kisebb, vagy egyenlő (amely tehát megfelezi az adatsort). A medián számítása: először sorba állítjuk az adatokat nagyság szerint. Páratlan elemszám esetén a medián a középső elem, páros elemszám esetén a medián a „két középső elem” átlaga Példaadatok: 1 2 4 1 átlag=(1+2+4+1)/4=8/4=2 Módusz=1 Medián Először sorba állítjuk az adatokat nagyság szerint: 1 1 2 4 Páros az elemszám, a két középső elem 1 és 2, átlaguk 1.5. A medián értéke 1.5 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A szóródás mérőszámai A terjedelem a maximum és a minimum közötti különbség Kvartilisek, percentilisek: 25%-os percentilis (első kvartilis): az a szám, aminél az adatok 25%-a kisebb. A 25%-os, 50%-os és 75%-os kvartilis négy részre osztja az adatokat. A szóródás megadására használják a 25%-os és 75%-os kvartilist A variancia A standard deviáció: az adatok szóródása az átlag körül Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Példa. A szóródás jellemzői Adatok: 1 2 4 1, rendezve: 1 1 2 4 Terjedelem: max-min=4-1=3 Kvartilisek: Standard deviáció: 1 1-2=-1 2 2-2=0 4 4-2=2 Összeg 6 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az átlag szórása, standard error of mean, SE, SEM Azt fejezi ki, hogy az átlag, amit a mintából számoltunk, mennyire megbízható. Ha többször is meg tudnánk ismételni a mérést (végtelen sokszor), akkor mindegyik mérés-sorozat átlagának a szóródását mutatja a populáció átlag körül Számítása: SE=SD/n Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Standard deviáció vagy standard error?? Standard deviáció, SD: a minta szórása, a mintaadatok szóródása az átlag körül. Normális eloszlás esetén az átlag 2SD-n belül van az adatok kb. 95%-a Standard error (SE=SD/n): az átlag megbízhatósága, a mintaátlag szóródása az (ismeretlen) populáció átlag körül. Normális eloszlás esetén az átlag  2SE-n belül van az igazi átlag kb. 95%-os valószínűséggel. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Normális eloszlások Jelölés: N(, ) A hisztogramot „kisimító” görbe gyakran szimmetrikus, egycsúcsú, harang alakú görbe. Ez a görbe egyértelműen leírható két paraméterrel: a  középpel és a  standard deviációval (szórás). Az ábrán a kék vonalat a mintából számolt átlag és szórás alapján rajzoltuk be. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A 68-95-99.7 szabály Egy  és  paraméterekkel meghatározott normális eloszlás esetén: A megfigyelések 68% -a esik a  középtől egyszeres  távolságra A megfigyelések 95% -a esik a  középtől kétszeres  távolságra A megfigyelések 99.7% -a esik a  középtől 3-szoros  távolságra Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az eloszlás elképzelése adott átlag és szórás (SD) alapján (normális eloszlást feltételezve) A cikkekben a táblázatok leggyakrabban az átlagot és a szórást ismertetik. Ezek alapján el tudjuk képzelni, milyen lehet az eloszlás Pl. életkor (év) 55.2  15.7 86.6 23.8 Ebben az intervallumban van az adatok 95.44%-a Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az SD ferde eloszlások esetén Stent length per lesion (mm): 18.8  10.5 Ezekkel a paraméterekkel a következő eloszlás képzelhető el: A szórás a ferde eloszlás miatt lett „nagy”. Ezért gyakran a standard deviáció helyett a standard errort adják meg a táblázatokban vagy ábrákon. Az valóban kisebb, de mást jelent. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A közép és a szóródás jellemzőinek „párosítása” Közlés cikkekben Átlag Standard deviáció, Standard error Átlag (SD) Átlag  SD Átlag  SE Átlag  SEM Medián Min, max 5%-os, 95%-os percentilis 25 % , 75% (Kvartilisek) Med (min, max) Med(25%, 75%) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Ábratípusok a számolt jellemzők alapján Átlag-szórás ábra Átlag + SD Átlag + SE Átlag + 95% CI Átlag  SE Átlag  95% CI Átlag  SD Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Ábratípusok a számolt jellemzők alapján Doboz-ábra (box diagram) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Hipotézisvizsgálatok A hipotézisvizsgálat során a rendelkezésre álló adatok (statisztikai minta) alapján az egész jelenség (populáció) tulajdonságaira következtetünk. Azt vizsgáljuk, hogy a tapasztalt eredmény (különbség) nagyobb-e, mint amit a véletlen önmagában okoz. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Mintavétel, szimuláció Legyen a populáció 120 átlagú, 10 szórású normális eloszlás, ebből veszünk 50 elemű mintákat Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

120 átlagú, 10 szórású populációból származó 50 elemű minták (ismételt mérések) átlagai és szórásai Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Mekkora lehet a véletlen ingadozás? A minták átlagai 120 körül ingadoznak, ha „nem történik semmi”, csak sima ismétlés Két mérés különbségének átlaga a 0 körül ingadozik Mekkora az a különbség, amit már nem a véletlen okoz? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Hipotézisek Nullhipotézis: véletlen ingadozást mértem, „semmi nem történt”. A különbség 0 körül ingadozik Alternatív hipotézis: a véletlen ingadozásnál nagyobbat mértem, „valami történt” A különbség 0-tól eltérő szám körül ingadozik ??? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A nullhipotézis fennállása esetén ismerjük a különbség-átlag eloszlását Pontosabban: az abból számolt t-statisztika eloszlását ismerjük t=különbség átlag/különbség SE Ha igaz a nullhipotézis (igazából nincs különbség a populáció átlagok között), a t-érték nagy valószínűséggel (95%) ide esik. A kimaradó valószínűség 5% () Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Statisztikai próba: kiszámítjuk adatainkból a t=átlag/SE próbastatisztikát és megnézzük, hova esik Döntés: az eltérés nem szignifikáns |t|<ttábla Döntés: az eltérés szignifikáns |t|>ttábla Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Döntési szabály p-érték alapján p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Annak valószínűsége, hogy a puszta véletlen legalább ekkora különbséget okoz p>, a különbség nem szignifikáns adott  szinten p<, a különbség szignifikáns adott  szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Miért éppen 5%? A tévedés valószínűségét mi állapítjuk meg előre, még a kísérlet megkezdése előtt. Tehát egyáltalán nem kötelező a 95% illetve az 5% betartása, mégis ez a kialakult „szokásrendszer”. Oka*: „Fisher a nullhipotézis ellen szóló bizonyíték erősségét mérő indexnek tekintette a p-értéket … A p<0,05 (5%-os szignifikanciaszint) küszöböt javasolta, mely alapján általában eldönthető, hogy van-e bizonyíték a vizsgált hipotézis ellen, de ezt nem gondolta abszolút mércének. „Ha p 0,1 és 0,9 között van, akkor biztosan nincs okunk kételkedni a vizsgált hipotézisben. Ha az érték 0,02 alatt van, az elég erősen arra vall, hogy hipotézisünk nem elegendő magyarázat a tényekre. Talán nem tévedünk majd túl gyakran, ha a határvonalat 0,05-nál húzzuk meg...” . Fontos itt megjegyeznünk, hogy Fisher mindig is hangsúlyozta: a p-érték interpretálása végső soron a kutató dolga. A 0,05 körüli p-értékkel előfordulhat, hogy nem a nullhipotézis elfogadásához vagy elvetéséhez vezet, hanem a vizsgálat megismétléséhez.” *Sifting the evidence—what's wrong with significance tests? Jonathan A C Sterne, George Davey Smith, BMJ 2001;322:226–31 *A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal? Jonathan A. C. Sterne, George Davey Smith. BMJ Magyar Kiadás 2001;3:175-80. http://www.lam.hu/folyoiratok/bmj/0103/17.htm Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A konfidenciaintervallum fogalma (bizonyossági intervallum) Olyan, a mintaelemekből számolt intervallum, amely nagy valószínűséggel tartalmazza a populáció-paraméter valódi (ismeretlen) értékét Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a mintaelemekből számolt intervallum, ami 95% valószínűséggel tartalmazza a populáció valódi átlagát. A megbízhatóság mértékét jelző valószínűség (megbízhatósági szint) tőlünk függ. Szokásos értékei: 0.90, 0.95, 0.99 ) A becslés „hibája” (-val jelöljük) a megbízhatósági szint függvényében 1-0.90=0.1, 1-0.95=0.05, 1-0.99=0.01 Leggyakrabban használt megbízhatósági szint 95% (0.95), tehát  -ra leggyakrabban =0.05 értéket alkalmazzák. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az átlagra vonatkozó 95%-os bizonyossági intervallum szemléltetése az adott kísérlet képzeletbeli ismétléseivel http://www.kuleuven.ac.be/ucs/java/index.htm Ha a kísérletet képzeletben 100-szor megismételnénk, a 100 kapott 95%-os konfidencia intervallum közül várhatóan 95 fogja tartalmazni a populáció átlagát, és 5 nem. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Szignifikancia és a konfidenciaintervallum A mintát az adott (átlagú) populációból vettük. A populációátlag =0. Ez lehet pl. annak a nullhipotézisnek megfelelő eloszlás, hogy a kezelés előtti és a kezelés utáni populációátlag ugyanaz. A konfidenciaintervallum tartalmazza az adott átlagot – jelen esetben a nullát. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Szignifikancia vizsgálatok és a konfidenciaintervallum kapcsolata (H0: μ1= μ2, azaz μ1- μ2 =0, Ha: μ1 μ2) p-érték szignifikancia 95% CI (p1 – p2)-re p<0.05 szign. 5%-os szinten pl. (4.5, 10.7) 0 nincs benne a konf. intervallumban p > 0.05 nem szign. 5%-os sz. pl. (-1.72, 5.81) 0 benne van a konf. intervallumban Szignifikáns, p<0.05 Szignifikáns. p<0.05 Nem szignifikáns, p>0.05 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk, akkor a konfidenciaintervallumban az 1-et keressük Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Ha van két adatsorom, mikor „kell” t-próbát (és akkor melyiket), khi-négyzet próbát, vagy korrelációt stb… számítani??? Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A próba megválasztása függ Az analízis céljától (összehasonlítás vagy kapcsolat) Az adatok típusától A kísérleti elrendezéstől …. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

t-próba „Szokásos” ábrák átlagokat hasonlít. Akkor alkalmazzuk, ha két csoportban folytonos változóink vannak, amelyekből van értelme átlagot számolni (pl. kor, vérnyomás, stb.) Feltétele: Normalitás Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

2 (khi-négyzet) próba Gyakoriságokat (%-okat), „Szokásos” ábrák Gyakoriságokat (%-okat), (gyakorisági eloszlásokat hasonlít) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Korreláció-regresszió Két folytonos változó lineáris kapcsolata Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A hipotézisvizsgálat menete Hipotézisek felállítása Nullhipotézis: semmi nem történt Alternatív hipotézis: valami változás van A döntés megbízhatósága (vagy a hiba) rögzítése: =0.05 Döntési szabály felállítása (függ: a kísérleti elrendezéstől, -tól, az elemszámtól) Döntés A nullhipotézist elfogadjuk (nincs szignifikáns különbség  szinten, nincs elegendő információ a különbség (hatás) kimutatására) A nullhipotézist elvetjük, a különbség szignifikáns %-os szinten. A tapasztalt különbség nem csupán a véletlen műve, valami más hatás (kezelés??) is közbejátszott. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Egy minta esete: egymintás t-próba Két minta esete: Normális eloszlást feltételezve, az átlagok összehasonlítására használható próbák Egy minta esete: egymintás t-próba Két minta esete: Összetartozó minták: (előtt-után, baloldal-jobboldal): páros t-próba= egymintás t-próba a különbségekre Független minták (placebo-kezelés, férfi-nő, beteg-egészséges): kétmintás t-próba Azonos szórások esetén „klasszikus” Különböző szórások esetén „módosított” (Welch, D) Szórások egyezésének tesztelése: F-próba, Levene-próba Több (>2) minta esete: varianciaanalízis Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Egymintás t-próba Egy kezelés során szükségessé vált annak ellenőrzése, hogy az milyen hatással van a vérnyomásra. A vizsgált paciensek korcsoportjában a systolés vérnyomás normálértéke 120. n=9 személyt megmérve a következő értékeket kapták: 182.00 152.00 178.00 157.00 194.00 163.00 144.00 114.00 174.00 (átlag=162, SD=23.92 . Mondhatjuk-e a mintaadatok alapján, hogy az adott korcsoport populációjában az átlagos vérnyomás 120 Hgmm? Nullhipotézis (HO): A populáció átlag 120, =120 Alternatív hipotézis (Ha): A populáció átlag nem 120 , 120 (kétoldalas) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Döntési szabály a konfidencia intervallum alapján Konfidencia intervallum alapján: adjuk meg a populáció-átlagra vonatkozó 95%-os konfidencia intervallumot! A konfidencia intervallum: (átlag - t*SE, átlag + t * SE )= (162-2.306*23.92/9, 62+2.306*7.97)=(143.61,180.386) Döntési szabály a konfidencia intervallum alapján: benne van-e az adott szám a konfidencia-intervallumban? Ha igen: a különbség nem szignifikáns adott szinten Ha nem: a különbség szignifikáns adott szinten Esetünkben 120 nincs benne a konfidencia intervallumban, tehát a különbség szignifikáns 5%-os szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Döntési szabály a t-érték alapján Számítsuk ki a t-értéket: t= (átlag - c)/SE=(162-120)/7.97=5.26. szabadságfok: n-1=9-1=7 és hasonlítsuk az abszolút értékét a t8,0.05=2.306 táblázatbeli értékhez : 5.26>2.306 Döntési szabály: ha |t|>ttábla, a különbség szignifikáns adott szinten Az elfogadási tartomány a változó azon értékeinek halmaza, amelyekre elfogadjuk a nullhipotézist (- ttábla ,ttábla) A kritikus tartomány ennek ellentettje. A kritikus tartomány értékeire a nullhipotézist nem fogadjuk el. Esetünkben a különbség szignifikáns 5%-os szinten Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Döntési szabály a p-érték alapján p-érték: a mi általunk számított t-érték által az eloszlásból levágott terület nagysága Annak valószínűsége, hogy ha igaz a nullhipotézis (=nincs hatás), a tapasztalt eltérést vagy annál még nagyobb eltérést kapjunk Ha a p<, akkor a különbség szignifikáns adott  szinten Esetünkben p=0.001<0.05 Elfogadási tartomány t=5.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Páros t-próba Önkontrollos kísérlet, vagy Más módon összetartozó adatok: Jobb oldal-bal oldal Illesztett párok- matched pairs (különböző személyek, de a kísérlet szempontjából párba állíthatók) Nullhipotézis: a két minta-átlag ugyanannak a populáció-átlagnak a közelítése, (nincs kezelés-hatás, a tapasztalt különbség véletlen) Alternatív hipotézis: a két minta-átlag két különböző populáció-átlagnak a közelítése (van hatás) Döntési szabály: Konfidenica intervallum a különbségre t-érték számítás és összehasonítás a táblázattal p-érték (szoftver) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Páros t-próba, példa (folyt). Gondolatmenet: ha a kezelés nem hatásos, az átlagos különbség kicsi (közel 0). Ha a diéta hatásos, az átlagos különbség nagy. A populációra nézve ez a következő hipotéziseket jelenti: HO: előtt= után or különbség= 0 (c=0)!! HA:  előtt ≠  után or  különbség ≠ 0 Legyen =0.05. A szabadságfok=10-1=9, ttáblázat=t0.05,9=2.262 átlag=4, SD=3.333 SE=3.333/10=1.054 Döntés a konfidenciaintervallum alapján: 95%CI: (4-2.262*1.054, 4+2.262*1.054)=(1.615, 6.384) Ha H0 igaz, akkor a 0 benne van a konfidencia-intervallumban Most 0 nincs benne a 95%-os konfidencia-intervalluman, ezért döntésünk az, hogy a különbség szignifikáns 5%-os szinten, a kezelés hatásos volt Az átlagos súlyveszteség 4 kg, ami akár 6.36 is lehetne, de minimum 1.615, 95% valószínűséggel. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Páros t-próba, példa (folytatás) Döntés a próbastatisztika alapján (t-érték: Azt hasonlítjuk a táblabeli kritikus értékhez. |t|=3.795>2.262(=t0.05,9), a különbség szignifikáns 5%-os szinten Döntés p-érték alapján: p=0.004, p<0.05, a különbség szignifikáns 5%-os szinten Elfogadási tartomány tszámított, próbastatisztika ttábla, kritikus érték Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Példa az orvosi irodalomból V Példa az orvosi irodalomból V. Lindén: Vitamin D and Myocardial Infarction. BMJ 1974,3,647-650 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kísérleti elrendezések Páros t-próba Minden egyedet kétszer vizsgálunk 1. 2. x1 y1 x2 y2 … … xn yn Kétmintás t-próba Minden egyedet csak egyszer vizsgálunk, és mindegyik egy és csak egy csoportban lehet. Csoport Mérések 1 x1 1 x2 … … 1 xn 2 y1 2 y2 2 ym Az elemszám nem feltétlenül azonos a két mintában Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kétmintás t-próba Két független minta összehasonlítása Feltételek: A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Különböző varianciák esetén: Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kétmintás t-próba Két független minta összehasonlítása Feltételek: A minták függetlenek: normális eloszlású populációból származnak:az xi-k N(µ1,) és az yi--k N µ2, ) eloszlású populációból H0: 1=2, Ha: 12 Próbastatisztika Azonos varianciák esetén: Szabadságfok: n+m-2 Döntés: Ha |t|>tα,szab.fok, a különbség szignifikáns α szinten, H0-t elvetjük . Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A varianciák összehasonlítása Ha:21 > 22 vagy 21 > 22 (egyoldalú próba) A próbastatisztika (F): a nagyobbik standard deviáció négyzetét osztjuk a kisebbel: Szabadságfokok: nagyobb SD-hez tartozó minta elemszáma-1 Kisebb SD-hez tartozó minta elemszáma-1 Döntés: F táblázat alapján Ha F>Fα,táblázat, a két variancia szignifikánsan különbözik α szinten Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az F-eloszlás táblázata (részlet) α=0.05 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Példa Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Eredmény SPSS-sel A varianciák összehasonlítása. p=0.93>0.05, nem szignifikáns. Elfogadjuk a varianciák azonosságát Az átlagok összehasonlítása (t-próba). Első sor: egyenlő varianciák esete. t=6.657, df=16, p<0.001 Az átlagos vérnyomás szignifikánsan különbözik a két populációban 5%-os szinten Második sor: az átlagok összehasonlítása (t-próba) különböző varianciák esetén. Most nem használjuk fel az itt található információt, mert elfogadtuk a varianciák azonosságát Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kategórikus változók elemzése 2 próbák (khi-négyzet) Két kategóriás változó kapcsolata. Pl. 2 közúti ellenőrzés során az ittasok aránya 1.5% ill. 0.5 % Pl. a sikeres műtétek gyakorisága 2 féle eljárás esetén 33.3% és 66.6%*. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

2x2-es táblázatok A gyakoriságok kontingencia táblázatba rendezhetők. 2 formula könnyen számítható Yates korrekció: pontosabb közelítés Ha a várt gyakoriságokra vonatkozó feltétel nem teljesül: Fisher féle egzakt próba Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

2 próba az 1*. példa adataira Nullhipotézis: Az ittasság aránya azonos a két vizsgálatban, az ittasság független attól, hogy mikor nézték. Gyakorisági táblázat (amiből számolunk) A függetlenség esetén várható gyakoriságok 2=2.205, p=0.137 , nem szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) – nem teljesül!!! Megoldás: Fisher próba (p=0.216) *Bernholdt HPB, Dubben HH. A tojást rakó kutya.Budapest:Magyar Könyvklub; 2001. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

2 próba a 2. példa adataira Nullhipotézis: A siker valószínűsége azonos a két eljárás esetén. Az eljárás sikeressége független attól, hogy új vagy hagyományos eljárásról van-e szó. Gyakorisági táblázat (amiből számolunk) 2=5.406, p=0.02 , szignifikáns 5%-os szinten. Feltétel: (várt gyakoriság<5 nem lehet) teljesül!!! ( Fisher próba p=0.038) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

2x3-as kontingencia táblázat Két kategóriás változó kapcsolata. Pl. diabetes gyakorisága a 3 csoportban csoportban: 31%, 27% és 25%*. Kérdés: különbözik-e a diabetes gyakorisága az egyes csoportokban? DIAB CS1 Cs2 Cs3 Total yes 31 27 25 83 no 69 73 75 217 100 300 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A 2 próba végrehajtása, feltételei H0 teljesülése esetén a várt gyakoriságok számítása (Ei=sorösszeg*oszlopösszeg/total) 2 statisztika számítása: 2 =Σ(Oi-Ei)2/Ei Szabadságfok: sorok száma-1)*(oszlopok száma-1) Döntés táblázat alapján: 2 > 2 táblázat, , df Feltétel: 5-nél kisebb várt gyakoriságot tartalmazó cellák száma max. 20% Egzakt tesztek (Fisher): nincs feltétele, a pontos p-értéket adják 2 =0.933 Df=(3-1)*(2-1)=2 0.933<5.99(= 2 táblázat, 0.05,2) p=0.627 Teljesül Egzakt p=0.663 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Korreláció-regresszió: két folytonos változó közötti (lineáris) kapcsolat vizsgálata. A kapcsolat vizsgálatához először készítsünk ábrát (pont ábra vagy szóródás-ábra). Egy ilyen ábrán a kapcsolat irányát és szorosságát vizsgáljuk, valamint az általános alakzatot. A két változó mért értékeivel mint koordinátákkal berajzoljuk a megfelelő pontokat. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Lehetséges kapcsolatok Negatív korreláció Pozitív korreláció Nincs korreláció Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Mérőszám a lineáris kapcsolat szorosságának mérésére: a korrelációs együttható (r ) és tulajdonságai A korrelációs együttható értéke mindig -1 és +1 között van; -1 és 1 jelzi a tökéletes lineáris kapcsolatot. -1r 1. a) Ha r közel van +1-hez vagy -1-hez, azt mondjuk, hogy szoros (magas) korreláció van a két változó között. b) Ha r=1, tökéletes pozitív korreláció Ha r= -1, tökéletes negatív korreláció. c) Ha r=0, nincs korreláció, vagyis nincs lineáris kapcsolat. Ha r közel van 0-hoz, akkor alacsony korrelációról beszélünk. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kiugró értékek hatása Egyetlen kiugró érték nagyon meg tudja változtatni a korrelációt. r=-0.21 r=0.74 r=0.998 r=-0.26 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A korreláció csak a lineáris kapcsolat szorosságát méri Szoros, de nem lineáris kapcsolat esetén a korrelációs együttható kicsi r=2.8 E-15 r=0.157 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A korreláció nem jelent oksági kapcsolatot Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A korrelációs együttható szignifikanciája Azt teszteljük, hogy a kapott korrelációs együttható tekinthető-e a 0 közelítésének, vagy pedig elég messze van 0-tól. H0: ρ=0 (görög rho=0, a populációs korrelációs együttható = 0) Ha: ρ ≠ 0 (a populációs korrelációs együttható ≠ 0) Ha igaz a nullhipotézis, az alábbi t statisztika n-2 szabadságfokú t-eloszlást követ Döntés t-táblázat alapján: Ha |t|>tα,n-2, a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Ha |t|<tα,n-2, a különbség nem szignifikáns α szinten, nem vetjük el a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható nem tér el 0-tól.. Döntés p-érték alapján: Ha p < α a különbség szignifikáns α szinten, elvetjük a nullhipotézist és azt mondjuk, hogy a populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

p<0.05, populációs korrelációs együttható szignifikánsan eltér 0-tól. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A lineáris kapcsolat becslése: lineáris regresszió Ha a kapcsolat lineáris, szükséges lehet a legjobban illeszkedő egyenes egyenletének meghatározása. A regressziós egyenes általános egyenlete y=bx + a a és b jelentése. b: regressziós együttható, az egyenes meredeksége; a: az egyenes tengelymetszete. Az együtthatók becslése a legkisebb négyzetek elvén alapul. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A legkisebb négyzetek elve ->min A korrelációs együttható kiszámítása a regressziós együttható segítségével Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A determinációs együttható, r2 A korrelációs együttható négyzete 100-zal szorozva a determinációs együttható. Megadja, hogy az y (függő) változó össz-varianciájának hány %-a magyarázható az x-től való lineáris függésével Példa. A matematika és a nyelvtudás között korreláció r =0.9989. A determinációs együttható, r2 = 0.917 . Tehát a nyelvtudás össz-szóródásának 91.7%-a magyarázható a matematikától való lineáris függésével. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Regresszió transzformációk alkalmazásával. Néha a pont-ábra nemlineáris, ugyanakkor valamilyen görbevonalú, függvénnyel megadható kapcsolatot mutat . Az alakzat exponenciális kapcsolatot sejtet. Ha az y logaritmusát vesszük, az x és ln(y) közötti kapcsolat lineáris lesz Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A próbák feltételeinek figyelembe vétele: paraméteres és nemparaméteres próbák Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Rangsoroláson alapuló eljárások (nemparaméteres próbák egyik fajtája) Mi van, ha a t-próba feltételei (normalitás, varianciák azonossága) nem teljesül??? Transzformációk alkalmazása (log, négyzetgyök, arcsin, …) Nemparaméteres próbák – rangsoroláson alapuló eljárások Akkor alkalmazhatjuk, ha A paraméteres próbák feltételei nem teljesülnek Nem tudjuk ellenőrizni (kis elemszám) Nem akarjuk ellenőrizni Ordinális változók (mennyire örülök a tavasznak??? Kicsit-közepesen-nagyon) Csak az adatok nagyságrendje számít, az nem, hogy mennyivel nagyobb egyik adat a másiknál Számítás: rangsorolás alapján De: nem ugyanazt a nullhipotézist tesztelik, mint a paraméteres próbák. Tehát nem tekinthetők úgy, mint a paraméteres próbák nem paraméteres „megfelelői”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Leggyakrabban alkalmazott nemparaméteres próbák Két összetartozó minta: Előjelpróba Előjeles rangpóba (Wilcoxon próba, Wilxocon’s signed rank test) Két független minta: Mann-Whitney U-próba Több összetartozó minta: Friedman próba Több független minta: Kruskal-Wallis próba Kategóriás adatok elemzése (2 próbák) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Egy- és kétoldalas próbák Kétoldalas próba H0: nincs változás Ha: van változás (bármilyen irányú) Egyoldalas próba H0: az átlag nem növekedett Ha: az átlag növekedett p-értékek esetén: p(egyoldalas)=p(kétoldalas)/2 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A szignifikancia értelmezése Szignifikáns különbség – p< , p<0.05. Az összehasonlított populációkról azt állítjuk, hogy különbözők. A döntés hibavalószínűsége kicsi (maximum - ez az ún. első fajta hiba – Type I. error). Nem szignifikáns különbség – p> , p>0.05. Ilyenkor csak annyit tudunk mondani, hogy nincs elegendő információ a különbség kimutatására. Lehet, hogy Valóban nincs is különbség Van különbség, csak kevés volt az elemszám Nagy volt a szórás Rossz volt a vizsgálati módszer … A statisztikai szignifikanciát mindig át kell gondolni, vajon biológiai szempontból jelentős-e A statisztikai szignifikancia megadásakor a p-érték feltüntetése is célszerű. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Több csoport, minta átlagainak összehasonlítása Pl. 4 féle „kezelés” Pl. több időpontban végzett mérések, a csoportok összehasonlítása minden egyes időpontban 3 3 mM mM K+ K 5 5 mM mM K K+ Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Miért nem jó, ha t-próbákat végzünk páronként? Mert a véletlen is okozhat „szignifikáns” eredményt – ha =0.05, akkor átlagosan minden 20-adik esetben. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Ugyanazon populációból származó minták páronkénti összehasonlítása t-próbával Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Emiatt hibás több csoport esetén az átlagok összehasonlítására páronkénti kétmintás t-próbákat végezni, vagy két csoport esetén több összefüggő változót szintén kétmintás t-próbákkal vagy más, egyváltozós eljárással összehasonlítani, korrelációjukat vizsgálni – tehát bármely egyváltozós módszert ismételten alkalmazni. Nem tudhatjuk ugyanis, hogy a szignifikáns eredmények közül melyek tulajdoníthatók a véletlennek, és melyek tükröznek valódi különbséget. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Megoldás: sok t-próba helyett egyetlen varianciaanalízis Az egyedi p-értékek korrekciója Bonferroni Holm FDR (False Discovery Rate) … Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Bonferroni korrekció Adott (H01 és H02 és... H0n ) nullhipotézis, a hozzátartozó szignifikanciaszint 1, 2, …, n Hogyan válasszuk meg i-t ahhoz, hogy a (H01 és H02 és... H0n ) hipotézis szignifikanciszintje ne legyen nagyobb, mint egy kiválasztott  ? (0,1) A p-értéket osztjuk az összehasonlítások számával. (H01 és H02 és... H0n )-t elvetjük, ha legalább egy pi</n Tehát 5 hipotézis esetén =0.05 helyett =0.01 szinten kell szignifikánsbak lenni bármelyik hipotézisnek, hogy az együttes döntés hibája maximum 0.05 legyen. Sok összehasonlítás esetén túl konzervatív módszer (nem mutat ki valós különbségeket sem). Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Egyedi p-értékek korrekciója a SAS rendszerrel The SAS System The Multtest Procedure p-Values False Stepdown Discovery Test Raw Bonferroni Hochberg Rate 1 0.9999 1.0000 0.9999 0.9999 2 0.2318 0.9272 0.9272 0.5795 3 0.3771 1.0000 0.9999 0.6285 4 0.8231 1.0000 0.9999 0.9999 5 0.0141 0.0705 0.0705 0.0705 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Egyszempontos ANOVA Adott több független minta Cél az átlagok összehasonlítása Feltételek: Az egyedek véletlenszerűen kerülnek egyik vagy másik csoportba, a minták független minták (egy egyed csak egy csoportba kerülhet). Az összehasonlítandó értékeket tartalmazó változó folytonos. A minták normális eloszlású populációból származnak. Azok a populációk, amelyekből a minták származnak, azonos varianciájúak. Nullhipotézis: A független minták azonos eloszlású populációból származnak, azaz a populáció-átlagok megegyeznek Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Példa Egy kísérletben (Farkas és mtsai, 2003.) lokális iszkémiának alávetett, izolált patkányszívben a szívfrekvencia és a QT szakasz hosszának változását vizsgálták három antiaritmiás gyógyszer hatására. 5 Mm K+ kálium ion koncentráció esetén, 25 perccel a lokális iszkémia után a QT szakasz hosszára a 4.8. táblázatban látható értékeket kapták. Vizsgáljuk meg, hogy a 4 csoportban van-e különbség a QT szakasz átlagos hosszában! Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Módszer Az ANOVA a teljes adathalmaz összvarianciáját kétféle forrásból származtatja: Csoportok közötti Csoportokon belüli Ha igaz az a nullhipotézis, hogy a populáció-átlagok megegyeznek, akkor a populációban a csoportok közötti és a csoportokon belüli variancia is megegyezik. A kettő hasonlításával lehet következtetni az átlagok azonosságára. ‘új’ nullhipotézis: A populációban a csoportok közötti és a csoportokon belüli variancia megegyezik. Tesztelése: a két variancia becslését táblázatban tüntenjük fel. A próbastatisztika a két variancia hányadosa, tesztelése: F-próba (egyoldalas). Egy p-értéket ad: ha p>0.05, akkor elfogadjuk az átlagok azonosságát (H0) ha p<0.05, akkor van az átlagok között különböző Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A varianciaanalízis táblázata példafeladat adataira F(3,19)=14.426, p<0.001, a különbség szignifikáns, csoport-átlagok között van legalább egy, a többitől eltérő Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Páronkénti hasonlítások Módosított t-próbák (LSD) Bonferroni Scheffé Tukey Dunnett- egy kontrollhoz hasonlítja a többi csoportot Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A „post-hoc” összehasonlítás veszélyei Ideális esetben a kísérlet előtt már tudnunk kell, hogy mely csoportok közötti különbség érdekel bennünket. A gyakorlatban mégis gyakori, hogy a kísérlet elvégzése után kapott eredmények ismeretében előre nem tervezett összehasonlításokat is elvégezünk. Ha pl. két csoport között nem vártunk eltérést, mégis nagyon különböző átlagokat kaptunk, késztetést érezhetünk arra, hogy ezt a különbséget is teszteljük. Ha csak a legnagyobb eltérést mutató csoportok közötti különbséget hasonlítjuk össze, annak valószínűsége, hogy szignifikáns különbséget kapunk, nagyobb lesz ahhoz képest, mintha két, a vizsgálat megkezdése előtt véletlenszerűen választott különbség-párt tesztelnénk. Ilyen esetben a kísérletre vonatkozó első fajta hiba megnő, nagyobb lesz az előre deklaráltnál. A konzervatívabb többszörös összehasonlítási módszerekkel megkereshetjük, mely átlagok különböznek melyektől, minden lehetséges párt összehasonlítva. Ha a csoportok páronkénti összehasonlítását azután végezzük, miután a kísérletet elvégeztük, ezeket a konzervatív módszereket kell alkalmaznunk. Egyedül Scheffé módszere enged meg ilyen utólagos „kutakodást”. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A szívfrekvencia elemzése ismételt méréses varianciaanalízissel Vizsgálható: Kálium hatása (kezelés) Idő hatása Interakció: a kálium-hatás nagysága függ-e az időtől? * * * A szívfrekvencia magas kálium-ion koncentrációnál átlagosan szignifikánsan magasabb; függetlenül az időponttól Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Relatív kockázat számítás 2x2-es táblázatok alapján Prospektív (kohorsz) vizsgálatokban számítható Vizsgált tényező előfordulásának valószínűsége (kockázat) az 1. csoportban: p1=a/(a+c) a 2. csoportban: p2=b/(b+d) Relatív kockázat: a tényező fennállása esetén hányszorosára változik a kockázat RR=p1/p2=[a/(a+c)]/[b/(b+d)] Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Esélyhányados számítás 2x2-es táblázatok alapján Retrospektív (eset-kontroll- case-control) vizsgálatokban számítható Ilyenkor nem tudunk kockázatot becsülni, hiszen a csoport létszámát (a nevezőt ) mi állapítottuk meg Vizsgált tényező előfordulásának esélye az 1. csoportban: a:c a 2. csoportban: b:d Esélyhányados: a tényező fennállása esetén hányszorosára változik az esély OR=(a/c)/b/d) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Diagnosztikus eljárások összehasonlítása Referencia teszt Összeg Új módszer + -   a b a+b c d c+d a+c b+d a+b+c+d Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Referencia teszt Össz. Új módszer Pozitív Negatív 231 32 263 27 54 81   231 32 263 27 54 81 Összesen 258 86 344 Szenzitivitás: 231/258=0,9. A valóban pozitívak közül mennyit ítélt az új módszer is pozitívnak Specificitás: 54/86=0,63. A valóban negatívak közül mennyit ítélt az új módszer is negatívnak Pozitív prediktív érték: 231/263=0,88. Az új módszer szerinti pozitív esetek közül mennyi a valóban pozitív Negatív prediktív érték: 54/81=0,67. Az új módszer szerinti negatív esetek közül mennyi a valóban negatív Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 5-nél „elvágva”: 32 betegből 18-at helyesen osztályozok, szenz=18/32=0.56. 93 egészségesből 92-t osztályozok helyesen, 1-et hibásan, spec=92/93=0.9892 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 7-nél „elvágva”: 32 betegből 18+7=25-öt helyesen osztályozok, szenz=25/32=0.78. 93 egészségesből 75-t osztályozok helyesen, 18-at hibásan, spec=75/93=0.8065 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Kritikus pont, „küszöb érték” keresése 125 beteg ( 32 hypothyroid, 93 normál ) T4 értékei. Goldstein and Mushlin (J Gen Intern Med 1987;2:20-24.). 9-nél „elvágva”: 32 betegből 18+7+4=29-et helyesen osztályozok, szenz=29/32=0.9063. 93 egészségesből 39-t osztályozok helyesen, spec=39/93=0.194 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

ROC görbe Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

„Optimális” szétválasztás Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe ROC görbe, Hatásfokmérő karakterisztika (Receiver operating characteristic) Diagnosztikai eljárások, mérési módszerek jellemzésére szolgáló görbe A görbe alatti terület alkalmas mérték különböző módszerek hasznosságának, prediktív erejének összehasonlítására, a nagyobb érték nagyobb prediktív erőt jelent. Teljes szétválasztás esetén a görbe háromszöggé válik, a görbe alatti terület =1. Teljes egyezés esetén a görbe a zölddel jelzett átlóba megy át, ekkor a terület 0.5. A ROC görbe segíthet valamely diagnosztikai próba küszöbértékének kiválasztásában is. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

ROC görbe alatti terület ROC = 0,5 Nem használható a teszt ROC < 0,7 Gyenge szétválaszthatóság 0,7 ≤ ROC < 0,8 Elfogadható a teszt 0,8 ≤ ROC < 0,9 Jó diagnosztikus teszt ROC ≥ 0,9 Kiváló diagnosztikus teszt Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Többváltozós módszerek, kockázati tényezők keresése több célváltozót vizsgálunk önmagában, vagy egy vagy több célváltozót vizsgálunk több másik (független) változó függvényében Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Logisztikus regresszió Többváltozós módszer, amelyben Több tényező (jellemző, tünet) alapján valamely betegség előfordulásának valószínűségét becsüljük a függő változó kategorikus, legtöbbször bináris a független változók eloszlására nincs feltétel Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A „7 perces” neurokognitív szűrési teszt magyarországi standardizálása A demencia szindrómákkal kapcsolatos problémák: A betegség aluldiagnosztizált A korai felismerés jelentősége Meglevő gyorstesztek: Mini Mentál Teszt (Janka és mtsai, 1988) Óra Rajzolási Teszt (Kálmán és mtsai, 1995) Új, „7 perces” szűrővizsgálatot dolgoztak ki, mely szerintük 100 % biztonságban felismeri az Alzheimer kórt (Solomon, PR, Hirschoff A, Kelly B. et al: (1988). A 7 minute neurocognitive screening battery highly sensitive to Alzheimer's disease. Arch. Neurol. 55: 349-355. ) Részei: Időorientáció Memória Verbális flencia Vizuospaciális képességek Ezekből kijön egy összpontszám, illetve ezeknek egy logisztikus regressziós modellből számolt becsült valószínűség alapján lehet dönteni. A teszt magyarországi standardizálása: Kálmán J., Boda K., Bende Zs., Janka Z.: Dementia szindrómák szűrése: a 7 perces teszt magyaroroszági alkalmazása. Orvosi Hetilap 2003; 144(39):1929-1938. Krisztina Boda and János Kálmán: Evaluation of the „7 Minute” Neurocognitive Screening test using logistic regression models. 23rd Annual COnference. The International Society forClinical Biostatistics, Sept.9-13 2002, Dijon, France. Pp 180. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Logisztikus regressziók eredménye Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

ROC görbe Kontroll és demenciabetegek szétválasztása Kontroll és Alzheimer-kóros betegek szétválasztása Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Eredményközlés, példa az irodalomból Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Elemszámbecslés Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Miért fontos? Gazdasági okok: Etikai szempontok Tudományos: Túl kevés elem esetén nem tudjuk kimutatni a kívánt hatást Túl kevés elem esetén olyan eredmény kimutatására pazaroljuk az erőt, amely gyakorlatilag nem érdekes Etikai szempontok Tudományos: Ha elegendő elemszám esetén kapunk negatív eredményt, akkor az eredményt tudjuk értelmezni Ha nem elegendő esetszám esetén kapunk negatív eredményt, klinikailag fontos hatást dobhatunk ki az ablakon Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az elemszámbecslést meghatározó (befolyásoló) tényezők A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome): kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A próba ereje A próba ereje annak valószínűsége, hogy egy különbséget — adott mintanagyság és szignifikancia-szint mellett — egy statisztikai próba kimutat. A vizsgálatok tervezésének gyakorlatában az erő nagyságának előre megszabott értékéből kiindulva határozzák meg a szükséges mintaelemszámot. A statisztika elméletének fontos része olyan döntési szabályok keresése, amely a próbát a lehető legerősebbé teszi adott esetén. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A próba ereje adott elemszám és  esetén, különböző alternatív hipotézisek mellett Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

A próba ereje adott elemszám és  esetén, különböző alternatív hipotézisek mellett Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

PS, Power and Sample Size Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Az elemszámbecslést meghatározó (befolyásoló) tényezők A kutatás célja (becslés, hipotézis vagy ekvivalencia) A fő hatásmutató (outcome):kategórikus v. folytonos, egy vagy több, elsődleges, másodlagos.. és a hatásmutató eloszlásának - korábbi vizsgálatokon alapuló – becslése I. fajta hiba valószínűsége, A próba ereje (1-) (1-II. fajta hiba valószínűsége) a választott értékelési módszer a klinikailag jelentősnek ítélt hatás A feltételek rögzítése után a mintaelemszámot a választott statisztikai próbának megfelelő módszerrel számítják ki Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Lépések A probléma megértése A statisztikai próba megválasztása Az elsődleges kérdés megfogalmazása (becslés v. hipotézis teszt); H0, Ha meghatározása A végpont meghatározása, a fő hatásmutató kiválasztása ,1- rögzítése (korai fázisoknál 0.1 és 0.9, később 0.05 és 0.8-0.9) A klinikailag jelentős különbség (ekvivalencia-non-inferiority vizsgálatoknál a maximum irreleváns vagy nem jelentős különbség) meghatározása A variabilitás becslése – korábbi vizsgálatok alapján Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Lépések folyt. Különböző körülmények (-t és -t variálva) és a paraméterek különböző kombinációira végezzünk számításokat Befolyásolhatja még: Hiányzó adatok Többszörös összehasonlítások Nem egyenlő csoportelemszámok Paraméteres v. nemparaméteres módszer Noninferiority vagy ekvivalencia vizsgálat … Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Korrigálás A fő hatásmutatóra számítjuk ki általában Több fontos változó figyelembe vétele: Mindegyikre külön számítsunk, és vegyük a maximumot núj=n(1-r2), ahol r a kovariáns változó és a a fő hatásmutató közötti korreláció Multiplicitás: Bonferroni korrekciót kell alkalmazni, ha legalább egy szignifikáns eredményt szeretnénk (pl. legalább egyet a több páronkénti hasonlítás közül) A válaszadás aránya és a vizsgálatból való kiesés miatti korrekció: núj=n/(1-L), ahol L a „loss to follow-up rate” Csoportonként különböző elemszámok: Számítsuk ki egyenlőkre, majd k=n2/n1 n1=n(k+1)/(2k), n2=n(k+1)/2 Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Korrigálás Nemparaméteres módszerek: általában az elemszámot paraméteres próbák alapján határozzák meg Ha a paraméteres próbák feltételei nem teljesülnek, a nemparaméteres próbák alkalmazásához korrekció (létezik) Ekvivalencia/noninferiority vizsgálatok Rétegezés, blokkok képzése, illesztés (matching) Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Két arány különbsége Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Elemszámbecslés bináris adatokra (két arány különbsége) H0: p1=p2 vs. Ha: p1 ≠ p2; Kétoldalas α = 5%, β = 20%, Chi-négyzet próbával/Z-próbával tesztelve az arányok egyenlőségét P1 és p2 különböző értékeire az elemszám: Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Példa A mintaelemszám meghatározás korábbi retrospektív vizsgálat alapján történt. Ahhoz, hogy posztoperatív komplikációk klinikailag jelentős csökkenését ki tudjuk mutatni az URI és URI-mentes gyerekek között (42%-ról 23%-ra), 94 eset kell csoportonként (= 0.05 and = 20%, kétoldalas teszt). „Sample size determination was based on our previous retrospective study using overall postoperative complications as the outcome measure. Based on the clinically important difference in incidence of this outcome between children with URIs and those without URIs (i.e., 42 vs. 23%), we calculated that we would need 94 subjects per group to detect a statistically significant difference at least that large ( = 0.05 and = 20%, two tailed).” S. Malviya, T. Voepel-Lewis, M. Siewert,, U. A. Pandit,, Lori Q. Riegger, Alan R. Tait. Risk Factors for Adverse Postoperative Outcomes in Children Presenting for Cardiac Surgery with Upper Respiratory Tract Infections. Anesthesiology 2003; 98:628–32. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Ajánlás Nemszignifikáns eredmény diszkussziójakor – ha nem volt előzetes elemszámbecslés – meg kell adni a próba erejét. Kis erejű nemszignifikáns eredményt nem lehet úgy értelmezni, hogy az összehasonlított változók (csoportok) azonosak. Biostatisztikai alapismeretek  Boda Krisztina  Leíró statisztika  A véletlen ingadozás  Konfidenciaintervallum  Egyváltozós módszerek  Többszörös összehasonlítások  Varianciaanalízis  Diagnosztikus tesztek  Többváltozós módszerek  Elemszámbecslés

Hasznos Web oldalak Angol nyelvű Magyar nyelvű Rice Virtual Lab in Statistics http://davidmlane.com/hyperstat/intro_ANOVA.html Statistics on the Web http://www.claviusweb.net/statistics.shtml Hisztogram alakjának változása – Old Faithful http://www.stat.sc.edu/~west/javahtml/Histogram.html Statisztikai bemutatók (Java) http://www-stat.stanford.edu/~naras/jsm http://www.math.csusb.edu/faculty/stanton/m262/index.html Magyar nyelvű http://www.biostat.hu – Klinikai Biostatisztikai Társaság

Idézet egy egyetemi hallgató feljegyzéseiből „Ha csak egy nap lenne hátra az életemből, azt a statisztika órán szeretném eltölteni – így sokkal hosszabbnak fog tűnni”. http://www.uwo.ca/epidem/bsuhum.htm (már nem működő lap )