KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A korreláció és a regresszió között sok a hasonlóság, ha a korreláció mérőszáma az un. korrelációs koefficiens szignifikáns, akkor mindig szignifikáns lesz a lineáris regresszió is. A leggyakrabban használt és az orvosi irodalomban igen gyakran megtalálható eljárások.
A KORRELÁCIÓ A két változó közötti egyenes arányú, fordított arányú vagy hiányzó kapcsolat (pozitív, negatív vagy nem létező korreláció) lehet. Becslése az értékek ábrázolása alapján lehetséges. ELÔSZÖR MINDIG RAJZOLJUNK!!!
PÉLDA Krónikus hepatitis C-ben szenvedô betegekben mértük interferon alpha kezelés elôtt és közben a HCV RNS plazmaszintet, két komplement fehérje, a C9 és a C1-INH szérumkoncentrációját és a komplement rendszer egyik aktiválódási termékét, a C5b-9-et. Szerettük volna tudni, hogy van-e kapcsolat ezek között a változók között (Bíró L. et al. Immunology Letters, 2000).
1. Látszólag nincs korreláció, az adatok egy körrel írhatók körül
2. Van pozitív irányú kapcsolat, az adatok ellipszis szerű síkidommal írhatók körül
3. Gyenge negatív irányú kapcsolat
A korrelációs koefficiens legalacsonyabb értéke: 0 (nincs lineáris korreláció), a legmagasabb +1,0 vagy -1,0 (tökéletes pozitív, ill. negatív lineáris korreláció) A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva) A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erôsen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni
A korreláció (a két változó közötti kapcsolat) erôsségének megítélése 1. A leegyszerűsített megoldás
A determináltsági koefficiens (r2) Az r2 érték azt fejezi ki, hogy az egyik változó változásai várhatóan milyen mértékben járnak a másik változó változásaival, vagyis mennyire lehet az egyikből a másikat előre jelezni. Ha az r=0,50, az r2=0,25, akkor 25%-ban lehet előre jelezni az egyik változóból a másikat, és fordítva (a korrelációnál a két változó felcserélhető). Példánkban a két komplement fehérje (C9 és C1-INH) között az r=0,62, az r2=0,38, tehát a C9 szintje alapján 39%-ban lehet a C1-INH szintet, ill. a C1-INH szintje alapján a C9 szintet előre jelezni.
Az r CI-a Az r értékeknek is van eloszlása, ez azonban nem szimmetrikus és csak nagyobb (N10) esetszámnál értékelhetô. Minden program megcsinálja, kézzel elég macerás, A C9 és C1-INH koncentráció közötti r (0,62) CI-a 0,42-0,76.
A korrelációs koefficiens szignifikanciája
a C9-C1-INH példánkban
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei I. A vizsgált egyének (állatok, minták, stb) egy nagyobb populációból véletlenszerűen lettek kiválasztva Minden vizsgált egyénnél megmérték mindkét (x és y) változót (a hiányzó értékekkel a legtöbb számítógépes program boldogul) A megfigyelések egymástól függetlenek A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk)
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II. Az x és y értékeknek is függetleneknek kell lenni egymástól (l. a HCV RNS változási példát fent). Ha az x változó szisztematikusan változik, pl. idô, koncentráció vagy dózis) akkor ne korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei III. Az x és az y végig egy irányban kell változzon. Pl. az r - nek semmi értelme akkor, ha az x növekedésével egy darabig nô az y, de a további növelés után csökkenni kezd. sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.
A nem-paraméteres korreláció számítás, a Spearman féle rang korreláció (másik gyakran használt próba a Kendall féle rang korreláció)
A korrelációs számítás legfontosabb szabálya: a szignifikáns korreláció sem jelent ok-okozati kapcsolatot Ha x és y között erôs korreláció van, akkor az lehet azért, mert 1. az y változásai okozzák az x változásait 2. a x változásai okozzák az y változásait 3. egy harmadik faktor mind az x-et, mind az y-t egy irányba (vagy ellenkező irányba) befolyásolja. Ez a leggyakoribb!!!
A REGRESSZIÓ A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. lineáris és nem-lineáris regresszió egyszerű és többszörös regresszió jelen kurzus tárgya: egyszerű lineáris regresszió
PÉLDA Az allergének aktiválják a komplement rendszert az un. klasszikus reakcióúton át. Ennek elsô lépése a C1 makromolekula belsô, enzimatikus aktivációja. A második lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább bomlik és C4d keletkezik belőle. Egy speciális, monoklonális ellenanyagokkal működő kit lehetővé teszi a C4d szint mérést szérumban. Mi egy allergén (Parietaria judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum) inkubáltuk 37 oC-on 60 percig egy vizsgált egyén szérumát és minden mintában megmértük a keletkezett C4d mennyiségét (µg/ml)
Látható, hogy minél több allergént adtunk a szérumhoz, annál több C4d keletkezett. Kérdésünk a korrelációs számítással szemben, amikor csak azt kérdeztük volna, hogy kapcsolatban áll-e egymással az allergén dózisa és a keletkezett C4d mennyisége, most azt is tudni szeretnénk, hogy az allergén egy adott dózisa (x mg/ml) milyen mértékű (y µg/ml) C4d képzôdést indukál a szérumban. Ha az x és az y között lineáris vagy ezt megközelítő összefüggés látszik (példánkban ez a helyzet), akkor a kérdésre a (egyszerű vagy egyszeres, simple) lineáris regresszió módszerével kaphatunk választ.
A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehetô legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függôleges távolsága négyzeteinek összege nagyobb volna.
Tehát a vonal úgy készül, hogy egy képlet alapján kiszámolja a gép, de természetesen mi is kiszámolhatjuk a lineáris regressziós egyenes egyenletét (meredekség és metszési pont az y tengelyen) és ennek alapján ábrázoljuk az egyenest. Az elsô és harmadik pont elég távol esik a regressziós egyenestôl ahhoz, hogy a pontok és egyenes közötti függôleges távolságokat is ábrázoljuk. E távolságok négyzetének összege kell minimális legyen. A távolságokat reziduumnak (residual) nevezzük, ezek négyzetének összege a reziduumok varianciája, melynek négyzetgyöke a reziduumok SD-je. A regressziós egyenes az az egyenes, amelynél a reziduumok összegének az SD-je a legkisebb. Egyes programok ezt is kiszámítják
A számítás segítségével meghatározhatjuk az egyenesek konfidencia intervallumát is, tehát azokat a határokat, amelyek közé azok a regressziós egyenesek esnének 95%-os valószínűséggel, amelyek más olyan kísérletekhez tartoznának, amelyekben ugyanezt az összefüggést vizsgálnánk
A regressziós egyenes egyenlete
példánkban
A lineáris regressziós egyenes szignifikanciája: A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén dózisa és a képzôdött C4d mennyisége között. Ha ez igaz, akkor a regressziós egyenes az x tengellyel párhuzamos lenne, tehát a meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben eltérô, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen koincidencia eredménye lenne. Példánkban a P érték: 0.0249, tehát kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától nem függ a szérumban képzôdô C4d mennyisége. A szignifikancia kiszámítása több módon történhet. 1) A t eloszlás alapján, amikor a t érték a b abszolút értéke és ennek a SE.-jának a hányadosa. (df=N-2). A kapott értékbôl egyszempontos variancia analízist végzek és ekkor az F próba adja meg a szignifikancia értékét. Ez utóbbi fontos lesz a többszörös lineáris regresszió megértéséhez.
A lineáris regresszió elvégezhetôségének feltételei Az x és az y értékek nem felcserélhetôk, az x értékek alapján szeretnénk elôre jelezni az y értékeket, fordítva ez nem lehetséges, mert a kísérletben az x-et variáljuk, vagy idôben esetleg logikailag megelôzi az y-t (pl. elôbb adtuk hozzá a szérumhoz az allergént és csak ezután képzôdött a C4d) Az ábrázolás szerint az x és y értékek között lineáris összefüggés áll fenn. Ennek eldöntésre a legtöbb program lehetôvé teszi a reziduumok ábrázolását is, ennek elemzése elôsegítheti annak az eldöntését, hogy valóban fennáll-e az x és y között a lineáris viszony.
A lineáris regresszió elvégezhetôségének feltételei (folyt.) Bár matematikailag az összefüggés a végtelen kicsi és a végtelen nagy irányban is megmarad az x és y között, lehetőleg csak a megfigyelések által meghatározott tartományban számoljunk ezzel, annál is inkább, mert az y értékek akár negatívvá is válhatnak, amelynek biológiailag legtöbbször semmi értelme sincs. A reziduumok távolsága a regressziós egyenestől normál eloszlású vagy ezt megközelítő legyen Minden vizsgált minta egymástól függetlenül lett kiválasztva. Az x érékek és az y értékeket egymástól függetlenül határoztuk meg. Tehát a korrelációhoz hasonlóan nem szabad lineáris regressziót számolni egy változó kiinduló értéke és ennek változásának mértéke között, hiszen az utóbbi kiszámításánál az elôzôt is figyelembe vettük (l. a HCV RNS példát a korrelációnál)
A x értékek kiszámítása az y értékek alapján (standard görbe a laboratóriumokban) Ez a laboratóriumok mindennapi feladata. Pl. van egy standard magas ismert IgG tartamú szérumom. Ebből hígítási sort készítek és megmérem benne Mancini módszerrel a keletkezett precipitációs körök átmérőjét mm-ben kifejezve. Ezután elkészítem a standard görbét: az x tengelyre az egyes hígítások ismert IgG koncentrációja jön, a y tengelyre pedig a precipitációs körök átmérôje. Az ismeretlen mintákban kapott átmérőt a y tengelyre viszem majd meghatározom az ehhez tartozó x értéket, tehát IgG koncentrációt. Ez számítógéppel (hiszen ismert az x és y közötti összefüggés egyenlet) végtelenül egyszerű. Elvileg lehet extrapolálni is, tehát a standard görbénél kisebb vagy nagyobb tartományban dolgozni, itt azonban igen óvatosnak kell lenni.
Mi történik, ha az x és az y közötti összefüggés nem lineáris? 1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni.
NEM LINEÁRIS REGRESSZIÓ Az eljárást a klinikumban ritkán használjuk, az orvosbiológiai tudományokban azonban nagyon fontos eljárás, pl. a ligand receptorról való disszociációja vagy a rádióaktív izotóp bomlása, vagy a gyógyszerek májban történô metabolizmusa, ill. vesében történő kiürítése egy nem-lineáris összefüggés, szerint, az exponenciális model szerint (pl. a kiválasztott gyógyszer mennyisége a gyógyszer plazmakoncentrációjának függvénye, ahogy ez csökken a kiválasztás üteme is lelassul. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálat, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.
x y 2.00 1654.00 4.00 1515.00 6.00 1243.00 8.00 1098.00 10.00 1032.00 15.00 874.00 20.00 754.00 25.00 653.00 30.00 567.00 35.00 604.00 40.00 587.00
Absolute Sum of Squares 517300 9776 one-site two-site Degrees of Freedom 9 7 R² 0.6453 0.9933 Absolute Sum of Squares 517300 9776 Sy.x 239.7 37.37
Többszörös logisztikus regresszió Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelöljük (dummy variable), ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1. SD növekedésre vonatkozik a kapcsolat, az OR.
ÚJ FOGALMAK megfigyeléses vizsgálat prospektív vizsgálat retrospektív vizsgálat keresztmetszeti vizsgálat randomizált vizsgálat multicentrikus vizsgálat végpont (end-point), outcome variable metaanalízis túlélési analízis censored data Kaplan-Meier módszer log-rank teszt adjusztált (illesztett, korrigált, adjusted) analízis többváltozós regressziós analízis logisztikus regressziós analízis Poisson regressziós model Cox regressziós model