Füst György III. Belklinika Kapcsolat vizsgálat I: egy és többváltozós lineáris regressziós vizsgálatok és alkalmazásaik a klinikumban. Füst György III. Belklinika
KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A korreláció és a regresszió között sok a hasonlóság, ha a korreláció mérőszáma az un. korrelációs koefficiens szignifikáns, akkor mindig szignifikáns lesz a lineáris regresszió is. A leggyakrabban használt és az orvosi irodalomban igen gyakran megtalálható eljárások.
A KORRELÁCIÓ A két változó közötti egyenes arányú, fordított arányú vagy hiányzó kapcsolat (pozitív, negatív vagy nem létező korreláció) lehet. Becslése az értékek ábrázolása alapján lehetséges. ELŐSZÖR MINDIG RAJZOLJUNK!!!
A korrelációs koefficiens legfontosabb tulajdonságai Ha nincs lineáris korreláció, akkor a korrelációs koefficiens értéke: 0, tökéletes pozitív, ill. negatív lineáris korreláció fennállása esetén a korrelációs koefficiens értéke +1,00, ill. -1,00. A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó rögzítve van (pl. testmagasság és testsúly közötti korreláció, mindegy, hogy ezek milyen mértékegységben (kg, font, cm, inch) vannak megadva). A korrelációs koefficiens értékét az outlier (kiugró) értékek igen erősen befolyásolják. Ezt minden esetben végig kell gondolni és pl. adat-transzformációt kell végrehajtani. A kiugró érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet a mérést ismételni, vagy az értéket kizárni 4, A korreláció nem jelent ok-okozati kapcsolatot, mert ez lehet annak a következménye, hogy-az x tengelyre felvett változó befolyásolja az y tengelyre felvettet-az y tengelyre felvett változó befolyásolja az x tengelyre felvettet-egyik eset sem áll fenn, hanem egy harmadik tényező mindkettőt egy irányba (pozitív korreláció) vagy különböző irányokba (negatív korreláció) mozdítja el.
A korrelációs koefficiens legalacsonyabb értéke: 0 (nincs lineáris korreláció), a legmagasabb +1,0 vagy -1,0 (tökéletes pozitív, ill. negatív lineáris korreláció) A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva) A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erôsen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni
EGY KIUGRÓ (OUTLIER) ÉRTÉK HATÁSA A KORRELÁCIÓS KOEFFICIENS NAGYSÁGÁRA ÉS SZIGNIFIKANCIÁJÁRA
A korreláció (a két változó közötti kapcsolat) erősségének megítélése A korreláció (a két változó közötti kapcsolat) erősségének megítélése. A leegyszerűsített megoldás Korrelációs koefficiens A kapcsolat erőssége 0-0,25 Nincs vagy igen gyenge 0,25-0,50 Gyenge 0,50-0,75 Mérsékelten erős vagy erős 0,75-1,00 Igen erős
A PEARSON-FÉLE KORRELÁCIÓS KOEFFICIENS SZÁMÍTÁS ELSŐ LÉPÉSE, AZ X ILL A PEARSON-FÉLE KORRELÁCIÓS KOEFFICIENS SZÁMÍTÁS ELSŐ LÉPÉSE, AZ X ILL. Y ÁTLAGTÓL VALÓ TÁVOLSÁG
A determináltsági koefficiens (r2) Az r2 érték azt fejezi ki, hogy az egyik változó változásai várhatóan milyen mértékben járnak a másik változó változásaival, vagyis mennyire lehet az egyikből a másikat előre jelezni. Ha az r=0,50, az r2=0,25, akkor 25%-ban lehet előre jelezni az egyik változóból a másikat, és fordítva (a korrelációnál a két változó felcserélhető). Példánkban a két komplement fehérje (C9 és C1-INH) között az r=0,62, az r2=0,38, tehát a C9 szintje alapján 39%-ban lehet a C1-INH szintet, ill. a C1-INH szintje alapján a C9 szintet előre jelezni.
Az r CI-a Az r értékeknek is van eloszlása, ez azonban nem szimmetrikus és csak nagyobb (N>10) esetszámnál értékelhető. Minden program megcsinálja, kézzel elég macerás, A C9 és C1-INH koncentráció közötti r (0,62) CI-a 0,42-0,76.
A korrelációs koefficiens szignifikanciája
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei I. A vizsgált egyének (állatok, minták, stb) egy nagyobb populációból véletlenszerűen lettek kiválasztva Minden vizsgált egyénnél megmérték mindkét (x és y) változót (a hiányzó értékekkel a legtöbb számítógépes program boldogul) A megfigyelések egymástól függetlenek A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk)
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II. Az x és y értékeknek is függetleneknek kell lenni egymástól (l. a HCV RNS változási példát fent). Ha az x változó szisztematikusan változik, pl. idő, koncentráció vagy dózis) akkor ne korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei III. Az x és az y végig egy irányban kell változzon. Pl. az r-nek semmi értelme akkor, ha az x növekedésével egy darabig nő az y, de a további növelés után csökkenni kezd. sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.
HOGYAN NEM SZABAD KORRELÁCIÓT SZÁMÍTANI?
Összefüggés az almavirágok átmérője és az almák súlya között Összefüggés az almavirágok átmérője és az almák súlya között. Hipotetikus példa a rang-korrelációs eljárás elvének szemléltetésére. Virág-alma párok sorszáma Virág átmérője, mm Rangszám Alma súlya, g Rangszámok különbsége 1 32 3,5 210 4 0,5 2 18 150 3 36 5 235 6 205 39 7 220 37 256 30 190 8 42 300 Spearman korrelációs koefficiens r=0,9222, p=0,0022
Pozitív lineáris korreláció a szérum log10triglicerid és log10HbA1C szintek között cukorbetegekben Paraméteres, lineáris korrelációs koefficiens meghatározás Az XY párok száma 228 Pearson korrelációs koefficiens (r) 0,2504 Az r 95%-os CI-je 0,1256 – 0,3674 p-érték (kétoldalú) 0,0001 A p-érték összefoglaló értékelése *** Szignifikáns-e (p<0,05) a korrelációs koefficiens? Igen R2 (determináltsági koefficiens) 0,0627
Negatív lineáris korreláció a szérum log10triglicerid és HDL-koleszterin szintek között cukorbetegekben Paraméteres, lineáris korrelációs koefficiens meghatározás Az XY párok száma 228 Pearson korrelációs koefficiens (r) -0,4435 Az r 95%-os CI-je -0,5414 – -0,3337 p-érték (kétoldalú) <0,0001 A p-érték összefoglaló értékelése *** Szignifikáns-e (p<0,05) a korrelációs koefficiens? Igen R2 (determináltsági koefficiens) 0,1967
Negatív korreláció a szérum log10 triglicerid és HDL-koleszterin szintek között cukorbetegekben. Számítás a nem paraméteres Spearman próbával Nem paraméteres korrelációs koefficiens meghatározás Az XY párok száma 228 Spearman korrelációs koefficiens (r) -0,4559 Az r 95%-os CI-je -0,5550 – -0,3442 p-érték (kétoldalú) <0,0001 A p-érték összefoglaló értékelése *** Pontos vagy megközelítő p-érték? Gaussi megközelítés Szignifikáns-e (p<0,05) a korrelációs koefficiens? Igen
A korrelációs számítás legfontosabb szabálya: a szignifikáns korreláció sem jelent ok-okozati kapcsolatot Ha x és y között erős korreláció van, akkor az lehet azért, mert 1. az y változásai okozzák az x változásait 2. a x változásai okozzák az y változásait 3. egy harmadik faktor mind az x-et, mind az y-t egy irányba (vagy ellenkező irányba) befolyásolja. Ez a leggyakoribb!!!
A REGRESSZIÓ A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. lineáris és nem-lineáris regresszió egyszerű és többszörös regresszió
y x a Y változás X változás b (meredekség): y változás/x változás
PÉLDA Az allergének aktiválják a komplement rendszert az un. klasszikus reakcióúton át. Ennek elsô lépése a C1 makromolekula belsô, enzimatikus aktivációja. A második lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább bomlik és C4d keletkezik belőle. Egy speciális, monoklonális ellenanyagokkal működő kit lehetővé teszi a C4d szint mérést szérumban. Mi egy allergén (Parietaria judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum) inkubáltuk 37oC-on 60 percig egy vizsgált egyén szérumát és minden mintában megmértük a keletkezett C4d mennyiségét (µg/ml)
Látható, hogy minél több allergént adtunk a szérumhoz, annál több C4d keletkezett. Kérdésünk a korrelációs számítással szemben, amikor csak azt kérdeztük volna, hogy kapcsolatban áll-e egymással az allergén dózisa és a keletkezett C4d mennyisége, most azt is tudni szeretnénk, hogy az allergén egy adott dózisa (x mg/ml) milyen mértékű (y µg/ml) C4d képzôdést indukál a szérumban. Ha az x és az y között lineáris vagy ezt megközelítő összefüggés látszik (példánkban ez a helyzet), akkor a kérdésre a (egyszerű vagy egyszeres, simple) lineáris regresszió módszerével kaphatunk választ.
A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehető legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függőleges távolsága négyzeteinek összege nagyobb volna.
Tehát a vonal úgy készül, hogy egy képlet alapján kiszámolja a gép, de természetesen mi is kiszámolhatjuk a lineáris regressziós egyenes egyenletét (meredekség és metszési pont az y tengelyen) és ennek alapján ábrázoljuk az egyenest. Az első és harmadik pont elég távol esik a regressziós egyenestől ahhoz, hogy a pontok és egyenes közötti függőleges távolságokat is ábrázoljuk. E távolságok négyzetének összege kell minimális legyen. A távolságokat reziduumnak (residual) nevezzük, ezek négyzetének összege a reziduumok varianciája, melynek négyzetgyöke a reziduumok SD-je. A regressziós egyenes az az egyenes, amelynél a reziduumok összegének az SD-je a legkisebb. Egyes programok ezt is kiszámítják
A számítás segítségével meghatározhatjuk az egyenesek konfidencia intervallumát is, tehát azokat a határokat, amelyek közé azok a regressziós egyenesek esnének 95%-os valószínűséggel, amelyek más olyan kísérletekhez tartoznának, amelyekben ugyanezt az összefüggést vizsgálnánk
A regressziós egyenes egyenlete
példánkban
A lineáris regressziós egyenes szignifikanciája: A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén dózisa és a képződött C4d mennyisége között. Ha ez igaz, akkor a regressziós egyenes az x tengellyel párhuzamos lenne, tehát a meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben eltérő, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen koincidencia eredménye lenne. Példánkban a P érték: 0.0249, tehát kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától nem függ a szérumban képzôdő C4d mennyisége.
A lineáris regresszió elvégezhetőségének feltételei Az x és az y értékek nem felcserélhetők, az x értékek alapján szeretnénk előre jelezni az y értékeket, fordítva ez nem lehetséges, mert a kísérletben az x-et variáljuk, vagy időben esetleg logikailag megelőzi az y-t (pl. előbb adtuk hozzá a szérumhoz az allergént és csak ezután képződött a C4d) Az ábrázolás szerint az x és y értékek között lineáris összefüggés áll fenn. Ennek eldöntésre a legtöbb program lehetővé teszi a reziduumok ábrázolását is, ennek elemzése elősegítheti annak az eldöntését, hogy valóban fennáll-e az x és y között a lineáris viszony.
A lineáris regresszió elvégezhetôségének feltételei (folyt.) Bár matematikailag az összefüggés a végtelen kicsi és a végtelen nagy irányban is megmarad az x és y között, lehetőleg csak a megfigyelések által meghatározott tartományban számoljunk ezzel, annál is inkább, mert az y értékek akár negatívvá is válhatnak, amelynek biológiailag legtöbbször semmi értelme sincs. A reziduumok távolsága a regressziós egyenestől normál eloszlású vagy ezt megközelítő legyen Minden vizsgált minta egymástól függetlenül lett kiválasztva. Az x érékek és az y értékeket egymástól függetlenül határoztuk meg. Tehát a korrelációhoz hasonlóan nem szabad lineáris regressziót számolni egy változó kiinduló értéke és ennek változásának mértéke között, hiszen az utóbbi kiszámításánál az elôzôt is figyelembe vettük (l. a HCV RNS példát a korrelációnál)
A log10 szérum HbA1c értékek és az ugyanabban a mintában mért log10 triglicerid értékek közötti összefüggés vizsgálata cukorbetegekben lineáris regresszió módszerével.
A pontokat legjobban megközelítő egyenes (best fit values) meredeksége (slope) 0,6109 ± 0,1558 1/slope 1,6375 metszéspontja az y tengellyel -0,2854 ± 0,1474 metszéspontja az x tengellyel 0,4672 95%-os konfiedencia intervallumok 0,3056-0,9162 metszéspontja az y tengellyel, amikor x=0 -0,5744-0,003545 metszéspontja az x tengellyel, amikor y=0 -0,01151-0,6320 Az illeszkedés pontossága (goodness of fit) R2 0,06269 A meredekség szignifikánsan különbözik-e a 0-tól? F 15,38 Szabadsági fok (n-1 ill. df) 1, 230 p-érték <0,0001 A 0-tól való eltérés szignifikáns Adatok száma 232 hiányzó
ANOVA modell Négyzetösszeg df (n-1) Négyzetek átlaga F p-érték 1 Regresz-szió 1,267 15,383 <0,0001 maradék 18,942 230 0,08236 összesen 20,209 231
Regressziós koefficiens Nem standardizált koefficiens Standardizált koefficiens t p-érték A B 95%-os CI-je Modell B SEM beta alsó határ felső határ konstans -0,285 0,147 -1,936 0,054 -0,576 0,005 log10HbA1c 0,611 0,156 0,250 3,922 <0,0001 0,304 0,918
A x értékek kiszámítása az y értékek alapján (standard görbe a laboratóriumokban) Ez a laboratóriumok mindennapi feladata. Pl. van egy standard magas ismert IgG tartamú szérumom. Ebből hígítási sort készítek és megmérem benne Mancini módszerrel a keletkezett precipitációs körök átmérőjét mm-ben kifejezve. Ezután elkészítem a standard görbét: az x tengelyre az egyes hígítások ismert IgG koncentrációja jön, a y tengelyre pedig a precipitációs körök átmérője. Az ismeretlen mintákban kapott átmérőt a y tengelyre viszem majd meghatározom az ehhez tartozó x értéket, tehát IgG koncentrációt. Ez számítógéppel (hiszen ismert az x és y közötti összefüggés egyenlet) végtelenül egyszerű. Elvileg lehet extrapolálni is, tehát a standard görbénél kisebb vagy nagyobb tartományban dolgozni, itt azonban igen óvatosnak kell lenni.
Mi történik, ha az x és az y közötti összefüggés nem lineáris? 1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni.
NEM LINEÁRIS REGRESSZIÓ Az eljárást a klinikumban ritkán használjuk, az orvosbiológiai tudományokban azonban nagyon fontos eljárás, pl. a ligand receptorról való disszociációja vagy a rádióaktív izotóp bomlása, vagy a gyógyszerek májban történô metabolizmusa, ill. vesében történő kiürítése egy nem-lineáris összefüggés, szerint, az exponenciális model szerint (pl. a kiválasztott gyógyszer mennyisége a gyógyszer plazmakoncentrációjának függvénye, ahogy ez csökken a kiválasztás üteme is lelassul. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálat, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.
x y 2.00 1654.00 4.00 1515.00 6.00 1243.00 8.00 1098.00 10.00 1032.00 15.00 874.00 20.00 754.00 25.00 653.00 30.00 567.00 35.00 604.00 40.00 587.00
Absolute Sum of Squares 517300 9776 one-site two-site Degrees of Freedom 9 7 R² 0.6453 0.9933 Absolute Sum of Squares 517300 9776 Sy.x 239.7 37.37