A regressziós egyenes egyenlete Y= alpha + beta1.X1 + beta2.X2 + beta3.X3 +..... + epszilon a használt egyenlet a minta alapján: Y = a + b1X1 + b2X2 + b3X3 + b4X4.. TÖBB VÁLTOZÓ HATÁSÁT EGYETLEN ÉRTÉKBEN ÖSSZEGEZZÜK (súlyozott átlag) ahol az X1 az első független változó és a b1 a hozzátartozó regressziós koefficiens, az X2 a második független változó és a b2 a hozzá tartozó regressziós koefficiens, stb.
A regressziós egyenes egyenlete (folyt.) A számítás hasonló az egyszerű lineáris regresszióhoz, a legkisebb átlagos négyzetes távolság kiszámításán alapul. Két független változó esetén egy síktól való távolságot minimalizálunk, több független változónál ez már nem szemléltethető
2. feladat: Feher et al. Beta blockers, lipoproteins and a non-insulin dependent diabetes (Postgrad. Med. 64, 927, 1988) Y (H): HDL2 szubfrakció, mmol/l X1 (B): beta blokkolót szedett 1: igen, 2: nem X2 (D).drink 1: alkoholt fogyasztott, 2: nem X3 (S) smoking 1: dohányzik, 0: nem X4 (A): életkor, év X5 (W) testsúly X6 (T) trigliceridek X7 (C) C-peptide X8 (G) vércukor H = 0.711 -0.0824 B - 0.0173 D - 0.0399 S - 0.00455 A - 0.00214 W - 0.0444 T + 0.00463 C - 0.00391 G. R2:59.5%, adj.R2:54.3% Kérdés: mit jelentenek a piros számok?
Válaszok az 2. feladatra 0.0824 B: ha béta-blokkolót szed valaki, akkor a HDL2 (védő) frakció szérumszint 0.0824 mmol/l-el nagyobb lesz, azaz a nem szedők 0.711 mmol/l-ével szemben 0.711+0.082=0.793 mmol/l. - 0.00455 A: az öregedéssel párhuzamosan évente 0.00455 mmol/l-el csökken a HDL2-frakció szérumszintje, - 0.0444 T: 1 mmol/l triglicerid szint csökkenés 0.044 mmol/l HDL-csökkenéssel jár együtt. Tehát ha valakinek 2 mmol/l-el csökkentjük a triglicerid koncentrációját, ez 0.7110-2.0.0444=0.7110-0.0888=0.6222 mmol/l HDL koncentrációt eredményez, ha az összes többi tényező változatlan marad.
Parameter Estimates (gyakika) Sigma-restricted parameterization B S.E. of B t p -95,00% +95,00% Beta S.E. of beta Intercept -79,3334 36,85479 -2,15259 0,034524 -152,736 -5,93070 DIFVEGF 0,0414 0,01490 2,77615 0,006922 0,012 0,07105 0,292256 0,105274 0,082585 0,501928 GENDER 9,8770 6,01770 1,64132 0,104864 -2,108 21,86223 0,178725 0,108891 -0,038151 0,395601 AGE 0,7211 0,33331 2,16349 0,033646 0,057 1,38497 0,247451 0,114376 0,019652 0,475250 BMI_E0 1,2541 0,72314 1,73426 0,086926 -0,186 2,69438 0,197392 0,113819 -0,029298 0,424082
Az egyenlet CDS 7 months, %= -79.33 + 9.877xgender + 0.7211xage + 1.2541xBMI + 0.0414.diffVEGF Legyen a beteg 40 éves férfi, BMI-je 28% CDS 7 months, % = - 79.33 + 9.877x1 + 0.7211x40 + 1.2541x28 + 0.0414.diffVEGF = -79.33+9.877+28.84+63.95+0.0414.diffVEGF= -79.33 + 102.667 + 0.0414.diffVEGF= 23.337 + 0.0414.diffVEGF
A VEGF emelkedés hatása CDS 7 months, % = 23.337 + 0.0414.diffVEGF Ha a VEGF emelkedés 100 pg/ml, akkor CDS 7 months, % = 23.337 +4.14=27.477 Ha a VEGF emelkedés 400 pg/ml, akkor CDS 7 months, % = 23.337 + 16.56 = 38.977 Ha nem férfi, hanem nő a beteg, akkor 9.877-el több, tehát 49.774% a várható restenosis
A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)
A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 Bruneck tanulmány: 1990, 826 40-79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)
KÉRDÉSEK 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis
500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 SD növekedés
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. 1984, 26311 > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke Követési idő: 1999 748 személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja Kérdés: befolyásolja-e a zöldtea fogyasztás a gyrmorrák kifejlődésének az esélyét? Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás
A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója
Többszörös logisztikus regresszió Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
Relatív rizikó (relative risk) , esély-arány (odds ratio) Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1. SD növekedésre vonatkozik a kapcsolat, az OR.
A logisztikus regresszió során alkalmazott számítási mód A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII Ha ezt az egyes független változók szerint részeire bontjuk, akkor ln (odds) = ßo + X1ß1 + X2ß2.... A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt.) A 0 hiptézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-ára ln (OR) = X1(lnOR1) + X2(lnOR2).... Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Modell felépítés a logisztikus regresszióban Hasonló a lineáris regresszióhoz manuális automatikus: forward selection backward elimination stepwise selection A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)
Kérdés A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontroll-csoportba tartozik? Számítás többszörös logisztikus regresszió független változók: HDL-koleszterin, a triglicerid és az anti-hsp60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz) Függő változó: csoport 0: kontroll, 1: ISZB
STATISTICA OUTPUT Model: Logistic regression (logit) N of 0's:48 1's:241 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 115,14789192 Chi˛(4)=29,591 p=,00001 Const.B0 LOGHSP60 HDL_CHOL TRIGLICE CHL_PNEU Estimate -,74 ,9383 -,186086 ,51 ,71548 SE ,68 ,2997 ,284498 ,18 ,36015 t(284) -1,08 3,1305 -,654084 2,81 -1,98662 p-level ,28 ,0019 ,513587 ,01 ,04792 -95%CL -2,08 ,3483 -,746078 ,15 -1,42439 +95%CL ,61 1,5282 ,373907 ,86 -,00658 Wald's khi2 1,16 9,8000 ,427826 7,88 3,94668 p-level ,28 ,0017 ,513062 ,00 ,04697 OR (unit ch) ,48 2,5556 ,830202 1,66 ,48896 -95%CL ,12 1,4167 ,474223 1,16 ,24066 +95%CL 1,84 4,6101 1,453402 2,37 ,99344
SPSS output
Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység pl. 1 SD változás mit jelent. Megoldások: értelmes kategóriákat állítok fel: pl. életkorban 10 év, binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
Anti-hsp60 legfelső kvartilis vs. többi Példánkban az anti-hsp60 legfelső kvartilisának határa: 183,24 AU/ml. Ezután átkódoljuk a változót, úgy, hogy 0: <193.24, 1: >183.24. Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp60 antitest szintű egyén van. HSP60KV HSP60KV Row alacsony magas Totals KO 51 3 54 PS 175 73 248 All Grps 226 76 302 Végül elvégezzük a logisztikus analízist a folyamatos változót a binárissal helyettesítve
STATISTICA OUTPUT Const.B0 HDL_CHOL TRIGLICE HSP60_M_ CHL_PNEU Estimate 2,06560 -,79768 ,1339 2,00283 -,92184 SE ,54187 ,34038 ,1409 ,62255 ,36728 t(287) 3,81201 -2,34351 ,9505 3,21714 -2,50987 p-level ,00017 ,01979 ,3426 ,00144 ,01263 -95%CL ,99906 -1,46764 -,1434 ,77749 -1,64475 +95%CL 3,13214 -,12773 ,4112 3,22817 -,19892 Wald's khi214,531405,49206 ,9035 10,35002 6,29946 p-level ,00014 ,01911 ,3419 ,00130 ,01208 OR(u.ch) 7,89002 ,45037 1,1433 7,40998 2.34 -95%CL 2,71574 ,23047 ,8664 2,17600 1.18 +95%CL 22,92288 ,88009 1,5086 25,23339 4.66
SPSS output
A logisztikus regressziós számítással megoldható problémák Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) A a két változó egymástól független, de befolyásolják egymás hatását, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 (2.18-25.2), ill. 2.17 (1.18-4.66). A két változó között nincs korreláció: Spearman r: - 0.007 (p=0.91) Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 (1.12-3.78)) és a Chl. pneum. szeropozitívoknál (3.85 (2.63-5.62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
Két változó együttes hatása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)
A családi rizikó predikciója a koleszterin, HDL és a nem alapján, az interakció hatása B S.E. Wald df p R CHOL ,6335 ,2985 4,5031 1 ,0338 ,1494 HDL -2,4635 ,9827 6,2846 1 ,0122 -,1954 NEM -,4027 ,4848 ,6899 1 ,4062 ,0000 Constant ,8494 1,5590 ,2968 1 ,5859 INTERAKCIÓ BEÉPÍTVE CHOL -,6148 ,8546 ,5175 1 ,4719 ,0000 HDL -2,4323 ,9994 5,9231 1 ,0149 -,1870 NEM -4,1402 2,5648 2,6058 1 ,1065 -,0735 CHOL by NEM ,8909 ,5979 2,2203 1 ,1362 ,0443 Constant 6,0057 3,7456 2,5710 1 ,1088
A családi rizikó predikciója a koleszterin és HDL alapján fiúkban Variable B S.E. Wald df Sig R CHOL ,3208 ,3799 ,7132 1 ,3984 ,0000 HDL -2,9730 1,4563 4,1674 1 ,0412 -,1864 Constant 2,3467 1,9864 1,3957 1 ,2374
A családi rizikó predikciója a koleszterin és HDL alapján lányokban Variable B S.E. Wald df Sig R CHOL 1,1179 ,4946 5,1094 1 ,0238 ,2507 HDL -1,8774 1,4030 1,7907 1 ,1808 ,0000 Constant -2,7346 2,4150 1,2821 1 ,2575
Az érsebészeti példában Kérdés: a nagymértékű korai VEGF emelkedés előre jelzi-e a klinikailag szignifikáns (>50%) restenosist? Mi az, hogy nagymértékű korai VEGF emelkedés? Pl. legfelsőbb kvintilisban, kvartilisban, tertilisban, stb. Legyen a tertililis, >90 pg/ml
Az esélyarányok Azoknak, akikben legalább 90 pg/ml-el megemelkedik a szérum VEGF szintje a műtétet követő 4 nap alatt, 19,1-szer (CI:1,7-211,4) nagyobb az esélyük arra, hogy náluk 7 hónap alatt klinikailag szignifikáns restenosis fejlődjön ki, akkor is, ha a restenosis igen/nem csoportokban ugyanannyi lenne a férfi, mint a nő, ha a két csoport betegeinek átlag életkora és BMI-je is ugyanakkora lenne. A nőknek 6.7-szer (CI:1.00-45.2)-szer nagyobb az esélyük a klinikailag szignifikáns restenosisra, még akkor is, ha ha a restenosis igen/nem csoportok betegeinek átlag életkora és BMI-je is ugyanakkora lenne, és ugyanolyan mértékű lenne náluk a korai VEGF emelkedés.