A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)
A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
Kérdés Mennyivel nagyobb a kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 Bruneck tanulmány: 1990, éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. A vizsgált egyének vérében megmértek egyes a krónikus infekciókra jellemző laboratóriumi markereket)
KÉRDÉSEK 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis
500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 SD növekedés
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, , > 40 éves Miyagi tartomány, kérdőív: zödtea fogyasztás mértéke Követési idő: személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? Számítás: Cox regressiós analízis, relatív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás
A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója
Többszörös logisztikus regresszió Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb.) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció. Példa: Az AIDS definíciójának megfelelő opportunista infekciók vagy tumorok előfordulása előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definíciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
Relatív rizikó (relative risk), esély-arány (odds ratio)
Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D- vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0, ), tehát az AIDS kifejlődésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI ). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
A logisztikus regresszió során alkalmazott számítási mód A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűség- arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete odds (bekövetkezik/nem következik be, A/B)= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ß o + ß I I Ha ezt az egyes független változók szerint részeire bontjuk, akkor ln (odds) = ß o + X 1 ß 1 + X 2 ß A ß o azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß 1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt.) A 0 hipotézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln- át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg- határozott OR-ekre, pontosabban ezek ln-ára ln (OR) = X 1 (lnOR 1 ) + X 2 (lnOR 2 ).... Az egyes komputer programmok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Modell felépítés a logisztikus regresszióban Hasonló a lineáris regresszióhoz manuális automatikus: forward selection backward elimination stepwise selection A számítógépes programok mérőszámot adnak (vö R 2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)
Kérdés A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontroll- csoportba tartozik? Számítás többszörös logisztikus regresszió független változók: HDL-koleszterin, a triglicerid és az anti-hsp60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz) Függő változó: csoport 0: kontroll, 1: ISZB
Model: Logistic regression (logit) N of 0's:48 1's:241 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 115, Chi˛(4)=29,591 p=,00001 Const.B0 LOGHSP60HDL_CHOLTRIGLICECHL_PNEU Estimate-,74,9383-,186086,51,71548 SE,68,2997,284498,18,36015 t(284) -1,08 3,1305-, ,81 -1,98662 p-level,28,0019,513587,01, %CL -2,08,3483-,746078,15 -1, %CL,61 1,5282,373907,86 -,00658 Wald's khi21,16 9,8000, ,88 3,94668 p-level,28,0017,513062,00,04697 OR (unit ch),48 2,5556, ,66, %CL,12 1,4167, ,16, %CL1,84 4,6101 1, ,37,99344 STATISTICA OUTPUT
Model: Logistic regression (logit) N of 0's:40 1's:240 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 102, Chi˛(4)=24,331 p=,00007 Const.B0 HDL_CHOLTRIGLICECHL_PNEULOG_HSP6 Estimate, ,85900,149-,81825,9662 SE,786326,36820,156,38000,3214 t(275), ,33294,956-2,153273,0061 p-level, ,02037,340,03217, %CL-, ,58386-,158-1,56634, %CL 2, ,13414,456-,070161,5990 Wald's khi2, ,44259,9144,636579,0368 p-level,360119,01966,339,03130,0026 OD (u.ch)2,053625,423591,161,441202, %CL,436758,20518,854,208811, %CL9,656101,874471,577,932244,9482
SPSS output
Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység pl. 1 SD változás mit jelent. Megoldások: értelmes kategóriákat állítok fel: pl. életkorban 10 év, binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
Anti-hsp60 legfelső kvartilis vs. többi Példánkban az anti-hsp60 legfelső kvartilisának határa: 183,24 AU/ml. Ezután átkódoljuk a változót, úgy, hogy 0: Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp60 antitest szintű egyén van. HSP60KV HSP60KV Row G_1:0 G_2:1 Totals G_1: G_2: All Grps Végül elvégezzük a logisztikus analízist a folyamatos változót a binárissal helyettesítve
STATISTICA OUTPUT Const.B0HDL_CHOLTRIGLICEHSP60_M_CHL_PNEU Estimate2,06560-,79768,13392,00283-,92184 SE,54187,34038,1409,62255,36728 t(287)3, ,34351,95053, ,50987 p-level,00017,01979,3426,00144, %CL, , ,1434, , %CL3,13214-,12773,41123,22817-,19892 Wald's khi214,531405,49206,903510,350026,29946 p-level,00014,01911,3419,00130,01208 OR(u.ch)7,89002,450371,14337, %CL2,71574,23047,86642, %CL22,92288,880091,508625,
SPSS output
A logisztikus regressziós számítással megoldható problémák Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) A a két változó egymástól független, de befolyásolják egymás hatását, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 ( ), ill ( ). A két változó között nincs korreláció: Spearman r: (p=0.91) Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 ( )) és a Chl. pneum. szeropozitívoknál (3.85 ( ). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
Két változó együttes hatása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A korábbi cardiovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)
A családi rizikó predikciója a koleszterin, HDL és a nem alapján, az interakció hatása CHOL,6335,2985 4,5031 1,0338,1494 HDL -2,4635,9827 6,2846 1,0122 -,1954 NEM -,4027,4848,6899 1,4062,0000 Constant,8494 1,5590,2968 1,5859 INTERAKCIÓ BEÉPÍTVE CHOL -,6148,8546,5175 1,4719,0000 HDL -2,4323,9994 5,9231 1,0149 -,1870 NEM -4,1402 2,5648 2,6058 1,1065 -,0735 CHOL by NEM,8909,5979 2,2203 1,1362,0443 Constant 6,0057 3,7456 2,5710 1,1088 BS.E.WalddfpR
A családi rizikó predikciója a koleszterin és HDL alapján fiúkban Variable B S.E. Wald df Sig R CHOL,3208,3799,7132 1,3984,0000 HDL -2,9730 1,4563 4,1674 1,0412 -,1864 Constant 2,3467 1,9864 1,3957 1,2374
A családi rizikó predikciója a koleszterin és HDL alapján lányokban Variable B S.E. Wald df Sig R CHOL 1,1179,4946 5,1094 1,0238,2507 HDL -1,8774 1,4030 1,7907 1,1808,0000 Constant -2,7346 2,4150 1,2821 1,2575
A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)
Kovariancia analízis (ANCOVA) A lineáris regressziós analízis speciális formája, a confounding variable hatásának hatékony kiküszöbölésére alkalmas. Feltételezése az, hogy a confounding variable minden szintjén a függő és független változó közötti regressziós egyenes meredeksége azonos, és csak az y tengely metszéspontja különbözik. A bonyolult képlettel számolható analízis végeredménye egyszerű: egy adott független váltózó hatást segítségével számszerűsíteni lehet.
Cox regresszió vagy proportional hazard model A klinikai biometria egyik legfontosabb módszere, a vezető orvostudományi folyóiratokban a cikkek jelentős hányadában alkalmazott eljárás. A prospektív vizsgálatok értékelési módszere. A lényege: azt az időt is figyelembe veszi az analízisnél, amely a vizsgált esemény (outcome, független váltózó) bekövetkezéséig a vizsgálat kezdetétől eltelt. Így az. Un. túlélési görbék analízisénél alkalmazzák elsősorban. Mint minden ilyen vizsgálat esetében, az adatok egy része un. censored data, mivel a vizsgálat befejezésekor a vizsgált egyének egy részénél óhatatlanul nem következett még be a vizsgált esemény, de nem zárható ki, hogy a jövőben majd még bekövetkezik. Ezért a megfigyelési periódus végén azokat, akiknél nem következett még be a vizsgált esemény, olyanoknak tekintjük, mint akiknél ez nem is fog bekövetkezni.
Egyéb eljárások Discriminant analysis: célja az, hogy az outcome bekövetkezését előrejelző csoportokat (változók kombinációit) körülhatárolja. A vizsgált egyének e módszer segítségével két vagy több csoportba sorolhatók Log-linear analysis: a 2x2 mezőnél nagyobb kontingencia táblázatok (minden független változó nominális vagy kategóriákba sorolt) értékelési módszere. Nem szükségszerűen különbözteti meg azt, hogy melyik változó függő és melyik független. Factor analysis, cluster analysis: minden változót függetlennek tekintünk, a cél a vizsgált egyének vagy dolgok,ill. ezek változásait mutatók egymással rokonítható csoportokba való besorolása