REGRESSZIÓS SZÁMÍTÁSOK II LOGISZTIKUS REGRESSZIÓ
LOGISZTIKUS REGRESSZIÓ A lineáris és a logisztikus regresszió kérdésfeltevése hasonló, számítási módjuk azonban egészen más. A logisztikus regresszió nem a legkisebb négyzetek elve szerint dolgozik, hanem egy, a valószínűségi eloszláson alapuló számítást hajt végre. A végeredmény az esély-arány, azaz az odds ratio (OR). Ez – mint neve is mutatja – két esély (odds) aránya. Az esélyt külön-külön kiszámítja a program akkor, ha egy bizonyos feltétel fennáll, illetve nem áll fenn, és a két esély arányát adja meg részünkre. A változó, amely az y tengelyre kerül (függő változó) bináris (igen/nem). A program nem magukkal az OR-ekkel, hanem ezek természetes logaritmusaival (lnOR) dolgozik, amiket a legtöbb program B-nek nevez. A program megadja a B értékeket, ezek SEM-jét, egy ún. közti (Wald) statisztikát, végül az OR-t és ennek 95%-os konfidencia intervallumát. (Utóbbit sokszor külön kell kérnünk). Folyamatos változóknál alapesetben egy SD változás hatását mutatja meg az OR, tehát azt, hogy ha az x tengelyre mért (független), folyamatos változó egy S.D. egységet nő, akkor az hányszorosára növeli (vagy esetleg csökkenti) a bináris függő változó bekövetkezésének (y=1) valószínűségét a be nem következésével (y=0) szemben.
A testtömegindex (BMI), mint az ischemiás szívbetegség (ISZB) rizikófaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. Változó B SEM Wald df p-érték R BMI 0,0796 0,0274 8,4703 1 0,0036 0,1487 Konstans -2,9343 0,7845 13,9890 0,0002 A BMI anti-ln(B)-je (esélyaránya, odds ratio, OR) OR Az OR 95%-os CI-je 1,0829 1,0263-1,1425 A testtömeg index egy SD-vel) való növekedése 1,08-szorosára növeli az ISZB kockázatot. A BMI egy SD-je 5,28, tehát ha pl. egy normál 25 testtömeg-indexű és egy kissé elhízott 30,28 testtömeg indexű beteget hasonlítunk össze, akkor az utóbbi betegnek 1,08-szor magasabb az ISZB kockázata
A szérum HDL-koleszterin szint, mint az ischemiás szívbetegség (ISZB) védőfaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. Változó B SEM Wald df p-érték R HDL -1,0140 0,3855 6,9169 1 0,0085 -0,1294 Konstans 0,5003 0,4736 1,1149 0,2910 A HDL anti-ln(B)-je (esélyaránya, odds ratio, OR) OR Az OR 95%-os CI-je 0,3628 0,1704-0,7723 A HDL-koleszterin szint 1 SD-vel (0,40 mmol/l-rel) való csökkenése az ISZB kockázatot kb. az egyharmadára (OR: 0,3628) csökkenti le.
Logisztikus regresszió 1. binomiális vagy kétváltozós (bináris) logisztikus regresszió Analyze Regression Binary Logistic … akkor használjuk, ha a célváltozónk dichotóm (pl. igen/nem) a próba megmutatja, hogy a bemeneti változók közül melyiknek van szignifikáns hatása ha a hatás szignifikáns, az esélyhányados /Exp(B)/ megmutatja, hogy a dichotóm célváltozó egyik értékének mennyivel nagyobb a valószínűsége Szabó Gábor, 2005.
Logisztikus regresszió 2. alkalmas a próba a közvetett hatások kimutatására is ha egy változó szignifikáns hatása eltűnik egy újabb változó bevonásával, ott közvetett hatásra gyanakodhatunk szemüveges-e Szign.:0,04; Exp(B)=2,0 sikeresen vizsgázott? (igen/nem) szemüveges-e Szign.:0,25; Exp(B)=1,2 sikeresen vizsgázott? (igen/nem) Szign.:0,03; Exp(B)=1,8 hány könyvet olvas évente Szabó Gábor, 2005.
Bináris logisztikus regresszió AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE A vizsgált Y esemény lehet pl. a szívinfarktus (bekövetkezett vagy nem következett be), transzplantáció eredménye (a beültetett szerv kilökődött vagy nem lökődött ki) a tüdőrák megfigyelésének az eredménye egy prospektív vizsgálat során (kialakult a megfigyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben – az xi független változók egyaránt tartalmazhatnak folytonos és nominális adatokat –, az Y esemény bekövetkezési valószínűségét logisztikus regresszióval becsüljük. Az eljárás nagyon hasonlít a korábban megismert lineáris regresszióhoz
Logisztikus regresszió (folyt) A logisztikus regreszió használata előtt az y függő változót binárissá kell kódolni (0= az esemény nem következett be, 1= az esemény bekövetkezett). A számítógépes programok a regressziós koefficiensek mellett (a, bi) az OR értékeket és azok 95%-os konfidenciaintervallumát is meghatározzák. A számítási eljárás bonyolultabb mint a lineáris regressziónál. Általában az iteratív maximum likelihood módszert használják a számítógépes programok. A logisztikus regresszió alkalmazásánál vegyük figyelembe a következőket: az egyéneket egymástól függetlenül, random módon válasszuk a mintába legalább 5 - 10 esemény jusson mindegyik vizsgált prediktor változóra.
A logisztikus reakció „lelke” az adatok binárissá tétele A már eleve bináris adatok közül az informatívak kiválasztása A folyamatos adatok binárissá való átváltoztatása úgy, hogy a létrejövő két csoport biológiailag/orvosilag is különbözzön egymástól
1. példa: HANO (herediter angioneurotikus oedema) genetikája Összefüggést találtunk A) a XII faktor gén egy polimorfizmusa és az első tünetek jelentkezésének időpontja (év) között B) A bradykinin receptor gén és az évi tünet előfordulás között
P=0,002 CC CT TT
P=0,018
Tovább a logisztikus regresszió felé Mind a tünetkezdeti életkor, mind pedig az évi rohamszám folyamatos változó Ahhoz, hogy maghatározhassuk, milyen mértékű változást idéz elő a vizsgált értékekben a két genetikai polimorfizmus, ezeket binárissá kell tenni. A legtöbbször erre a célra használt felosztás: a mediánon alapszik 1. csop. medián alatti, 2. csop medián vagy medián feletti értékeket mutató betegek
<= 10 éves >10 éves
Életkor és BMI összefüggése
Dichotomizálás Nézzük most meg, hogy ha az idős kor határát 50 évben, ill. 60 évben határozzuk meg, akkor az így létrejövő 2-2 csoportban mennyire különbözik majd a BMI? A BMI-t a medián szerint dichotomizáljuk: alacsony: medián (27) vagy ennél kevesebb, magas: 27-nél több
P=0,026
P=0,012
Logistic regression (1) Table 2 Age and signs of coronary heart disease (CD)
How can we analyse these data? Compare mean age of diseased and non-diseased Non-diseased: 38.6 years Diseased: 58.7 years (p<0.0001) Linear regression?
Dot-plot: Data from Table 2
Logistic regression (2) Table 3 Prevalence (%) of signs of CD according to age group
Dot-plot: Data from Table 3 Diseased % Age group
Logistic function (1) Probability of disease x
exp() is the effect of the independent variable on the "odds ratio" An interpretation of the logit coefficient which is usually more intuitive is the "odds ratio" Since: [p/(1-p)] = exp( + X) exp() is the effect of the independent variable on the "odds ratio"
An Example: Hurricane Evacuations Q: EVAC Did you evacuate your home to go someplace safer before Hurricane Dennis (Floyd) hit? 1 YES 2 NO 3 DON'T KNOW 4 REFUSED
The Data
From SPSS Output: “Households with pets are 1.933 times more likely to evacuate than those without pets.”
Example - Rizatriptan for Migraine Response - Complete Pain Relief at 2 hours (Yes/No) Predictor - Dose (mg): Placebo (0),2.5,5,10 Source: Gijsmant, et al (1997)
Example - Rizatriptan for Migraine (SPSS)
Example - Rizatriptan for Migraine 95% CI for b : 95% CI for population odds ratio: Conclude positive association between dose and probability of complete relief
TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
Az alap szérum IL-6 szint és a 3 éves mortalitás
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható.
A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 Bruneck tanulmány: 1990, 826 40-79 éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)
KÉRDÉSEK 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis
500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 egység növekedés
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. 1984, 26311 > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke Követési idő: 1999 748 személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás
A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója
Kimenetel (függő változó) Példa a kimenetelre A használandó többszörös analitikai módszer Folyamatos Vérnyomás, testsúly, hőmérséklet Többszörös lineáris regresszió Dichotóm (igen-nem) Halál, rák, felvétel intenzív osztályra Többszörös logisztikus regresszió Az igen eseményig eltelt idő A halálig, a rák dg-ig eltelt idó Cox regresszió (proportinal hazard analízis)
A cukorbetegek magas testtömeg-indexe ill A cukorbetegek magas testtömeg-indexe ill. HDL-koleszterin szintje befolyásolja-e az ischemiás szívbetegség kifejlődésének kockázatát? Változó Nem ISZB-s (n=156) ISZB-s (n=76) p-érték (Fisher exact teszt) BMI (kg/m2) <25 64 16 0,003 >25 92 60 HDL-koleszterin (mmol/l) <1,3 88 56 0,014 >1,3 68 20
Változó B SEM Wald df p-érték BMI magas/normál* 0,959 0,325 8,701 1 0,003 Konstans -1,386 0,280 24,599 0,0002 A BMI anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 2,609 1,380 - 4,933
Változó B SEM Wald df p-érték HDL normál/alacsony* -0,772 0,306 6,342 1 0,012 Konstans 0,500-0,4523 0,171 6,991 <0,0001 A HDL anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 0,462 0,253 - 0,843
A többszörös modellek feltételezései (assumptions) TÖBBSZÖRÖS LINEÁRIS TÖBBSZÖRÖS LOGISZTIKUS PROPRCIONÁLIS HAZARD ANALÍZIS MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit) A relativ kockázat (hazard) logaritmusa A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változóval is A függő változó logitja lineárisan változhat több független áltozóval is A relatív hazard logaritmusa lineárisan változhat több független áltozóval is A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is A függő változó logitja lineárisan változhat több független változó egységnyi változásával is A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is A FÜGGŐ VÁLTOZÓ ELOSZLÁSA Normális Binomiális Nincs meghatározva
Többszörös logisztikus regresszió Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
Relatív rizikó (relative risk) , esély-arány (odds ratio) Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES