TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
A többszörös modellek feltételezései (assumptions) TÖBBSZÖRÖS LINEÁRIS TÖBBSZÖRÖS LOGISZTIKUS PROPRCIONÁLIS HAZARD ANALÍZIS MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit) A relativ kockázat (hazard) logaritmusa A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változóval is A függő változó logitja lineárisan változhat több független változóval is A relatív hazard logaritmusa lineárisan változhat több független változóval is A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is A függő változó logitja lineárisan változhat több független változó egységnyi változásával is A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is A FÜGGŐ VÁLTOZÓ ELOSZLÁSA Normális Binomiális Nincs meghatározva
Többszörös logisztikus regresszió Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
Relatív rizikó (relative risk) , esély-arány (odds ratio) Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
ADATBÁZIS: SZÍVELÉGTELENSÉG: 195 beteg 2 évig majd tovább követve
25th percentilis Medián 75th percentilis age 59,26027 69,45205 77,33425 Bal_kamrai_EF 27 34 40 Heart_rate 70 78 90 syst_bp 110 120 140 diast_bp 80 glucose 5,01 5,64 7,29 na 137 142 karb 6,3 8,6 12,3 kreat 96 136 hugysav 348 421 512 Total_cholesterol 3,46 4,12 4,96 triglycerid 0,93 1,19 1,68 hdl 0,95 1,16 1,39 apoa1 1,14 1,31 1,49 osszfeherje 67 72 77 albumin 38 41 44 crp 2,98 6,35 13,71 hgb 129 141 154
Milyen tényezők határozzák meg azt, hogy a szívelégtelenségben szenvedő betegek meghalnak-e a vizsgálati periódus folyamán?
Változó P érték NYHA 0/1 (enyhe/súlyos) <0,001 Pulmonalis congestio nem/igen Bal kamrai ejekciós frakció 0,006 Szisztolés vérnyomás 0,011 Diasztolés vérnyomás 0,009 BMI 0,018 Vércukor 0,010 Nátrium 0.003 Karbamid Kreatinin 0,002 GFR 0,003 Össz-koleszterin 0,012 Triglicerid 0,033 ApoA1 Albumin CRP 0,032 Hemoglobin 0,035 BNP TNFalpha 0,031 Anamnézisben DM 0,083 Jelenleg dohányzik igen/nem 0,208 Életkor 0,220 Húgysav 0,068 Össz-fehérje 0,159
Milyen tényezők határozzák meg, hogy a szívelégtelenségben szenvedő betegek balkamrai ejekciós frakciója alacsony vagy magas?
Változó P érték Diszkrét változók NYHA 0/1 (enyhe/súlyos) 0,001 Pulmonalis congestio nem/igen 0,004 Folyamatos változók Szisztolés vérnyomás <0,001 Diasztolés vérnyomás 0,014 Karbamid 0,049 Össz-koleszterin 0,016 HDL-koleszterin 0,005 ApoA1 Össz-fehérje BNP életkor 0.195 BMI 0.144 Na 0,057 trigicerid 0.163 hemoglobin 0.145 TNFalpha 0,121
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy egységnyi növekedésre vonatkozik a kapcsolat, az OR.
A logisztikus regresszió során alkalmazott számítási mód A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. iterative maximum likelihood ratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII Ha ezt az egyes független változók szerint részeire bontjuk, akkor ln (odds) = ßo + X1ß1 + X2ß2.... A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt.) A 0 hipotézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-ára ln (OR) = X1(lnOR1) + X2(lnOR2).... Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Variables in the Equation S.E. Wald df Sig. Exp(B) 95,0% C.I.for EXP(B) Lower Upper Step 1(a) mutka1vstobbi 1,897847 0,881998 4,630064 1 0,031416 6,671515 1,184312 37,58225 danyn4 0,679092 0,63762 1,134312 0,286858 1,972085 0,565174 6,881277 age -0,00973 0,01868 0,271236 0,602504 0,990319 0,954718 1,027248 nem 1,376239 0,597447 5,306271 0,021249 3,95998 1,22785 12,77146 Constant -5,55268 2,136416 6,755139 0,009348 0,003877 a .
Modell felépítés a logisztikus regresszióban Hasonló a lineáris regresszióhoz manuális automatikus: forward selection backward elimination stepwise selection A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
FIKTÍV PÉLDA Halálozás (H), = 0,50 + 0,05D + 0,001K + 0,06CRP 50 M (morbus) betegségben szenvedő beteget követtek nyomon 3 éven keresztül, közülük 20 halt meg (1) , 30 életben maradt.(0) Sokfajta adatot és vizsgálati eredményt rögzítettek a betegeknél, de végül a válogatás eredményeképpen csak 3 változó mutatott szignifikáns összefüggést a halálozással: dohányzás (D) (a beteg valaha is dohányzott: 1, sohase dohányzott: 0), életkor (K) a vizsgálat kezdetekor (év) és a C reaktív protein (CRP) koncentráció: alacsony (<5 g/l), magas >5 mg/l). A számítógépes program a következő esélyarányokat mutatta (mindhárom esetében p<0,01 szignifikanciával, az állandó érték Halálozás (H), = 0,50 + 0,05D + 0,001K + 0,06CRP
Néhány változat 50 éves nem dohányzó, alacsony CRP szintű beteg H esély=0,50 + 0x0,05 + 0,001x50 + 0x0,06 = 0,55 50 éves beteg, dohányos, CRP szintje alacsony H,esély =0,50 + 1x0,05 + 0,001x50 + 0x0,06 = 0,60 50 éves dohányzó és magas CRP szintű beteg H,esély=0,50 + 1x0,05 + 0,001x50 + 1x0,06 = 0,66
Milyen tényezők határozzák meg azt, hogy a szívelégtelenségben szenvedő betegek meghalnak-e a vizsgálati periódus folyamán? Változó B A B S.E.M-je Wald statisztika P érték Exp(B) (odds ratio) (OR) Az OR 95%-os CI-a NYHA 3-4/1-2 ,370 ,471 ,617 ,432 1,447 ,575-3,641 Pulm cong Igen/nem ,822 ,440 3,485 ,062 2,276 ,960-5,396 Diastolés vérnyomás -,014 ,019 ,566 ,452 ,986 ,949-1,024 Szérum Na -,031 ,050 ,394 ,530 ,969 ,879-1,069 Carbamid N ,076 ,028 7,261 ,007 1,079 1,021-1.141 ApoA1 -,350 ,818 ,183 ,669 ,704 ,142-3,503 Albumin -,083 ,053 2,425 ,119 ,920 ,829-0,022 BNP ,000 5,414 ,020 1,000 1,001 Konstans 5,959 7,271 ,672 ,412 387,052
A balkamrai ejekciós frakció nagyságával ((magas (>34), vs alacsony (34)) összefüggő független változók a frakcióval az egyváltozós analízis során szignifikáns (p.<0.05) különbséget mutató változók a modellbe válogatása után. Számítás a forward selection módszerével Változó B A B S.E.M-je Wald statisztika P érték Exp(B) (odds ratio) (OR) Az OR 95%-os CI-a NYHA 3-4 vs 1-2 -,834 ,310 7,263 ,007 ,434 ,237-0,797 Sziszt vérnyomás ,021 ,008 7,558 ,006 1,021 1,006-1,037 Össz-koleszterin ,229 ,121 3,568 ,059 1,257 ,991-1,593 Konstans -3,080 1,094 7,928 ,005 ,046
A balkamrai ejekciós frakció nagyságával ((magas (>34), vs alacsony (34)) összefüggő független változók a frakcióval az egyváltozós analízis során különbséget (p<0.25) mutató változók a modellbe válogatása után. Számítás a forward selection módszerével Változó B A B S.E.M-je Wald statisztika P érték Exp(B) (odds ratio) (OR) Az OR 95%-os CI-a NYHA 3-4 vs 1-2 -1,090 ,334 10,627 ,001 ,336 ,175-0.648 Sziszt vérnyomás ,024 ,008 9,057 ,003 1,025 1,009-1,041 Össz-koleszterin ,271 ,124 4,758 ,029 1,311 1,028-1,672 Hemoglobin -,030 ,010 8,988 ,971 ,952-0,990 Konstans ,579 1,624 ,127 ,721 1,785
Mennyi az esélye arra, hogy magas legyen a véralkoholszintje egy 27 éves kaukázusi férfinek, aki csütörtökön du. 2-kor kerül az osztályra?
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység változás mit jelent. Megoldások: értelmes kategóriákat állítok fel: pl. életkorban 10 év, binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
A logisztikus regressziós számítással megoldható problémák Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) A két független változó egymástól független, de befolyásolják egymás hatását a függő változóra, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 (2.18-25.2), ill. 2.17 (1.18-4.66). A két változó között nincs korreláció: Spearman r: - 0.007 (p=0.91) Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 (1.12-3.78)) és a Chl. pneum. szeropozitívoknál (3.85 (2.63-5.62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
Két változó együttes hatása
INTERAKCIÓ
Az alap szérum IL-6 szint és a 3 éves mortalitás
A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)
A 6.1 kiterjesztett haplotípus és a colorectalis carcinoma Egészséges kontrollok Egyének száma (%) Colorectalis carcinomások P érték LTA 252G+TNF -308A +HSP70 1267G + RAGE -429C non carrier heterozygote 108 (92.3) 9 (7.7) 148 (80.9) 35 (19.1) 0.006
Interakció 8.1 haplotípus*nem p=0.0489 8.1 haplotípus*életkor p=0.009
<67 éves (A) and >=67 éves (B); nők (C) and férfiak (D)
Odds ratio (95% confidence interval) P values Table 4 Gender-adjusted risk of carriers vs non carriers of the LTA 252A+TNF -308A+ HSP70 1267G + RAGE -429T haplotype belonging to different age groups at diagnosis to have colorectal cancer Group Odds ratio (95% confidence interval) P values < 67 years old 5.878 (1.300-26.571) 0.021 > 67 years old 1.858 (0.655-5.266) 0.244 All patients 2.870 (1.316-6.263) 0.008
Odds ratio (95% confidence interval) P values Table 5 Age-adjusted risk of females and male carriers vs non carriers of the LTA 252A+TNF -308A+HSP70 1267G + RAGE -429T haplotype to have colorectal cancer Group Odds ratio (95% confidence interval) P values Females 4.208 (1.338-13.232) 0.024 Males 1.828 (0.564-5.929) 0.315 All patients 2.870 (1.316-6.263) 0.008
TOVÁBBI PÉLDÁK
1. példa. Dean D és mtsai: (PLoS Med 5(1): e14. doi:10. 1371/journal 1. példa. Dean D és mtsai: (PLoS Med 5(1): e14. doi:10.1371/journal.pmed.0050014 A trachoma a vakság egyik leggyakoribb oka, a Földön, elsősorban az elmaradott országokban 6 millió trachoma miatt megvakult ember él. A szerzők azt vizsgálták, hogy a trachoma ismert kórokozója (Chlamydia trachomatis) mellett más Chlamydia speciesek (Chl. psittaci és Chl. pneumonia) is mutatnak-e a betegséggel összefüggést. A kérdést az teszi indokolttá, hogy a betegség kifejlődést gátló, ill. a progressziót lassító gyógyszeres és műtéti beavatkozások hatékonysága elmaradt a várttól és ezért felmerült a vakcináció szükségessége. A vizsgálat során egy nepáli völgyben élő trachomások és nem trachomás kontrollok könny és vérmintáiban vizsgálták a háromféle Chlamydia species elleni IgG típusú antitestek előfordulását
Két Chlamydia (Chl trachomatis és Chl Két Chlamydia (Chl trachomatis és Chl. psittaci) species elleni antitest jelenléte erősen szignifikánsan megnöveli a trachoma rizikóját, míg a Chl pneumoniae esetében nem találtak ilyen összefüggést
2. példa. Feng B-J és mtsai (PLoS Genet 5(8): e1000606. doi:10 2. példa. Feng B-J és mtsai (PLoS Genet 5(8): e1000606. doi:10.1371/journal.pgen.1000606) A psoriasis a bőr gyulladásos betegsége minden 50-dik európaiban jelen van. Jól ismert a psoriasis erős kapcsolata az MHC I. osztályú HLA-C antigénekkel, azonban több adat, köztük a szerzők által végzett teljes genom szűrés is arra mutat, hogy más az MHC régióban kódolt gének is hozzájárulhatnak a psoriasis iránti hajlam megnöveléséhez. Jelen munkában azt vizsgálták, hogy a régióban hol találhatók még a psoriasissal asszociált polimorfizmusok és ezek függetlenek-e a HLA-Cw rizikó allélektől.
A HLA-B40 esetében szignifikáns védő hatást tapasztaltak, míg a HLA-B57 hordozás esetében szignifikánsan megnövekedett psoriasis rizikóval járt együtt
3. példa. Gonzalo V és mtsai (PLoS ONE 5(1): e8777. doi:10 3. példa. Gonzalo V és mtsai (PLoS ONE 5(1): e8777. doi:10.1371/journal.pone.0008777) A szerzők a vastagbélrák és gén-promoterek abnormális metilációja közötti kapcsolatot vizsgálták 47 betegben és ugyanennyi nemben és életkorban illesztett kontrollban. a gén metilációjának mértékét mérték, kvantitatív metilációt mérő PCR reakciót használva. Szoros összefüggést észleltek a tumoros léziók száma és a metiláció mértéke között. Mivel más tényezők is összefüggtek a tumoros léziók számával, az összefüggést többszörös logisztikus regresszióval is megvizsgálták..
Három gén-promoter esetében találtak olyan összefüggést, amely még az adjusztálás után is szignifikáns volt, mutatva, hogy a e gének metilációjának mértéke összefügg a léziók számával