Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
REGRESSZIÓS SZÁMÍTÁSOK II
LOGISZTIKUS REGRESSZIÓ
2
Logisztikus regresszió 1.
binomiális vagy kétváltozós (bináris) logisztikus regresszió Analyze Regression Binary Logistic … akkor használjuk, ha a célváltozónk dichotóm (pl. igen/nem) a próba megmutatja, hogy a bemeneti változók közül melyiknek van szignifikáns hatása ha a hatás szignifikáns, az esélyhányados /Exp(B)/ megmutatja, hogy a dichotóm célváltozó egyik értékének mennyivel nagyobb a valószínűsége Szabó Gábor, 2005.
3
Logisztikus regresszió 2.
alkalmas a próba a közvetett hatások kimutatására is ha egy változó szignifikáns hatása eltűnik egy újabb változó bevonásával, ott közvetett hatásra gyanakodhatunk szemüveges-e Szign.:0,04; Exp(B)=2,0 sikeresen vizsgázott? (igen/nem) szemüveges-e Szign.:0,25; Exp(B)=1,2 sikeresen vizsgázott? (igen/nem) Szign.:0,03; Exp(B)=1,8 hány könyvet olvas évente Szabó Gábor, 2005.
8
Bináris logisztikus regresszió
AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE A vizsgált Y esemény lehet pl. a szívinfarktus (bekövetkezett vagy nem következett be), transzplantáció eredménye (a beültetett szerv kilökődött vagy nem lökődött ki) a tüdőrák megfigyelésének az eredménye egy prospektív vizsgálat során (kialakult a megfigyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben – az xi független változók egyaránt tartalmazhatnak folytonos és nominális adatokat –, az Y esemény bekövetkezési valószínűségét logisztikus regresszióval becsüljük. Az eljárás nagyon hasonlít a korábban megismert lineáris regresszióhoz
9
Logisztikus regresszió (folyt)
A logisztikus regreszió használata előtt az y függő változót binárissá kell kódolni (0= az esemény nem következett be, 1= az esemény bekövetkezett). A számítógépes programok a regressziós koefficiensek mellett (a, bi) az OR értékeket és azok 95%-os konfidenciaintervallumát is meghatározzák. A számítási eljárás bonyolultabb mint a lineáris regressziónál. Általában az iteratív maximum likelihood módszert használják a számítógépes programok. A logisztikus regresszió alkalmazásánál vegyük figyelembe a következőket: az egyéneket egymástól függetlenül, random módon válasszuk a mintába legalább esemény jusson mindegyik vizsgált prediktor változóra.
10
Logistic regression (1)
Table 2 Age and signs of coronary heart disease (CD)
11
How can we analyse these data?
Compare mean age of diseased and non-diseased Non-diseased: years Diseased: years (p<0.0001) Linear regression?
12
Dot-plot: Data from Table 2
13
Logistic regression (2)
Table 3 Prevalence (%) of signs of CD according to age group
14
Dot-plot: Data from Table 3
Diseased % Age group
15
Logistic function (1) Probability of disease x
16
{ Transformation a = log odds of disease in unexposed
b = log odds ratio associated with being exposed e b = odds ratio logit of P(y|x) {
17
Fitting equation to the data
Linear regression: Least squares Logistic regression: Maximum likelihood Likelihood function Estimates parameters a and b Practically easier to work with log-likelihood
18
Maximum likelihood Iterative computing Results
Choice of an arbitrary value for the coefficients (usually 0) Computing of log-likelihood Variation of coefficients’ values Reiteration until maximisation (plateau) Results Maximum Likelihood Estimates (MLE) for and Estimates of P(y) for a given value of x
19
TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
20
A többszörös elemzés a klinikai orvostudományban, egy példa
Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
21
Az alap szérum IL-6 szint és a 3 éves mortalitás
22
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
23
Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható.
24
A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
25
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
26
Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 Bruneck tanulmány: 1990, éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)
27
KÉRDÉSEK 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis
28
500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 egység növekedés
29
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. 1984, > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke Követési idő: személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás
30
A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója
31
Kimenetel (függő változó)
Példa a kimenetelre A használandó többszörös analitikai módszer Folyamatos Vérnyomás, testsúly, hőmérséklet Többszörös lineáris regresszió Dichotóm (igen-nem) Halál, rák, felvétel intenzív osztályra Többszörös logisztikus regresszió Az igen eseményig eltelt idő A halálig, a rák dg-ig eltelt idó Cox regresszió (proportinal hazard analízis)
32
A cukorbetegek magas testtömeg-indexe ill
A cukorbetegek magas testtömeg-indexe ill. HDL-koleszterin szintje befolyásolja-e az ischemiás szívbetegség kifejlődésének kockázatát? Változó Nem ISZB-s (n=156) ISZB-s (n=76) p-érték (Fisher exact teszt) BMI (kg/m2) <25 64 16 0,003 >25 92 60 HDL-koleszterin (mmol/l) <1,3 88 56 0,014 >1,3 68 20
33
Változó B SEM Wald df p-érték BMI magas/normál* 0,959 0,325 8,701 1 0,003 Konstans -1,386 0,280 24,599 0,0002 A BMI anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 2,609 1, ,933
34
Változó B SEM Wald df p-érték HDL normál/alacsony* -0,772 0,306 6,342 1 0,012 Konstans 0,500-0,4523 0,171 6,991 <0,0001 A HDL anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 0,462 0, ,843
35
A többszörös modellek feltételezései (assumptions)
TÖBBSZÖRÖS LINEÁRIS TÖBBSZÖRÖS LOGISZTIKUS PROPRCIONÁLIS HAZARD ANALÍZIS MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit) A relativ kockázat (hazard) logaritmusa A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változóval is A függő változó logitja lineárisan változhat több független áltozóval is A relatív hazard logaritmusa lineárisan változhat több független áltozóval is A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is A függő változó logitja lineárisan változhat több független változó egységnyi változásával is A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is A FÜGGŐ VÁLTOZÓ ELOSZLÁSA Normális Binomiális Nincs meghatározva
36
Többszörös logisztikus regresszió
Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
37
Relatív rizikó (relative risk) , esély-arány (odds ratio)
Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
39
Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0, ), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
40
Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI ). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
41
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy egységnyi növekedésre vonatkozik a kapcsolat, az OR.
42
A logisztikus regresszió során alkalmazott számítási mód
A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
43
A logisztikus regresszió egyenlete
odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII Ha ezt az egyes független változók szerint részeire bontjuk, akkor ln (odds) = ßo + X1ß1 + X2ß2.... A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
44
A logisztikus regresszió egyenlete (folyt.)
A 0 hipotézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-ára ln (OR) = X1(lnOR1) + X2(lnOR2).... Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
45
Modell felépítés a logisztikus regresszióban
Hasonló a lineáris regresszióhoz manuális automatikus: forward selection backward elimination stepwise selection A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
46
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések
Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
48
Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)
49
Kérdés A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontroll-csoportba tartozik? Számítás többszörös logisztikus regresszió független változók: HDL-koleszterin, a triglicerid és az anti-hsp60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz) Függő változó: csoport 0: kontroll, 1: ISZB
50
STATISTICA OUTPUT Model: Logistic regression (logit) N of 0's:48 1's:241 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 115, Chi˛(4)=29,591 p=,00001 Const.B0 LOGHSP60 HDL_CHOL TRIGLICE CHL_PNEU Estimate -,74 ,9383 -, , ,71548 SE ,68 , , , ,36015 t(284) , ,1305 -, , ,98662 p-level ,28 ,0019 , , ,04792 -95%CL ,08 ,3483 -, , ,42439 +95%CL ,61 1, , , ,00658 Wald's khi2 1,16 9,8000 , , ,94668 p-level , ,0017 , ,00 ,04697 OR (unit ch) ,48 2,5556 , , ,48896 -95%CL ,12 1,4167 , ,16 ,24066 +95%CL 1, , , ,37 ,99344
51
Milyen jó a modell? (Goodness of fit) SPSS
A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
52
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT?
Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység változás mit jelent. Megoldások: értelmes kategóriákat állítok fel: pl. életkorban 10 év, binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
53
HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
54
Anti-hsp60 legfelső kvartilis vs. többi
Példánkban az anti-hsp60 legfelső kvartilisának határa: 183,24 AU/ml. Ezután átkódoljuk a változót, úgy, hogy 0: <183.24, 1: > Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp60 antitest szintű egyén van. HSP60KV HSP60KV Row alacsony magas Totals KO PS All Grps Végül elvégezzük a logisztikus analízist a folyamatos változót a binárissal helyettesítve
55
STATISTICA OUTPUT Const.B0 HDL_CHOL TRIGLICE HSP60_M_ CHL_PNEU
Estimate 2, , , , ,92184 SE ,54187 , ,1409 , ,36728 t(287) 3, , , , ,50987 p-level ,00017 , ,3426 , ,01263 -95%CL , , ,1434 , ,64475 +95%CL 3, , , , ,19892 Wald's khi214,531405, , , ,29946 p-level ,00014 , ,3419 , ,01208 OR(u.ch) 7,89002 , , , -95%CL 2,71574 , , , +95%CL 22,92288 , , ,
56
A logisztikus regressziós számítással megoldható problémák
Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) A két független változó egymástól független, de befolyásolják egymás hatását a függő változóra, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
58
Független egymást nem befolyásoló változók
Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 ( ), ill ( ). A két változó között nincs korreláció: Spearman r: (p=0.91) Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 ( )) és a Chl. pneum. szeropozitívoknál (3.85 ( ). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
60
Két változó együttes hatása
61
Az alap szérum IL-6 szint és a 3 éves mortalitás
62
A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)
63
A 6.1 kiterjesztett haplotípus és a colorectalis carcinoma
Egészséges kontrollok Egyének száma (%) Colorectalis carcinomások P érték LTA 252G+TNF -308A +HSP G + RAGE -429C non carrier heterozygote 108 (92.3) 9 (7.7) 148 (80.9) 35 (19.1) 0.006
64
Interakció 8.1 haplotípus*nem p=0.0489 8.1 haplotípus*életkor p=0.009
65
<67 éves (A) and >=67 éves (B); nők (C) and férfiak (D)
66
Odds ratio (95% confidence interval) P values
Table 4 Gender-adjusted risk of carriers vs non carriers of the LTA 252A+TNF -308A+ HSP G + RAGE -429T haplotype belonging to different age groups at diagnosis to have colorectal cancer Group Odds ratio (95% confidence interval) P values < 67 years old 5.878 ( ) 0.021 > 67 years old 1.858 ( ) 0.244 All patients 2.870 ( ) 0.008
67
Odds ratio (95% confidence interval) P values
Table 5 Age-adjusted risk of females and male carriers vs non carriers of the LTA 252A+TNF -308A+HSP G + RAGE -429T haplotype to have colorectal cancer Group Odds ratio (95% confidence interval) P values Females 4.208 ( ) 0.024 Males 1.828 ( ) 0.315 All patients 2.870 ( ) 0.008
71
Variable Odds ratio (unadjusted) Odds ratio (adjusted to several factors*) (p values) C4B 0-1 vs 2-4 gene copy number 4.13 ( ) (0.003) 4.65 ( ) (0.009) Age, years 1.11 ( ) (<0.001) 1.14 ( ) (<0.001) Gender males/females 0.824 ( ) (0.705) 0.518 ( ) (0.317) Smoking history (never/quit/current) 0.983 ( ) (0.983) 2,47 (1,00-6,08) (0.050) Family history of CVD, yes/no 0.718 ( ) (0.475) 1.55 ( ) (0.452) Hypertension, yes/no 1.27 ( ) (0.605) 0.81 ( ) (0.727) Type 2 DM, yes/no 1.37 ( ) (0.323) 1.09 ( ) (0.841) Atherogenic index 0.61 ( ) (0.40) 2.16 ( ) (0.496) PTCA yes/no 1.96 ( ) (0.246) 1.81 ( ) (0.447) Coronary bypass operation, yes/no 0.96 ( ) (0.960) 0.58 ( ) (0.515) Maximal creatinine kinase (CK) values 1.00 ( ) (0.446) 1.00 ( ) (0.195)
75
B S.E. P OR (95% CI) All patients (n=64) C1-INH low/normal* 1.9363 0.7646 0.0113 ( ) Patients w/ MBL2 A/A (n=37) 2.6369 1.0053 0.0087 ( ) Patients w/ MBL2 A/O or O/O (n=27) 1.3996 1.5912 0.3791 ( )
77
Mennyi az esélye arra, hogy magas legyen a véralkoholszintje egy 27 éves kaukázusi férfinek, aki csütörtökön du. 2-kor kerül az osztályra?
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.