Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

REGRESSZIÓS SZÁMÍTÁSOK II

Hasonló előadás


Az előadások a következő témára: "REGRESSZIÓS SZÁMÍTÁSOK II"— Előadás másolata:

1 REGRESSZIÓS SZÁMÍTÁSOK II
LOGISZTIKUS REGRESSZIÓ

2 LOGISZTIKUS REGRESSZIÓ
A lineáris és a logisztikus regresszió kérdésfeltevése hasonló, számítási módjuk azonban egészen más. A logisztikus regresszió nem a legkisebb négyzetek elve szerint dolgozik, hanem egy, a valószínűségi eloszláson alapuló számítást hajt végre. A végeredmény az esély-arány, azaz az odds ratio (OR). Ez – mint neve is mutatja – két esély (odds) aránya. Az esélyt külön-külön kiszámítja a program akkor, ha egy bizonyos feltétel fennáll, illetve nem áll fenn, és a két esély arányát adja meg részünkre. A változó, amely az y tengelyre kerül (függő változó) bináris (igen/nem). A program nem magukkal az OR-ekkel, hanem ezek természetes logaritmusaival (lnOR) dolgozik, amiket a legtöbb program B-nek nevez. A program megadja a B értékeket, ezek SEM-jét, egy ún. közti (Wald) statisztikát, végül az OR-t és ennek 95%-os konfidencia intervallumát. (Utóbbit sokszor külön kell kérnünk). Folyamatos változóknál alapesetben egy SD változás hatását mutatja meg az OR, tehát azt, hogy ha az x tengelyre mért (független), folyamatos változó egy S.D. egységet nő, akkor az hányszorosára növeli (vagy esetleg csökkenti) a bináris függő változó bekövetkezésének (y=1) valószínűségét a be nem következésével (y=0) szemben.

3 A testtömegindex (BMI), mint az ischemiás szívbetegség (ISZB) rizikófaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. Változó B SEM Wald df p-érték R BMI 0,0796 0,0274 8,4703 1 0,0036 0,1487 Konstans -2,9343 0,7845 13,9890 0,0002 A BMI anti-ln(B)-je (esélyaránya, odds ratio, OR) OR Az OR 95%-os CI-je 1,0829 1,0263-1,1425 A testtömeg index egy SD-vel) való növekedése 1,08-szorosára növeli az ISZB kockázatot. A BMI egy SD-je 5,28, tehát ha pl. egy normál 25 testtömeg-indexű és egy kissé elhízott 30,28 testtömeg indexű beteget hasonlítunk össze, akkor az utóbbi betegnek 1,08-szor magasabb az ISZB kockázata

4 A szérum HDL-koleszterin szint, mint az ischemiás szívbetegség (ISZB) védőfaktora cukorbetegekben. Számítás logisztikus regresszió módszerével. Változó B SEM Wald df p-érték R HDL -1,0140 0,3855 6,9169 1 0,0085 -0,1294 Konstans 0,5003 0,4736 1,1149 0,2910 A HDL anti-ln(B)-je (esélyaránya, odds ratio, OR) OR Az OR 95%-os CI-je 0,3628 0,1704-0,7723 A HDL-koleszterin szint 1 SD-vel (0,40 mmol/l-rel) való csökkenése az ISZB kockázatot kb. az egyharmadára (OR: 0,3628) csökkenti le.

5 Logisztikus regresszió 1.
binomiális vagy kétváltozós (bináris) logisztikus regresszió Analyze  Regression  Binary Logistic … akkor használjuk, ha a célváltozónk dichotóm (pl. igen/nem) a próba megmutatja, hogy a bemeneti változók közül melyiknek van szignifikáns hatása ha a hatás szignifikáns, az esélyhányados /Exp(B)/ megmutatja, hogy a dichotóm célváltozó egyik értékének mennyivel nagyobb a valószínűsége Szabó Gábor, 2005.

6 Logisztikus regresszió 2.
alkalmas a próba a közvetett hatások kimutatására is ha egy változó szignifikáns hatása eltűnik egy újabb változó bevonásával, ott közvetett hatásra gyanakodhatunk szemüveges-e Szign.:0,04; Exp(B)=2,0 sikeresen vizsgázott? (igen/nem) szemüveges-e Szign.:0,25; Exp(B)=1,2 sikeresen vizsgázott? (igen/nem) Szign.:0,03; Exp(B)=1,8 hány könyvet olvas évente Szabó Gábor, 2005.

7

8

9

10 Bináris logisztikus regresszió
AZ Y ESEMÉNY BEKÖVETKEZÉSÉNEK ESÉLYE A vizsgált Y esemény lehet pl. a szívinfarktus (bekövetkezett vagy nem következett be), transzplantáció eredménye (a beültetett szerv kilökődött vagy nem lökődött ki) a tüdőrák megfigyelésének az eredménye egy prospektív vizsgálat során (kialakult a megfigyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben – az xi független változók egyaránt tartalmazhatnak folytonos és nominális adatokat –, az Y esemény bekövetkezési valószínűségét logisztikus regresszióval becsüljük. Az eljárás nagyon hasonlít a korábban megismert lineáris regresszióhoz

11 Logisztikus regresszió (folyt)
A logisztikus regreszió használata előtt az y függő változót binárissá kell kódolni (0= az esemény nem következett be, 1= az esemény bekövetkezett). A számítógépes programok a regressziós koefficiensek mellett (a, bi) az OR értékeket és azok 95%-os konfidenciaintervallumát is meghatározzák. A számítási eljárás bonyolultabb mint a lineáris regressziónál. Általában az iteratív maximum likelihood módszert használják a számítógépes programok. A logisztikus regresszió alkalmazásánál vegyük figyelembe a következőket: az egyéneket egymástól függetlenül, random módon válasszuk a mintába legalább esemény jusson mindegyik vizsgált prediktor változóra.

12 A logisztikus reakció „lelke” az adatok binárissá tétele
A már eleve bináris adatok közül az informatívak kiválasztása A folyamatos adatok binárissá való átváltoztatása úgy, hogy a létrejövő két csoport biológiailag/orvosilag is különbözzön egymástól

13 1. példa: HANO (herediter angioneurotikus oedema) genetikája
Összefüggést találtunk A) a XII faktor gén egy polimorfizmusa és az első tünetek jelentkezésének időpontja (év) között B) A bradykinin receptor gén és az évi tünet előfordulás között

14 P=0,002 CC CT TT

15 P=0,018

16 Tovább a logisztikus regresszió felé
Mind a tünetkezdeti életkor, mind pedig az évi rohamszám folyamatos változó Ahhoz, hogy maghatározhassuk, milyen mértékű változást idéz elő a vizsgált értékekben a két genetikai polimorfizmus, ezeket binárissá kell tenni. A legtöbbször erre a célra használt felosztás: a mediánon alapszik 1. csop. medián alatti, 2. csop medián vagy medián feletti értékeket mutató betegek

17

18 <= 10 éves >10 éves

19

20

21

22 Életkor és BMI összefüggése

23 Dichotomizálás Nézzük most meg, hogy ha az idős kor határát 50 évben, ill. 60 évben határozzuk meg, akkor az így létrejövő 2-2 csoportban mennyire különbözik majd a BMI? A BMI-t a medián szerint dichotomizáljuk: alacsony: medián (27) vagy ennél kevesebb, magas: 27-nél több

24 P=0,026

25 P=0,012

26

27

28 Logistic regression (1)
Table 2 Age and signs of coronary heart disease (CD)

29 How can we analyse these data?
Compare mean age of diseased and non-diseased Non-diseased: years Diseased: years (p<0.0001) Linear regression?

30 Dot-plot: Data from Table 2

31 Logistic regression (2)
Table 3 Prevalence (%) of signs of CD according to age group

32 Dot-plot: Data from Table 3
Diseased % Age group

33 Logistic function (1) Probability of disease x

34

35 exp() is the effect of the independent variable on the "odds ratio"
An interpretation of the logit coefficient which is usually more intuitive is the "odds ratio" Since: [p/(1-p)] = exp( + X) exp() is the effect of the independent variable on the "odds ratio"

36 An Example: Hurricane Evacuations
Q: EVAC Did you evacuate your home to go someplace safer before Hurricane Dennis (Floyd) hit? 1 YES 2 NO 3 DON'T KNOW 4 REFUSED

37 The Data

38 From SPSS Output: “Households with pets are times more likely to evacuate than those without pets.”

39 Example - Rizatriptan for Migraine
Response - Complete Pain Relief at 2 hours (Yes/No) Predictor - Dose (mg): Placebo (0),2.5,5,10 Source: Gijsmant, et al (1997)

40 Example - Rizatriptan for Migraine (SPSS)

41 Example - Rizatriptan for Migraine
95% CI for b : 95% CI for population odds ratio: Conclude positive association between dose and probability of complete relief

42 TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ

43 A többszörös elemzés a klinikai orvostudományban, egy példa
Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

44 Az alap szérum IL-6 szint és a 3 éves mortalitás

45 A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

46 Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható.

47 A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.

48 A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint

49 Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 Bruneck tanulmány: 1990, éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. A vizsgált egyének vérében megmértek egyes a krónikus infekcióra jellemző laboratóriumi markereket)

50 KÉRDÉSEK 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis

51 500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 egység növekedés

52 Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan
Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, 2001. 1984, > 40 éves Miyagi tartomány, kérdőív: zöldtea fogyasztás mértéke Követési idő: személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? Számítás: Cox regressiós analízis, reletív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás

53 A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója

54 Kimenetel (függő változó)
Példa a kimenetelre A használandó többszörös analitikai módszer Folyamatos Vérnyomás, testsúly, hőmérséklet Többszörös lineáris regresszió Dichotóm (igen-nem) Halál, rák, felvétel intenzív osztályra Többszörös logisztikus regresszió Az igen eseményig eltelt idő A halálig, a rák dg-ig eltelt idó Cox regresszió (proportinal hazard analízis)

55 A cukorbetegek magas testtömeg-indexe ill
A cukorbetegek magas testtömeg-indexe ill. HDL-koleszterin szintje befolyásolja-e az ischemiás szívbetegség kifejlődésének kockázatát? Változó Nem ISZB-s (n=156) ISZB-s (n=76) p-érték (Fisher exact teszt) BMI (kg/m2) <25 64 16 0,003 >25 92 60 HDL-koleszterin (mmol/l) <1,3 88 56 0,014 >1,3 68 20

56 Változó B SEM Wald df p-érték BMI magas/normál* 0,959 0,325 8,701 1 0,003 Konstans -1,386 0,280 24,599 0,0002 A BMI anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 2,609 1, ,933

57 Változó B SEM Wald df p-érték HDL normál/alacsony* -0,772 0,306 6,342 1 0,012 Konstans 0,500-0,4523 0,171 6,991 <0,0001 A HDL anti-ln(B)-je (esélyhányados, odds ratio, OR) OR Az OR 95%-os CI-je 0,462 0, ,843

58 A többszörös modellek feltételezései (assumptions)
TÖBBSZÖRÖS LINEÁRIS TÖBBSZÖRÖS LOGISZTIKUS PROPRCIONÁLIS HAZARD ANALÍZIS MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit) A relativ kockázat (hazard) logaritmusa A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változóval is A függő változó logitja lineárisan változhat több független áltozóval is A relatív hazard logaritmusa lineárisan változhat több független áltozóval is A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ) A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is A függő változó logitja lineárisan változhat több független változó egységnyi változásával is A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is A FÜGGŐ VÁLTOZÓ ELOSZLÁSA Normális Binomiális Nincs meghatározva

59 Többszörös logisztikus regresszió
Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.

60 Relatív rizikó (relative risk) , esély-arány (odds ratio)
Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)

61

62 Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0, ), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának

63 Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI ). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES


Letölteni ppt "REGRESSZIÓS SZÁMÍTÁSOK II"

Hasonló előadás


Google Hirdetések