Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)

Hasonló előadás


Az előadások a következő témára: "A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)"— Előadás másolata:

1 A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)

2 A többszörös elemzés a klinikai orvostudományban, egy példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

3 Az alap szérum IL-6 szint és a 3 éves mortalitás

4 A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

5 Kérdés Mennyivel nagyobb a kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.

6 A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint

7 Kiechl, S. et al.: Chronic Infections and the Risk of Carotid Atherosclerosis. Circulation, 103, 1064, 2001 Bruneck tanulmány: 1990, éves egyén, carotis duplex scan: carotis atherosclerosis foka, plakkok száma). A vizsgált egyéneknél rögzítették, hogy szenvednek-e valamilyen krónikus légúti, húgyúti, fogászati vagy egyéb infekcióban. A vizsgált egyének vérében megmértek egyes a krónikus infekciókra jellemző laboratóriumi markereket)

8 KÉRDÉSEK 1) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS A CAROTIS ATHEROSCLEROSIS MÉRTÉKE KÖZÖTT A VIZSGÁLAT IDŐPONTJÁBAN (keresztmetszeti vizsgálat) 2) VAN-E ÖSSZEFÜGGÉS A KRÓNIKUS FERTŐZÉSEK KLINIKAI ÉS LABORATÓRIUMI JELEI ÉS AZ ÚJ CAROTIS PLAKKOK KIFEJLŐDÉSE KÖZÖTT (prospektív vizsgálat) Számítás módja: többszörös lépcsőzetes logisztikus regressziós analízis

9 500 egyénben a kezdeti vizsgálatkor nem találtak carotis plakkot, közülük 125-ben fejlődött ki carotis plakk az 5 éves megfigyelési idő alatt. Mi jelezte ezt előre? OR: kategorikus: igen/nem, folyamatos: 1 SD növekedés

10 Tsobuno Y et al. Green Tea and the Risk of Gastric Cancer in Japan. NEJM 344, 632, , > 40 éves Miyagi tartomány, kérdőív: zödtea fogyasztás mértéke Követési idő: személy-év 1982 dec.-ig. 419 gyomorrák, diagnózis időpontja Kérdés: befolyásolja-e a zöldtea fogyasztás a gyomorrák kifejlődésének az esélyét? Számítás: Cox regressiós analízis, relatív rizikó (prospektív vizsgálat): alap: <1 csésze/nap. A gyomorrák kimenetelét esetleg még befolyásoló változók (confounding variables): életkor, nem, ulcus az anamnézisban, dohányzás, alkohol, rizs, hús/zöldség fogyasztás

11 A zöldtea fogyasztás és a gyomorrák kifejlődésének relatív rizikója

12 Többszörös logisztikus regresszió Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb.) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció. Példa: Az AIDS definíciójának megfelelő opportunista infekciók vagy tumorok előfordulása előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definíciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)

13 Relatív rizikó (relative risk), esély-arány (odds ratio)

14

15 Relatív rizikó Relatív rizikó: A/A+B osztva C/C+D- vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0, ), tehát az AIDS kifejlődésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának

16 Esély-arány (OR) Először mindkét csoportban kiszámítjuk az esélyét annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI ). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn. EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES

17 A logisztikus regresszió során alkalmazott számítási mód A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. maximum likehood ratio kiszámítása. Ez, mint minden valószínűség- arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.

18 A logisztikus regresszió egyenlete odds (bekövetkezik/nem következik be, A/B)= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ß o + ß I I Ha ezt az egyes független változók szerint részeire bontjuk, akkor ln (odds) = ß o + X 1 ß 1 + X 2 ß A ß o azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß 1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.

19 A logisztikus regresszió egyenlete (folyt.) A 0 hipotézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln- át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg- határozott OR-ekre, pontosabban ezek ln-ára ln (OR) = X 1 (lnOR 1 ) + X 2 (lnOR 2 ).... Az egyes komputer programmok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)

20 Modell felépítés a logisztikus regresszióban Hasonló a lineáris regresszióhoz manuális automatikus: forward selection backward elimination stepwise selection A számítógépes programok mérőszámot adnak (vö R 2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.

21 A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó) A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni. Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!) Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!

22 Példa a többszörös logisztikus regresszióra (Burián et al, Circulation, 2001)

23 Kérdés A négy paraméter előre képes-e jelezni, hogy egy adott egyén az ISZB-s beteg vagy kontroll- csoportba tartozik? Számítás többszörös logisztikus regresszió független változók: HDL-koleszterin, a triglicerid és az anti-hsp60 szintek (folyamatos változók, 1 SD változás) és a Chl, pneumoniae (nominális 0 (szeroneg), 1 (szeropoz) Függő változó: csoport 0: kontroll, 1: ISZB

24 Model: Logistic regression (logit) N of 0's:48 1's:241 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 115, Chi˛(4)=29,591 p=,00001 Const.B0 LOGHSP60HDL_CHOLTRIGLICECHL_PNEU Estimate-,74,9383-,186086,51,71548 SE,68,2997,284498,18,36015 t(284) -1,08 3,1305-, ,81 -1,98662 p-level,28,0019,513587,01, %CL -2,08,3483-,746078,15 -1, %CL,61 1,5282,373907,86 -,00658 Wald's khi21,16 9,8000, ,88 3,94668 p-level,28,0017,513062,00,04697 OR (unit ch),48 2,5556, ,66, %CL,12 1,4167, ,16, %CL1,84 4,6101 1, ,37,99344 STATISTICA OUTPUT

25 Model: Logistic regression (logit) N of 0's:40 1's:240 Dep. var: CSOPORT Loss: Max likelihood (MS-err. scaled to 1) Final loss: 102, Chi˛(4)=24,331 p=,00007 Const.B0 HDL_CHOLTRIGLICECHL_PNEULOG_HSP6 Estimate, ,85900,149-,81825,9662 SE,786326,36820,156,38000,3214 t(275), ,33294,956-2,153273,0061 p-level, ,02037,340,03217, %CL-, ,58386-,158-1,56634, %CL 2, ,13414,456-,070161,5990 Wald's khi2, ,44259,9144,636579,0368 p-level,360119,01966,339,03130,0026 OD (u.ch)2,053625,423591,161,441202, %CL,436758,20518,854,208811, %CL9,656101,874471,577,932244,9482

26 SPSS output

27 Milyen jó a modell? (Goodness of fit) SPSS A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.

28 MIHEZ SZÁMÍTSUK AZ ODDS RATIOT? Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.). Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység pl. 1 SD változás mit jelent. Megoldások: értelmes kategóriákat állítok fel: pl. életkorban 10 év, binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)

29 HOL HÚZZUK MEG A HATÁRT? A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja) Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t

30 Anti-hsp60 legfelső kvartilis vs. többi Példánkban az anti-hsp60 legfelső kvartilisának határa: 183,24 AU/ml. Ezután átkódoljuk a változót, úgy, hogy 0: Megszámoltatjuk a géppel, hogy a beteg, ill kontroll csoportban hány 0 és 1 anti-hsp60 antitest szintű egyén van. HSP60KV HSP60KV Row G_1:0 G_2:1 Totals G_1: G_2: All Grps Végül elvégezzük a logisztikus analízist a folyamatos változót a binárissal helyettesítve

31 STATISTICA OUTPUT Const.B0HDL_CHOLTRIGLICEHSP60_M_CHL_PNEU Estimate2,06560-,79768,13392,00283-,92184 SE,54187,34038,1409,62255,36728 t(287)3, ,34351,95053, ,50987 p-level,00017,01979,3426,00144, %CL, , ,1434, , %CL3,13214-,12773,41123,22817-,19892 Wald's khi214,531405,49206,903510,350026,29946 p-level,00014,01911,3419,00130,01208 OR(u.ch)7,89002,450371,14337, %CL2,71574,23047,86642, %CL22,92288,880091,508625,

32 SPSS output

33 A logisztikus regressziós számítással megoldható problémák Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect) A a két változó egymástól független, de befolyásolják egymás hatását, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is

34 Független egymást nem befolyásoló változók Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 ( ), ill ( ). A két változó között nincs korreláció: Spearman r: (p=0.91) Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 ( )) és a Chl. pneum. szeropozitívoknál (3.85 ( ). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást

35

36 Két változó együttes hatása

37 Az alap szérum IL-6 szint és a 3 éves mortalitás

38 A korábbi cardiovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti összefüggésre (interakciót találtak, p=0.09)

39 A családi rizikó predikciója a koleszterin, HDL és a nem alapján, az interakció hatása CHOL,6335,2985 4,5031 1,0338,1494 HDL -2,4635,9827 6,2846 1,0122 -,1954 NEM -,4027,4848,6899 1,4062,0000 Constant,8494 1,5590,2968 1,5859 INTERAKCIÓ BEÉPÍTVE CHOL -,6148,8546,5175 1,4719,0000 HDL -2,4323,9994 5,9231 1,0149 -,1870 NEM -4,1402 2,5648 2,6058 1,1065 -,0735 CHOL by NEM,8909,5979 2,2203 1,1362,0443 Constant 6,0057 3,7456 2,5710 1,1088 BS.E.WalddfpR

40 A családi rizikó predikciója a koleszterin és HDL alapján fiúkban Variable B S.E. Wald df Sig R CHOL,3208,3799,7132 1,3984,0000 HDL -2,9730 1,4563 4,1674 1,0412 -,1864 Constant 2,3467 1,9864 1,3957 1,2374

41 A családi rizikó predikciója a koleszterin és HDL alapján lányokban Variable B S.E. Wald df Sig R CHOL 1,1179,4946 5,1094 1,0238,2507 HDL -1,8774 1,4030 1,7907 1,1808,0000 Constant -2,7346 2,4150 1,2821 1,2575

42 A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)

43 Kovariancia analízis (ANCOVA) A lineáris regressziós analízis speciális formája, a confounding variable hatásának hatékony kiküszöbölésére alkalmas. Feltételezése az, hogy a confounding variable minden szintjén a függő és független változó közötti regressziós egyenes meredeksége azonos, és csak az y tengely metszéspontja különbözik. A bonyolult képlettel számolható analízis végeredménye egyszerű: egy adott független váltózó hatást segítségével számszerűsíteni lehet.

44 Cox regresszió vagy proportional hazard model A klinikai biometria egyik legfontosabb módszere, a vezető orvostudományi folyóiratokban a cikkek jelentős hányadában alkalmazott eljárás. A prospektív vizsgálatok értékelési módszere. A lényege: azt az időt is figyelembe veszi az analízisnél, amely a vizsgált esemény (outcome, független váltózó) bekövetkezéséig a vizsgálat kezdetétől eltelt. Így az. Un. túlélési görbék analízisénél alkalmazzák elsősorban. Mint minden ilyen vizsgálat esetében, az adatok egy része un. censored data, mivel a vizsgálat befejezésekor a vizsgált egyének egy részénél óhatatlanul nem következett még be a vizsgált esemény, de nem zárható ki, hogy a jövőben majd még bekövetkezik. Ezért a megfigyelési periódus végén azokat, akiknél nem következett még be a vizsgált esemény, olyanoknak tekintjük, mint akiknél ez nem is fog bekövetkezni.

45 Egyéb eljárások Discriminant analysis: célja az, hogy az outcome bekövetkezését előrejelző csoportokat (változók kombinációit) körülhatárolja. A vizsgált egyének e módszer segítségével két vagy több csoportba sorolhatók Log-linear analysis: a 2x2 mezőnél nagyobb kontingencia táblázatok (minden független változó nominális vagy kategóriákba sorolt) értékelési módszere. Nem szükségszerűen különbözteti meg azt, hogy melyik változó függő és melyik független. Factor analysis, cluster analysis: minden változót függetlennek tekintünk, a cél a vizsgált egyének vagy dolgok,ill. ezek változásait mutatók egymással rokonítható csoportokba való besorolása


Letölteni ppt "A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)"

Hasonló előadás


Google Hirdetések