Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti.

Hasonló előadás


Az előadások a következő témára: "KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti."— Előadás másolata:

1 KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A korreláció és a regresszió között sok a hasonlóság, ha a korreláció mérőszáma az un. korrelációs koefficiens szignifikáns, akkor mindig szignifikáns lesz a lineáris regresszió is. A leggyakrabban használt és az orvosi irodalomban igen gyakran megtalálható eljárások.

2 A REGRESSZIÓ A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. lineáris és nem-lineáris regresszió egyszerű és többszörös regresszió jelen kurzus tárgya: egyszerű lineáris regresszió

3 PÉLDA Az allergének aktiválják a komplement rendszert az un. klasszikus reakcióúton át. Ennek elsô lépése a C1 makromolekula belsô, enzimatikus aktivációja. A második lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább bomlik és C4d keletkezik belőle. Egy speciális, monoklonális ellenanyagokkal működő kit lehetővé teszi a C4d szint mérést szérumban. Mi egy allergén (Parietaria judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum) inkubáltuk 37 oC-on 60 percig egy vizsgált egyén szérumát és minden mintában megmértük a keletkezett C4d mennyiségét (µg/ml)

4

5

6 Látható, hogy minél több allergént adtunk a szérumhoz, annál több C4d keletkezett. Kérdésünk a korrelációs számítással szemben, amikor csak azt kérdeztük volna, hogy kapcsolatban áll-e egymással az allergén dózisa és a keletkezett C4d mennyisége, most azt is tudni szeretnénk, hogy az allergén egy adott dózisa (x mg/ml) milyen mértékű (y µg/ml) C4d képzôdést indukál a szérumban. Ha az x és az y között lineáris vagy ezt megközelítő összefüggés látszik (példánkban ez a helyzet), akkor a kérdésre a (egyszerű vagy egyszeres, simple) lineáris regresszió módszerével kaphatunk választ.

7

8 A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehető legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függőleges távolsága négyzeteinek összege nagyobb volna.

9 Tehát a vonal úgy készül, hogy egy képlet alapján kiszámolja a gép, de természetesen mi is kiszámolhatjuk a lineáris regressziós egyenes egyenletét (meredekség és metszési pont az y tengelyen) és ennek alapján ábrázoljuk az egyenest. Az első és harmadik pont elég távol esik a regressziós egyenestől ahhoz, hogy a pontok és egyenes közötti függőleges távolságokat is ábrázoljuk. E távolságok négyzetének összege kell minimális legyen. A távolságokat reziduumnak (residual) nevezzük, ezek négyzetének összege a reziduumok varianciája, melynek négyzetgyöke a reziduumok SD-je. A regressziós egyenes az az egyenes, amelynél a reziduumok összegének az SD-je a legkisebb. Egyes programok ezt is kiszámítják

10 A számítás segítségével meghatározhatjuk az egyenesek konfidencia intervallumát is, tehát azokat a határokat, amelyek közé azok a regressziós egyenesek esnének 95%-os valószínűséggel, amelyek más olyan kísérletekhez tartoznának, amelyekben ugyanezt az összefüggést vizsgálnánk

11

12 A regressziós egyenes egyenlete

13 példánkban

14 A lineáris regressziós egyenes szignifikanciája: A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén dózisa és a képzôdött C4d mennyisége között. Ha ez igaz, akkor a regressziós egyenes az x tengellyel párhuzamos lenne, tehát a meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben eltérô, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen koincidencia eredménye lenne. Példánkban a P érték: , tehát kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától nem függ a szérumban képzôdô C4d mennyisége. A szignifikancia kiszámítása több módon történhet. 1) A t eloszlás alapján, amikor a t érték a b abszolút értéke és ennek a SE.-jának a hányadosa. (df=N-2). A kapott értékbôl egyszempontos variancia analízist végzek és ekkor az F próba adja meg a szignifikancia értékét. Ez utóbbi fontos lesz a többszörös lineáris regresszió megértéséhez.

15 A lineáris regresszió elvégezhetôségének feltételei Az x és az y értékek nem cserélhetők fel, az x értékek alapján szeretnénk előre jelezni az y értékeket, fordítva ez nem lehetséges, mert a kísérletben az x-et variáljuk, vagy időben esetleg logikailag megelőzi az y-t (pl. előbb adtuk hozzá a szérumhoz az allergént és csak ezután képződött a C4d) Az ábrázolás szerint az x és y értékek között lineáris összefüggés áll fenn. Ennek eldöntésre a legtöbb program lehetővé teszi a reziduumok ábrázolását is, ennek elemzése elősegítheti annak az eldöntését, hogy valóban fennáll-e az x és y között a lineáris viszony.

16 Többszörös regresszió I. Többszörös lineáris regresszió miért elengedhetetlen a többszörös regressziós számítás? a többszörös regressziós számítások fajtái a többszörös lineáris regresszió egyenlete többszörös lineáris regressziós számítás elvégzése számítógépen

17 A determináltsági koefficiens (r 2 ) Az r 2 érték azt fejezi ki, hogy az egyik változó változásai várhatóan milyen mértékben járnak a másik változó változásaival, vagyis mennyire lehet az egyikből a másikat előre jelezni. Ha az r=0,50, az r 2 =0,25, akkor 25%-ban lehet előre jelezni az egyik változóból a másikat, és fordítva (a korrelációnál a két változó felcserélhető).

18 A többszörös elemzés a mindennapi orvosi gondolkodás jellemzője Pl. Valaki bejön a rendelôbe és arról panaszkodik, hogy fáj a lába. Az orvos megvizsgálja, és felveszi a státuszt és az anamnézist. Néhány fontos adat : A beteg férfi, a beteg túlsúlyos, a beteg lázas, a betegnek duzzadt a bal alszára, a betegnek lila elszinezödés látható a bal alszárán A fenti megfigyelések, ill. adatok egymagukban nem vagy csak kevéssé diagnosztikus értékûek (pl. a duzzanat lehet sportsérülés eredménye, a lila szín bôrbaj jele, a láz influenza jele lehet. Az orvos azonban e jeleket egyszerre (többszörösen, komplex, szimultán módon értékeli) és a thrombophlebitis gyanúja merül fel benne, amelyet várhatóan a további vizsgálatok is megerôsítenek

19 A többszörös elemzés a klinikai orvostudományban, első példa Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

20 Az alap szérum IL-6 szint és a 3 éves mortalitás

21 A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

22 A többszörös elemzés a klinikai orvostudományban, második példa Kovacs A et al: Determinants of HIV-1 sheddings in the genital tract of women. Lancet 358, 1593, 2001 A HIV-1 RNS jelenlétének meghatározása 268 HIV fertőzött nő genitális secretumában. 152/268 HIV-1 RNS kimutatható. Kérdés összefügg-e HIV-1 jelenléte a női nemiszervi váladékokban az egyéb infekciókkal (humán papilloma víris, candidiasis, bacterial vaginosis, herpes vírus infekció, stb.?

23 Azonban azt találták, hogy a HIV-1 koncentrációja a vérplazmában (viral load) befolyásolja a genitális secretumokban mérhető HIV-1 RNS mennyiségét (vérben >500 kópia/ml: 80%, <500 kópia/ml: 33%). Mivel a magasabb viral load jelzi az immunrendszer károsodását és így befolyásolja az egyéb infekciók veszélyét is, a viral load befolyásolja az egyéb lokális fertőzések és a HIV-1 shedding közötti összefüggést, a számításnál ezt figyelembe kell venni, az összefüggést kutató számítást a viral loadhoz illeszteni (adjustálni) kell.

24 A többszörös elemzés a klinikai orvostudományban, harmadik példa Tillmann et al.: Infection with the GB virus and reduced mortality among HIV-infected patients. New Engl J Med 345, 715, 2001 A hepatitis G vírust (GB virus) 1995-ben fedezték fel, de eddig még nem találtak olyan betegséget, amelyet okozna. 197 HIV-fertőzöttben meghatározták a GBV fertőzöttséget. Kérdés befolyásolja-e a GBV koinfekció a HIV-fertőzöttek négyéves mortalitását. A szerológiai és molekuláris biológiai vizsgálatok szerint csak a betegek 26.4%-a nem volt GBV fertőzött.

25 A GBV-C RNS + betegek szignifikánsan kisebb arányban (3,7%) haltak meg AIDS-ben, mint a GBV-vel nem fertőzöttek (40%). DE: a nem fertőzöttek szignifikánsan öregebbek voltak, nagyobb %-ban voltak iv. kábítószerezők, kb kétszer alacsonyabb volt a CD4+ sejtszámuk, mint a GBV RNS+-ké. Mivel mindezek a paraméterek hatnak a HIV-betegség progressziójára, a számításnál ezeket is figyelembe kell vennünk, mielőtt biztosan állítani lehetne: a GBV koinfekció csökkenti a HIV betegség letalitását.

26 A többszörös elemzésre szolgáló biometriai módszerek Olyan eljárás szükséges ehhez, amely matematikai módszerekkel egy-egy ilyen faktor esetében az adatokat ”kiegyenlíti”, adjusztálja. Tehát megkérdezi, hogy az IL-6 szint akkor is összefüggést mutatna-e az idõsebb nõk rövid- távú mortalitásával, ha a különbözõ IL-6 szérumszintû egyének évi jövedelme, dohányzási szokásai, BMI-je, CHD, és diabetes morbiditása, és atherosclerosis súlyossági indexe azonos volna egymással. Erre a célra szolgál a többszörös regresszió módszere.

27 TÖBBSZÖRÖS REGRESSZIÓ A klinikai adatok elemzésének ma már elengedhetetlen eszköze. Jobb orvosi folyó- iratokban igen gyakran meg- található, bizonyos adatok elemzése esetén az elfogadás feltétele.

28 A két vagy több független változó elemzéséhez használható különböző módszerek (Dawson, Trapp, 2001)

29 Példa a többszörös lineáris regresszióra (Burián et al, Circulation 2001)

30 1. kérdés: van-e összefüggés az anti-hsp60 és a páros össszehasonlításnál szignifikáns különséget adó másik 3 változó között? nincs vagy gyenge

31 STATISTICA OUTPUT I Függő változó: log anti-hsp60

32 STATISTICA OUTPUT II

33 STATISTICA OUTPUT III

34 A regressziós egyenes egyenlete Y= alpha + beta1.X1 + beta2.X2 + beta3.X epszilon a használt egyenlet a minta alapján: Y = a + b1X1 + b2X2 + b3X3 + b4X4.. TÖBB VÁLTOZÓ HATÁSÁT EGYETLEN ÉRTÉKBEN ÖSSZEGEZZÜK (súlyozott átlag) ahol az X1 az első független változó és a b1 a hozzátartozó regressziós koefficiens, az X2 a második független változó és a b2 a hozzá tartozó regressziós koefficiens, stb

35 A regressziós egyenes egyenlete (folyt.) A számítás hasonló az egyszerű lineáris regresszióhoz, a legkisebb átlagos négyzetes távolság kiszámításán alapul. Két független változó esetén egy síktól való távolságot minimalizálunk, több független változónál ez már nem szemléltethető

36 Glanzt SA, Slinker BK: Primer of Applied Regression and Analysis of Variance, McGraw- Hill, 1990 Látogatás a Marson. Összefüggés a marslakók magassága és testsúlya között. (egyszerű regresszió). Befolyásolja-e ezt az összefüggést az, hogy a marslakók naponta hány csésze, a Mars csatornáiból származó vizet fogyasztanak (0, 10 vagy 20)

37

38

39

40 A regressziós egyenes egyenlete (folyt.) A függő változó mindig folyamatos, a független változó lehet folyamatos és nominális a kéféle értékű nominális változók kódolása: 0 vagy 1 (DUMMY VARIABLE) pl. kontroll: O, beteg: 1, Chl. pn. neg: 0, poz: 1

41 A többszörös regresszió eredményeinek interpretálása A beta regressziós koefficiens: többszörös regresszió esetében ez az jelenti, hogy ha a többi független változó értéke állandó, akkor a vizsgált független változó egy egységnyi változásának a függő változó milyen mértékű változása felel meg. Pl log(anti-hsp65 AU/ml)=0.213csoport mmol/l HDL- chol mmol/l trigl +0.03Chl. pneumoniae+1.65 Tehát a 0-ról 1 egységre való növelés (kontrollról betegre) a log-antihsp60 szintet al növeli. A antilogja: 1.99, tehát a betegek anti-hsp60 szintje átlagosan 1.99 AU/ml-el magasabb lenne akkor, ha nem lenne a kontrollok és a betegek között különbség a HDL cholesterin, a triglicerid szintben, ill. a Chl. pneumoniae pozitivitás %-ában.

42 A regressziós koefficiens szignifikanciája a koefficiens szignifikanciája kiszámítható t teszttel t teszt: a b regr. koeff. értéke osztva ennek S.E.-jével, a megfelelő df-nél t táblázatban keresem (keresi a gép) az értéket. Standardizált regressziós koefficiens: beta: a változó minden értékéből levonjuk az X átlegértékét és elosztjuk a SD-val, így az átlag: O, a SD: 1 lesz. Ekkor a regressziós koefficiensek összehasonlíthatók, az van nagyobb hatással a függő változóra, amelyik nagyobb.

43

44 Az R 2 érték többszörös regressziónál Akár az egyedi, az egyenletbe bevett változóra, akár ennek egy részére vagy az összesre vonatkozóan az R 2 érték azt mutatja, hogy az adott független változó(k) hány százalékban határozzák meg a független változót. Ha az R 2 érték:1,00, akkor teljes mértékben, ha 0.00, akkor egyáltalán nem, ha akkor erősen. Példánkban a 4 változó (csoport, HDL-chol, trig, Chl.pneum) együttesen (Statistica), ill (SPSS) R 2 értéket ad, tehát a négy tényező igen gyengén határozza meg a természetes anti-hsp60 antitestek titerét. Szakmailag O.K.

45 Kapcsolat a többszörös regresszió és a variancia analízis között R= négyzetgyök 1 - (SSreg/SStot) és SStot = SSreg + SSres, ezért R 2 = 1 - (SSres/SStot) = 1 - (SStot - SSreg)/SStot) = SSres/Sstot = SSres/SStot ennek szignifikanciáját az F eloszlás szerint határozzuk meg (variancia analízis). Az adjusztált R 2 figyelembe veszi a több változó egyenletbe vitelekor bekövetkező szabadságfok csökkenést. Példánkban (SPSS), az R 2 : 0.073, az adjusztált R 2 ehhez igen hasonló: 0.052

46 A lépcsőzetes többszörös regresszió (stepwise multiple regression) A cél: minél jobb, a függő változót minél jobban előrejelző modelt épitsünk fel: legegyszerűbb mód: minden szakmailag értelmes változót figyelembe veszünk, kiszámítjuk a b értékeket, majd azokat, melyek nem szignifikánsak, kihagyjuk és újra számolunk. Ha jól dolgoztunk, akkor az egyes változókhoz tartozó R 2 értékeknek nőnie kell. A módszert automatikusan is el lehet végezni, ennek három módja a forward selection, a backward elmination és a stepwise regression

47 Az automatikus regressziós model építés három fő módszere forward selection: először egyetlen változót visz a program be az egyenletbe, azt, amelyiknek a legnagyobb a st, regr koefficiense, a következőnél megvizsgálja a program: szignifikásan (F-teszt) növeli-e az R 2 értéket. Akkor van vége, ha nincs több ilyen változó. backward elimination: először minden változó bekerül a modelbe, majd lépésről lépésre eleminálja a program azokat a változókat, amelynél ez az elinináció az R 2 értéket nem csökkenti szignifikánsan. stepwise regression (selection): úgy kezdődik, mint a forward selection, de minden új változó beépítése után megvizsgálja a program, hogy a már beépített változók közül melyik eliminálható úgy, hogy az R 2 érték ne csökkenjen

48 Mintaszám követelmények Ma már erre számos komputeres program alkalmas, de van megközelítő szabály: legalább 10-szer annyi megfigyelés (személy, állat, stb) legyen, mint ahány változó. Másrészt egy változónál minimálisan 5, de inkább 10 megfigyelés történjen.

49 A többszörös lineáris regressziót legjobban torzító hiba: a multicollinearitás Ha az egyes független változók erős korrelációt mutatnak egymással, akkor a model erősen torzulhat (redundáns információk). Pl. vérnyomás előrejelzése az életkor, a testsúly és a testmagasság alapján. De a testsúly és a testmagasság erősen korrelál egymással. Nem biztos, hogy az automata szelekciónál nem marad-e bent mind a kettő. Előtte meg kell nézni, egyiket nem bevenni a modelbe!

50

51

52

53 1. feladat: az ólomkoncentráció és a kreatinin klírensz (Stassen et al, NEJM, , 1992) Y: kreatinin klírensz X1: log vér ólom koncentráció, X2: életkor, X3: BMI X4: log SGOT X5: használt-e diureticumot: 0: nem, 1: igen a regressziós koefficiens (b) a log ólom koncentrációra -9.5 ml/perc volt (CI: ml/perc) Kérdések: 1. szignifikáns volt-e a b érték? 2. hogyan függött össze az ólomkoncentráció a kreatinin klirensszel, ha az összes többi változó nem befolyásolhatta ezt?

54 Válaszok az 1. feladatra 1. igen: CI: ml/perc, nincs közötte 0 2. ha a szérum ólomtartalma 1 egységgel nő (log érték: tehát tízszeresére), akkor a kreatinin klírensz 9.5 ml/perccel csökken

55 2. feladat: Feher et al. Beta blockers, lipoproteins and a non-insulin dependent diabetes (Postgrad. Med. 64, 927, 1988) Y (H): HDL2 szubfrakció X1 (B): beta blokkolót szedett 1: igen, 2: nem X2 (D).drink 1: alkoholt fogyasztott, 2: nem X3 (S) smoking 1: dohányzik, 0: nem X4 (A): életkor, év X5 (W) testsúly X6 (T) trigliceridek X7 (C) C-peptide X8 (G) vércukor H = B D S A W T C G. R 2 :59.5%, adj.R 2 :54.3% Kérdés: mit jelentenek a piros számok?

56 Válaszok az 2. feladatra B: ha béta-blokkolót szed valaki, akkor a HDL2 (védő) frakció szérumszint mmol/l-el nagyobb lesz A: az öregedéssel párhuzamosan évente mmol/l-el csökken a HDL2- frakció szérumszintje T: 1 mmol/l triglicerid szint csökkenés mmol/l HDL-csökkenéssel jár együtt


Letölteni ppt "KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti."

Hasonló előadás


Google Hirdetések