Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaNikolett Borosné Megváltozta több, mint 10 éve
1
KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ
Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A korreláció és a regresszió között sok a hasonlóság, ha a korreláció mérőszáma az un. korrelációs koefficiens szignifikáns, akkor mindig szignifikáns lesz a lineáris regresszió is. A leggyakrabban használt és az orvosi irodalomban igen gyakran megtalálható eljárások.
2
A KORRELÁCIÓ A két változó közötti egyenes arányú, fordított arányú vagy hiányzó kapcsolat (pozitív, negatív vagy nem létező korreláció) lehet. Becslése az értékek ábrázolása alapján lehetséges. ELÔSZÖR MINDIG RAJZOLJUNK!!!
3
PÉLDA Krónikus hepatitis C-ben szenvedô betegekben mértük interferon alpha kezelés elôtt és közben a HCV RNS plazmaszintet, két komplement fehérje, a C9 és a C1-INH szérumkoncentrációját és a komplement rendszer egyik aktiválódási termékét, a C5b-9-et. Szerettük volna tudni, hogy van-e kapcsolat ezek között a változók között (Bíró L. et al. Immunology Letters, 2000).
4
1. Látszólag nincs korreláció, az adatok egy körrel írhatók körül
5
2. Van pozitív irányú kapcsolat, az adatok ellipszis szerű síkidommal írhatók körül
6
3. Gyenge negatív irányú kapcsolat
10
A korrelációs koefficiens legalacsonyabb értéke: 0 (nincs lineáris korreláció), a legmagasabb +1,0 vagy -1,0 (tökéletes pozitív, ill. negatív lineáris korreláció) A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva) A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erôsen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni
11
A korreláció (a két változó közötti kapcsolat) erôsségének megítélése 1. A leegyszerűsített megoldás
14
A determináltsági koefficiens (r2)
Az r2 érték azt fejezi ki, hogy az egyik változó változásai várhatóan milyen mértékben járnak a másik változó változásaival, vagyis mennyire lehet az egyikből a másikat előre jelezni. Ha az r=0,50, az r2=0,25, akkor 25%-ban lehet előre jelezni az egyik változóból a másikat, és fordítva (a korrelációnál a két változó felcserélhető). Példánkban a két komplement fehérje (C9 és C1-INH) között az r=0,62, az r2=0,38, tehát a C9 szintje alapján 39%-ban lehet a C1-INH szintet, ill. a C1-INH szintje alapján a C9 szintet előre jelezni.
15
Az r CI-a Az r értékeknek is van eloszlása, ez azonban nem szimmetrikus és csak nagyobb (N10) esetszámnál értékelhetô. Minden program megcsinálja, kézzel elég macerás, A C9 és C1-INH koncentráció közötti r (0,62) CI-a 0,42-0,76.
16
A korrelációs koefficiens szignifikanciája
17
a C9-C1-INH példánkban
18
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei I.
A vizsgált egyének (állatok, minták, stb) egy nagyobb populációból véletlenszerűen lettek kiválasztva Minden vizsgált egyénnél megmérték mindkét (x és y) változót (a hiányzó értékekkel a legtöbb számítógépes program boldogul) A megfigyelések egymástól függetlenek A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk)
19
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II.
Az x és y értékeknek is függetleneknek kell lenni egymástól (l. a HCV RNS változási példát fent). Ha az x változó szisztematikusan változik, pl. idô, koncentráció vagy dózis) akkor ne korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk.
20
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei III.
Az x és az y végig egy irányban kell változzon. Pl. az r - nek semmi értelme akkor, ha az x növekedésével egy darabig nô az y, de a további növelés után csökkenni kezd. sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.
24
A nem-paraméteres korreláció számítás, a Spearman féle rang korreláció (másik gyakran használt próba a Kendall féle rang korreláció)
25
A korrelációs számítás legfontosabb szabálya: a szignifikáns korreláció sem jelent ok-okozati kapcsolatot Ha x és y között erôs korreláció van, akkor az lehet azért, mert 1. az y változásai okozzák az x változásait 2. a x változásai okozzák az y változásait 3. egy harmadik faktor mind az x-et, mind az y-t egy irányba (vagy ellenkező irányba) befolyásolja. Ez a leggyakoribb!!!
26
A REGRESSZIÓ A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. lineáris és nem-lineáris regresszió egyszerű és többszörös regresszió jelen kurzus tárgya: egyszerű lineáris regresszió
27
PÉLDA Az allergének aktiválják a komplement rendszert az un. klasszikus reakcióúton át. Ennek elsô lépése a C1 makromolekula belsô, enzimatikus aktivációja. A második lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább bomlik és C4d keletkezik belőle. Egy speciális, monoklonális ellenanyagokkal működő kit lehetővé teszi a C4d szint mérést szérumban. Mi egy allergén (Parietaria judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum) inkubáltuk 37 oC-on 60 percig egy vizsgált egyén szérumát és minden mintában megmértük a keletkezett C4d mennyiségét (µg/ml)
30
Látható, hogy minél több allergént adtunk a szérumhoz, annál több C4d keletkezett. Kérdésünk a korrelációs számítással szemben, amikor csak azt kérdeztük volna, hogy kapcsolatban áll-e egymással az allergén dózisa és a keletkezett C4d mennyisége, most azt is tudni szeretnénk, hogy az allergén egy adott dózisa (x mg/ml) milyen mértékű (y µg/ml) C4d képzôdést indukál a szérumban. Ha az x és az y között lineáris vagy ezt megközelítő összefüggés látszik (példánkban ez a helyzet), akkor a kérdésre a (egyszerű vagy egyszeres, simple) lineáris regresszió módszerével kaphatunk választ.
32
A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehetô legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függôleges távolsága négyzeteinek összege nagyobb volna.
33
Tehát a vonal úgy készül, hogy egy képlet alapján kiszámolja a gép, de természetesen mi is kiszámolhatjuk a lineáris regressziós egyenes egyenletét (meredekség és metszési pont az y tengelyen) és ennek alapján ábrázoljuk az egyenest. Az elsô és harmadik pont elég távol esik a regressziós egyenestôl ahhoz, hogy a pontok és egyenes közötti függôleges távolságokat is ábrázoljuk. E távolságok négyzetének összege kell minimális legyen. A távolságokat reziduumnak (residual) nevezzük, ezek négyzetének összege a reziduumok varianciája, melynek négyzetgyöke a reziduumok SD-je. A regressziós egyenes az az egyenes, amelynél a reziduumok összegének az SD-je a legkisebb. Egyes programok ezt is kiszámítják
34
A számítás segítségével meghatározhatjuk az egyenesek konfidencia intervallumát is, tehát azokat a határokat, amelyek közé azok a regressziós egyenesek esnének 95%-os valószínűséggel, amelyek más olyan kísérletekhez tartoznának, amelyekben ugyanezt az összefüggést vizsgálnánk
36
A regressziós egyenes egyenlete
38
példánkban
39
A lineáris regressziós egyenes szignifikanciája:
A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén dózisa és a képzôdött C4d mennyisége között. Ha ez igaz, akkor a regressziós egyenes az x tengellyel párhuzamos lenne, tehát a meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben eltérô, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen koincidencia eredménye lenne. Példánkban a P érték: , tehát kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától nem függ a szérumban képzôdô C4d mennyisége. A szignifikancia kiszámítása több módon történhet. 1) A t eloszlás alapján, amikor a t érték a b abszolút értéke és ennek a SE.-jának a hányadosa. (df=N-2). A kapott értékbôl egyszempontos variancia analízist végzek és ekkor az F próba adja meg a szignifikancia értékét. Ez utóbbi fontos lesz a többszörös lineáris regresszió megértéséhez.
40
A lineáris regresszió elvégezhetôségének feltételei
Az x és az y értékek nem felcserélhetôk, az x értékek alapján szeretnénk elôre jelezni az y értékeket, fordítva ez nem lehetséges, mert a kísérletben az x-et variáljuk, vagy idôben esetleg logikailag megelôzi az y-t (pl. elôbb adtuk hozzá a szérumhoz az allergént és csak ezután képzôdött a C4d) Az ábrázolás szerint az x és y értékek között lineáris összefüggés áll fenn. Ennek eldöntésre a legtöbb program lehetôvé teszi a reziduumok ábrázolását is, ennek elemzése elôsegítheti annak az eldöntését, hogy valóban fennáll-e az x és y között a lineáris viszony.
42
A lineáris regresszió elvégezhetôségének feltételei (folyt.)
Bár matematikailag az összefüggés a végtelen kicsi és a végtelen nagy irányban is megmarad az x és y között, lehetőleg csak a megfigyelések által meghatározott tartományban számoljunk ezzel, annál is inkább, mert az y értékek akár negatívvá is válhatnak, amelynek biológiailag legtöbbször semmi értelme sincs. A reziduumok távolsága a regressziós egyenestől normál eloszlású vagy ezt megközelítő legyen Minden vizsgált minta egymástól függetlenül lett kiválasztva. Az x érékek és az y értékeket egymástól függetlenül határoztuk meg. Tehát a korrelációhoz hasonlóan nem szabad lineáris regressziót számolni egy változó kiinduló értéke és ennek változásának mértéke között, hiszen az utóbbi kiszámításánál az elôzôt is figyelembe vettük (l. a HCV RNS példát a korrelációnál)
43
A x értékek kiszámítása az y értékek alapján (standard görbe a laboratóriumokban)
Ez a laboratóriumok mindennapi feladata. Pl. van egy standard magas ismert IgG tartamú szérumom. Ebből hígítási sort készítek és megmérem benne Mancini módszerrel a keletkezett precipitációs körök átmérőjét mm-ben kifejezve. Ezután elkészítem a standard görbét: az x tengelyre az egyes hígítások ismert IgG koncentrációja jön, a y tengelyre pedig a precipitációs körök átmérôje. Az ismeretlen mintákban kapott átmérőt a y tengelyre viszem majd meghatározom az ehhez tartozó x értéket, tehát IgG koncentrációt. Ez számítógéppel (hiszen ismert az x és y közötti összefüggés egyenlet) végtelenül egyszerű. Elvileg lehet extrapolálni is, tehát a standard görbénél kisebb vagy nagyobb tartományban dolgozni, itt azonban igen óvatosnak kell lenni.
47
Mi történik, ha az x és az y közötti összefüggés nem lineáris?
1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni.
48
NEM LINEÁRIS REGRESSZIÓ
Az eljárást a klinikumban ritkán használjuk, az orvosbiológiai tudományokban azonban nagyon fontos eljárás, pl. a ligand receptorról való disszociációja vagy a rádióaktív izotóp bomlása, vagy a gyógyszerek májban történô metabolizmusa, ill. vesében történő kiürítése egy nem-lineáris összefüggés, szerint, az exponenciális model szerint (pl. a kiválasztott gyógyszer mennyisége a gyógyszer plazmakoncentrációjának függvénye, ahogy ez csökken a kiválasztás üteme is lelassul. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálat, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.
49
x y 2.00 4.00 6.00 8.00 10.00 15.00 874.00 20.00 754.00 25.00 653.00 30.00 567.00 35.00 604.00 40.00 587.00
51
Absolute Sum of Squares 517300 9776
one-site two-site Degrees of Freedom 9 7 R² 0.6453 0.9933 Absolute Sum of Squares 517300 9776 Sy.x 239.7 37.37
52
Többszörös logisztikus regresszió
Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
53
A többszörös elemzés a klinikai orvostudományban, egy példa
Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása
54
Az alap szérum IL-6 szint és a 3 éves mortalitás
55
A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői
56
Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.
57
A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint
58
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelöljük (dummy variable), ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1. SD növekedésre vonatkozik a kapcsolat, az OR.
59
ÚJ FOGALMAK megfigyeléses vizsgálat prospektív vizsgálat
retrospektív vizsgálat keresztmetszeti vizsgálat randomizált vizsgálat multicentrikus vizsgálat végpont (end-point), outcome variable metaanalízis túlélési analízis censored data Kaplan-Meier módszer log-rank teszt adjusztált (illesztett, korrigált, adjusted) analízis többváltozós regressziós analízis logisztikus regressziós analízis Poisson regressziós model Cox regressziós model
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.