Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti.

Hasonló előadás


Az előadások a következő témára: "KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti."— Előadás másolata:

1 KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ
Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A korreláció és a regresszió között sok a hasonlóság, ha a korreláció mérőszáma az un. korrelációs koefficiens szignifikáns, akkor mindig szignifikáns lesz a lineáris regresszió is. A leggyakrabban használt és az orvosi irodalomban igen gyakran megtalálható eljárások.

2 A KORRELÁCIÓ A két változó közötti egyenes arányú, fordított arányú vagy hiányzó kapcsolat (pozitív, negatív vagy nem létező korreláció) lehet. Becslése az értékek ábrázolása alapján lehetséges. ELÔSZÖR MINDIG RAJZOLJUNK!!!

3 PÉLDA Krónikus hepatitis C-ben szenvedô betegekben mértük interferon alpha kezelés elôtt és közben a HCV RNS plazmaszintet, két komplement fehérje, a C9 és a C1-INH szérumkoncentrációját és a komplement rendszer egyik aktiválódási termékét, a C5b-9-et. Szerettük volna tudni, hogy van-e kapcsolat ezek között a változók között (Bíró L. et al. Immunology Letters, 2000).

4 1. Látszólag nincs korreláció, az adatok egy körrel írhatók körül

5 2. Van pozitív irányú kapcsolat, az adatok ellipszis szerű síkidommal írhatók körül

6 3. Gyenge negatív irányú kapcsolat

7

8

9

10 A korrelációs koefficiens legalacsonyabb értéke: 0 (nincs lineáris korreláció), a legmagasabb +1,0 vagy -1,0 (tökéletes pozitív, ill. negatív lineáris korreláció) A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva) A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erôsen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni

11 A korreláció (a két változó közötti kapcsolat) erôsségének megítélése 1. A leegyszerűsített megoldás

12

13

14 A determináltsági koefficiens (r2)
Az r2 érték azt fejezi ki, hogy az egyik változó változásai várhatóan milyen mértékben járnak a másik változó változásaival, vagyis mennyire lehet az egyikből a másikat előre jelezni. Ha az r=0,50, az r2=0,25, akkor 25%-ban lehet előre jelezni az egyik változóból a másikat, és fordítva (a korrelációnál a két változó felcserélhető). Példánkban a két komplement fehérje (C9 és C1-INH) között az r=0,62, az r2=0,38, tehát a C9 szintje alapján 39%-ban lehet a C1-INH szintet, ill. a C1-INH szintje alapján a C9 szintet előre jelezni.

15 Az r CI-a Az r értékeknek is van eloszlása, ez azonban nem szimmetrikus és csak nagyobb (N10) esetszámnál értékelhetô. Minden program megcsinálja, kézzel elég macerás, A C9 és C1-INH koncentráció közötti r (0,62) CI-a 0,42-0,76.

16 A korrelációs koefficiens szignifikanciája

17 a C9-C1-INH példánkban

18 A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei I.
A vizsgált egyének (állatok, minták, stb) egy nagyobb populációból véletlenszerűen lettek kiválasztva Minden vizsgált egyénnél megmérték mindkét (x és y) változót (a hiányzó értékekkel a legtöbb számítógépes program boldogul) A megfigyelések egymástól függetlenek A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk)

19 A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II.
Az x és y értékeknek is függetleneknek kell lenni egymástól (l. a HCV RNS változási példát fent). Ha az x változó szisztematikusan változik, pl. idô, koncentráció vagy dózis) akkor ne korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk.

20 A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei III.
Az x és az y végig egy irányban kell változzon. Pl. az r - nek semmi értelme akkor, ha az x növekedésével egy darabig nô az y, de a további növelés után csökkenni kezd. sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.

21

22

23

24 A nem-paraméteres korreláció számítás, a Spearman féle rang korreláció (másik gyakran használt próba a Kendall féle rang korreláció)

25 A korrelációs számítás legfontosabb szabálya: a szignifikáns korreláció sem jelent ok-okozati kapcsolatot Ha x és y között erôs korreláció van, akkor az lehet azért, mert 1. az y változásai okozzák az x változásait 2. a x változásai okozzák az y változásait 3. egy harmadik faktor mind az x-et, mind az y-t egy irányba (vagy ellenkező irányba) befolyásolja. Ez a leggyakoribb!!!

26 A REGRESSZIÓ A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. lineáris és nem-lineáris regresszió egyszerű és többszörös regresszió jelen kurzus tárgya: egyszerű lineáris regresszió

27 PÉLDA Az allergének aktiválják a komplement rendszert az un. klasszikus reakcióúton át. Ennek elsô lépése a C1 makromolekula belsô, enzimatikus aktivációja. A második lépésben a C1 enzim (C1 eszteráz) egyik szubsztrátját, a C4-et C4b-vé és C4a-vá hasítja el, majd a C4b tovább bomlik és C4d keletkezik belőle. Egy speciális, monoklonális ellenanyagokkal működő kit lehetővé teszi a C4d szint mérést szérumban. Mi egy allergén (Parietaria judaica=falfű) különbözô dózisaival (0,05, 0,10, 0,20, 0,40 mg/ml szérum) inkubáltuk 37 oC-on 60 percig egy vizsgált egyén szérumát és minden mintában megmértük a keletkezett C4d mennyiségét (µg/ml)

28

29

30 Látható, hogy minél több allergént adtunk a szérumhoz, annál több C4d keletkezett. Kérdésünk a korrelációs számítással szemben, amikor csak azt kérdeztük volna, hogy kapcsolatban áll-e egymással az allergén dózisa és a keletkezett C4d mennyisége, most azt is tudni szeretnénk, hogy az allergén egy adott dózisa (x mg/ml) milyen mértékű (y µg/ml) C4d képzôdést indukál a szérumban. Ha az x és az y között lineáris vagy ezt megközelítő összefüggés látszik (példánkban ez a helyzet), akkor a kérdésre a (egyszerű vagy egyszeres, simple) lineáris regresszió módszerével kaphatunk választ.

31

32 A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehetô legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függôleges távolsága négyzeteinek összege nagyobb volna.

33 Tehát a vonal úgy készül, hogy egy képlet alapján kiszámolja a gép, de természetesen mi is kiszámolhatjuk a lineáris regressziós egyenes egyenletét (meredekség és metszési pont az y tengelyen) és ennek alapján ábrázoljuk az egyenest. Az elsô és harmadik pont elég távol esik a regressziós egyenestôl ahhoz, hogy a pontok és egyenes közötti függôleges távolságokat is ábrázoljuk. E távolságok négyzetének összege kell minimális legyen. A távolságokat reziduumnak (residual) nevezzük, ezek négyzetének összege a reziduumok varianciája, melynek négyzetgyöke a reziduumok SD-je. A regressziós egyenes az az egyenes, amelynél a reziduumok összegének az SD-je a legkisebb. Egyes programok ezt is kiszámítják

34 A számítás segítségével meghatározhatjuk az egyenesek konfidencia intervallumát is, tehát azokat a határokat, amelyek közé azok a regressziós egyenesek esnének 95%-os valószínűséggel, amelyek más olyan kísérletekhez tartoznának, amelyekben ugyanezt az összefüggést vizsgálnánk

35

36 A regressziós egyenes egyenlete

37

38 példánkban

39 A lineáris regressziós egyenes szignifikanciája:
A null-hipotézis: nem áll fenn lineáris összefüggés a parietária allergén dózisa és a képzôdött C4d mennyisége között. Ha ez igaz, akkor a regressziós egyenes az x tengellyel párhuzamos lenne, tehát a meredeksége: 0. A P érték azt jelenti, hogy ha a null-hipotézis igaz, akkor mi annak a valószínűsége, hogy véletlenül a 0-tól az észlelt mértékben eltérô, vagy ennél még nagyobb meredekséget észlelnénk. Ha a P érték kicsi, akkor valószínűtlen, hogy az észlelt összefüggés véletlen koincidencia eredménye lenne. Példánkban a P érték: , tehát kevesebb, mint 2,5% annak a valószínűsége, hogy az allergén dózisától nem függ a szérumban képzôdô C4d mennyisége. A szignifikancia kiszámítása több módon történhet. 1) A t eloszlás alapján, amikor a t érték a b abszolút értéke és ennek a SE.-jának a hányadosa. (df=N-2). A kapott értékbôl egyszempontos variancia analízist végzek és ekkor az F próba adja meg a szignifikancia értékét. Ez utóbbi fontos lesz a többszörös lineáris regresszió megértéséhez.

40 A lineáris regresszió elvégezhetôségének feltételei
Az x és az y értékek nem felcserélhetôk, az x értékek alapján szeretnénk elôre jelezni az y értékeket, fordítva ez nem lehetséges, mert a kísérletben az x-et variáljuk, vagy idôben esetleg logikailag megelôzi az y-t (pl. elôbb adtuk hozzá a szérumhoz az allergént és csak ezután képzôdött a C4d) Az ábrázolás szerint az x és y értékek között lineáris összefüggés áll fenn. Ennek eldöntésre a legtöbb program lehetôvé teszi a reziduumok ábrázolását is, ennek elemzése elôsegítheti annak az eldöntését, hogy valóban fennáll-e az x és y között a lineáris viszony.

41

42 A lineáris regresszió elvégezhetôségének feltételei (folyt.)
Bár matematikailag az összefüggés a végtelen kicsi és a végtelen nagy irányban is megmarad az x és y között, lehetőleg csak a megfigyelések által meghatározott tartományban számoljunk ezzel, annál is inkább, mert az y értékek akár negatívvá is válhatnak, amelynek biológiailag legtöbbször semmi értelme sincs. A reziduumok távolsága a regressziós egyenestől normál eloszlású vagy ezt megközelítő legyen Minden vizsgált minta egymástól függetlenül lett kiválasztva. Az x érékek és az y értékeket egymástól függetlenül határoztuk meg. Tehát a korrelációhoz hasonlóan nem szabad lineáris regressziót számolni egy változó kiinduló értéke és ennek változásának mértéke között, hiszen az utóbbi kiszámításánál az elôzôt is figyelembe vettük (l. a HCV RNS példát a korrelációnál)

43 A x értékek kiszámítása az y értékek alapján (standard görbe a laboratóriumokban)
Ez a laboratóriumok mindennapi feladata. Pl. van egy standard magas ismert IgG tartamú szérumom. Ebből hígítási sort készítek és megmérem benne Mancini módszerrel a keletkezett precipitációs körök átmérőjét mm-ben kifejezve. Ezután elkészítem a standard görbét: az x tengelyre az egyes hígítások ismert IgG koncentrációja jön, a y tengelyre pedig a precipitációs körök átmérôje. Az ismeretlen mintákban kapott átmérőt a y tengelyre viszem majd meghatározom az ehhez tartozó x értéket, tehát IgG koncentrációt. Ez számítógéppel (hiszen ismert az x és y közötti összefüggés egyenlet) végtelenül egyszerű. Elvileg lehet extrapolálni is, tehát a standard görbénél kisebb vagy nagyobb tartományban dolgozni, itt azonban igen óvatosnak kell lenni.

44

45

46

47 Mi történik, ha az x és az y közötti összefüggés nem lineáris?
1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni.

48 NEM LINEÁRIS REGRESSZIÓ
Az eljárást a klinikumban ritkán használjuk, az orvosbiológiai tudományokban azonban nagyon fontos eljárás, pl. a ligand receptorról való disszociációja vagy a rádióaktív izotóp bomlása, vagy a gyógyszerek májban történô metabolizmusa, ill. vesében történő kiürítése egy nem-lineáris összefüggés, szerint, az exponenciális model szerint (pl. a kiválasztott gyógyszer mennyisége a gyógyszer plazmakoncentrációjának függvénye, ahogy ez csökken a kiválasztás üteme is lelassul. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálat, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.

49 x y 2.00 4.00 6.00 8.00 10.00 15.00 874.00 20.00 754.00 25.00 653.00 30.00 567.00 35.00 604.00 40.00 587.00

50

51 Absolute Sum of Squares 517300 9776
one-site two-site Degrees of Freedom 9 7 0.6453 0.9933 Absolute Sum of Squares 517300 9776 Sy.x 239.7 37.37

52 Többszörös logisztikus regresszió
Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.

53 A többszörös elemzés a klinikai orvostudományban, egy példa
Volpato, S et al: Cardiovascular Disease, Interleukin-6 and Risk of Mortality in Older Women. The Women’s Health and Aging Study. Circulation, 103, 947, 2001 620 >65 éves nő, anamnézis, orvosi vizsgálat, vérvétel, különböző gyulladásos markerek meghatározása: IL-6, CRP, albumin 3 éves követés (PROSPEKTÍV VIZSGÁLAT), a halálozás és ennek okának regisztrálása

54 Az alap szérum IL-6 szint és a 3 éves mortalitás

55 A különböző IL-6 szérumszintű betegek demográfiai és egészségügyi jellemzői

56 Kérdés Mennyivel nagyobb kockázatuk (relatív rizikó) a magas IL-6 szintű egyéneknek a közepes és az alacsony IL-6 szintű egyénekhez viszonyítva arra, hogy 3 éven belül meghaljanak? Prospektív vizsgálat, RR számolható. A feladat az, hogy matematikai módszerekkel kiküszöböljük az egyéb tényezőket, amelyek a három IL-6 szintű csoportban különböznek és így adjunk választ a fenti kérdésre Ebből a célból különböző modelleket építünk fel, és a logisztikus regresszió módszerével végezzük el a számítást.

57 A 3 éves mortalitás nyers és adjusztált relatív rizikója (95% CI) az IL-6 szérumszint szerint

58 A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelöljük (dummy variable), ha folyamatos, akkor egy bizonyos egységnyi növekedésre pl. 1. SD növekedésre vonatkozik a kapcsolat, az OR.

59 ÚJ FOGALMAK megfigyeléses vizsgálat prospektív vizsgálat
retrospektív vizsgálat keresztmetszeti vizsgálat randomizált vizsgálat multicentrikus vizsgálat végpont (end-point), outcome variable metaanalízis túlélési analízis censored data Kaplan-Meier módszer log-rank teszt adjusztált (illesztett, korrigált, adjusted) analízis többváltozós regressziós analízis logisztikus regressziós analízis Poisson regressziós model Cox regressziós model


Letölteni ppt "KÉT VÁLTOZÓ KÖZÖTTI KAPCSOLAT MÉRÉSI MÓDJAI: A KORRELÁCIÓ ÉS A REGRESSZIÓ Az alapvető kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti."

Hasonló előadás


Google Hirdetések