Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika.

Hasonló előadás


Az előadások a következő témára: "Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika."— Előadás másolata:

1 Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

2 Két változó közötti kapcsolat vizsgálata Diszkrét valószínűségi változók → Khi-négyzet próba Folytonos valószínűségi változók → Korreláció és regresszió

3 Két változó között lehet… Függvényszerű (determinisztikus) kapcsolat Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót Pl.: Celsius fok és Fahrenheit átváltás Stochasztikus kapcsolat A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ Pl.: koleszterin és a triglicerid szint Függetlenség Nincs kapcsolat Pl.: koleszterin szint és az irányítószám

4 Megválaszolható kérdések Független-e egymástól az életkor és a vércukor szint? Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között? A pulzusszám miképp befolyásolhatja a vérnyomást?

5 Korreláció és regresszió A két változó közötti kapcsolat léte és erőssége → Korreláció A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis

6 Korreláció Az összetartozó (x, y) pontpárok ábrázolása Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció Az összefüggés irányától függően pozitív vagy negatív Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)

7 Korrelációs együttható (r) (Pearson-r, Product-moment correlation) A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük r értéke -1 és 1 közötti Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen) Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!) Minél szorosabb a kapcsolat, │r│ annál közelebb van 1- hez Ha előjele + növekvő, ha – csökkenő a kapcsolat tendenciája Felsővonásos betűk – tapasztalati várható érték S x, S y – tapasztalati korrigált szórásnégyzet

8 A korreláció… … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől) … szimmetrikus (x korrelációja y-nal = y korrelációja x-szel) … a lineáris összefüggést méri, nem az összefüggést általában … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!)

9 Grafikus ellenőrzés (pontfelhő diagram, scatter plot) Linearitás Outlierek Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r? Két ábrából melyiken szorosabb az összefüggés? Mindkét ábrán r=0,7 A felső ábrán kisebbek a szórások Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!

10 Outlierek, linearitás Regressziós egyenes: y=3+0,5x r = 0,816 E = 7,5 d = 4,12 2. nem lineáris kapcsolat! Outlier nélkül 3. r=1 4. r=0

11 Mi a teendő? Outlierek Szubjektív mi az outlier (ált. 2 SD-n kívül) Ellenőrizni az adatbázist Tényleg valós érték? Elütés? Mérési hiba? Ha valós adat – egyedi mérlegelés Nem üdvözítő automatikusan kizárni Ha nagyon torzítja az összképet lehetséges Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás Ha nem monoton, nincs értelme a korrelációnak. Ha monoton… Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling)) Nem paraméteres teszt végzése (Spearman rang teszt) Kevésbé szenzitív Keresni egy függvényt, ami illeszkedik rá, helyesen leírja Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó.

12 Jobb egérgombbal előhívható Kizárás

13 Új változó létrehozása, logaritmizálás

14 R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol. 3 (1955) 1-50 Vizsgálat a dohányzás és a tüdőrák kapcsolatára Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban A korreláció 0,73 volt a 11 pontra Országok betegszenek meg, vagy emberek?

15 Ökológiai korreláció Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét. Kerülendő! Sohasem szabad két populációból származó mintát keverni! EgyénekCsoportok

16 Determinációs együttható (R 2 ) Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza Pl.: r=0,5 R 2 = 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik Ha r=1, R 2 = 100%

17 Lineáris korrelációszámítás feltételei Mindkét változó folytonos, normál eloszlású legyen Hiányában Spearman rang korreláció végezhető A minták választása legyen véletlen mintavétel Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg) Minden x értékhez tartozzon egy y érték Ennek hiányát a statisztikai programok tudják kezelni X és y értékei egymástól függetlenek legyenek Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai

18 Korrelációs együttható szignifikanciája Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság) ezt az elméleti korrelációs együttható írja le (ρ – rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját → a hibából számolom a szignifikanciát

19 Korrelációs együttható szignifikanciája II H 0 – a korrelációs együttható a populációban 0 H 1 – ρ nem = 0 N-2 szabadságfokú t-statisztika felhasználása Döntés a p-érték szerint Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H 0 -t A populáció korrelációs együtthatója r és nagyobb, mint 0. (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik) (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)

20 Lineáris regresszió A változók közötti kapcsolatot egy függvénnyel fejezzük ki Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki Azt fejezi ki, hogy a függő változó adott értékéhez milyen átlagú független változó tartozik Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás)

21 A képlet általánosan: y=a+bx y – függő változó x – független változó a – y tengelymetszet b – meredekség (tg α) Az az egyenes képlete, ami köré csoportosulnak a pontok y változó x változóra adott regressziós egyenes

22 Legkisebb négyzetek módszere A legjobban illeszkedő egyenes megtalálására Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb Ezek a távolságok a reziduálisok. Minél szorosabb az összefüggés, annál kisebbek Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum

23 Elérési útvonal STATISTICA- ban: Statistics>>Basic statistics and Tables>> Correlation matrices Leginformatívabb módon:

24

25 Regressziós egyenes képlete → ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció

26 Grafikus ellenőrzés másik módja: Graphs>>Scatterplots Itt is kérhető statisztika

27

28 Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket (ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )

29 Az r értéke 0,6372-ről 0,4245-re csökkent. (Spearman rang korreláció az előnyösebb megoldás)

30 Két korreláció összehasonlítása Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel? Statistics>>Basic Statistics and Tables>>Difference test: r H 0 – egyformán szoros a két összefüggés

31 Nem paraméteres korreláció (rang korreláció) Spearman-féle ~ Sorrendbe állítja a két változó értékeit, a rangpárokkal számol Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol) Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~ Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk Értéke ált. kisebb, mint a Spearman-f r-nek

32 Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…) 3 féle kimutatás Áttekintés, minden-mindennel Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)

33 Mátrix: Detailed report:

34 Köszönöm a figyelmet!


Letölteni ppt "Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika."

Hasonló előadás


Google Hirdetések