Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korreláció, lineáris regresszió

Hasonló előadás


Az előadások a következő témára: "Korreláció, lineáris regresszió"— Előadás másolata:

1 Korreláció, lineáris regresszió
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

2 Két változó közötti kapcsolat vizsgálata
Diszkrét valószínűségi változók → Khi-négyzet próba Folytonos valószínűségi változók → Korreláció és regresszió

3 Két változó között lehet…
Függvényszerű (determinisztikus) kapcsolat Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót Pl.: Celsius fok és Fahrenheit átváltás Stochasztikus kapcsolat A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ Pl.: koleszterin és a triglicerid szint Függetlenség Nincs kapcsolat Pl.: koleszterin szint és az irányítószám

4 Megválaszolható kérdések
Független-e egymástól az életkor és a vércukor szint? Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között? A pulzusszám miképp befolyásolhatja a vérnyomást?

5 Korreláció és regresszió
A két változó közötti kapcsolat léte és erőssége → Korreláció A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis

6 Korreláció Az összetartozó (x, y) pontpárok ábrázolása
Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció Az összefüggés irányától függően pozitív vagy negatív Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)

7 Korrelációs együttható (r) (Pearson-r, Product-moment correlation)
A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük r értéke -1 és 1 közötti Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen) Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!) Minél szorosabb a kapcsolat, │r│ annál közelebb van 1-hez Ha előjele + növekvő, ha – csökkenő a kapcsolat tendenciája Felsővonásos betűk – tapasztalati várható érték Sx, Sy – tapasztalati korrigált szórásnégyzet

8 A korreláció… … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől) … szimmetrikus (x korrelációja y-nal = y korrelációja x-szel) … a lineáris összefüggést méri, nem az összefüggést általában … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!)

9 Grafikus ellenőrzés (pontfelhő diagram, scatter plot)
Linearitás Outlierek Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r? Két ábrából melyiken szorosabb az összefüggés? Mindkét ábrán r=0,7 A felső ábrán kisebbek a szórások Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!

10 Outlierek, linearitás Regressziós egyenes: y=3+0,5x r = 0,816 E = 7,5
d = 4,12 2. nem lineáris kapcsolat! Outlier nélkül 3. r=1 4. r=0

11 Mi a teendő? Outlierek Nem linearitás
Szubjektív mi az outlier (ált. 2 SD-n kívül) Ellenőrizni az adatbázist Tényleg valós érték? Elütés? Mérési hiba? Ha valós adat – egyedi mérlegelés Nem üdvözítő automatikusan kizárni Ha nagyon torzítja az összképet lehetséges Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás Ha nem monoton, nincs értelme a korrelációnak. Ha monoton… Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling)) Nem paraméteres teszt végzése (Spearman rang teszt) Kevésbé szenzitív Keresni egy függvényt, ami illeszkedik rá, helyesen leírja Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó.

12 Kizárás Jobb egérgombbal előhívható

13 Új változó létrehozása, logaritmizálás

14 R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol
Vizsgálat a dohányzás és a tüdőrák kapcsolatára Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban A korreláció 0,73 volt a 11 pontra Országok betegszenek meg, vagy emberek?

15 Ökológiai korreláció Egyének Csoportok Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét. Kerülendő! Sohasem szabad két populációból származó mintát keverni!

16 Determinációs együttható (R2)
Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza Pl.: r=0,5 R2= 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik Ha r=1, R2= 100%

17 Lineáris korrelációszámítás feltételei
Mindkét változó folytonos, normál eloszlású legyen Hiányában Spearman rang korreláció végezhető A minták választása legyen véletlen mintavétel Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg) Minden x értékhez tartozzon egy y érték Ennek hiányát a statisztikai programok tudják kezelni X és y értékei egymástól függetlenek legyenek Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai

18 Korrelációs együttható szignifikanciája
Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság) ezt az elméleti korrelációs együttható írja le (ρ –rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját → a hibából számolom a szignifikanciát

19 Korrelációs együttható szignifikanciája II
H0 – a korrelációs együttható a populációban 0 H1 – ρ nem = 0 N-2 szabadságfokú t-statisztika felhasználása Döntés a p-érték szerint Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H0-t A populáció korrelációs együtthatója r és nagyobb, mint 0. (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik) (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)

20 Lineáris regresszió A változók közötti kapcsolatot egy függvénnyel fejezzük ki Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki Azt fejezi ki, hogy a függő változó adott értékéhez milyen átlagú független változó tartozik Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás)

21 y változó x változóra adott regressziós egyenes
A képlet általánosan: y=a+bx y – függő változó x – független változó a – y tengelymetszet b – meredekség (tg α) Az az egyenes képlete, ami köré csoportosulnak a pontok

22 Legkisebb négyzetek módszere
A legjobban illeszkedő egyenes megtalálására Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb Ezek a távolságok a reziduálisok. Minél szorosabb az összefüggés, annál kisebbek Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum

23 Elérési útvonal STATISTICA-ban:
Statistics>>Basic statistics and Tables>> Correlation matrices Leginformatívabb módon:

24

25 Regressziós egyenes képlete
→ ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció

26 Grafikus ellenőrzés másik módja: Graphs>>Scatterplots
Itt is kérhető statisztika

27

28 Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket
(ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )

29 Az r értéke 0,6372-ről 0,4245-re csökkent.
(Spearman rang korreláció az előnyösebb megoldás)

30 Két korreláció összehasonlítása
Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel? Statistics>>Basic Statistics and Tables>>Difference test: r H0 – egyformán szoros a két összefüggés

31 Nem paraméteres korreláció (rang korreláció)
Spearman-féle ~ Sorrendbe állítja a két változó értékeit, a rangpárokkal számol Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol) Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~ Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk Értéke ált. kisebb, mint a Spearman-f r-nek

32 Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…)
3 féle kimutatás Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Áttekintés, minden-mindennel Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)

33 Mátrix: Detailed report:

34 Köszönöm a figyelmet!


Letölteni ppt "Korreláció, lineáris regresszió"

Hasonló előadás


Google Hirdetések