Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korreláció, lineáris regresszió

Hasonló előadás


Az előadások a következő témára: "Korreláció, lineáris regresszió"— Előadás másolata:

1 Korreláció, lineáris regresszió
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

2 Két változó közötti kapcsolat vizsgálata
Diszkrét valószínűségi változók → Khi-négyzet próba Folytonos valószínűségi változók → Korreláció és regresszió

3 Két változó között lehet…
Függvényszerű (determinisztikus) kapcsolat Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót Pl.: Celsius fok és Fahrenheit átváltás Stochasztikus kapcsolat A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ Pl.: koleszterin és a triglicerid szint Függetlenség Nincs kapcsolat Pl.: koleszterin szint és az irányítószám

4 Megválaszolható kérdések
Független-e egymástól az életkor és a vércukor szint? Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között? A pulzusszám miképp befolyásolhatja a vérnyomást?

5 Korreláció és regresszió
A két változó közötti kapcsolat léte és erőssége → Korreláció A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis

6 Korreláció Az összetartozó (x, y) pontpárok ábrázolása
Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció Az összefüggés irányától függően pozitív vagy negatív Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)

7 Korrelációs együttható (r) (Pearson-r, Product-moment correlation)
A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük r értéke -1 és 1 közötti Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen) Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!) Minél szorosabb a kapcsolat, │r│ annál közelebb van 1- hez (azonos esetszám!) Ha előjele + = pozitív korreláció, egyenes arányosság, ha – = negatív, fordított arányosság Felsővonásos betűk – tapasztalati várható érték Sx, Sy – tapasztalati korrigált szórásnégyzet

8 A korreláció… … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől) … szimmetrikus (x korrelációja y-nal = y korrelációja x- szel) … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!) … a lineáris összefüggést méri, nem az összefüggést általában

9 Grafikus ellenőrzés (pontfelhő diagram, scatter plot)
Linearitás Outlierek Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r? Két ábrából melyiken szorosabb az összefüggés? Mindkét ábrán r=0,7 A felső ábrán kisebbek a szórások Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!

10 Outlierek, linearitás Regressziós egyenes: y=3+0,5x r = 0,816 E = 7,5
d = 4,12 2. nem lineáris kapcsolat! Outlier nélkül 3. r=1 4. r=0

11 Mi a teendő? Outlierek Szubjektív mi az outlier (ált. 2 SD-n kívül)
Ellenőrizni az adatbázist Tényleg valós érték? Elütés? Mérési hiba? Ha valós adat – egyedi mérlegelés Nem üdvözítő automatikusan kizárni Ha nagyon torzítja az összképet lehetséges Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás Ha nem monoton (nem azonos irányú a változás), nincs értelme a korrelációnak. Ha monoton… Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling)) Nem paraméteres teszt végzése (pl.: Spearman rang teszt) Kevésbé szenzitív Keresni egy függvényt, ami illeszkedik rá, helyesen leírja Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó.

12 Kizárás Jobb egérgombbal előhívható

13 Új változó létrehozása, logaritmizálás

14 Lineáris korrelációszámítás feltételei
Mindkét változó folytonos, normál eloszlású legyen Hiányában Spearman rang korreláció végezhető A minták választása legyen véletlen mintavétel Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg) Minden x értékhez tartozzon egy y érték Ennek hiányát a statisztikai programok tudják kezelni X és y értékei egymástól függetlenek legyenek Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai Azonos populációból származzanak a minták

15 R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol
Vizsgálat a dohányzás és a tüdőrák kapcsolatára Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban A korreláció 0,73 volt a 11 pontra Országok betegszenek meg, vagy emberek?

16 Ökológiai korreláció Egyének Csoportok Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét. Kerülendő! Sohasem szabad két populációból származó mintát keverni!

17 Determinációs együttható (R2) (determináltsági koefficiens)
Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza Pl.: r=0,5 R2= 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik Ha r=1, R2= 100%

18 Korrelációs együttható szignifikanciája
Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság) ezt az elméleti korrelációs együttható írja le (ρ – rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját, konfidencia intervallumát → a hibából számolom a szignifikanciát

19 Korrelációs együttható szignifikanciája II
H0 – a korrelációs együttható a populációban 0 H1 – ρ nem = 0 N-2 szabadságfokú t-statisztika felhasználása Döntés a p-érték szerint Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H0-t A populáció korrelációs együtthatója r és nagyobb, mint 0. (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik) (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)

20 Elérési útvonal STATISTICA- ban:
Statistics>>Basic statistics and Tables>> Correlation matrices Leginformatívabb módon:

21

22 Regressziós egyenes képlete
→ ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció

23 Grafikus ellenőrzés másik módja: Graphs>>Scatterplots
Itt is kérhető statisztika

24

25 Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket
(ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )

26 Az r értéke 0,6372-ről 0,4245-re csökkent.
(Spearman rang korreláció az előnyösebb megoldás)

27 Két korreláció összehasonlítása
Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel? Statistics>>Basic Statistics and Tables>>Differenc e test: r H0 – egyformán szoros a két összefüggés

28 Nem paraméteres korreláció (rang korreláció)
Spearman-féle ~ Sorrendbe állítja a két változó értékeit, a rangpárokkal számol Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol) Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~ Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk Értéke ált. kisebb, mint a Spearman-f r-nek

29 Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…)
3 féle kimutatás Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Áttekintés, minden mindennel Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)

30 Mátrix: Detailed report:

31 Lineáris regresszió A változók közötti kapcsolatot egy függvénnyel fejezzük ki Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki – nem szimmetrikus! Nem felcserélhető! Független változóból több is lehet -> többváltozós lineáris regresszió Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás) – a megfigyelési tartományban

32 y változó x változóra adott regressziós egyenes

33 Legkisebb négyzetek módszere
A legjobban illeszkedő egyenes megtalálására Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb Ezek a távolságok a reziduálisok (ε). Minél szorosabb az összefüggés, annál kisebbek Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum

34 A lineáris regresszió feltételei
A minták függetlenek legyenek A változóknak normál eloszlásúnak legyenek A függő változó és a független változó(k) közötti összefüggés lineáris legyen A reziduálisok ábrázolásával ellenőrizhető A reziduálisok normál eloszlásúak A reziduálisok 0 körül szórjanak, ne legyen tendencia (homoszkedaszticitás)

35 Elérés STATISTICA-ban: Statistics/Multiple regression
1 - ((1 - Rsq)(N - 1 )/ (N - k - 1)) R négyzet – a függő változó varianciájának hány százalékát magyarázzák a független változó(k) – itt kb. 7,7% F-próba és a hozzá tartozó p-érték annak meghatározására, hogy ez a megmagyarázott hányad szignifikáns-e Standardizált B – több változó esetén lehetővé teszi az összehasonlítást tengelymetszet meredekség H0 – a koefficiens = 0 Az adott modellen belül egy-egy független változó hatása. A regressziós együtthatók parciálisak – a többi független változó hatása kontroll alatt van Logkreat= 3,94+ kor*0,01

36 Modell feltételek ellenőrzése a reziduálisokkal - Residuals/assumptions/prediction fül full
„perform residual analysis” Reziduálisok eloszlása normális

37 Modell feltételek ellenőrzése a reziduálisokkal -
0 körül szórnak Nincs szisztematikus eltérés

38 Köszönöm a figyelmet!


Letölteni ppt "Korreláció, lineáris regresszió"

Hasonló előadás


Google Hirdetések