Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika.

Hasonló előadás


Az előadások a következő témára: "Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika."— Előadás másolata:

1 Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

2 Két változó közötti kapcsolat vizsgálata  Diszkrét valószínűségi változók → Khi-négyzet próba  Folytonos valószínűségi változók → Korreláció és regresszió

3 Két változó között lehet…  Függvényszerű (determinisztikus) kapcsolat  Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót  Pl.: Celsius fok és Fahrenheit átváltás  Stochasztikus kapcsolat  A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ  Pl.: koleszterin és a triglicerid szint  Függetlenség  Nincs kapcsolat  Pl.: koleszterin szint és az irányítószám

4 Megválaszolható kérdések  Független-e egymástól az életkor és a vércukor szint?  Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között?  A pulzusszám miképp befolyásolhatja a vérnyomást?

5 Korreláció és regresszió  A két változó közötti kapcsolat léte és erőssége → Korreláció  A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis

6 Korreláció  Az összetartozó (x, y) pontpárok ábrázolása  Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció  Az összefüggés irányától függően pozitív vagy negatív  Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)

7 Korrelációs együttható (r) (Pearson-r, Product-moment correlation)  A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük  r értéke -1 és 1 közötti  Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen)  Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!)  Minél szorosabb a kapcsolat, │r│ annál közelebb van 1- hez (azonos esetszám!)  Ha előjele + = pozitív korreláció, egyenes arányosság, ha – = negatív, fordított arányosság Felsővonásos betűk – tapasztalati várható érték S x, S y – tapasztalati korrigált szórásnégyzet

8 A korreláció…  … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől)  … szimmetrikus (x korrelációja y-nal = y korrelációja x- szel)  … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!)  … a lineáris összefüggést méri, nem az összefüggést általában

9 Grafikus ellenőrzés (pontfelhő diagram, scatter plot)  Linearitás  Outlierek  Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r?  Két ábrából melyiken szorosabb az összefüggés?  Mindkét ábrán r=0,7  A felső ábrán kisebbek a szórások  Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!

10 Outlierek, linearitás  Regressziós egyenes: y=3+0,5x  r = 0,816  E = 7,5  d = 4,12  2. nem lineáris kapcsolat!  Outlier nélkül  3. r=1  4. r=0

11 Mi a teendő? Outlierek  Szubjektív mi az outlier (ált. 2 SD-n kívül)  Ellenőrizni az adatbázist  Tényleg valós érték? Elütés? Mérési hiba?  Ha valós adat – egyedi mérlegelés  Nem üdvözítő automatikusan kizárni  Ha nagyon torzítja az összképet lehetséges  Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás  Ha nem monoton (nem azonos irányú a változás), nincs értelme a korrelációnak. Ha monoton…  Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling))  Nem paraméteres teszt végzése (pl.: Spearman rang teszt)  Kevésbé szenzitív  Keresni egy függvényt, ami illeszkedik rá, helyesen leírja  Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó.

12 Jobb egérgombbal előhívható Kizárás

13 Új változó létrehozása, logaritmizálás

14 Lineáris korrelációszámítás feltételei  Mindkét változó folytonos, normál eloszlású legyen  Hiányában Spearman rang korreláció végezhető  A minták választása legyen véletlen mintavétel  Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg)  Minden x értékhez tartozzon egy y érték  Ennek hiányát a statisztikai programok tudják kezelni  X és y értékei egymástól függetlenek legyenek  Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai  Azonos populációból származzanak a minták

15  R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol. 3 (1955) 1-50  Vizsgálat a dohányzás és a tüdőrák kapcsolatára  Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban  A korreláció 0,73 volt a 11 pontra  Országok betegszenek meg, vagy emberek?

16 Ökológiai korreláció  Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét.  Kerülendő! Sohasem szabad két populációból származó mintát keverni! EgyénekCsoportok

17 Determinációs együttható (R 2 ) (determináltsági koefficiens)  Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza  Pl.: r=0,5 R 2 = 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik  Ha r=1, R 2 = 100%

18 Korrelációs együttható szignifikanciája  Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság)  ezt az elméleti korrelációs együttható írja le (ρ – rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját, konfidencia intervallumát → a hibából számolom a szignifikanciát

19 Korrelációs együttható szignifikanciája II  H 0 – a korrelációs együttható a populációban 0  H 1 – ρ nem = 0  N-2 szabadságfokú t-statisztika felhasználása  Döntés a p-érték szerint  Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H 0 -t  A populáció korrelációs együtthatója r és nagyobb, mint 0.  (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik)  (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)

20  Elérési útvonal STATISTICA- ban: Statistics>>Basic statistics and Tables>> Correlation matrices  Leginformatívabb módon:

21

22 Regressziós egyenes képlete → ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció

23 Grafikus ellenőrzés másik módja: Graphs>>Scatterplots Itt is kérhető statisztika

24

25 Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket (ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )

26 Az r értéke 0,6372-ről 0,4245-re csökkent. (Spearman rang korreláció az előnyösebb megoldás)

27 Két korreláció összehasonlítása  Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel?  Statistics>>Basic Statistics and Tables>>Differenc e test: r  H 0 – egyformán szoros a két összefüggés

28 Nem paraméteres korreláció (rang korreláció) Spearman-féle ~  Sorrendbe állítja a két változó értékeit, a rangpárokkal számol  Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol)  Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton  Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~  Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk  Értéke ált. kisebb, mint a Spearman-f r-nek

29  Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…)  3 féle kimutatás Áttekintés, minden mindennel Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)

30 Mátrix: Detailed report:

31 Lineáris regresszió  A változók közötti kapcsolatot egy függvénnyel fejezzük ki  Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól  Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki – nem szimmetrikus! Nem felcserélhető!  Független változóból több is lehet -> többváltozós lineáris regresszió  Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás) – a megfigyelési tartományban

32 y változó x változóra adott regressziós egyenes 

33 Legkisebb négyzetek módszere  A legjobban illeszkedő egyenes megtalálására  Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb  Ezek a távolságok a reziduálisok (ε). Minél szorosabb az összefüggés, annál kisebbek  Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum

34 A lineáris regresszió feltételei  A minták függetlenek legyenek  A változóknak normál eloszlásúnak legyenek  A függő változó és a független változó(k) közötti összefüggés lineáris legyen  A reziduálisok ábrázolásával ellenőrizhető  A reziduálisok normál eloszlásúak  A reziduálisok 0 körül szórjanak, ne legyen tendencia (homoszkedaszticitás)

35 Elérés STATISTICA-ban: Statistics/Multiple regression 1 - ((1 - Rsq)(N - 1 )/ (N - k - 1)) R négyzet – a függő változó varianciájának hány százalékát magyarázzák a független változó(k) – itt kb. 7,7% F-próba és a hozzá tartozó p-érték annak meghatározására, hogy ez a megmagyarázott hányad szignifikáns-e Logkreat= 3,94+ kor*0,01 tengelymetszet meredekség Standardizált B – több változó esetén lehetővé teszi az összehasonlítást H0 – a koefficiens = 0 Az adott modellen belül egy- egy független változó hatása. A regressziós együtthatók parciálisak – a többi független változó hatása kontroll alatt van

36 Modell feltételek ellenőrzése a reziduálisokkal - Residuals/assumptions/prediction fül full Reziduálisok eloszlása normális „perform residual analysis”

37 Modell feltételek ellenőrzése a reziduálisokkal - -0 körül szórnak -Nincs szisztematikus eltérés

38 Köszönöm a figyelmet!


Letölteni ppt "Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika."

Hasonló előadás


Google Hirdetések