Korreláció, lineáris regresszió

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Füst György III. Belklinika
I. előadás.
Kvantitatív Módszerek
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Egy faktor szerinti ANOVA
Kvantitatív módszerek
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Földrajzi összefüggések elemzése
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Gazdaságelemzési és Statisztikai Tanszék
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Regresszió és korreláció
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
Korreláció, lineáris regresszió
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
STATISZTIKA II. 7. Előadás
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
Adatleírás.
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Petrovics Petra Doktorandusz
Vargha András KRE és ELTE, Pszichológiai Intézet
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Korreláció-számítás.
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Korreláció, regresszió
Lineáris regressziós modellek
Többváltozós lineáris regresszió
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
III. előadás.
Dr. Varga Beatrix egyetemi docens
Paraméteres és nem paraméteres próbák alkalmazása több csoport összehasonlítására folytonos változók esetén Dr. Gombos Tímea.
5. Kalibráció, függvényillesztés
Statisztika segédlet a Statistica programhoz Új verzióknál érdemes a View menüsor alatt a Classic menu-s verziót választani – ehhez készült a segédlet.
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Korreláció, lineáris regresszió Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika

Két változó közötti kapcsolat vizsgálata Diszkrét valószínűségi változók → Khi-négyzet próba Folytonos valószínűségi változók → Korreláció és regresszió

Két változó között lehet… Függvényszerű (determinisztikus) kapcsolat Az egyik változó és a kapcsolat egyértelműen meghatározza a másik változót Pl.: Celsius fok és Fahrenheit átváltás Stochasztikus kapcsolat A függvényszerű kapcsolaton kívül még egyéb tényezőktől, pl. a véletlentől is függ Pl.: koleszterin és a triglicerid szint Függetlenség Nincs kapcsolat Pl.: koleszterin szint és az irányítószám

Megválaszolható kérdések Független-e egymástól az életkor és a vércukor szint? Milyen szoros az összefüggés az éhomi vércukor és a HgbA1c szint között? A pulzusszám miképp befolyásolhatja a vérnyomást?

Korreláció és regresszió A két változó közötti kapcsolat léte és erőssége → Korreláció A kapcsolat minőségének jellemzése, a kapcsolatban lévő tendenciák kifejezése függvények formájában → Regresszióanalízis

Korreláció Az összetartozó (x, y) pontpárok ábrázolása Ha létezik egy képzeletbeli egyenes, amely mentén helyezkednek el a pontpárok → lineáris korreláció Az összefüggés irányától függően pozitív vagy negatív Ha nincs ilyen egyenes → a változók korrelálatlanok (de nem feltétlenül függetlenek!)

Korrelációs együttható (r) (Pearson-r, Product-moment correlation) A korreláció szorosságát a korrelációs együtthatóval számszerűsíthetjük r értéke -1 és 1 közötti Ha -1 vagy 1 – függvényszerű, lineáris, determinisztikus a kapcsolat (minden pont azonos egyenesen) Ha 0 - korrelálatlanság (nem feltétlenül függetlenség!) Minél szorosabb a kapcsolat, │r│ annál közelebb van 1- hez (azonos esetszám!) Ha előjele + = pozitív korreláció, egyenes arányosság, ha – = negatív, fordított arányosság Felsővonásos betűk – tapasztalati várható érték Sx, Sy – tapasztalati korrigált szórásnégyzet

A korreláció… … skálafüggetlen (azonos számmal szorozva vagy azonos számot hozzáadva nem változik. Pl.: független a mértékegységtől) … szimmetrikus (x korrelációja y-nal = y korrelációja x- szel) … és az összefüggés nem egyenlő az oksági kapcsolattal (az oksági kapcsolatot logikai vagy kísérleti úton bizonyítani kell!) … a lineáris összefüggést méri, nem az összefüggést általában

Grafikus ellenőrzés (pontfelhő diagram, scatter plot) Linearitás Outlierek Minél jobban tömörülnek a pontok az egyenes körül annál nagyobb az r? Két ábrából melyiken szorosabb az összefüggés? Mindkét ábrán r=0,7 A felső ábrán kisebbek a szórások Az r nem abszolút számokban jelzi a „tömöttséget”, hanem relatíve a szóráshoz képest!

Outlierek, linearitás Regressziós egyenes: y=3+0,5x r = 0,816 E = 7,5 d = 4,12 2. nem lineáris kapcsolat! Outlier nélkül 3. r=1 4. r=0

Mi a teendő? Outlierek Szubjektív mi az outlier (ált. 2 SD-n kívül) Ellenőrizni az adatbázist Tényleg valós érték? Elütés? Mérési hiba? Ha valós adat – egyedi mérlegelés Nem üdvözítő automatikusan kizárni Ha nagyon torzítja az összképet lehetséges Ellenőrizni, nincs-e az outliereknek jelentősége? Biztos outlier, vagy csak nem passzol a mi teóriánkba? Nem linearitás Ha nem monoton (nem azonos irányú a változás), nincs értelme a korrelációnak. Ha monoton… Transzformációval lineárissá tehető? (pl.: logaritmizálás – elsőként az ábra skálázását módosítva tesztelhető (Axis/Scaling)) Nem paraméteres teszt végzése (pl.: Spearman rang teszt) Kevésbé szenzitív Keresni egy függvényt, ami illeszkedik rá, helyesen leírja Az egyik változó mentén 4-5 egyenlő „szélességű” csoportra osztom a mintát. ANOVA-t végzek, úgy, hogy ez a csoportosító változó.

Kizárás Jobb egérgombbal előhívható

Új változó létrehozása, logaritmizálás

Lineáris korrelációszámítás feltételei Mindkét változó folytonos, normál eloszlású legyen Hiányában Spearman rang korreláció végezhető A minták választása legyen véletlen mintavétel Nem használható, ha az egyik változót a kutató határozza meg (pl. gyógyszer dózis-hatás görbék, amikor előre meghatározott adagokat kapnak az egyének és a dózist nem a véletlen határozza meg) Minden x értékhez tartozzon egy y érték Ennek hiányát a statisztikai programok tudják kezelni X és y értékei egymástól függetlenek legyenek Pl.: nem szerepelhet egy egyén két különböző időpontban mért értéke, vagy rokonok adatai Azonos populációból származzanak a minták

R. Doll, „Etiology of lung cancer”, Advances in Cancer research vol Vizsgálat a dohányzás és a tüdőrák kapcsolatára Pontdiagram – egy főre jutó cigarettafogyasztás és a tüdőrák miatti elhalálozások arányszáma 11 országban A korreláció 0,73 volt a 11 pontra Országok betegszenek meg, vagy emberek?

Ökológiai korreláció Egyének Csoportok Nem az egyének adatait használja, hanem csoportok átlagain vagy arányszámokon alapul. Jellemzően eltúlozza az összefüggés erősségét. Kerülendő! Sohasem szabad két populációból származó mintát keverni!

Determinációs együttható (R2) (determináltsági koefficiens) Azt fejezi ki, hogy az x változó az y varianciájának hány százalékát magyarázza Pl.: r=0,5 R2= 25%, tehát az y változó varianciájának 25%-áért felelős az x változó, a variancia másik 75%-át más tényezők (mérési hiba, z változó) eredményezik Ha r=1, R2= 100%

Korrelációs együttható szignifikanciája Kíváncsiak vagyunk két valószínűségi változó korrelációjára (pl. a populációban a testsúly és a magasság) ezt az elméleti korrelációs együttható írja le (ρ – rho), ennek becslésére: → véletlen mintavétellel mintát veszek → meghatározom a mintában a korrelációs együtthatót (r), ebből becsülöm a ρ-t → meghatározom a becslés hibáját, konfidencia intervallumát → a hibából számolom a szignifikanciát

Korrelációs együttható szignifikanciája II H0 – a korrelációs együttható a populációban 0 H1 – ρ nem = 0 N-2 szabadságfokú t-statisztika felhasználása Döntés a p-érték szerint Ha p kisebb, mint a szignifikancia küszöb, elvetjük a H0-t A populáció korrelációs együtthatója r és nagyobb, mint 0. (Természettudományos kutatásokban gyakran ha az r>0,7, jelentős összefüggésnek véleményezik) (Biológiai kapcsolatoknál a r>0,95 „gyanús”. Biztos nem áll fent determináltság? Pl.: Hgb, Hct)

Elérési útvonal STATISTICA- ban: Statistics>>Basic statistics and Tables>> Correlation matrices Leginformatívabb módon:

Regressziós egyenes képlete → ez nem felel meg a lin. regresszió feltételeinek ►Spearman rang korreláció

Grafikus ellenőrzés másik módja: Graphs>>Scatterplots Itt is kérhető statisztika

Próbaképp az outlier felett a jobb egérgombot nyomva ki lehet zárni egy értéket (ismételten visszailleszteni a Data file-on lehet. A kizárt egyén sorszáma mellett megjelenik egy áthúzott piros kör. Jobb egérgombot nyomva kell az ‘excluded’ elől kiszedni a pipát. )

Az r értéke 0,6372-ről 0,4245-re csökkent. (Spearman rang korreláció az előnyösebb megoldás)

Két korreláció összehasonlítása Pl.: Mivel függ össze erősebben a HgbA1c szint, az éhomi vagy az étkezés utáni vércukor értékkel? Statistics>>Basic Statistics and Tables>>Differenc e test: r H0 – egyformán szoros a két összefüggés

Nem paraméteres korreláció (rang korreláció) Spearman-féle ~ Sorrendbe állítja a két változó értékeit, a rangpárokkal számol Logikailag megegyezi a Pearson-f. lin. korrelációval (szórásokkal számol) Nem szükséges, hogy a függvény lineáris legyen, elég, ha monoton Szignifikanciáját a lin. korrelációval megegyező módon számolja Kendall-féle ~ Az egyik változó rangszáma szerint sorba állítjuk a párokat. Figyeljük, hogy a másik változó rangszámai is növekednek-e vagy csökkennek. Eszerint konkordáns és diszkonkordáns párokat találunk. Ezek arányszámával számolunk Értéke ált. kisebb, mint a Spearman-f r-nek

Elérési útvonal: Statistics>>Nonparametrics>> Correlations (Spearman, Kendall…) 3 féle kimutatás Részletes elemzés, egy változó összefüggései egy listányi változóval. R, t és p-érték is Áttekintés, csak az r és kiemelve a szignifikáns. két oszlop tagjai egymással Áttekintés, minden mindennel Állítható a szignifikanciaküszöb (pl.: Bonferroni korrekció α/n)

Mátrix: Detailed report:

Lineáris regresszió A változók közötti kapcsolatot egy függvénnyel fejezzük ki Így általánosítjuk és függetlenítjük az összefüggést a mintaválasztástól Egy kitüntetett változót (függő változó) a független változó függvényével fejezzük ki – nem szimmetrikus! Nem felcserélhető! Független változóból több is lehet -> többváltozós lineáris regresszió Így az egyik értékéből megjósolhatjuk a másik értékét, ez természetesen nem lesz pontos (véletlen ingadozás) – a megfigyelési tartományban

y változó x változóra adott regressziós egyenes  

Legkisebb négyzetek módszere A legjobban illeszkedő egyenes megtalálására Az az egyenes, amelyiknél a megfigyelések egyenestől mért négyzetes távolságösszege a lehető legkisebb Ezek a távolságok a reziduálisok (ε). Minél szorosabb az összefüggés, annál kisebbek Az egyenes együtthatóiból standard hiba határozható meg, ebből számítható a konfidencia intervallum

A lineáris regresszió feltételei A minták függetlenek legyenek A változóknak normál eloszlásúnak legyenek A függő változó és a független változó(k) közötti összefüggés lineáris legyen A reziduálisok ábrázolásával ellenőrizhető A reziduálisok normál eloszlásúak A reziduálisok 0 körül szórjanak, ne legyen tendencia (homoszkedaszticitás)

Elérés STATISTICA-ban: Statistics/Multiple regression 1 - ((1 - Rsq)(N - 1 )/ (N - k - 1)) R négyzet – a függő változó varianciájának hány százalékát magyarázzák a független változó(k) – itt kb. 7,7% F-próba és a hozzá tartozó p-érték annak meghatározására, hogy ez a megmagyarázott hányad szignifikáns-e Standardizált B – több változó esetén lehetővé teszi az összehasonlítást tengelymetszet meredekség H0 – a koefficiens = 0 Az adott modellen belül egy-egy független változó hatása. A regressziós együtthatók parciálisak – a többi független változó hatása kontroll alatt van Logkreat= 3,94+ kor*0,01

Modell feltételek ellenőrzése a reziduálisokkal - Residuals/assumptions/prediction fül full „perform residual analysis” Reziduálisok eloszlása normális

Modell feltételek ellenőrzése a reziduálisokkal - 0 körül szórnak Nincs szisztematikus eltérés

Köszönöm a figyelmet!