Regresszió és korreláció

Slides:



Advertisements
Hasonló előadás
Nevezetes eloszlások, normál eloszlás
Advertisements

Hipotézis-ellenőrzés (Statisztikai próbák)
I. előadás.
Kvantitatív Módszerek
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Kvantitatív módszerek
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Földrajzi összefüggések elemzése
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Előadó: Prof. Dr. Besenyei Lajos
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Valószínűségszámítás és statisztika előadások Gépész-Villamosmérnök szak BSc MANB030, MALB030 Bevezető.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
SPSS többváltozós regresszió
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Kvantitatív Módszerek
Valószínűségszámítás
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Következtető statisztika 9.
Hipotézis-ellenőrzés (Folytatás)
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Lineáris regresszió.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
I. előadás.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Korreláció-számítás.
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Lineáris regressziós modellek
Kiváltott agyi jelek informatikai feldolgozása 2016
I. Előadás bgk. uni-obuda
III. előadás.
Dr. Varga Beatrix egyetemi docens
5. Kalibráció, függvényillesztés
Gazdaságinformatika MSc labor
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
1.3. Hipotézisvizsgálat, statisztikai próbák
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Regresszió és korreláció 2013. 03. 09 .

Lineáris regresszió Regressziós vizsgálatok Korrelációs együttható Korreláció és függetlenség

Bizonyos esetekben tudjuk/gyanítjuk, hogy az adatok ingadozásáért egy másik, ugyancsak változó tényező a felelős Pl.: RR különböző életkorokban más értékek Laboratóriumi mérést helyiség hőmérséklete befolyásol, növeli a szórást

Kézenfekvő lenne ennek a külső változónak az ingadozását megszüntetni, értékét azonos szinten tartani – nem mindig lehetséges Másik megoldás, hogy a zavaró változó hatását igyekszünk felderíteni, és számítással kiküszöbölni.

Pl.: Hogyan változik (és változik-e egyáltalán) Bizonyos esetekben ennek a hatásnak a természete jobban érdekel minket, mint magának a szórásnak a csökkentése Pl.: Hogyan változik (és változik-e egyáltalán) a korral a vérnyomás a koncentrációval a törésmutató Eredeti változónkat tehát mintegy a másik függvényében vizsgáljuk – regressziós vizsgálatok

Adrenalin hatására vizsgáljuk az izomrángást Adrenalin dózis növekedésével a rángásidőt vizsgáljuk Próbáljuk egyenessel megközelíteni a hatás jellemzését

x változó vizsgált értékeit mi választjuk ki, yi adatok eltérését az egyenestől rögzített xi értéknél (tehát a függőlegesen vizsgáljuk) Célunk, hogy a függőleges egyenesekből számolt szórás a lehető legkisebb legyen y=a+bx ahol b a meredekség, a tengelymetszet

Regressziós vizsgálatok A regressziós összefügéseket nem mindig egyenes ábrázolja a legjobban Sokszor görbe jellemzi: parabola, hiperbola vagy exponenciális görbe Előfordul, hogy a dózis logaritmusa áll lineáris kapcsolatban a hatással

Valóságos regressziós egyenlet: 1., x és y tengelyen ábrázolt adatokra rátekintve mondhatjuk meg, hogy milyen görbe jellemzi 2., Megmérjük az összefüggés szorosságát, ezt a célt szolgálja a korrelációs együttható

Kovariancia (sxy): az együttes ingadozás mértékszáma Korelációs együttható (r): a kovariancia a szórások szorzatával osztva

Pozitív hajlásszögű egyenes: b>0, a korrelációs együttható (r) is pozitív lesz, ezt pozitív korrelációnak nevezzük. Negatív hajlásszögű egyenes: a korrelációs együttható is negatív, negatív korrelációról beszélünk r=0 korrelálatlanságról beszélünk, ilyenkor regressziós egyenes vízszintes (b=0) (ilyenkor y átlagos értéke ugyanaz marad, akárhogyan is változik x)

A korrelációs együttható csak -1 és +1 közti értékeket vehet fel A együttható abszolút értéke jellemzi a kapcsolat szorosságát (mennél jobban tömörülnek a pontok az egyenes körül annál nagyobb r abszolút értéke) +1 vagy -1 értéket akkor és csak akkor éri el az együttható, ha a pontok valamennyien rajta fekszenek az egyenesen

Két változó együttváltozása lehet, hogy csak egy harmadik változó hatásának eredménye: mindkettejük alakulását az szabályozza, maguk a vizsgált változók azonban semmiféle befolyással nincsenek egymásra Pl.: gyulladásos folyamat lázat és fvs szám növekedést okoz. De sem a láztól a fvs, sem a fvs növekedéstől a testhőmérséklet nem változik

Még ha ok-okozati összefüggés áll is fenn a két vizsgált változó között, pusztán korrelációs együttható segítségével akkor sem tudjuk eldönteni hogy melyik befolyásolja a másikat Az ok megkeresése biológiai probléma nem pedig biometriai

A korreláció hiánya, a korrelálatlanság (r=0) hasonlóképpen hibás következtetésekre indíthat – mivel a változók közötti kapcsolat hiánya miatt könnyen értelmezhetjük úgy, hogy az adatok függetlenek egymástól Pl.: az életkor függvényében vizsgált összefüggések

Erre a legjobban közelítő egyenes a vízszintes lesz Erre az eredményt azonban a legjobban nem az egyenes reprezentálja hanem egy görbe.

Nem minden görbevonalú kapcsolat esetén ennyire félrevezető az r együttható segítségével szerzett információ, de ajánlatos azzal mindig óvatosan bánnunk A normális eloszlás fontos kivétel: elméletileg igazolható, hogy ilyenkor vagy lineáris kapcsolat van a változók között vagy semmilyen Normális eloszlás esetén tehát a korrelálatlanság (lineáris kapcsolat hiánya) már biztosítja a függetlenséget.

Fordított irányú következtetés viszont mindig helyes: a változók függetlensége esetén a korrelációs együttható mindenképp nulla

Bizonyos esetekben az r becsaphat: korrelációt találhatunk ott is ahol valójában függetlenség van, máskor meg kétségkívül fennálló lineáris kapcsolatot „nem veszi észre” a mintából számított r együttható, a mintaelemek speciális elhelyezkedése miatt

A körben elhelyezkedő végtelen sok érték közül választunk ki néhányat – a változóból a mintát -, és ezekből határozzuk meg a korrelációs együtthatót. Mivel a kiválasztott pontok véletlenül egy egyenes mentén helyezkednek el, a korrelációs együttható értéke közel lesz az 1-hez . Emiatt arra a következtetésre jutunk, hogy a változók közt szoros kapcsolat van.

Más esetben a változók értékeit ábrázoló pontokból a köztük lévő lineáris összefüggés nyilvánvaló; a kiválasztott pontok – ismét csak véletlenül – azonban úgy helyezkednek el, hogy rajtuk vízszintes egyenest fektethetünk át. Az így kapott r=0 alapján a változók korrelálatlanságára (sőt gyakran függetlenségére) következtethetünk

A fenti ellentmondásokat az eddigi módszerekkel már nem tudjuk feloldani. Statisztikai következtetés módszereinek helyes alkalmazása megvéd az utóbbi kettő tévedéstől.

Az eloszlások paramétereire vonatkozó próbák U próba T (student) próba F próba

u-próba He egy ismert σ szórású (normális eloszlású) alapsokaságból vett n elemszámú minta átlagára vonatkozó nullhipotézisünket akarjuk ellenőrizni

Átlagsúly 1.985 kg A súlyok szórása 0.060kg Szignifikancia szint 5% (μp=0.05) Ehhez tartozó kritikus érték: 1.96

t-(student) próba T-próbával ellenőrizhetjük két ismeretlen minta középértékeire vonatkozó hipotézisünket, a két mintaátlag különbségének szignifikanciáját. A két mintaátlag különbözősége önmagában nem bizonyítja a két várható érték eltérését, erre a t-próba ad felvilágosítást

t-(student) próba A t-próba alkalmazásának előfeltétele, hogy a két valószínűségi változó követi a normális eloszlást, és szórása egyenlő

F-próba Mind az u-próbánál, mind a t-próbánál feltéteteleztünk valamit a sokaság szórásáról: Az u-próbánál azt, hogy ismert, t-próbánál pedig azt, hogy az összehasonlított sokaságok szórása azonos. A szórással kapcsolatos ezen hipotéziseink ellenőrzésére alkalmas az F-próba

F-próba A nullhipotézis itt azt jelenti, hogy két normális eloszlású ismeretlen várható értékű sokaság szórása azonos (σ1=σ2) A két sokaságból vett minta szórásnégyzeteinek hányadosa F-eloszlást követ

KÖSZÖNÖM A FIGYELMET!