Korreláció, regresszió (amikor kapcsolatot keresünk – nem házasság céjából)
Kapcsolat keresése: korreláció Milyen eszközeink vannak ennek megállapítására? Kérdésünk az, a pH milyen fémek koncentrációjára van hatással – azaz van-e kapcsolat a pH és a fémkoncentráció között? Ennek mértékét a korreláció segítségével határozzuk meg Korrelációs koefficiens/együttható (r) értéke (-1) és (+1) között (alapesetben Pearson-féle korreláció) Pozitív korrelációs kapcsolat: ha az egyik változóban az értékek nőnek, akkor a másikban is - Negatív korreláció: ha az egyik változóban az értékek nőnek, akkor a másikban csökkennek
Korreláció A korreláció megmondja, hogy van-e kapcsolat, szorossága az értékétől függ + megtudjuk a kapcsolat irányát is (előjel). (-1)-(-0,9) között igen szoros (-0,9)-(-0,7) között szoros (-0,7)-(-0,5) között közepes (-0,5) közelében gyenge 0 nincs kapcsolat (+0,5) közelében gyenge (+0,5)-(+0,7) között közepes (+0,7)-(+0,9) között szoros (+0,9)-(+1) között igen szoros
Korreláció Pozitív korreláció r=1 Negatív korreláció r=-1 Ha a pontok mindegyike az egyenesen ül, akkor a korreláció értéke 1. Ez a természetben sosem fordul elő (csak, ha egyik változóból vezetjük le a másikat).
Korreláció r=0,64 r=0,93 A pontokra egyenest illesztünk, ami már átvezet minket a regresszióhoz, de vizuálisan jól látszik, hogy van-e összefüggés. r=0
Korreláció – a befolyásos adatpont A befolyásos adatpontok egyváltozós esetben nem feltétlenül kiugró adatok, két változó esetében azonban már lényegileg befolyásolják az összefüggést. Jelen esetben 1-ről 0,49-re csökkent a korreláció egyetlen ilyen pont miatt. Ki kell deríteni, hogy ennek mi az oka és ha szükséges, ki kell zárni. A kizárásnak szakmai indoka kell, hogy legyen!
Regresszió A regresszió célja nem a kapcsolat meghatározása, hanem annak megállapítása, hogy egyik változó (független) értékei mennyiben magyarázzák a másik változó (függő) varianciáját. Más szavakkal mennyire függ egyik a másiktól, de mindezt számszerűsítjük is. Emellett a független változó segítségével ki tudjuk számítani a függő változót - ami persze nem pontos, de ezt tudjuk és elfogadjuk. A hiba mértéke szintén kifejezhető.
Regresszió Y=b0+b1*x±ε vagy Y=b+a*x±ε ahol b vagy b0: metszet, a vagy b1: meredekség, ε: hiba reziduum Az x értékekből számított y helyenként (az egyenes fölött) alulbecsül, helyenként (az egyenes alatt) fölülbecsül. reziduum
Regresszió Az egyenes úgy fekszik fel a pontfelhőre, hogy a reziduumok négyzetes összege a nullát közelítse. Mivel ez nem lehetséges, ezért mindig lesz hiba, aminek a mértékét ismerni kell. Ehhez a hibák négyzetét összegezzük, osztjuk az elemszámmal és gyököt vonunk. Ymért-Ybecsült=reziduum összegzés osztás az elemszámmal a becslés standard hibája gyökvonás Osztás az Ymért átlagával CV
Korreláció - példa A példában felsőfokú végzettségűek és szellemi munkát kereső munkanélküliek adati között nézzük meg a korrelációt. szignifikancia Az r=0,71 szoros kapcsolatra utal és a kapcsolat szignifikáns (p=0,0002) Pearson korrelációs együttható
Korreláció - regresszió Ha tudni szeretnénk, hogy a felsőfokú végzettségűek aránya a településeken mennyire határozza meg a szellemi foglalkozásúak munkanélküliségét, akkor regresszióra van szükség.
Szellemi álláskereső arány=1,4506*felsőfokú végzettségű arány + 2,8977 Az R2 értéke 0,51, ami azt jelenti, hogy a felsőfokú végzettségűek aránya 51%-ban határozza meg a szellemi foglalkozású álláskeresők arányának varianciáját.
Regresszió - példa átlag mért y szellemi álláskereső arány Az egyenletet behelyettesítjük: becsült y mért – becsült érték=reziduum A reziduumok négyzetét összegezzük, osztjuk az elemszámmal és gyököt vonunk, ez lesz az RMSE. Utána ezt elosztjuk a mért y értékek átlagával és megkapjuk, hogy a becslést terhelő hiba az átlagos érték 45%-a (CV=0.45). Ez nem kevés … vagyis becslésre inkább ne használjuk az egyenletet. átlag mért y
Regresszió Azt viszont látjuk a pontdiagramon, hogy a települések 2 csoportot alkotnak: 1: kisebb települések, népességük 10000 alatti 2: városok, 10000 fő feletti lakossággal (kivétel Hortobágy, illetve Balmazújváros, ami a másik csoporthoz keveredett) 2 1 Feladat a fentiekből adódóan: kideríteni az okát, tanulmányozni a helyi sajátosságokat és egyéb adatokat
Álösszefüggések http://tylervigen.com/spurious-correlations