2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása a két változó között. Pl. regressziós egyenes egyenlete.
Korreláció Szórási diagram: két változó közötti kapcsolat grafikai megjelenítése erős pozitív gyenge negatív nincs korreláció
Kovariancia: két változó együtt mozgása Korrelációs együttható: két változó kapcsolata erősségének a mérőszáma (Pearson-féle korrelációs együttható)
A korrelációs együttható megmutatja a két változó kapcsolatának a jellegét r =+1 tökéletes pozitív korreláció +1 >r > 0 pozitív kapcsolat r = 0 nincs kapcsolat 0 > r > -1 negatív kapcsolat r = -1 tökéletes negatív korreláció
Szórási diagram a kézszorítás, illetve a kar erősségének összefüggéséről, r = 0.63
A korreláció szignifikancia vizsgálata Nullhipotézis: H0: r = 0 ellenhipotézis: H1: r ≠ 0 r: a sokaság korrelációs együtthatója Ha igaz a nullhipotézis, a következő statisztika t-eloszlású n-2 szabadsági fokkal:
2-1 példa. A dohányzás és az élettartam kapcsolatát vizsgálták 2-1 példa. A dohányzás és az élettartam kapcsolatát vizsgálták. 15, 50-nél idősebb ember esetén követték az átlag napi cigarettaszámot, ill. az életkort. Levonhatjuk-e azt a következtetést, hogy az életkor független a dohányzástól? H0: r = 0 2.16 < 3.67 így a nullhipotézist elutasítjuk, a dohányzás és az élettartam között korreláció van, a dohányzás csökkenti az élettartamot..
Regresszió A vegyészmérnöki gyakorlatban a regresszióanalízis széleskörűen használt módszer az adatok kapcsolatának meghatározására. Például egy reaktor esetén regressziós módszerekkel meghatározhatunk egy egyenletet, amely kifejezi, hogyan függ a termék kihozatala a bemenő koncentrációtól, hőmérséklettől, nyomástól és a tartózkodási időtől. Ha nem ismerjük az egyes változók közötti elméleti összefüggést, akkor feltételezünk egy függvényt, és azt illesztjük a mérési adatokra. Gyakran lineáris összefüggést feltételezünk.
Lineáris regresszió (egyenes illesztése) x: független változó Y : valós (elméleti vagy várható) értéke a függő változónak Y függvénye x-nek, p.l. lineáris regresszió esetén: Y(x): feltételezett összefüggés b0, b1 paraméterekkel y: a függő változó mért értéke e : mérési hiba becslés Y(x)-re
A feladat az, hogy egy minta alapján meghatározzuk a b0 és b1 becslést az ismeretlen b0 és b1 paraméterekre. Leggyakoribb megoldás: legkisebb négyzetek módszere (method of least squares). A mért adatok és a becslés közötti eltérések négyzetösszegét (hiba, maradék vagy reziduális négyzetösszeg) minimalizálja.
A minimum meghatározásához a megfelelő parciális deriváltakat egyenlővé tesszük 0-val:
Ezeknek az ún. normál egyenleteknek a megoldása: A b1 együttható a következő alakban is kifejezhető:
SST = SSE + SSR Négyzetösszegek SST : teljes négyzetösszeg SSE : hiba vagy reziduális négyzetösszeg SSR : regressziós négyzetösszeg
SST = SSE + SSR Determinációs együttható A determinációs együttható, R2, a függő változó változásának azon aránya, amely magyarázható a független változó változásával.
2-2. példa. Illesszen egyenest az alábbi mérési adatokra.
Regressziós statisztika Excel megoldás ÖSSZESÍTŐ TÁBLA Regressziós statisztika r értéke 0.950616043 r-négyzet 0.903670862 Korrigált r-négyzet 0.879588577 Standard hiba 0.621355269 Megfigyelések 6 VARIANCIAANALÍZIS df SS MS F F szignifikanciája Regresszió 1 14.48747052 14.4875 37.52 0.003597945 Maradék 4 1.544329481 0.38608 Összesen 5 16.0318 Koefficiensek t érték p-érték Alsó 95% Felső 95% Tengelymetszet 0.051957547 0.504033217 0.10308 0.923 -1.347463012 1.45138 X változó 1 32.01650943 5.22658099 6.12571 0.004 17.50519423 46.5278 sr: reziduális szórás Az F-próba segítségével megállapítható, hogy a független és a függő változók között megfigyelt kapcsolat véletlenszerű-e. Konfidencia intervallum b0-ra és b1-re. Próba, hogy zéró-e a tengelymetszet (b0). Próba, hogy zéró-e a meredekség (b1).
Mérések sorrendje