Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 13. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /
Az előadás tartalma Numerikus változók közti kapcsolatok mérése A mérés problémái A kovariancia Korreláció Meredekség Az egy független változós lineáris regresszió analízis A regressziós konstans A lineáris regresszió modellje A legkisebb négyzetek módszere, szemléltető példa A teljes modell tesztelése A meredekség tesztelése Számpélda az egy független változós lineáris regresszióhoz Cellafüggvények az egy független változós lineáris regresszióhoz Excelben Számítógépes alkalmazás az egy független változós lineáris regresszióhoz Excelben
A korábban tanult ANOVA-elemzésnek két fő hiányossága van: Bár jelezni tudja, ha egy független változó hatást gyakorol valamilyen függő változóra, de nem tudja megmondani a kapcsolat irányát (a független növekedésére a függő nő vagy csökken?), ezért rengeteg kísérletet kell végezni Csak egy csoportosító változó (nominális vagy ordinális) hatását tudja mérni egy legalább intervallum skálán mért folytonos változóra –Ha két intervallumos változó közti kapcsolatot szeretnénk mérni, akkor az egyiket csoportosítani kellene. Korábban már tárgyaltuk, hogy ez sok bizonytalanság forrása A mindennapi életben pedig rengetegszer van szükség intervallum skálás változók közti kapcsolat elemzésére, ezt ösztönösen is megtesszük, statisztikai háttér nélkül: Pl. Murphy 9. törvénye: „Minél szebb egy nő, annál kevésbé okos” Ez egy sok nő két folytonos változó (Intelligencia: IQ, Szépség: kiváltott pulzus- szám-emelkedés) szerinti megfigyeléseiből történő durva általánosításon alapul Valamilyen tendenciát vélünk fölfedezni a két változó közt, pl. hogy a megfigyelések nagyjából illeszkednek egy egyenes vonalra! Numerikus változók közti kapcsolatok mérése 1 IQ Szépség Szörny Ella, Programozó matematikus Jólábú Dzsenifer Gyors- és gépmaca Joó Jolán Amatőr Aktatologató Közepes Ili Képesített Vajköpülő
Numerikus változók közti kapcsolatok mérése 2 Tegyük fel, hogy j = 1..m megfigyelésünk van két változó x j, y j, j = 1..m szerint, amelyek legalább intervallum skálán mértek Kovarianciának (Covariance) nevezzük a két változó saját!!! átlaguktól mért eltérései szorzatainak számtani átlagát: (13.1) –> 0, ha a két változó együtt mozog (ha x nagy, y is nagy) –< 0, ha a két változó ellentétesen mozog (ha x nagy, y kicsi lesz) –≈ 0, ha a két változó közt nincs kapcsolat (ha x nagy, y bármennyi lehet) Miért van ez így? Mert a kovariancia szorzásokon alapul: –Ha x átlag feletti értékei társulnak y átlag feletti értékeivel, az átlag alattiak meg az átlag alattival, akkor pozitív különbséget szorzunk pozitívval, vagy negatívat különbséget negatívval, a szorzatok pozitívak lesznek, ezek átlaga is pozitív! –Ha x átlag feletti értékei társulnak y átlag alatti értékeivel, akkor pozitív különbséget szorzunk negatívval, a szorzatok negatívak lesznek, ezek átlaga is negatív! –Ha x, y rendszertelenül mozognak, a két fenti eset keveredik, a szorzatok hol pozitívak lesznek, hol negatívak, így az átlaguk 0 lesz! Megfigy. Cov(x,y)>0 Cov(x,y)<0 Megfigy. Cov(x,y) ≈ 0 Megfigy.
Numerikus változók közti kapcsolatok mérése 3 A kovariancia mérőszám értékelése: –Mivel a szorzás szimmetrikus művelet (a tényezői felcserélhetők lesznek), a kovariancia is szimmetrikus: Cov(x,y) = Cov(y,x).Így azonban csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) –Különféle minták kovarianciája nem igazán összehasonlítható egymással, mert a kovariancia értéke erően függ a résztvevő változókértékeinek szóródásától: –pl. egy 100-as kovariancia lehet nagyon gyenge kapcsolat, ha milliós eltéréseket tartalmazó változók közt számoljuk, de lehet nagyon erős ha a változók értékeinek szóródása csak száz valahány körüli. –Mindezek miatt a kovarianciát önmagában ritkán használjuk a gyakorlatban Ahhoz, hogy a kovariancia igazán használható legyen változók kapcsolatának mérésére, az értékét valahogy normalizálni kellene –A normalizáció korábban azt jelentette, hogy a változókból kivonjuk az átlagukat (ez már megtörténik a kovarianciában) –Ezután pedig elosztjuk a különbséget a szórásukkal:
Numerikus változók közti kapcsolatok mérése 4 A korreláció (Pearson Correlation, Product Moment Correlation) a kovariancia osztása x és y változók szórásának szorzatával: (13.2) –Értéke maximum +1, ha a két változó teljesen együtt mozog –Értéke maximum -1, ha a két változó teljesen ellentétesen mozog –Értéke 0, ha a két változó közt nincs kapcsolat A korreláció mérőszám értékelése: –Mivel a kovariancia is szimmetrikus, a korreláció is az lesz: Corr(x,y) = Corr(y,x) Csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) –Különféle minták korrelációja jól összehasonlítható, mert el van tüntetve belőle a változók értékeinek szóródása –Viszont a gyakorlatban sokszor arra vagyunk kiváncsiak, hogy x egy egységnyi növelésére y hány egységgel változik. Ezt pont a változók értékeinek szóródásától való függetlensége miatt nem tudja megadni.
Numerikus változók közti kapcsolatok mérése 5 A meredekségi együttható (Slope Coefficient) y függő és x független változók közti korrelációnak a szórásaik arányával alkotott szorzata: (13.3) –Értéke azt mutatja meg, hogy ha x egy egységgel nő ( x), y várhatóan plusz/minusz hány egységgel fog változni ( y), mert a korrelációt egy olyan tényezővel módosítja ami a két változó szóródásának arányát figyeli A meredekségi együttható mérőszám értékelése: –Nem szimmetrikus mérőszám, mert a független és függő változó szóródásának arányánál a számláló és a nevező nem felcserélhető, ezért: b y/ x = b x/ y -1 (13.4) –0 meredekség azt jelenti, hogy a két változó független egymástól. Nagy meredekség általában szorosabb kapcsolatot jelent, de ez nem biztos, mert értékeit a változók szórásai is befolyásolják, ezért ezt nem mutatja olyan tisztán, mint a korelláció –Ezért a korellációt néha sztenderdizált koefficiensnek (Standardized Coefficient) is nevezik Corr(x,y) = y/ x, mert az független a változók szórásaitól, és csak a kapcsolat szorosságát mutatja –A meredekségi együtthatóval egy adott x értékhez csak y várható változását ( y) becsülhetjük meg nem y várható értékét, mert nem biztos, hogy x=0-nál y is nulla! –Pl. ha egy termék kereslete (y) az ár (x) 1Ft-os növelésére várhatóan b=-500db- bal csökken, az nem jelenti azt, hogy 10Ft-os árnál a kereslet 10×-500=-5000db lesz! Nyilvánvaló, hogy x=0Ft-os árnál (ha ajándékba adom a terméket) a kereslet elég magas szintről indul, pl db, a csökkenés ebből vonandó le!
Az előadás tartalma Numerikus változók közti kapcsolatok mérése A mérés problémái A kovariancia Korreláció Meredekség Az egy független változós lineáris regresszió analízis A regressziós konstans A lineáris regresszió modellje A legkisebb négyzetek módszere, szemléltető példa A teljes modell tesztelése A meredekség tesztelése Számpélda az egy független változós lineáris regresszióhoz Cellafüggvények az egy független változós lineáris regresszióhoz Excelben Számítógépes alkalmazás az egy független változós lineáris regresszióhoz Excelben
Egy független változós lineáris regresszió analízis A regressziós konstans (Intercept) megadja, hogy várhatóan mennyi lesz y függő változó értéke ha x független változó nulla: (13.5) –A regressziós konstansot az x és y változók átlagai, illetve b meredekségi együttható segítségével számolhatjuk ki. Ez a számítás azon a feltevésen alapul, hogy x átlagos értékéhez várhatóan y átlagos értéke fog tartozni, mert a kovarianciánál mindkét változóból a saját átlagukat vontuk le A regressziós konstans mérőszám értékelése: –Nem szimmetrikus mérőszám, mert a független és függő változó átlagai egy kivonásban szerepelnek, ami nem szimmetrikus művelet A b meredekségi együttható és a regressziós konstans segítségével egy egy független változós lineáris regressziós modellt (Univariate Linear Regression Model) írhatok fel, amely x független változó x j értékeiből egy regressziós egyenlet (Regression Equation) segítségével számítja ki az y függő változó hozzájuk tartozó ŷ j becsült értékeit (pontbecsléssel): ŷ j = bx j + a, j = 1..m(13.6) A becsült ŷ j értékek természetesen nem fogják pontosan eltalálni y j tényleges értéket, mert lehet, hogy a becslés nem hatékony, vagy véletlen hatások eltérítik a tényleges értékeket az általános tendenciától. A becslések és a tényleges értékek különbségeit e j hibatagoknak (Error Term, Difference, Residual) nevezzük: e j = y j - ŷ j, j = 1..m(13.7) y j = bx j + a + e j, j = 1..m(13.8) Az a jó regressziós becslés, ahol ezek a hibatagok a lehető legkisebbek.
Egy független változós lineáris regresszió egyenletének működése Térjünk vissza a szépség és IQ kapcsolát vizsgáló nyitó példához! A lineáris regresszió akkor működik jól, ha a függő- és független változók normális eloszlásúak és van köztük kapcsolat Ez grafikusan úgy néz ki, hogy a megfigyeléseik egy elnyújtott, ferde helyzetű pontfelhőbe tömörülnek az XY pontdiagrammon Ezután kiszámítjuk a soka- ság átlagát a két változó szerint, ez egy koordináta pont lesz. Ekörül forgatunk addig egy egyenes vonalat, amíg a lehető legjobban nem illeszkedik a megfigyelések koordináta pontjaira, vagyis a pontok egyenestől mért, függő változó (IQ) szerinti eltéréseinek négyzetösszegét minimalizáljuk A lineáris regresszió a legkisebb négyzetek módszerének (Ordinary Least Square (OLS) Method) nevezett függvényillesztési módszer egy speciális esete A regressziós egyenes meredekség (b), és konstans (a) paramétereinek (Parameter) az előzőekben megadott számítása a lehető legjobb illeszkedést fogja eredményezni. Ezután bármilyen x értékhez az y = bx + a regressziós egyenletbe helyettesítéssel megadhatjuk a hozzá tartotó becsült ŷ értéket, ami egy pontbecslés! IQ Szépség Szörny Ella, Programozó matematikus Jólábú Dzsenifer Gyors- és gépíró Joó Jolán Amatőr Aktatologató Közepes Ili Képesített Vajköpülő Átlag Gizi Átlagos Honleány b b a a Új x érték ŷ becslés
Egy független változós lineáris regresszió tesztelése 1 A lineáris regresszió csak abban az esetben ad megbízható becsléseket, hogy ha a függő- és független változók eloszlása illeszkedik a regressziós modell alapfeltételezéseihez. Az R 2 determinácós együttható (Determination Coefficient) a teljes modell illeszkedésének tesztelését végzi: R 2 = Var(ŷ)/Var(y) = (Var(y)-Var(e))/Var(y) = Corr(x,y) 2 (13.9) Ez az ŷ becslések és az y függő változó varianciáinak hányadosa. [0,1] közti értékei azt mutatják, hány százalékot képes megmagyarázni a független változó az adott regressziós egyenlet segítségével a függő változó varianciájából. A gyakorlatban nem szoktunk elfogadni R 2 = 0.75 alatti modellt. Ha a modell illeszkedését egy adott szignifikancia szinten szeretnénk tesztelni, ezt F-próbával tehetjük meg: F = Var(ŷ)/Var(e)×1/m = R 2 /(1-R 2 )×1/m(13.10) Ha ez a számított F-érték meghaladja az egy oldalú F-próba adott szignifikancia szinthez, 1, m szabadságfokokhoz tartozó x 0 =Finv( ,1,m) kritikus értékét, akkor a modell elfogadható.
Egy független változós lineáris regresszió tesztelése 2 Ha egy regressziós modell nem bizonyul megfelelőnek, ez két okra vezethető vissza: A függő- és független változók eloszlása nem illeszkedik a modell alapfeltevéseihez A független változónak nincs igazán hatása a függő változóra. Ez utóbbit a következőképpen tesztelhetjük: A meredekségi együttható sztenderd hibája (Standard Error of Regression/Slope Coefficient), megadja, hogy adott x független változó y függő változó szerinti b meredekségének mennyi a szórása, vagyis mennyire bizonytalan: (13.11) Ezekután egy t-próba segítségével vizsgáljuk, hogy a kiszámított b paraméter érték elég nagy-e a bizonytalanságot kifejező sztenderd hibához képest: t = b / SE b (13.12) Ha a számított t érték abszolút értéke meghaladja a két oldalú t- próba adott szignifikancia szinthez, m-2 szabadságfokhoz tartozó c=Tinv( ,m-2) hibahatárát, akkor a független változónak p=1- valószínűséggel hatása van a függő változóra.
Az előadás tartalma Numerikus változók közti kapcsolatok mérése A mérés problémái A kovariancia Korreláció Meredekség Az egy független változós lineáris regresszió analízis A regressziós konstans A lineáris regresszió modellje A legkisebb négyzetek módszere, szemléltető példa A teljes modell tesztelése A meredekség tesztelése Számpélda az egy független változós lineáris regresszióhoz Cellafüggvények az egy független változós lineáris regresszióhoz Excelben Számítógépes alkalmazás az egy független változós lineáris regresszióhoz Excelben
Számpélda az egy független változós lineáris regresszióhoz Célja: x független változó (pl. Ár) értékeiből y függő változó (pl. Kereslet) értékeit akarja becsülni, Korábban megfigyelt (x,y) értékpárokból, baAz ŷ = b*x + a regressziós függvény segítségével. ba eEnnek b, a paramétereit úgy állítja be, hogy valós adatok és becslésük közti e = y – ŷ hibák négyzetösszegét minimalizálja b A b meredekségi együttható meghatározása: A CORR(x,y) korreláció leírja a két változó kapcsolatát: +1, ha x és y tökéletesen együtt mozognak a saját átlaguk fölé/alá, -1 ha fordítva. De nem veszi figyelembe a változók értékeinek szóródását, ezért megszorozzuk a változók szórásának arányával: b = CORR(x,y)* (y)/ (x) = * 1.18 / = a Az a regressziós konstans meghatározása: A kovariancia a változók saját átlagától történő elmozgást mér, így tudjuk, hogy az illesztett függvény átmegy az AVG(x), AVG(y) ponton, ezért: a = AVG(y) – b*AVG(x) = 7.47 – (-0.039) * = Tesztelése: Az ŷ becslés varianciája hány %-ban fedi az eredeti y varianciáját? R 2 = ( ( ŷ )/ (y)) 2 = VAR( ŷ )/VAR(y) = 1.33 / 1.40 = 0.95, a modell elfogadható Kereslet, Edb (y) Egységár,EFt/db (x) Egységár,EFt/db Kereslet, Edb b b a a
Cellafüggvények egy független változós lineáris regresszióhoz Excelben A modell használata becslésre: A megalkotott regressziós modell: (Kereslet, Edb) = ×(Egységár, EFt) Ebbe történő behelyettesítéssel meghatározhatjuk, várhatóan mekkora lesz a kereslet 75EFt-os egységárnál: = × A numerikus változók közti kapcsolatok mérésével kapcsolatos függvények: Variancia: =Var(VáltozóTömb) Kovariancia: =Covar(VáltozóTömb1, VáltozóTömb2) Korreláció: =Correl(VáltozóTömb1, VáltozóTömb2) Az egy független változós lineáris regresszióval kapcsolatos függvények: Meredekség: = Slope(FüggőTömb, FüggetlenTömb) Regressziós konstans: = Intercept(FüggőTömb, FüggetlenTömb) Pontbecslés y értékére egy új x értékből: = Forecast(x, FüggőTömb, FüggetlenTömb) Determinációs együttható: = Rsq(FüggőTömb, FüggetlenTömb) A meredekség sztenderd hibája: = SteYX(FüggőTömb, FüggetlenTömb) F-teszt kritikus értéke: = Finv( ,1,m) t-teszt hibahatára: = Tinv( ,m-2)
Számítógépes alkalmazás egy független változós lineáris regresszióhoz Excelben Az EgyValtRegr.xls fájl egy mintát mutat az egy függő változós lineáris regresszió alkalmazására. A zöld cellákban kell megadni a függő- és független változók korábban megfigyelt adatait, illetve a független változó azon értékeit, amihez a függő értéket becsülni szeretnénk. Ezután be kell állítani a sárga cellákban a modell és a meredekség teszteléséhez szükséges szignifikancia szinteket. A modell paraméterei és teszteredményei a piros cellákban, a függő változó pontbecslései a narancssárga cellákban íródnak ki:EgyValtRegr.xls
Szakirodalom Regresszió: Lineáris regresszió elméleti bevezető: Logisztikus regresszió elméleti bevezető: -SPSS.pdf#search='ols%20regression‘ -SPSS.pdf#search='ols%20regression Java appletes animáció egyváltozós regresszióhoz: Lineáris regresszió SAS-ban: g4.htm g4.htm Lineáris regresszió SPSS-ben: -SPSS.pdf#search='ols%20regression‘ -SPSS.pdf#search='ols%20regression