Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 13. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

I. előadás.
Kvantitatív Módszerek
Kvantitatív módszerek
Gazdasági informatika
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Földrajzi összefüggések elemzése
Csoportosítás megadása: Δx – csoport szélesség
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Regresszió és korreláció
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
A középérték mérőszámai
Regresszióanalízis 10. gyakorlat.
SPSS többváltozós (lineáris) regresszió (4. fejezet)
Nem-paraméteres eljárások, több csoport összehasonlítása
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
STATISZTIKA II. 7. Előadás
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
Adatleírás.
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Petrovics Petra Doktorandusz
Bevezetés a Korreláció & Regressziószámításba
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Korreláció-számítás.
A számítógépes elemzés alapjai
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
12. Előadás Dr. Pauler Gábor, Egyetemi Docens
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 16. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens PTE-PMMK Számítástechnika.
Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 14. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Korreláció, regresszió
Lineáris regressziós modellek
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
I. Előadás bgk. uni-obuda
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
5. Kalibráció, függvényillesztés
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 13. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/ /

Az előadás tartalma Numerikus változók közti kapcsolatok mérése A mérés problémái A kovariancia Korreláció Meredekség Az egy független változós lineáris regresszió analízis A regressziós konstans A lineáris regresszió modellje A legkisebb négyzetek módszere, szemléltető példa A teljes modell tesztelése A meredekség tesztelése Számpélda az egy független változós lineáris regresszióhoz Cellafüggvények az egy független változós lineáris regresszióhoz Excelben Számítógépes alkalmazás az egy független változós lineáris regresszióhoz Excelben

A korábban tanult ANOVA-elemzésnek két fő hiányossága van: Bár jelezni tudja, ha egy független változó hatást gyakorol valamilyen függő változóra, de nem tudja megmondani a kapcsolat irányát (a független növekedésére a függő nő vagy csökken?), ezért rengeteg kísérletet kell végezni Csak egy csoportosító változó (nominális vagy ordinális) hatását tudja mérni egy legalább intervallum skálán mért folytonos változóra –Ha két intervallumos változó közti kapcsolatot szeretnénk mérni, akkor az egyiket csoportosítani kellene. Korábban már tárgyaltuk, hogy ez sok bizonytalanság forrása A mindennapi életben pedig rengetegszer van szükség intervallum skálás változók közti kapcsolat elemzésére, ezt ösztönösen is megtesszük, statisztikai háttér nélkül: Pl. Murphy 9. törvénye: „Minél szebb egy nő, annál kevésbé okos” Ez egy sok nő két folytonos változó (Intelligencia: IQ, Szépség: kiváltott pulzus- szám-emelkedés) szerinti megfigyeléseiből történő durva általánosításon alapul Valamilyen tendenciát vélünk fölfedezni a két változó közt, pl. hogy a megfigyelések nagyjából illeszkednek egy egyenes vonalra! Numerikus változók közti kapcsolatok mérése 1 IQ Szépség Szörny Ella, Programozó matematikus Jólábú Dzsenifer Gyors- és gépmaca Joó Jolán Amatőr Aktatologató Közepes Ili Képesített Vajköpülő

Numerikus változók közti kapcsolatok mérése 2 Tegyük fel, hogy j = 1..m megfigyelésünk van két változó x j, y j, j = 1..m szerint, amelyek legalább intervallum skálán mértek Kovarianciának (Covariance) nevezzük a két változó saját!!! átlaguktól mért eltérései szorzatainak számtani átlagát: (13.1) –> 0, ha a két változó együtt mozog (ha x nagy, y is nagy) –< 0, ha a két változó ellentétesen mozog (ha x nagy, y kicsi lesz) –≈ 0, ha a két változó közt nincs kapcsolat (ha x nagy, y bármennyi lehet) Miért van ez így? Mert a kovariancia szorzásokon alapul: –Ha x átlag feletti értékei társulnak y átlag feletti értékeivel, az átlag alattiak meg az átlag alattival, akkor pozitív különbséget szorzunk pozitívval, vagy negatívat különbséget negatívval, a szorzatok pozitívak lesznek, ezek átlaga is pozitív! –Ha x átlag feletti értékei társulnak y átlag alatti értékeivel, akkor pozitív különbséget szorzunk negatívval, a szorzatok negatívak lesznek, ezek átlaga is negatív! –Ha x, y rendszertelenül mozognak, a két fenti eset keveredik, a szorzatok hol pozitívak lesznek, hol negatívak, így az átlaguk 0 lesz! Megfigy. Cov(x,y)>0 Cov(x,y)<0 Megfigy. Cov(x,y) ≈ 0 Megfigy.

Numerikus változók közti kapcsolatok mérése 3 A kovariancia mérőszám értékelése: –Mivel a szorzás szimmetrikus művelet (a tényezői felcserélhetők lesznek), a kovariancia is szimmetrikus: Cov(x,y) = Cov(y,x).Így azonban csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) –Különféle minták kovarianciája nem igazán összehasonlítható egymással, mert a kovariancia értéke erően függ a résztvevő változókértékeinek szóródásától: –pl. egy 100-as kovariancia lehet nagyon gyenge kapcsolat, ha milliós eltéréseket tartalmazó változók közt számoljuk, de lehet nagyon erős ha a változók értékeinek szóródása csak száz valahány körüli. –Mindezek miatt a kovarianciát önmagában ritkán használjuk a gyakorlatban Ahhoz, hogy a kovariancia igazán használható legyen változók kapcsolatának mérésére, az értékét valahogy normalizálni kellene –A normalizáció korábban azt jelentette, hogy a változókból kivonjuk az átlagukat (ez már megtörténik a kovarianciában) –Ezután pedig elosztjuk a különbséget a szórásukkal:

Numerikus változók közti kapcsolatok mérése 4 A korreláció (Pearson Correlation, Product Moment Correlation) a kovariancia osztása x és y változók szórásának szorzatával: (13.2) –Értéke maximum +1, ha a két változó teljesen együtt mozog –Értéke maximum -1, ha a két változó teljesen ellentétesen mozog –Értéke 0, ha a két változó közt nincs kapcsolat A korreláció mérőszám értékelése: –Mivel a kovariancia is szimmetrikus, a korreláció is az lesz: Corr(x,y) = Corr(y,x) Csak a két változó közti kapcsolat erősségét és irányát mutatja, arra nézve nem ad információt melyik az ok és melyik az okozat (független/függő változó) –Különféle minták korrelációja jól összehasonlítható, mert el van tüntetve belőle a változók értékeinek szóródása –Viszont a gyakorlatban sokszor arra vagyunk kiváncsiak, hogy x egy egységnyi növelésére y hány egységgel változik. Ezt pont a változók értékeinek szóródásától való függetlensége miatt nem tudja megadni.

Numerikus változók közti kapcsolatok mérése 5 A meredekségi együttható (Slope Coefficient) y függő és x független változók közti korrelációnak a szórásaik arányával alkotott szorzata: (13.3) –Értéke azt mutatja meg, hogy ha x egy egységgel nő (  x), y várhatóan plusz/minusz hány egységgel fog változni (  y), mert a korrelációt egy olyan tényezővel módosítja ami a két változó szóródásának arányát figyeli A meredekségi együttható mérőszám értékelése: –Nem szimmetrikus mérőszám, mert a független és függő változó szóródásának arányánál a számláló és a nevező nem felcserélhető, ezért: b  y/  x = b  x/  y -1 (13.4) –0 meredekség azt jelenti, hogy a két változó független egymástól. Nagy meredekség általában szorosabb kapcsolatot jelent, de ez nem biztos, mert értékeit a változók szórásai is befolyásolják, ezért ezt nem mutatja olyan tisztán, mint a korelláció –Ezért a korellációt néha sztenderdizált koefficiensnek (Standardized Coefficient) is nevezik Corr(x,y) =   y/  x, mert az független a változók szórásaitól, és csak a kapcsolat szorosságát mutatja –A meredekségi együtthatóval egy adott x értékhez csak y várható változását (  y) becsülhetjük meg nem y várható értékét, mert nem biztos, hogy x=0-nál y is nulla! –Pl. ha egy termék kereslete (y) az ár (x) 1Ft-os növelésére várhatóan b=-500db- bal csökken, az nem jelenti azt, hogy 10Ft-os árnál a kereslet 10×-500=-5000db lesz! Nyilvánvaló, hogy x=0Ft-os árnál (ha ajándékba adom a terméket) a kereslet elég magas szintről indul, pl db, a csökkenés ebből vonandó le!

Az előadás tartalma Numerikus változók közti kapcsolatok mérése A mérés problémái A kovariancia Korreláció Meredekség Az egy független változós lineáris regresszió analízis A regressziós konstans A lineáris regresszió modellje A legkisebb négyzetek módszere, szemléltető példa A teljes modell tesztelése A meredekség tesztelése Számpélda az egy független változós lineáris regresszióhoz Cellafüggvények az egy független változós lineáris regresszióhoz Excelben Számítógépes alkalmazás az egy független változós lineáris regresszióhoz Excelben

Egy független változós lineáris regresszió analízis A regressziós konstans (Intercept) megadja, hogy várhatóan mennyi lesz y függő változó értéke ha x független változó nulla: (13.5) –A regressziós konstansot az x és y változók átlagai, illetve b meredekségi együttható segítségével számolhatjuk ki. Ez a számítás azon a feltevésen alapul, hogy x átlagos értékéhez várhatóan y átlagos értéke fog tartozni, mert a kovarianciánál mindkét változóból a saját átlagukat vontuk le A regressziós konstans mérőszám értékelése: –Nem szimmetrikus mérőszám, mert a független és függő változó átlagai egy kivonásban szerepelnek, ami nem szimmetrikus művelet A b meredekségi együttható és a regressziós konstans segítségével egy egy független változós lineáris regressziós modellt (Univariate Linear Regression Model) írhatok fel, amely x független változó x j értékeiből egy regressziós egyenlet (Regression Equation) segítségével számítja ki az y függő változó hozzájuk tartozó ŷ j becsült értékeit (pontbecsléssel): ŷ j = bx j + a, j = 1..m(13.6) A becsült ŷ j értékek természetesen nem fogják pontosan eltalálni y j tényleges értéket, mert lehet, hogy a becslés nem hatékony, vagy véletlen hatások eltérítik a tényleges értékeket az általános tendenciától. A becslések és a tényleges értékek különbségeit e j hibatagoknak (Error Term, Difference, Residual) nevezzük: e j = y j - ŷ j, j = 1..m(13.7) y j = bx j + a + e j, j = 1..m(13.8) Az a jó regressziós becslés, ahol ezek a hibatagok a lehető legkisebbek.

Egy független változós lineáris regresszió egyenletének működése Térjünk vissza a szépség és IQ kapcsolát vizsgáló nyitó példához! A lineáris regresszió akkor működik jól, ha a függő- és független változók normális eloszlásúak és van köztük kapcsolat Ez grafikusan úgy néz ki, hogy a megfigyeléseik egy elnyújtott, ferde helyzetű pontfelhőbe tömörülnek az XY pontdiagrammon Ezután kiszámítjuk a soka- ság átlagát a két változó szerint, ez egy koordináta pont lesz. Ekörül forgatunk addig egy egyenes vonalat, amíg a lehető legjobban nem illeszkedik a megfigyelések koordináta pontjaira, vagyis a pontok egyenestől mért, függő változó (IQ) szerinti eltéréseinek négyzetösszegét minimalizáljuk A lineáris regresszió a legkisebb négyzetek módszerének (Ordinary Least Square (OLS) Method) nevezett függvényillesztési módszer egy speciális esete A regressziós egyenes meredekség (b), és konstans (a) paramétereinek (Parameter) az előzőekben megadott számítása a lehető legjobb illeszkedést fogja eredményezni. Ezután bármilyen x értékhez az y = bx + a regressziós egyenletbe helyettesítéssel megadhatjuk a hozzá tartotó becsült ŷ értéket, ami egy pontbecslés! IQ Szépség Szörny Ella, Programozó matematikus Jólábú Dzsenifer Gyors- és gépíró Joó Jolán Amatőr Aktatologató Közepes Ili Képesített Vajköpülő Átlag Gizi Átlagos Honleány b b a a Új x érték ŷ becslés

Egy független változós lineáris regresszió tesztelése 1 A lineáris regresszió csak abban az esetben ad megbízható becsléseket, hogy ha a függő- és független változók eloszlása illeszkedik a regressziós modell alapfeltételezéseihez. Az R 2 determinácós együttható (Determination Coefficient) a teljes modell illeszkedésének tesztelését végzi: R 2 = Var(ŷ)/Var(y) = (Var(y)-Var(e))/Var(y) = Corr(x,y) 2 (13.9) Ez az ŷ becslések és az y függő változó varianciáinak hányadosa. [0,1] közti értékei azt mutatják, hány százalékot képes megmagyarázni a független változó az adott regressziós egyenlet segítségével a függő változó varianciájából. A gyakorlatban nem szoktunk elfogadni R 2 = 0.75 alatti modellt. Ha a modell illeszkedését egy adott  szignifikancia szinten szeretnénk tesztelni, ezt F-próbával tehetjük meg: F = Var(ŷ)/Var(e)×1/m = R 2 /(1-R 2 )×1/m(13.10) Ha ez a számított F-érték meghaladja az egy oldalú F-próba adott  szignifikancia szinthez, 1, m szabadságfokokhoz tartozó x 0 =Finv( ,1,m) kritikus értékét, akkor a modell elfogadható.

Egy független változós lineáris regresszió tesztelése 2 Ha egy regressziós modell nem bizonyul megfelelőnek, ez két okra vezethető vissza: A függő- és független változók eloszlása nem illeszkedik a modell alapfeltevéseihez A független változónak nincs igazán hatása a függő változóra. Ez utóbbit a következőképpen tesztelhetjük: A meredekségi együttható sztenderd hibája (Standard Error of Regression/Slope Coefficient), megadja, hogy adott x független változó y függő változó szerinti b meredekségének mennyi a szórása, vagyis mennyire bizonytalan: (13.11) Ezekután egy t-próba segítségével vizsgáljuk, hogy a kiszámított b paraméter érték elég nagy-e a bizonytalanságot kifejező sztenderd hibához képest: t = b / SE b (13.12) Ha a számított t érték abszolút értéke meghaladja a két oldalú t- próba adott  szignifikancia szinthez, m-2 szabadságfokhoz tartozó c=Tinv( ,m-2) hibahatárát, akkor a független változónak p=1-  valószínűséggel hatása van a függő változóra.

Az előadás tartalma Numerikus változók közti kapcsolatok mérése A mérés problémái A kovariancia Korreláció Meredekség Az egy független változós lineáris regresszió analízis A regressziós konstans A lineáris regresszió modellje A legkisebb négyzetek módszere, szemléltető példa A teljes modell tesztelése A meredekség tesztelése Számpélda az egy független változós lineáris regresszióhoz Cellafüggvények az egy független változós lineáris regresszióhoz Excelben Számítógépes alkalmazás az egy független változós lineáris regresszióhoz Excelben

Számpélda az egy független változós lineáris regresszióhoz Célja: x független változó (pl. Ár) értékeiből y függő változó (pl. Kereslet) értékeit akarja becsülni, Korábban megfigyelt (x,y) értékpárokból, baAz ŷ = b*x + a regressziós függvény segítségével. ba eEnnek b, a paramétereit úgy állítja be, hogy valós adatok és becslésük közti e = y – ŷ hibák négyzetösszegét minimalizálja b A b meredekségi együttható meghatározása: A CORR(x,y) korreláció leírja a két változó kapcsolatát: +1, ha x és y tökéletesen együtt mozognak a saját átlaguk fölé/alá, -1 ha fordítva. De nem veszi figyelembe a változók értékeinek szóródását, ezért megszorozzuk a változók szórásának arányával: b = CORR(x,y)*  (y)/  (x) = * 1.18 / = a Az a regressziós konstans meghatározása: A kovariancia a változók saját átlagától történő elmozgást mér, így tudjuk, hogy az illesztett függvény átmegy az AVG(x), AVG(y) ponton, ezért: a = AVG(y) – b*AVG(x) = 7.47 – (-0.039) * = Tesztelése: Az ŷ becslés varianciája hány %-ban fedi az eredeti y varianciáját? R 2 = (  ( ŷ )/  (y)) 2 = VAR( ŷ )/VAR(y) = 1.33 / 1.40 = 0.95, a modell elfogadható Kereslet, Edb (y) Egységár,EFt/db (x) Egységár,EFt/db Kereslet, Edb b b a a

Cellafüggvények egy független változós lineáris regresszióhoz Excelben A modell használata becslésre: A megalkotott regressziós modell: (Kereslet, Edb) = ×(Egységár, EFt) Ebbe történő behelyettesítéssel meghatározhatjuk, várhatóan mekkora lesz a kereslet 75EFt-os egységárnál: = × A numerikus változók közti kapcsolatok mérésével kapcsolatos függvények: Variancia: =Var(VáltozóTömb) Kovariancia: =Covar(VáltozóTömb1, VáltozóTömb2) Korreláció: =Correl(VáltozóTömb1, VáltozóTömb2) Az egy független változós lineáris regresszióval kapcsolatos függvények: Meredekség: = Slope(FüggőTömb, FüggetlenTömb) Regressziós konstans: = Intercept(FüggőTömb, FüggetlenTömb) Pontbecslés y értékére egy új x értékből: = Forecast(x, FüggőTömb, FüggetlenTömb) Determinációs együttható: = Rsq(FüggőTömb, FüggetlenTömb) A meredekség sztenderd hibája: = SteYX(FüggőTömb, FüggetlenTömb) F-teszt kritikus értéke: = Finv( ,1,m) t-teszt hibahatára: = Tinv( ,m-2)

Számítógépes alkalmazás egy független változós lineáris regresszióhoz Excelben Az EgyValtRegr.xls fájl egy mintát mutat az egy függő változós lineáris regresszió alkalmazására. A zöld cellákban kell megadni a függő- és független változók korábban megfigyelt adatait, illetve a független változó azon értékeit, amihez a függő értéket becsülni szeretnénk. Ezután be kell állítani a sárga cellákban a modell és a meredekség teszteléséhez szükséges szignifikancia szinteket. A modell paraméterei és teszteredményei a piros cellákban, a függő változó pontbecslései a narancssárga cellákban íródnak ki:EgyValtRegr.xls

Szakirodalom Regresszió: Lineáris regresszió elméleti bevezető: Logisztikus regresszió elméleti bevezető: -SPSS.pdf#search='ols%20regression‘ -SPSS.pdf#search='ols%20regression Java appletes animáció egyváltozós regresszióhoz: Lineáris regresszió SAS-ban: g4.htm g4.htm Lineáris regresszió SPSS-ben: -SPSS.pdf#search='ols%20regression‘ -SPSS.pdf#search='ols%20regression