Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 14. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos.

Hasonló előadás


Az előadások a következő témára: "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 14. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."— Előadás másolata:

1 Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 14. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos Intézet Számítástechnika Tanszék Iroda: Boszorkány u., B épület 101 Tel: 72/503-650/3725 E-mail: gjpauler@acsu.buffalo.edugjpauler@acsu.buffalo.edu

2 Az előadás tartalma Többváltozós lineáris regresszió analízis Fogalma Példa többváltozós regresszióra Az eltéréseket minimalizáló paraméterek meghatározása –A meredekségek számítása Az áttételes hatások számszerűsítése –Miért kell a korrelációs mátrix inverzével szorozni? –Példa a mátrixok működésére –A mátrix inverzével történő szorzás hatása –A regressziós konstans és regressziós egyenlet számítása A teljes modell tesztelése: R 2, F-próba A független változók együtthatóinak tesztelése: t-próba, F-próba Számpélda több független változós lineáris regresszióra A modell lehetséges problémái –Multikolinearitás –Heteroszkedaszticitás –Autokorreláció Számítógépes alkalmazás több független változós lineáris regresszióhoz Excel-ben Számítógépes alkalmazás több független változós lineáris regresszióhoz SPSS-ben

3 A több változós lineáris regresszió fogalma A többváltozós lineáris regresszió (Multivariate Linear/OLS Regression) olyan eloszlásfügő becslési módszer: Amely egy legalább intervallum skálán mért y függő változó és az x i i = 1..n legalább intervallum skálán mért független változók közti kapcsolatot írja le j = 1..m korábbi megfigyelésük segítségével. Egy többváltozós lineáris regressziós függvény (Multivariate Linear Regression Function) bi i = 1..n meredekségi koefficienseit és a regressziós konstansát határozza meg: ŷ = b 1 ×x 1 +..+b n ×x n + a(14.1) Adott x i i = 1..n független változóértékek többváltozós lineáris regressziós modellbe (Multivariate Linear Regression Model) helyettesítése révén ŷ pontbecslést ad a függő változó várható értékére

4 A saját termékem keresletét (y) vizsgálom a saját termék ára (x 1 ) és a versenytárs ter- mék ára (x 2 ) függvényében. A lineáris regresszió akkor működik jól, ha a függő- és független változók normális eloszlásúak, a függő-függet- len korellációk magasak, a független változók pedig nem korelláltak egymással. Ez grafikusan úgy néz ki, hogy a megfigyelések egy elnyújtott, ferde helyzetű pontfelhőbe tömörülnek egy 3D pontdiagrammon Először kiszámítja a meg- figyelések átlagát a változók szerint, ez egy sokváltozós koordináta pont lesz. Ekörül addig forgat egy síkot (egy sokváltozós lineáris függvény b 1, b 2 meredkség és a konstans paramétereit állítgatja), amíg a lehető legjobban nem illeszkedik a megfigyelések koordináta pontjaira. Vagyis, j = 1..m pontoknak a síktól mért, függő változó szerinti e j eltéréseit/hibáit minimalizálja. Mivel ezek pozitívak és negatívak is lehetnek, nem az összegüket minimalizálja - nehogy az ellenkező előjelű eltérések kioltsák egymást – hanem a négyzetösszegüket! Ezért a többváltozós lineáris regresszió a legkisebb négyzetek módszerének (Ordinary Least Square (OLS) Method) nevezett függvényillesztési módszer egy speciális esete A jól illeszkedő regressziós függvény segítségével egy pontbecslést adhatunk arra, hogy adott x 1 saját ár és adott x 2 versenytárs ár mellett várhatóan mekkora lesz a termékünk iránti kereslet (ŷ). Példa többváltozós lineáris regresszióra 0.00 1.00 2.00 3.00 4.00 0.00 1.00 2.00 3.00 4.00 8.20 8.30 8.40 8.50 8.60 8.70 8.80 Saját termék kereslete(y) Saját termék ár(x 1 ) Verseny-társ ára (x 2 ) b1b1 b1b1 a a Új (x 1,x 2 ) érték ŷ becslés b2b2 b2b2 e j hibák Átlagos piaci helyzet

5 Az eltéréseket minimalizáló paraméterek meghatározása 1 A b i parciális meredekségi együttható (Partial Slope Coefficient) y függő és adott x i független változó közti korrelációnak a szórásaik arányával alkotott szorzata: (14.2) Értéke azt mutatja meg, hogy ha x egy egységgel nő (  x), y várhatóan plusz/minusz hány egységgel fog változni (  y), mert a korrelációt egy olyan tényezővel módosítja ami a két változó szóródásának arányát figyeli 0 parciális meredekség azt jelenti, hogy az adott x i független váltoó nem hat a függő változóra. Nagy meredekség általában szorosabb kapcsolatot jelent, de ez nem biztos, mert értékeit a változók szórásai is befolyásolják, ezért ezt nem mutatja a kapcsolatot olyan tisztán, mint a korelláció Ezért a korellációt néha sztenderdizált parciális regressziós koefficiensnek (Standardized Partial Regression Coefficient) is nevezik, mert független a változók szórásaitól, és csak a kapcsolat szorosságát mutatja Corr(x i,y)×Korrekció i =  i, i = 1..n(14.3) Abban az esetben, ha a független változók valójában nem teljesen függetlenek egymástól, hanem köztük is korrelációk vannak (a valóságban az esetek 99%-a ilyen...), akkor a parciális meredekségek korrekcióra szorulnak, mert torzítani fognak: –Nemcsak az adott független változó hatását mutatják a függőre, hanem az áttételes hatásokat is tartalmazni fogják: –Az egyik független változó hatást gyakorolhat a másik „független” változóra, és ezen keresztül is hathat a függő változó értékére, nemcsak sajátmagában! –Például, a családok jövedelme és iskolai végzettsége is hathat a magas minőségű különleges élelmiszerek keresletére (minél gazdagabb és jobban képzett, igényesebb valaki, általában annál hajlamosabb extra kajákat megvenni, pl. homár). De az iskolai végzettség a jövedelemre is pozitívan hat, és ezen keresztül a fogyasztásra áttételesen is!

6 Az előadás tartalma Többváltozós lineáris regresszió analízis Fogalma Példa többváltozós regresszióra Az eltéréseket minimalizáló paraméterek meghatározása –A meredekségek számítása Az áttételes hatások számszerűsítése –Miért kell a korrelációs mátrix inverzével szorozni? –Példa a mátrixok működésére –A mátrix inverzével történő szorzás hatása –A regressziós konstans és regressziós egyenlet számítása A teljes modell tesztelése: R 2, F-próba A független változók együtthatóinak tesztelése: t-próba, F-próba Számpélda több független változós lineáris regresszióra A modell lehetséges problémái –Multikolinearitás –Heteroszkedaszticitás –Autokorreláció Számítógépes alkalmazás több független változós lineáris regresszióhoz Excel-ben Számítógépes alkalmazás több független változós lineáris regresszióhoz SPSS-ben

7 Az áttételes hatások számszerűsítése Az x i i=1..n független változók korrelációs mátrixa (Correlation Matrix) a változók egymással páronként alkotott korrelációit (Corr(x i,x l ), i,l=1..n) tartalmazó számtáblázat Főátlőjában mindig 1-ek vannak, mert önmagával minden változó tökéletesen korrelál A mátrix mindig szimmetrikus a főátlóra, mert a korreláció szimmetrikus mérőszám A mátrixot számoszlopokra (Vector) bonthatjuk, és vektorokként ábrázolhatjuk a változók koordináta rendszerében A mátrix korrelációival be kellene osztani a Corr(x i,y) függő-független korrelációkat, hogy eltűnjenek azokból az áttételes hatások A baj csak az, hogy n változónál n db függő- független korreláció van, viszont n×n db függetlenek közti korreláció! Mit osszunk mivel? Ezt sajnos csak egy mátrix-algebrai művelet segítségével lehet helyesen végrehajtani: a függő-független korrelációk vektorát meg kell szorozni a korrelációs mátrix inverzével Egy mátrixnak és az inverzének (Matrix Inverse) szorzata az egységmátrixot (Unity Matrix) ad eredményül: ennek főátlójában 1-ek vannak, minden más eleme 0 Az inverz hasonlít a számok reciprokához: ha egy mátrixban csak a főátlóban vannak 0-tól eltérő számok, akkor az inverzben ezen számok reciprokai lesznek a főátlóban Ha nemcsak a főátlóban vannak 0-tól különböző értékek, akkor a számolás jóval bonyolultabb, nem térünk most ki rá. Corrx1x1 x 2 x1x1 1.00.5 x2x2 1.0 Corry x1x1 -0.1 x2x2 0.2 ?/?/ ?/?/ x 2 -1.50 -0.50 0.00 0.50 1.00 1.50 -1.50-0.500.000.501.001.50 x 1 Corry x1x1 -0.1 x2x2 0.2 × × Corr -1 x1x1 x 2 x1x1 1.33-0.67 x2x2 1.33

8 Miért kell a korrelációs mátrix inverzével szorozni? A korrelációs mátrix oszlopvektorai egy furcsa, nem derékszögű koordináta rendszert alkotnak Ebben a koordináta rendszerben az eredeti változók szinén megjelennek, csak minden adat máshol lesz, mint az eredeti koordináta rendszerben. Ez köznapi értelemben azt jelenti, hogy a korrelációs mátrix hatása miatt a valóságot (például a Corr(x i,y) függő-független korrelációkat!) egy torzított nézetből!!! nézzük. A mátrix működése hasonlít egy paranoiás emberre, aki logikusan gondolkodik ugyan, de teljesen abnormális fontossági súlyokat rendel dolgokhoz, így a nemlétező saját világában él. A mátrix inverzével történő szorzás eltűnteti ennek a torzító nézőpontrendszernek, súlyozásnak a hatását, az egyes változók hatása jól elkülöníthető lesz! Lássunk erre egy gyakorlati példát: Corrx1x1 x 2 x1x1 1.00.5 x2x2 1.0 × × Corr -1 x1x1 x 2 x1x1 1.33-0.67 x2x2 1.33 x1x1 x 2 x1x1 10 x2x2 01 = =

9 Nagyon racionális Közepesen racionális Nem racionális Hasznosság Menőség Példa a mátrixok működésére Egy anya és tinédzser korú gyermeke értékel két dolgot (ultra light cigit, külön matekórát) két tényező szerint (menőség, hasznosság), és ezek alapján, hogy melyikre racionálisabb pénzt kiadni. Nem egyformán ítélik meg a menőség és a hasznosság szerepét, szubjekív súlyaik az anya és tinédzser mátrixában kapnak helyet. Az anya nézőpont-mátrixában egyértelműen el tudja különíteni a két tényezőt egymástól, a hasznosság független a menőségtől Emiatt az anya a külön matekre történő pénzköltést racionálisabbnak tartja, mint az ultra light cigi vásárlását Hasznosság Menőség Nagyon racionális Közepesen racionális Nem racionális Ultra light cigi Matek különóra Tinédzser értékelése SzubjektívUltra light cigiKülön matek Hasznosság0.500.80 Menőség0.770.41 Racionalitás1.281.21 Anya értékelése SzubjektívUltra light cigiKülön matek Hasznosság0.200.75 Menőség0.750.30 Racionalitás0.951.05 Anya nézőpontja Szubj|ObjektHasznosságMenőség Hasznosság1.000.00 Menőség0.001.00 Tinédzser nézőpontja Szubj|ObjektHasznosságMenőség Hasznosság0.900.43 Menőség0.150.99 ObjektívHasznosságMenőség Ultra light cigi0.200.75 Külön matek0.750.30 A tinédzser nézőpont-mátrixában nem tudja teljesen elkülöníteni a tényezőket, egy dolog menősége pozitívan befolyásolja a hasznossági megítélését! Ezért torz módon, az ultra light cigire költésnek nagyobb lesz a racionalitása

10 A mátrix inverzével történő szorzás hatása Ha tinédzser torzított értékelését megszorozzuk a nézőpont-mátrixának inverzével,akkor ez eltűnteti az értékelésből az összefüggő nézőpont miatti torzítást. Lássunk most egy becslési példát: Családok várható élelmiszer vásárlásait szeretnénk becsülni egy regressziós modellel az így-úgy féllegálisan megszerezhető adataikból: –az ingatlanuk értékéből, –a kocsijuk értékéből, –a felvett fogyasztási hiteleik állományából –családméretből Látszólag az első három tényező sokkal fontosabb lesz, mint a családméret, bármilyen kis növekedésük megdobja a becslést Valójában erősen összefüggenek egymással, mert a jövedelem mozgatja mindet, lényegében ugyanazt rakom bele az elemzésbe háromszor!!! Tinédzser értékelése SzubjektívUltra light cigiKülön matek Hasznosság0.500.80 Menőség0.770.41 Tisztított értékelés SzubjektívUltra light cigiKülön matek Hasznosság0.200.75 Menőség0.750.30 Racionalitás0.951.05 Tinédzser nézőpontjának inverze Szubj|ObjektHasznosságMenőség Hasznosság1.20-0.52 Menőség-0.181.09 × = ={Minverse(MátrixTömb)} Nagyon racionális Közepesen racionális Nem racionális Hasznosság Menőség Ultra light cigi Matek különóra A korrelációs mátrix inverzével történő szorzás megakadályozza, hogy felerősített hatásuk letompítsa a valóban fontos tényező, a családméret hatását!!!

11 Az eltéréseket minimalizáló paraméterek meghatározása 2 Ha a korrelációs mátrix inverzével történő korrekció révén sikerült meghatározni a parciális meredekségeket, akkor ezek segítségével meghatározható a konstans paraméter. Az a regressziós konstans (Intercept) megadja, hogy várhatóan mennyi lesz y függő változó értéke ha x i i=1..n független változók értéke nulla: (14.4) Ez a számítás azon a feltevésen alapul, hogy x i i=1..n átlagos értékéhez várhatóan y átlagos értéke fog tartozni A bi parciális meredekségi együtthatók és a regressziós konstans segítségével egy több független változós lineáris regressziós modellt (Multivariate Linear Regression Model) írhatunk fel, amely x j i=1..n független változók x ij j = 1..m értékeiből egy regressziós egyenlet (Regression Equation) segítségével számítja ki az y függő változó hozzájuk tartozó ŷ j becsült értékeit (pontbecsléssel): ŷ j =  b i x ij + a, j = 1..m(14.5) A becsült ŷ j értékek természetesen nem fogják pontosan eltalálni y j tényleges értéket, mert lehet, hogy a becslés nem hatékony, vagy véletlen hatások eltérítik a tényleges értékeket az általános tendenciától. A becslések és a tényleges értékek különbségeit e j hibatagoknak (Error Term, Difference, Residual) nevezzük: e j = y j - ŷ j, j = 1..m(14.6)y j =  b i x ij + a + e j, j = 1..m(14.7) Az a jó regressziós becslés, ahol ezek a hibatagok a lehető legkisebbek.

12 Az előadás tartalma Többváltozós lineáris regresszió analízis Fogalma Példa többváltozós regresszióra Az eltéréseket minimalizáló paraméterek meghatározása –A meredekségek számítása Az áttételes hatások számszerűsítése –Miért kell a korrelációs mátrix inverzével szorozni? –Példa a mátrixok működésére –A mátrix inverzével történő szorzás hatása –A regressziós konstans és regressziós egyenlet számítása A teljes modell tesztelése: R 2, F-próba A független változók együtthatóinak tesztelése: t-próba, F-próba Számpélda több független változós lineáris regresszióra A modell lehetséges problémái –Multikolinearitás –Heteroszkedaszticitás –Autokorreláció Számítógépes alkalmazás több független változós lineáris regresszióhoz Excel-ben Számítógépes alkalmazás több független változós lineáris regresszióhoz SPSS-ben

13 Több független változós lineáris regresszió tesztelése 1 A lineáris regresszió csak abban az esetben ad megbízható becsléseket, hogy ha a függő- és független változók eloszlása illeszkedik a regressziós modell alapfeltételezéseihez. Az R 2 determinácós együttható (Determination Coefficient) a teljes modell illeszkedésének tesztelését végzi: R 2 = Var(ŷ)/Var(y) = (Var(y)-Var(e))/Var(y) (14.8) Ez az ŷ becslések és az y függő változó varianciáinak hányadosa. [0,1] közti értékei azt mutatják, hány százalékot képes megmagyarázni a független változó az adott regressziós egyenlet segítségével a függő változó varianciájából. A gyakorlatban nem szoktunk elfogadni R 2 = 0.75 alatti modellt. Ha a modell illeszkedését egy adott  szignifikancia szinten szeretnénk tesztelni, ezt F-próbával tehetjük meg: F = Var(ŷ)/Var(e)×n/(m-n-1) = R 2 /(1-R 2 )×n/(m-n-1) (14.9) Ha ez a számított F-érték meghaladja az egy oldalú F-próba adott  szignifikancia szinthez, n, (m-n-1) szabadságfokokhoz tartozó x 0 =Finv( , n, (m-n-1)) kritikus értékét, akkor a modell elfogadható.

14 Egy független változós lineáris regresszió tesztelése 2 Ha egy regressziós modell nem bizonyul megfelelőnek, ezt az is okozhatja, hogy a független változóknak nincs igazán hatásuk a függő változóra. Ezt a következőképpen tesztelhetjük: A parciális meredekségi együttható sztenderd hibája (Standard Error of Partial Regression/Slope Coefficient), megadja, hogy adott x i független változó y függő változó szerinti b i meredekségének mennyi a szórása, vagyis mennyire bizonytalan: (14.10) Ezekután t-próbák segítségével vizsgáljuk, hogy a kiszámított b i paraméter értékek elég nagyok-e a bizonytalanságot kifejező sztenderd hibáikhoz képest: t i = b i / SE bi, i =1..n(14.11) Ha egy számított t i érték abszolút értéke meghaladja a két oldalú t-próba adott  szignifikancia szinthez, m-n-1 szabadságfokhoz tartozó c=Tinv( , m-n-1) hibahatárát, akkor x i független változónak p=1-  valószínűséggel hatása van y függő változóra. Mivel a t-próba nagyobb mintaelemszámok (m>1000) esetén hajlamos szinte mindent jelentős hatásnak ítélni, a független változók parciális hatását F-próbával is tesztelhetjük: F i = Var(x i )/((1-R 2 )×Var(y))×1/(m-n-1), i =1..n(14.12) Ha egy számított F i érték meghaladja a egy oldalú F-próba adott  szignifikancia szinthez, 1, (m-n-1) szabadságfokokhoz tartozó kritikus értékét: x 0 =Finv( , 1, (m-n-1)), akkor x i független változónak p=1-  valószínűséggel hatása van y függő változóra.

15 A saját termékünk p 1 ára, illetve a verseny- társ p 2 ára és a saját termékünk D kereslete közt keresünk lineáris kapcsolatot Korábbi megfigyelésekből (p 1,p 2,D) Az Ŷ = a +  i b i *p i regressziós függvény a, b i paramétereit keressük meg Ahol e = D – Ŷ a valós adatok és becslésük közti hibák, ezek négyzetösszegét minimalizáljuk A b i együtthatók meghatározása: Hasonlóan az egy változós regresszióhoz, a függő és az adott független változó korrelációját szoroznánk a szórásaik arányával: Corr(D,p i )×  (D)/  (p i ) = b i De ha a függetlenek mégis korrellálnak egymással, ez eltorzítaná az eredményt, ezért tüntessük el a hatásukat, osszunk be a korrelációikkal! Egy mátrixban vannak, ezzel nem oszthatunk, de inverzével szorozhatunk: [Corr(D,p i )]×[Corr(p i,p i )] -1 ×[  (D)/  (p i )] =  b i ] Számpélda sokváltozós lineáris regresszióra 1 -0.630.90 1-0.28 1 1.090.31 1.09 0.13 1.11 1.13 -0.046 0.086 Sumproduct(,) Minverse() / / / / = = = = × × × × p 1 2.004.003.001.003.001.002.00 p 2 1.002.003.002.00 4.00 D 8.378.418.498.558.478.718.66 bb bb a a bb bb ejej ejej

16 Számpélda sokváltozós lineáris regresszióra 2 Az a konstans meghatározása: A korreláció a változók saját átlagától történő elmozgást mér, így tudjuk, hogy az illesztett függvény átmegy a változók átlagán, ezért: AVG(D) –  i b i *AVG(p i ) = a A teljes modell tesztelése: Az Ŷ becslés varianciája hány %-ban fedi D varianciáját? [Corr(D,p i )]×[Corr(p i,p i )] -1 ×[CORR(D,p i )] = R 2 8.52 Sumproduct(,) 2.292.57 -0.0460.086 - - = = 8.41 1.090.31 1.09 -0.630.90 -0.630.90 0.96 = = Sumproduct(,)

17 Az előadás tartalma Többváltozós lineáris regresszió analízis Fogalma Példa többváltozós regresszióra Az eltéréseket minimalizáló paraméterek meghatározása –A meredekségek számítása Az áttételes hatások számszerűsítése –Miért kell a korrelációs mátrix inverzével szorozni? –Példa a mátrixok működésére –A mátrix inverzével történő szorzás hatása –A regressziós konstans és regressziós egyenlet számítása A teljes modell tesztelése: R 2, F-próba A független változók együtthatóinak tesztelése: t-próba, F-próba Számpélda több független változós lineáris regresszióra A modell lehetséges problémái –Multikolinearitás –Heteroszkedaszticitás –Autokorreláció Számítógépes alkalmazás több független változós lineáris regresszióhoz Excel-ben Számítógépes alkalmazás több független változós lineáris regresszióhoz SPSS-ben

18 A többváltozós regressziós becslések további problémái 1 A korrelációs mátrix inverzével történő korrekcióval ellensúlyozni tudjuk a független változók összefüggése miatti torzítást, de cak egy határig! A modell multikolinearitása (Multicolinearity) a „független” változók közti korrelációk erősségét jelenti. Ha ez magas, az az eredmények olyan erősen torzulhatnak, hogy a modell nemcsak a meredekség nagyságát, de a helyes előjelet is elvétheti! Pl. kihozza, hogy a jövedelem növekedésével a vásárlások csökkennek. Ezért a modell használata elött mindig megnézzük a függetlenek korrelációs mátrixát. Ha ebben több 0.75 feletti érték szerepel a főátlón kívül, a modell eredményei kétségbe vonhatók. Ha a korrelációs mátrix alapján el tudjuk különíteni a függetlenek egymással korelláló, szűk csoportját, még a többi független változó nagyjából tényleg független egymástól, akkor a korreláló csoportból csak a legnagyobb hatású változót vonjunk be a modellbe, a többit ne, és az eredmények látványosan javulni fognak: Pl. A háztartások fogyasztásának becslésekor a (Jövedelem, HázÉrtéke, AutóÉrtéke, Családméret) független változók helyett a (Jövedelem, Családméret) használata lehet, hogy sokkal jobb modellt ad, mert a jövedelem olyan erősen korrelál az autó és a ház értékével, hogy azok nem hogy nem adnak plusz infót, de tönkreteszik a modellt!!! Ugyanezt a gondolatot alkalmazza fejlettebb formában a lépésenkénti lineáris regresszió (Stepwise Linear Regression): a minden függetlent egyszerre bevonó (Enter) módszerrel szemben, egyenként vonja be a független változó-jelölteket a modellbe, és folyamatosan figyeli közben a teljes modell számított F-értékét. Ha ez romlik egy új változó bevonása után, akkor kidobja a modellből azt a változót, aminek a saját számított F i értéke a legkisebb, és olyat von be helyette, ami a modell F-értékében a legnagyobb javulást okozza.

19 A többváltozós regressziós becslések további problémái 2 A több függő változós lineáris regresszió további alapfeltevései: Homoszkedaszticitás (Homoscedasticity): az e j becslési hibák szórása független kell hogy legyen az y függő változó tényleges értékeitől. Autokorrelálatlanság (Non-Autocorrelated): az e j becslési hibák várható értéke 0 kell hogy legyen bármely y-nál. Ezeknek a követelményeknek a teljesülését legegyszerűbben az y függő változó és az e j becslési hibák közti XY pontdiagramm tanulmányozásával ellenőrizhetjük: Ha a hibák minden y értéknél egyenletesen a 0 körül szóródnak, akkor a modell homoszkedasztikus és autokorrelálatlan, tehát rendben van. Ha hibák szórása y növekedtével vagy csökkentével szétnyílik, akkor a modell heteroszkedasztikus (Heteroscedastic). Nemlineárisan ható zaj, vagy a változók közti nemlineáris, pl.1/x-jellegű kapcsolat zavarja a modellt. Valamely linearizált tipusú modellel kellene próbálkozni (lásd a következő előadást). Ha a hibák várható értéke y növekedtével vagy csökkentével elmozdul a nulláról akkor a modell autokorrelált (Autocorrelated). Ennek többféle oka lehet: –Ha a pontok egy egyenes vonalú, ferde sávban vannak: nagyon zajosak az adatok vagy nagy a multikolinearitás, így a modell nem az optimális paramétereket számította ki, és a lineáris függvény „lefordult” az adatokról. –Ha a pontok egy görbülő sávban helyezkednek el: a változók közt nemlineáris kapcsolat van, parabolikus vagy logaritmikus jellegű hatások működnek. Valamely linearizált típusú modellel kellene próbálkozni.

20 Az előadás tartalma Többváltozós lineáris regresszió analízis Fogalma Példa többváltozós regresszióra Az eltéréseket minimalizáló paraméterek meghatározása –A meredekségek számítása Az áttételes hatások számszerűsítése –Miért kell a korrelációs mátrix inverzével szorozni? –Példa a mátrixok működésére –A mátrix inverzével történő szorzás hatása –A regressziós konstans és regressziós egyenlet számítása A teljes modell tesztelése: R 2, F-próba A független változók együtthatóinak tesztelése: t-próba, F-próba Számpélda több független változós lineáris regresszióra A modell lehetséges problémái –Multikolinearitás –Heteroszkedaszticitás –Autokorreláció Számítógépes alkalmazás több független változós lineáris regresszióhoz Excel-ben Számítógépes alkalmazás több független változós lineáris regresszióhoz SPSS-ben

21 Több független változós lineáris regresszió Excelben 1 Komplett lináris regresszió tömbfüggvénnyel: {=Linest(FüggőTömb,FüggetlenekTömbje,TRUE,TRUE)} A tömbfüggvények több cellába rakják le az eredményüket, ezért bevitelük úgy történik, hogy előre kijelölünk több cellát, az egyikbe beleírjuk a tömbfüggvényt, majd Ctrl+Shift+Enter hatására ez az összes kijelölt cellába beíródik a megfelelő formában A Linest függvény egy meghatározott cella-elrendezésben adja vissza az eredményeket (a piros cellákat adja vissza magyarázatok nélkül): Meredekségek (fordított sorrendben!!!) Konstans A teljes modell illeszkedése A teljes modell számított F-értéke A Linest maximum 16 változót és maximum 300 megfigyelést képes kezelni, és hogy nehezebb legyen tovább dolgozni az eredményekkel, fordított sorrendben adja vissza a meredekségi együtthatókat, ahhoz képest, amilyen sorrendben a független tömbben a változók vannak. Ezeket a limitációkat a Microsoft azért vezette be az Office 97-től kezdődően, hogy Excellel ne lehessen nagyobb méretű minták statisztikai elemzését elvégezni, és eladható legyen mellé a Microsoft Analysis Toolpack A lineáris regresszió részletes számításai: Egy esetleges saját statisztikai elemzést végző rendszer programozásakor a limitációkat kikerülhetjük, ha az Excelbe épített függvényekből magunk rakjuk össze a regressziós számításokat. Ekkor az Excel elvileg 255 változóig és 65536 megfigyelésig bírja: Szórás: = Stdev(VáltozóTömb) Variancia: = Var(VáltozóTömb) Szorzatösszeg: = SumProduct(Tömb1, Tömb2) Korreláció: = Correl(VáltozóTömb1, VáltozóTömb2) Mátrix inverze tömbfüggvényként: {=Minverse(MátrixTömb)} A meredekségi együtható sztenderd hibája: = SteYX(FüggőTömb,AdottFüggetlenVáltozóTömb) Két oldalú t-próba hibahatára: = Tinv(Szignifikancia,m-n-1) Egy oldalú F-próba kritikus értéke: = Finv(Szignifikancia,n,m-n-1) Lássunk most egy ilyen rendszerre egy kisméretű, egyszerű példát:

22 Több független változós lineáris regresszió Excelben 2 A TobbValtRegr.xls fájl egy mintát mutat a több függő változós lineáris regresszió belső számításaira.TobbValtRegr.xls A zöld cellákban kell megadni a függő- és független változók korábban megfigyelt adatait, illetve a független változó azon értékeit, amihez a függő értéket becsülni szeretnénk. Ezután be kell állítani a sárga cellákban a modell és a meredekség teszteléséhez szükséges szignifikancia szinteket. A modell paraméterei és teszteredményei a piros cellákban, a függő változó pontbecslései a narancssárga cellákban íródnak ki:

23 Több független változós lineáris regresszió SPSS-ben 1 A 2003-as OTKA Romakutatás 1000 fős, az egész ország területére –kor, nem, –jövedelem, iskolai végzettség, –foglalkozás, településtípus szerint reprezetatív mintájában (lásd Romak.sav) a következő vizsgálatot szeretnénk elvégezni: Romak.sav Sok roma család nagy problémája a jövedelemtermelő/ eltartó képességéhez képest magas gyerekszám. Máig vitatott, hogy ennek csak a roma tradícióban és értékrendben gyökerező okai vannak, vagy létezik-e a sokak által sokszor felhánytorgatott, szociális segélyezésre alapozó „megélhetési célú gyerekvállalás”? Elemezzük lineáris regresszióval, hogy a jövedelem, az iskolai végzettség, a település mérete milyen hatást gyakorolnak a romáknál a gyerekszámra A változók neve és értékei a következők SPSS|Analyze|Regression|Linear Függő változó kijelölése Független változók kijelölése Lépésenként vonja be a függetleneket Statisztikák kérése Diagrammok kérése Speciális beállítások

24 Több független változós lineáris regresszió SPSS-ben 2 Statistics gombbal kérhetünk statisztikákat: A becsült paraméterek R 2 és multikolinearitási teszt Durbin-Watson autokorrelációs teszt Plots gombbal kérhetünk diagrammokat a homoszkedaszticitás és az autokorrelálatlanság ellenőrzésére: Az X tengelyen a függő változót mutassa Az Y tengelyen a normalizált (0 várható értékűre, 1 szórásúra konvertált) hibákat –A hibákat azért normalizálja, hogy a különféle modellek diagrammjai összehasonlíthatók legyenek egymással. –Ez csak átméretezi az Y tengelyt, a diagramm által mutatott képen nem változtat! Minden más diagrammot is kérünk Options gombbal állítjuk a becslés speciális beállításait: A lépésenkénti módszer milyen kritikus F értékeknél/valószínűségnél vonja be/dobja ki a modellből a változókat Becsüljön konstans paramétert is A hiányzó értékű megfigyeléseket egy az egyben hagyja ki OK gombbal indítjuk a számolásokat

25 Több független változós lineáris regresszió SPSS-ben 3 Az Output Widow tartalma: Model Summary: –A modell öszeségében elég gyönge, a 3 változó bevonása után is az R 2 csak 4%, ennyit tudnak a függetlenek a függő varianciájából megmagyarázni. Alapvetően nem ezek a változók vannak erős hatással a gyerekszám alakulására Colinearity Diagnostics: –A függetlenek korrelációs mátrixában közepesnél gyengébb korellációk vannak, enyhe fokban multikolineáris modell Residual Plots: –A diagrammon látszik, hogy a modell erősen autokorrelált és enyhén heteroszkedasztikus Coefficients: –A  sztenderdizált koefficienseket figyeljük először, mert azokat nem zavarja a változók mértékegységének a hatása: A jövedelem kis pozitív hatással van a gyerekszámra, A csökkenő településméret is pozitívan hat (1-Bp, 4-falu volt!) Az iskolai végzettség növekedése negatív hatású De mindezek az eredmények kétségesek, jobb független változókat kell be- vonni, és érdemes lenne nemlineáris modellt is megpróbálni

26 Szakirodalom Regresszió: Lineáris regresszió elméleti bevezető: http://www.statsoftinc.com/textbook/stmulreg.html http://www.statsoftinc.com/textbook/stmulreg.html Logisztikus regresszió elméleti bevezető: http://www.nd.edu/~rwilliam/zsoc593/spring2004/lectures/OLS -SPSS.pdf#search='ols%20regression‘ http://www.nd.edu/~rwilliam/zsoc593/spring2004/lectures/OLS -SPSS.pdf#search='ols%20regression Java appletes animáció egyváltozós regresszióhoz: http://www.stat.sc.edu/~west/javahtml/Regression.html http://www.stat.sc.edu/~west/javahtml/Regression.html Lineáris regresszió SAS-ban: http://www.ats.ucla.edu/stat/sas/webbooks/reg/chapter4/sasre g4.htm http://www.ats.ucla.edu/stat/sas/webbooks/reg/chapter4/sasre g4.htm Lineáris regresszió SPSS-ben: http://www.nd.edu/~rwilliam/zsoc593/spring2004/lectures/OLS -SPSS.pdf#search='ols%20regression‘ http://www.nd.edu/~rwilliam/zsoc593/spring2004/lectures/OLS -SPSS.pdf#search='ols%20regression


Letölteni ppt "Pécsi Tudományegyetem Pollack Mihály Műszaki Kar Műszaki Informatika Szak Data Mining 14. Előadás Dr. Pauler Gábor, Egyetemi Docens PTE-PMMFK Villamos."

Hasonló előadás


Google Hirdetések