Gazdaságinformatikus MSc Regresszióanalízis Gazdaságinformatikus MSc
A regressziószámítás alapproblémája Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk. Y függőváltozó X1, X2, ... Xp független változók Y f(X1, X2, ... Xp ) becslés fF E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2 fF 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása Példák 1. A Duna vízállásának előrejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Műholdkép alapján a búza terméshozamának becslése 4. Műholdkép alapján a Mars vastartalmának becslése 5. Predikciók, trendek idősoroknál 2018.09.16. Dr Ketskeméty László előadása
A regressziószámítás alapproblémája Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott: f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ). Gyakorlatban azonban „csak” egy adatmátrix adott: 2018.09.16. Dr Ketskeméty László előadása
Feltételes várható érték folytonos eset I. 2018.09.16. Dr Ketskeméty László előadása
Feltételes várható érték folytonos eset II. 2018.09.16. Dr Ketskeméty László előadása
Feltételes várható érték folytonos eset III. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása A regresszió tulajdonságai Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni! 2018.09.16. Dr Ketskeméty László előadása
Regresszió normális eloszlás esetén Normális komponensek esetén a regressziós összefüggés lineáris! 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása Elméleti lineáris regresszió 2018.09.16. Dr Ketskeméty László előadása
A regressziószámítás alapproblémája F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek} A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél: n min h(a,b,c,...) = (Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2 a,b,c,... i=1 Ez a legkisebb négyzetek módszere! 2018.09.16. Dr Ketskeméty László előadása
A regresszióanalízis fajtái Lineáris regresszió f(X) = B0 + B1 X Többváltozós lineáris regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp Polinomiális regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2 X2+...+ BpXp X1=X, X2=X2, ... , Xp=Xp Kétparaméteres (lineárisra visszavezethető) regresszió pl. Y=f(X) = Bo·e B1 X lnY = B1 X + ln Bo 2018.09.16. Dr Ketskeméty László előadása
A regresszióanalízis fajtái Nemlineáris regressziók két változó között I. f(X ) = B1 + B2 exp(B3 X ) aszimptotikus I. f(X ) = B1 - B2 · (B3 )X aszimptotikus II. sűrűség f(X ) = (B1 + B2 X )-1/B3 f(X ) = B1 · (1- B3 · exp(B2 X 2)) Gauss f(X ) = B1 · exp( - B2 exp( - B3 X 2))) Gompertz f(X ) = B1 · exp( - B2 /(X + B3 )) Johnson-Schumacher 2018.09.16. Dr Ketskeméty László előadása
A regresszióanalízis fajtái Nemlineáris regressziók két változó között II. log-módosított f(X) = (B1 + B3 X)B2 log-logisztikus f(X) = B1 - ln(1 + B2 exp( - B3 X ) f(X) = B1 + B2 exp( - B3 X ) Metcherlich f(X) = B1 · X / (X + B2 ) Michaelis Menten f(X) = (B1 B2 +B3 XB4)/(B2 + XB4 ) Morgan-Merczer-Florin f(X) = B1 /(1+B2 exp( - B3 X +B4X2 + B5X3 )) Peal-Reed 2018.09.16. Dr Ketskeméty László előadása
A regresszióanalízis fajtái Nemlineáris regressziók két változó között III. f(X) = (B1 + B2 X +B3X2 + B4X3)/ B5X3 köbök aránya f(X) = (B1 + B2 X +B3X2 )/ B4X2 négyzetek aránya Richards f(X) = B1/((1+B3 · exp(B2 X))(1/B4) Verhulst f(X) = B1/((1+B3 · exp(B2 X)) Von Bertalanffy f(X) = (B1 (1-B4) · B2 exp( - B3 X))1/(1-B4) f(X) = B1 - B2 exp( -B3 X B4) Weibull f(X) = 1/(B1 + B2 X +B3X2 ) Yield sűrűség 2018.09.16. Dr Ketskeméty László előadása
A regresszióanalízis fajtái Szakaszonkénti lineáris regresszió 2018.09.16. Dr Ketskeméty László előadása
Poligoniális regresszió 2018.09.16. Dr Ketskeméty László előadása
Többváltozós lineáris regresszió kategória-változóval 2018.09.16. Dr Ketskeméty László előadása
Logisztikus regresszió { Y= 1, ha az A esemény bekövetkezik 0, ha az A esemény nem következik be Y dichotóm A A választó fog szavazni A páciensnek szívinfarktusa lesz Az üzletet meg fogják kötni X1 , X2 ,...,Xp ordinális szintű független változók eddig hányszor ment el, kor, iskola, jövedelem napi cigi, napi pohár, kor, stressz ár, mennyiség, piaci forgalom, raktárkészlet 2018.09.16. Dr Ketskeméty László előadása
Logisztikus regresszió P(Y=1) = P(A) ————— 1 1 - e-Z Z = B0 + B1 X1 + B2 X2+...+ Bp Xp 1 - P(A) ODDS = ————— P(A) e Z log (ODDS) = Z = B0 + B1 X1 + B2 X2+...+ Bp Xp 2018.09.16. Dr Ketskeméty László előadása
Logisztikus regresszió A legnagyobb valószínűség elve L(1,2,...,n) = P(Y1= 1, Y2= 2, ... , Yn= n) = = P(Y1= 1) P(Y2= 2) P(Yn= n) ———— 1 1 - e-Z1 1 - e-Z2 1 - e-Zn · ln L(1,2,...,n) = ln ( ) —————————————— 1 1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp) 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása Lineáris regresszió A lineáris kapcsolat kitüntetett: (1) a legegyszerűbb és leggyakoribb. (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs). 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása Lineáris regresszió A teljes négyzetösszeg A maradékösszeg A regressziós összeg 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása A lineáris regresszió Q = Qres + Qreg (xi, yi ) y res (xi, ) reg ( x, ) = B0 + B1 xi x 2018.09.16. Dr Ketskeméty László előadása
A lineáris regresszió A teljes négyzetösszeg felbontása: Q = Qres + Qreg fres szabadsági foka mindössze 1, mert az átlag konstans freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása A lineáris regresszió A legkisebb négyzetek módszere alapelve: y = B0 + B1 xi (x1, y1) (x2, y2) (x3, y3) (x4, y4) (x5, y5) e1 e2 e3 e4 e5 (x5, y5) e2 e1 e3 e4 e5 (x3, y3) (x1, y1) (x4, y4) (x2, y2) x 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió Amennyiben találhatók olyan alkalmas függvények, amivel a probléma linearizálható: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió exponenciális függvénykapcsolat: „growth” függvény: „compoud” függvény: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió hatványfüggvény: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió Arrhenius: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió reciprok: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió racionális: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió homogén kvadratikus: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió hiperbolikus: 2018.09.16. Dr Ketskeméty László előadása
Lineárisra visszavezethető kétparaméteres regresszió logaritmikus: 2018.09.16. Dr Ketskeméty László előadása
A többváltozós lineáris regresszió A független változók azon lineáris kombinációját keressük, amelynél a függőváltozót legkisebb négyzetes hibával tudjuk közelíteni: 2018.09.16. Dr Ketskeméty László előadása
A többváltozós lineáris regresszió Az együtthatók meghatározása a legkisebb négyzetek módszerével: 2018.09.16. Dr Ketskeméty László előadása
Szórásanalízis (ANOVA) a modell érvényességének eldöntésére F-próbával dönthetünk a nullhipotézisről. A nullhipotézis az, hogy a független változók mindegyike 0! 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása Béta-együtthatók A béta-együtthatók egyfajta szempontból minősítik a változók fontosságát a lineáris összefüggésben. Ha egy változónak nagy az együtthatója abszolút értékben, akkor fontos, ha kicsi, kevésbé fontos . az i-edik regressziós együttható, az i-edik változó standard szórása, a célváltozó standard szórása. 2018.09.16. Dr Ketskeméty László előadása
R2 (coefficient of determination) meghatározottsági együttható Ha csak egy magyarázó változó van, akkor R2 éppen a korrelációs együttható négyzete! Megmutatja, hogy a lineáris regresszióval a célváltozó varianciájának mekkora hányadát lehet magyarázni 2018.09.16. Dr Ketskeméty László előadása
Korrigált (adjusztált) meghatározottsági mutató A korrekció azért szükséges, mert újabb változók bevonásával R2 automatikusan nő, és túl optimista képet mutat a modell illeszkedéséről. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk. p a független változók száma 2018.09.16. Dr Ketskeméty László előadása
Modellépítési technikák Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X1, X2,…, Xp magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe. Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen Már 4 változó esetén 15 modellt kellene illesztenünk! modellillesztést kellene elvégeznünk! 2018.09.16. Dr Ketskeméty László előadása
Modellépítési technikák Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést. 2018.09.16. Dr Ketskeméty László előadása
Modellépítési technikák Automatikus modellépítési technikák: STEPWISE FOREWARD BACKWARD REMOVE A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, a program ebből választva állít elő „jó” modelleket, amik közül választhatunk „végső” megoldást. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása A parciális F-próba Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n-p-1 szabadságfokú Fisher-eloszlást követ: az új p változós modell meghatározottsági együtthatója, a régi p-1 változós modell meghatározottsági együtthatója, 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása A parciális F-próba A p-edik változót akkor vonjuk be a modellbe, ha ahol olyan kritikus érték, hogy: 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása FOREWARD Alulról építkező modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb szint tartozik. A bevonási folyamat addig tart, amíg ez a legkisebb szint egy beállított PIN korlát alatt marad. Előnye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása BACKWARD Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb érték tartozik. Akkor állunk meg, ha az előre beállított POUT küszöbérték alá megy ez az . A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása STEPWISE A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenőrizzük a modellbe korábban már bevont változókhoz tartozó szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN<POUT. (Szokásos beállítás: PIN=0,05 és POUT=0,10. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása REMOVE A REMOVE eljárás az ENTER beállításából indul ki, egyszerre hagy el változókat a modellből, összehasonlításként csak a konstans tagot tartalmazó modell eredményeit közli. 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása Multikollinearitás Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét. A multikollinearitás mérőszámai: tolerancia variancia infláló faktor (VIF) kondíciós index (CI) variancia hányad 2018.09.16. Dr Ketskeméty László előadása
A multikollinearitás mérőszámai tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1-Ri2, ahol Ri az i-edik változónak a többivel vett lineáris regressziójának a korrelációs együtthatója, a többszörös korrelációs együttható. 2018.09.16. Dr Ketskeméty László előadása
A multikollinearitás mérőszámai A variancia infláló faktor (VIF) a tolerancia reciproka: VIF=1/(1-Ri2). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1. A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeiből számolt statisztika. A legnagyobb és legkissebb sajátértékek hányadosának négyzetgyöke: A CI>15 esetében megállapítható az erős kollinearitás. 2018.09.16. Dr Ketskeméty László előadása
A multikollinearitás mérőszámai Variancia hányad is utalhat multikollinearitásra. Ha egy-egy nagy kondíciós index sorában több regressziós együtthatónak van magas variancia hányada. A regressziós együtthatók varianciáit a sajátértékek között szétosztjuk. 2018.09.16. Dr Ketskeméty László előadása
A becslést befolyásoló pontok feltárása A lineáris regressziós modell értékelésének fontos lépése az egyes adatpontok fontosságának feltárása. Melyek azok az adatpontok, amelyek a végleges összefüggést legerősebben mutatják, erősítik, és melyek azok az ún. outlier pontok, melyek legkevésbé illeszkednek az adott regressziós összefüggésbe. 2018.09.16. Dr Ketskeméty László előadása
A becslést befolyásoló pontok feltárása A Y célváltozó és a lineáris becslés közötti kapcsolat: A becslés hibavektora, maradékösszeg, regressziós összeg: 2018.09.16. Dr Ketskeméty László előadása
A becslést befolyásoló pontok feltárása a leverage (hatalom) vagy hat mátrix A mátrix szimmetrikus, hii diagonális elemei azt mutatják, hogy az i-edik eset mekkora hatást fejt ki a regressziós becslésre. , ahol az i-edik esetvektor 2018.09.16. Dr Ketskeméty László előadása
A becslést befolyásoló pontok feltárása Az i-edik eset befolyása átlagos, ha ezek a tipikus esetek! Az i-edik eset befolyása jelentős, ha Ha az i-edik eset bevonható az elemzésbe Ha kockázatos az i-edik eset bevonása az i-edik esetet ki kell hagyni, „outlier” pont 2018.09.16. Dr Ketskeméty László előadása
A maradéktagok (reziduálisok) elemzése A lineáris becslés elkészítésekor nem számolunk az i-edik esettel, „töröljük”. Közönséges reziduális: Törölt reziduális: Standardizált reziduális: Belsőleg studentizált reziduális: 2018.09.16. Dr Ketskeméty László előadása
A maradéktagok (reziduálisok) elemzése Heteroszkedaszticitás: A maradéktagok nulla szint körüli szóródásának lehetséges típusai a.) a szóródás megfelel a lineáris modellnek, b.) nem a lineáris modellhez tartoznak a maradéktagok, c.) a szóródások nem azonosak, d.) a hibatagok nem függetlenek egymástól. 2018.09.16. Dr Ketskeméty László előadása
Példa kétváltozós lineáris regresszióra Keressünk lineáris összefüggést az employee data állományban a kezdőfizetés és a jelenlegi fizetés között! 2018.09.16. Dr Ketskeméty László előadása
Példa kétváltozós lineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétváltozós lineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétváltozós lineáris regresszióra: a maradéktagok Heteroszkedaszticitás jelensége megfigyelhető: nagyobb X-hez nagyobb szórás tartozik! 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között! 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Dr Ketskeméty László előadása 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa kétparaméteres nemlineáris regresszióra 2018.09.16. Dr Ketskeméty László előadása
Példa többváltozós lineáris regresszióra Ismételjük meg az előző elemzést, de vonjuk be a magyarázó változók közé az alkalmazás idejét (jobtime) és a dolgozó korát is! 2018.09.16. Dr Ketskeméty László előadása
Példa többváltozós lineáris regresszióra A konstans szerepe elhanyagolható a modellben. 2018.09.16. Dr Ketskeméty László előadása