Gazdaságinformatikai MSc

Slides:

Advertisements

Hasonló előadás

Gazdaságstatisztika, 2015 RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA Gazdaságstatisztika október 20.

Advertisements

Vetésforgó tervezése és kivitelezése. Vetésforgó Vetésterv növényi sorrend kialakításához őszi búza250 ha őszi árpa50 ha lucerna ebből új telepítés 300.

Paraméteres próbák- konzultáció október 21..

BEST-INVEST Független Biztosításközvetítő Kft.. Összes biztosítási díjbevétel 2004 (600 Mrd Ft)

Kockázat és megbízhatóság

Muraközy Balázs: Mely vállalatok válnak gazellává?

Becslés gyakorlat november 3.

A Repülésbiztonsági Kockázat

Komplex természettudomány 9.évfolyam

Beck Róbert Fizikus PhD hallgató

Lineáris regresszió Adatelemzés.

Technológiai folyamatok optimalizálása

Egy üzemben sok gyártósoron gyártanak egy bizonyos elektronikai alkatrészt. Az alkatrészek ellenállását időnként ellenőrzik úgy, hogy egy munkás odamegy.

Kockázat és megbízhatóság

Igen-nem változás előrejelzése több változó hatásának együttes elemzése alapján A többszörös logisztikus regresszió Dr. Gombos Tímea.

Becsléselmélet - Konzultáció

Kockázat és megbízhatóság

Tervezés I. Belsőtér BME-VIK.

Korrelációszámítás.

Kockázat és megbízhatóság

Végeselemes modellezés matematikai alapjai

Kockázat és megbízhatóság

Kvantitatív módszerek

Hipotézisvizsgálat.

Kvantitatív módszerek

Mintavételes eljárások

Nemparaméteres próbák 2.

Piaci kockázat tőkekövetelménye

V. Optimális portfóliók

Gazdaságstatisztika Korreláció- és regressziószámítás II.

Geostatisztika prof. Geresdi István szoba szám: E537.

Tartalékolás 1.

Többváltozós lineáris regresszió

INFOÉRA 2006 Véletlenszámok

Összefüggés vizsgálatok

Varianciaanalízis- ANOVA (Analyze Of VAriance)

Szerkezetek Dinamikája

Mi a káosz? Olyan mozgás, mely

Földrajzi összefüggések elemzése: sztochasztikus módszerek

? A modell illesztése a kísérleti adatokhoz

Kvantitatív módszerek

Business Mathematics

Grosz imre f. doc. Kombinációs hálózatok /43 kép

Érték-, ár-, volumenindexek

Regressziós modellek Regressziószámítás.

Sztochasztikus kapcsolatok I. Asszociáció

Gazdaságinformatikus MSc

Trendelemzés előadó: Ketskeméty László

A Box-Jenkins féle modellek

Készletek - Rendelési tételnagyság számítása -1

Matematikai statisztika előadó: Ketskeméty László

A csoportok tanulása, mint a szervezeti tanulás alapja

Gazdaságinformatikus MSc

TÁRGYI ESZKÖZÖK ELSZÁMOLÁSA

Alkalmazott statisztikai alapok

Komplex gazdasági fejlettség összetettebb mérési módszerei

Földrajzi összefüggések elemzése: sztochasztikus módszerek

SZAKKÉPZÉSI ÖNÉRTÉKELÉSI MODELL I. HELYZETFELMÉRŐ SZINT FOLYAMATA 8

Dr. Varga Beatrix egyetemi docens

Matematika 11.évf. 1-2.alkalom

Műveletek, függvények és tulajdonságaik Mátrix struktúrák:

Paraméteres próbák Adatelemzés.

Lorenz-görbe dr. Jeney László egyetemi adjunktus

Kísérlettervezés 2018/19.

Tájékoztató az EPER pályázati folyamatáról

Várhatóérték, szórás

Hipotéziselmélet Adatelemzés.

Vargha András KRE és ELTE, Pszichológiai Intézet

Előadás másolata:

Gazdaságinformatikai MSc Regresszióanalízis Gazdaságinformatikai MSc

A regressziószámítás alapproblémája Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk. Y függőváltozó X1, X2, ... Xp független változók Y f(X1, X2, ... Xp ) becslés fF E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2 fF

Példák 1. A Duna vízállásának előrejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Műholdkép alapján a búza terméshozamának becslése 4. Műholdkép alapján a Mars vastartalmának becslése 5. Predikciók, trendek idősoroknál 6. Lineáris közgazdasági modellek

A regressziószámítás alapproblémája Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott: f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ). Gyakorlatban azonban „csak” egy adatmátrix adott:

Feltételes várható érték, folytonos eset I.

Feltételes várható érték, folytonos eset II.

Feltételes várható érték, folytonos eset III.

A regresszió tulajdonságai Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!

Normális komponensek esetén a regressziós összefüggés lineáris! Regresszió normális eloszlás esetén Normális komponensek esetén a regressziós összefüggés lineáris!

Elméleti lineáris regresszió

Elméleti lineáris regresszió Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!

 A regressziószámítás alapproblémája F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek} A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél:  n  min h(a,b,c,...) = (Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2 a,b,c,... i=1 Ez a legkisebb négyzetek módszere!

A regresszióanalízis fajtái Lineáris regresszió f(X) = B0 + B1 X Többváltozós lineáris regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp Polinomiális regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2 X2+...+ BpXp X1=X, X2=X2, ... , Xp=Xp Kétparaméteres (lineárisra visszavezethető) regresszió pl. Y=f(X) = Bo·e B1 X  lnY = B1 X + ln Bo

A regresszióanalízis fajtái Nemlineáris regressziók két változó között I. f(X ) = B1 + B2 exp(B3 X ) aszimptotikus I. f(X ) = B1 - B2 · (B3 )X aszimptotikus II. sűrűség f(X ) = (B1 + B2 X )-1/B3 f(X ) = B1 · (1- B3 · exp(B2 X 2)) Gauss f(X ) = B1 · exp( - B2 exp( - B3 X 2))) Gompertz f(X ) = B1 · exp( - B2 /(X + B3 )) Johnson-Schumacher

A regresszióanalízis fajtái Nemlineáris regressziók két változó között II. log-módosított f(X) = (B1 + B3 X)B2 log-logisztikus f(X) = B1 - ln(1 + B2 exp( - B3 X ) f(X) = B1 + B2 exp( - B3 X ) Metcherlich f(X) = B1 · X / (X + B2 ) Michaelis Menten f(X) = (B1 B2 +B3 XB4)/(B2 + XB4 ) Morgan-Merczer-Florin f(X) = B1 /(1+B2 exp( - B3 X +B4X2 + B5X3 )) Peal-Reed

A regresszióanalízis fajtái Nemlineáris regressziók két változó között III. f(X) = (B1 + B2 X +B3X2 + B4X3)/ B5X3 köbök aránya f(X) = (B1 + B2 X +B3X2 )/ B4X2 négyzetek aránya Richards f(X) = B1/((1+B3 · exp(B2 X))(1/B4) Verhulst f(X) = B1/((1+B3 · exp(B2 X)) Von Bertalanffy f(X) = (B1 (1-B4) · B2 exp( - B3 X))1/(1-B4) f(X) = B1 - B2 exp( -B3 X B4) Weibull f(X) = 1/(B1 + B2 X +B3X2 ) Yield sűrűség

Szakaszonkénti lineáris regresszió A regresszióanalízis fajtái Szakaszonkénti lineáris regresszió

Poligoniális regresszió A regresszióanalízis fajtái Poligoniális regresszió

Többváltozós lineáris regresszió kategória-változóval A regresszióanalízis fajtái Többváltozós lineáris regresszió kategória-változóval

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió { Y= 1, ha az A esemény bekövetkezik 0, ha az A esemény nem következik be Y dichotóm A választó fog szavazni A páciensnek szívinfarktusa lesz Az üzletet meg fogják kötni A esemény X1 , X2 ,...,Xp ordinális szintű független változók eddig hányszor ment el, kor, iskola, jövedelem napi cigi, napi pohár, kor, stressz ár, mennyiség, piaci forgalom, raktárkészlet

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió P(Y=1) = P(A)  ————— 1 1 - e-Z Z = B0 + B1 X1 + B2 X2+...+ Bp Xp 1 - P(A) ODDS = ————— P(A)  e Z  log (ODDS) =

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió A legnagyobb valószínűség elve L(1,2,...,n) = P(Y1= 1, Y2= 2, ... , Yn= n) = = P(Y1= 1) P(Y2= 2)  P(Yn= n)  ———— 1 1 - e-Z1 1 - e-Z2 1 - e-Zn  ·  ln L(1,2,...,n) =  ln ( ) —————————————— 1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp)

Lineáris regresszió A lineáris kapcsolat kitüntetett: (1) a legegyszerűbb és leggyakoribb, könnyű a két paramétert értelmezni (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs)

Lineáris regresszió Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg: Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelő empirikus momentumok állnak:

Lineáris regresszió A teljes négyzetösszeg A maradékösszeg A regressziós összeg

A lineáris regresszió (xi, yi ) (xi, ) ( x, ) y = b + a xi x Q = Qres + Qreg (xi, yi ) y res (xi, ) reg ( x, ) = b + a xi x

mindössze 1, mert az átlag konstans A lineáris regresszió A teljes négyzetösszeg felbontása: Q = Qres + Qreg fres szabadsági foka mindössze 1, mert az átlag konstans freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ.

A lineáris regresszió y = b + a xi (x1, y1) (x2, y2) (x3, y3) A legkisebb négyzetek módszere alapelve: y = b + a xi (x1, y1) (x2, y2) (x3, y3) (x4, y4) (x5, y5) e1 e2 e3 e4 e5 (x5, y5) e2 e1 e3 e4 e5 (x3, y3) (x1, y1) (x4, y4) (x2, y2) x

A lineáris regresszió Megjegyzések: 1. 2.

Lineárisra visszavezethető kétparaméteres regresszió Amennyiben találhatók olyan alkalmas függvények, amivel a probléma linearizálható: A trükkel nem az eredeti minimalizálási feladat megoldását kapjuk meg, csak attól nem túl messze eső közelítéseket!

Lineárisra visszavezethető kétparaméteres regresszió exponenciális függvénykapcsolat: „growth” függvény: „compoud” függvény:

Lineárisra visszavezethető kétparaméteres regresszió hatványfüggvény: Arrhenius:

Lineárisra visszavezethető kétparaméteres regresszió reciprok: racionális:

Lineárisra visszavezethető kétparaméteres regresszió homogén kvadratikus: logaritmikus: hiperbolikus:

Linearizálás, pl.

Polinomiális regresszió A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: Xi=X i !

Polinomiális regresszió

A többváltozós lineáris regresszió A független változók azon lineáris kombinációját keressük, amelynél a függőváltozót legkisebb négyzetes hibával tudjuk közelíteni:

A többváltozós lineáris regresszió Az együtthatók meghatározása a legkisebb négyzetek módszerével:

A többváltozós lineáris regresszió

A többváltozós lineáris regresszió Szórásanalízis (ANOVA) a modell érvényességének eldöntésére A nullhipotézis az, hogy a független változók mindegyike 0, vagyis egyik prediktor változó sem magyarázza a célváltozót! F-próbával dönthetünk a nullhipotézisről.

A többváltozós lineáris regresszió Béta-együtthatók A béta-együtthatók egyfajta szempontból minősítik a változók fontosságát a lineáris összefüggésben. Ha egy változónak nagy az együtthatója abszolút értékben, akkor fontos, ha kicsi, kevésbé fontos . az i-edik regressziós együttható, az i-edik változó standard szórása, a célváltozó standard szórása.

A többváltozós lineáris regresszió R2 (coefficient of determination) meghatározottsági együttható Ha csak egy magyarázó változó van, akkor R2 éppen a korrelációs együttható négyzete! Megmutatja, hogy a lineáris regresszióval a célváltozó varianciájának mekkora hányadát lehet magyarázni

A többváltozós lineáris regresszió Az R2 érték megmutatja a lineáris kapcsolat mértékét

A többváltozós lineáris regresszió Korrigált (adjusztált) meghatározottsági mutató A korrekció azért szükséges, mert újabb változók bevonásával R2 automatikusan nő, és túl optimista képet mutat a modell illeszkedéséről. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk. p a független változók száma

A többváltozós lineáris regresszió Modell-építési technikák Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X1, X2,…, Xp magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe. Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen Már 4 változó esetén 15 modellt kellene illesztenünk! modellillesztést kellene elvégeznünk!

A többváltozós lineáris regresszió Modell-építési technikák Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést.

A többváltozós lineáris regresszió Modell-építési technikák Automatikus modellépítési technikák: STEPWISE FOREWARD BACKWARD REMOVE A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, az SPSS program ebből választva állít elő „jó” modelleket, amik közül választhatunk „végső” megoldást.

A többváltozós lineáris regresszió A parciális F-próba Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n-p-1 szabadságfokú Fisher-eloszlást követ: az új p változós modell meghatározottsági együtthatója, a régi p-1 változós modell meghatározottsági együtthatója,

A többváltozós lineáris regresszió A parciális F-próba A p-edik változót akkor vonjuk be a modellbe, ha ahol olyan kritikus érték, hogy:

A többváltozós lineáris regresszió FOREWARD modell-építés Alulról építkező modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb  szint tartozik. A bevonási folyamat addig tart, amíg ez a legkisebb  szint egy beállított PIN korlát alatt marad. Előnye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni.

A többváltozós lineáris regresszió BACKWARD modell-építés Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb  érték tartozik. Akkor állunk meg, ha az előre beállított POUT küszöbérték alá megy ez az . A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben.

A többváltozós lineáris regresszió STEPWISE modell-építés A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenőrizzük a modellbe korábban már bevont változókhoz tartozó  szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN<POUT. (Szokásos beállítás: PIN=0,05 és POUT=0,10.

A többváltozós lineáris regresszió REMOVE modell-építés A REMOVE eljárás az ENTER beállításából indul ki, egyszerre hagy el változókat a modellből, összehasonlításként csak a konstans tagot tartalmazó modell eredményeit közli.

A többváltozós lineáris regresszió Multikollinearitás Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét. A multikollinearitás mérőszámai: tolerancia variancia infláló faktor (VIF) kondíciós index (CI) variancia hányad

A többváltozós lineáris regresszió A multikollinearitás mérőszámai 1. tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1-Ri2, ahol Ri az i-edik változónak a többivel vett lineáris regressziójának a korrelációs együtthatója, a többszörös korrelációs együttható. A variancia infláló faktor (VIF) a tolerancia reciproka: VIF=1/(1-Ri2). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1.

A többváltozós lineáris regresszió A multikollinearitás mérőszámai 2. A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeiből számolt statisztika. A legnagyobb és legkisebb sajátértékek hányadosának négyzetgyöke. A CI>15 esetében megállapítható az erős kollinearitás. Variancia hányad is utalhat multikollinearitásra. Ha egy-egy nagy kondíciós index sorában több regressziós együtthatónak van magas variancia hányada. A regressziós együtthatók varianciáit a sajátértékek között szétosztjuk.

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása A lineáris regressziós modell értékelésének fontos lépése az egyes adatpontok fontosságának feltárása. Melyek azok az adatpontok, amelyek a végleges összefüggést legerősebben mutatják, erősítik, és melyek azok az ún. outlier pontok, melyek legkevésbé illeszkednek az adott regressziós összefüggésbe.

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása A Y célváltozó és a lineáris becslés közötti kapcsolat: A becslés hibavektora, maradékösszeg, regressziós összeg:

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása a leverage (hatalom) vagy hat mátrix A mátrix szimmetrikus, hii diagonális elemei azt mutatják, hogy az i-edik eset mekkora hatást fejt ki a regressziós becslésre. , ahol az i-edik esetvektor

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása Az i-edik eset befolyása átlagos, ha ezek a tipikus esetek! Az i-edik eset befolyása jelentős, ha Ha az i-edik eset bevonható az elemzésbe Ha kockázatos az i-edik eset bevonása az i-edik esetet ki kell hagyni, „outlier” pont

A többváltozós lineáris regresszió A maradéktagok (reziduálisok) elemzése A lineáris becslés elkészítésekor nem számolunk az i-edik esettel, „töröljük”. Közönséges reziduális: Törölt reziduális: Standardizált reziduális: Belsőleg studentizált reziduális:

A többváltozós lineáris regresszió A maradéktagok (reziduálisok) elemzése Heteroszkedaszticitás: A maradéktagok nulla szint körüli szóródásának lehetséges típusai a.) a szóródás megfelel a lineáris modellnek, b.) nem a lineáris modellhez tartoznak a maradéktagok, c.) a szóródások nem azonosak, d.) a hibatagok nem függetlenek egymástól.

Példa kétváltozós lineáris regresszióra Keressünk lineáris összefüggést az employee data állományban a kezdőfizetés és a jelenlegi fizetés között!

Példa kétváltozós lineáris regresszióra

Példa kétváltozós lineáris regresszióra

Példa kétváltozós lineáris regresszióra a maradéktagok Heteroszkedaszticitás jelensége megfigyelhető: nagyobb X-hez nagyobb szórás tartozik!

Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa többváltozós lineáris regresszióra Végezzünk lineáris elemzést az employee data állományon! A jelenlegi fizetés legyen a célváltozó, a magyarázó változók a kezdőfizetés, alkalmazás ideje (jobtime) és a dolgozó kora legyen!

Példa többváltozós lineáris regresszióra A konstans szerepe elhanyagolható a modellben.