Lineáris regresszió Adatelemzés.

Slides:

Advertisements

Hasonló előadás

Informatikai Tudományok Doktori Iskola

Advertisements

Szabadtéri rendezvények. A TvMI vonatkozik: OTSZ szerinti szabadtéri rendezvényekre szabadtéri rendezvény: az 1000 főt vagy az 5000 m 2 területet meghaladó,

Gazdaságstatisztika, 2015 RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA Gazdaságstatisztika október 20.

Vetésforgó tervezése és kivitelezése. Vetésforgó Vetésterv növényi sorrend kialakításához őszi búza250 ha őszi árpa50 ha lucerna ebből új telepítés 300.

Az összefüggés szemléltetése a., Az összes adat megjelenítése oszlopdiagram segítségével b., Az átlagok megjelenítése oszlopdiagram segítségével (SzD!)

Kockázat és megbízhatóság

Becslés gyakorlat november 3.

Mintavétel és becslés október 25. és 27.

Végeselemes modellezés matematikai alapjai

Technológiai folyamatok optimalizálása

A szórás típusú egyenlőtlenségi mutatók

Kockázat és megbízhatóság

Igen-nem változás előrejelzése több változó hatásának együttes elemzése alapján A többszörös logisztikus regresszió Dr. Gombos Tímea.

Mintavétel és becslés október 27. és 29.

Kockázat és megbízhatóság

Korrelációszámítás.

Kockázat és megbízhatóság

Rendszerező összefoglalás

Végeselemes modellezés matematikai alapjai

13. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens

Rangsorolás tanulása ápr. 13..

Kvantitatív módszerek

Hipotézisvizsgálat.

Kvantitatív módszerek

Nemparaméteres próbák 2.

Gazdaságstatisztika Korreláció- és regressziószámítás II.

Geostatisztika prof. Geresdi István szoba szám: E537.

Gazdaságinformatikai MSc

FÜGGVÉNYEK Legyen adott A és B két nem üres (szám)halmaz. Az A halmaz minden eleméhez rendeljük hozzá a B halmaz pontosan egy elemét. Ezt az egyértelmű.

INFOÉRA 2006 Véletlenszámok

Összefüggés vizsgálatok

Varianciaanalízis- ANOVA (Analyze Of VAriance)

Mi a káosz? Olyan mozgás, mely

Földrajzi összefüggések elemzése: sztochasztikus módszerek

Kvantitatív módszerek

? A modell illesztése a kísérleti adatokhoz

Kvantitatív módszerek

Business Mathematics

Érték-, ár-, volumenindexek

Regressziós modellek Regressziószámítás.

Valószínűségszámítás felelevenítő

Sztochasztikus kapcsolatok I. Asszociáció

Gazdaságinformatikus MSc

Trendelemzés előadó: Ketskeméty László

A talajok mechanikai tulajdonságai IV.

Adatbányászati szemelvények MapReduce környezetben

Készletek - Rendelési tételnagyság számítása -1

Matematikai statisztika előadó: Ketskeméty László

Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John.

Alkalmazott statisztikai alapok

Matematikai Analízis elemei

Területi egyenlőtlenségek összetettebb mérése: Gini együttható

Matematika I. BGRMA1GNNC BGRMA1GNNB 8. előadás.

3(+1) osztályozó a Bayes világból

Földrajzi összefüggések elemzése: sztochasztikus módszerek

Dr. Varga Beatrix egyetemi docens

Matematika 11.évf. 1-2.alkalom

A területi koncentráció mérése: Hirschman–Herfindahl index

Paraméteres próbák Adatelemzés.

Lorenz-görbe dr. Jeney László egyetemi adjunktus

Kísérlettervezés 2018/19.

Tájékoztató az EPER pályázati folyamatáról

Várhatóérték, szórás

Hagyományos megjelenítés

FÜGGVÉNYEK ÉS GRAFIKONJUK

Hipotéziselmélet Adatelemzés.

Vargha András KRE és ELTE, Pszichológiai Intézet

Területi egyenlőtlenségek összetettebb mérése: Gini együttható

Előadás másolata:

Lineáris regresszió Adatelemzés

A regressziószámítás alapproblémája Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk. Y függőváltozó X1, X2, ... Xp független változók Y f(X1, X2, ... Xp ) becslés fF E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2 fF

Példák 1. A Duna vízállásának előrejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Műholdkép alapján a búza terméshozamának becslése 4. Műholdkép alapján a Mars vastartalmának becslése 5. Predikciók, trendek idősoroknál 6. Lineáris közgazdasági modellek

A regressziószámítás alapproblémája Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott: f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ). Gyakorlatban azonban „csak” egy adatmátrix adott:

Feltételes várható érték, folytonos eset I.

Feltételes várható érték, folytonos eset II.

Feltételes várható érték, folytonos eset III.

A regresszió tulajdonságai Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!

Normális komponensek esetén a regressziós összefüggés lineáris! Regresszió normális eloszlás esetén Normális komponensek esetén a regressziós összefüggés lineáris!

Elméleti lineáris regresszió

Elméleti lineáris regresszió Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!

 A regressziószámítás alapproblémája F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek} A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél:  n  min h(a,b,c,...) = (Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2 a,b,c,... i=1 Ez a legkisebb négyzetek módszere!

A regresszióanalízis fajtái Lineáris regresszió f(X) = B0 + B1 X Többváltozós lineáris regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp Polinomiális regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2 X2+...+ BpXp X1=X, X2=X2, ... , Xp=Xp Kétparaméteres (lineárisra visszavezethető) regresszió pl. Y=f(X) = Bo·e B1 X  lnY = B1 X + ln Bo

A regresszióanalízis fajtái Nemlineáris regressziók két változó között I. f(X ) = B1 + B2 exp(B3 X ) aszimptotikus I. f(X ) = B1 - B2 · (B3 )X aszimptotikus II. sűrűség f(X ) = (B1 + B2 X )-1/B3 f(X ) = B1 · (1- B3 · exp(B2 X 2)) Gauss f(X ) = B1 · exp( - B2 exp( - B3 X 2))) Gompertz f(X ) = B1 · exp( - B2 /(X + B3 )) Johnson-Schumacher

A regresszióanalízis fajtái Nemlineáris regressziók két változó között II. log-módosított f(X) = (B1 + B3 X)B2 log-logisztikus f(X) = B1 - ln(1 + B2 exp( - B3 X ) f(X) = B1 + B2 exp( - B3 X ) Metcherlich f(X) = B1 · X / (X + B2 ) Michaelis Menten f(X) = (B1 B2 +B3 XB4)/(B2 + XB4 ) Morgan-Merczer-Florin f(X) = B1 /(1+B2 exp( - B3 X +B4X2 + B5X3 )) Peal-Reed

A regresszióanalízis fajtái Nemlineáris regressziók két változó között III. f(X) = (B1 + B2 X +B3X2 + B4X3)/ B5X3 köbök aránya f(X) = (B1 + B2 X +B3X2 )/ B4X2 négyzetek aránya Richards f(X) = B1/((1+B3 · exp(B2 X))(1/B4) Verhulst f(X) = B1/((1+B3 · exp(B2 X)) Von Bertalanffy f(X) = (B1 (1-B4) · B2 exp( - B3 X))1/(1-B4) f(X) = B1 - B2 exp( -B3 X B4) Weibull f(X) = 1/(B1 + B2 X +B3X2 ) Yield sűrűség

Szakaszonkénti lineáris regresszió A regresszióanalízis fajtái Szakaszonkénti lineáris regresszió

Poligoniális regresszió A regresszióanalízis fajtái Poligoniális regresszió

Többváltozós lineáris regresszió kategória-változóval A regresszióanalízis fajtái Többváltozós lineáris regresszió kategória-változóval

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió { Y= 1, ha az A esemény bekövetkezik 0, ha az A esemény nem következik be Y dichotóm A választó fog szavazni A páciensnek szívinfarktusa lesz Az üzletet meg fogják kötni A esemény X1 , X2 ,...,Xp ordinális szintű független változók eddig hányszor ment el, kor, iskola, jövedelem napi cigi, napi pohár, kor, stressz ár, mennyiség, piaci forgalom, raktárkészlet

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió P(Y=1) = P(A)  ————— 1 1 - e-Z Z = B0 + B1 X1 + B2 X2+...+ Bp Xp 1 - P(A) ODDS = ————— P(A)  e Z  log (ODDS) =

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió A legnagyobb valószínűség elve L(1,2,...,n) = P(Y1= 1, Y2= 2, ... , Yn= n) = = P(Y1= 1) P(Y2= 2)  P(Yn= n)  ———— 1 1 - e-Z1 1 - e-Z2 1 - e-Zn  ·  ln L(1,2,...,n) =  ln ( ) —————————————— 1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp)

Lineáris regresszió A lineáris kapcsolat kitüntetett: (1) a legegyszerűbb és leggyakoribb, könnyű a két paramétert értelmezni (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs)

Lineáris regresszió Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg: Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelő empirikus momentumok állnak:

Lineáris regresszió A teljes négyzetösszeg A maradékösszeg A regressziós összeg

A lineáris regresszió (xi, yi ) (xi, ) ( x, ) y = b + a xi x Q = Qres + Qreg (xi, yi ) y res (xi, ) reg ( x, ) = b + a xi x

mindössze 1, mert az átlag konstans A lineáris regresszió A teljes négyzetösszeg felbontása: Q = Qres + Qreg fres szabadsági foka mindössze 1, mert az átlag konstans freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ.

A lineáris regresszió y = b + a xi (x1, y1) (x2, y2) (x3, y3) A legkisebb négyzetek módszere alapelve: y = b + a xi (x1, y1) (x2, y2) (x3, y3) (x4, y4) (x5, y5) e1 e2 e3 e4 e5 (x5, y5) e2 e1 e3 e4 e5 (x3, y3) (x1, y1) (x4, y4) (x2, y2) x

A lineáris regresszió Megjegyzések: 1. 2.

Lineárisra visszavezethető kétparaméteres regresszió Amennyiben találhatók olyan alkalmas függvények, amivel a probléma linearizálható: A trükkel nem az eredeti minimalizálási feladat megoldását kapjuk meg, csak attól nem túl messze eső közelítéseket!

Lineárisra visszavezethető kétparaméteres regresszió exponenciális függvénykapcsolat: „growth” függvény: „compoud” függvény:

Lineárisra visszavezethető kétparaméteres regresszió hatványfüggvény: Arrhenius:

Lineárisra visszavezethető kétparaméteres regresszió reciprok: racionális:

Lineárisra visszavezethető kétparaméteres regresszió homogén kvadratikus: logaritmikus: hiperbolikus:

Linearizálás, pl.

Polinomiális regresszió A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: Xi=X i !

Polinomiális regresszió

Polinomiális regresszió

Példa kétváltozós lineáris regresszióra Keressünk lineáris összefüggést az employee data állományban a kezdőfizetés és a jelenlegi fizetés között!

Példa kétváltozós lineáris regresszióra

Példa kétváltozós lineáris regresszióra

Példa kétváltozós lineáris regresszióra a maradéktagok Heteroszkedaszticitás jelensége megfigyelhető: nagyobb X-hez nagyobb szórás tartozik!

Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra