Lineáris regresszió Adatelemzés.

Slides:



Advertisements
Hasonló előadás
Informatikai Tudományok Doktori Iskola
Advertisements

Szabadtéri rendezvények. A TvMI vonatkozik: OTSZ szerinti szabadtéri rendezvényekre szabadtéri rendezvény: az 1000 főt vagy az 5000 m 2 területet meghaladó,
Gazdaságstatisztika, 2015 RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA Gazdaságstatisztika október 20.
Vetésforgó tervezése és kivitelezése. Vetésforgó Vetésterv növényi sorrend kialakításához őszi búza250 ha őszi árpa50 ha lucerna ebből új telepítés 300.
Az összefüggés szemléltetése a., Az összes adat megjelenítése oszlopdiagram segítségével b., Az átlagok megjelenítése oszlopdiagram segítségével (SzD!)
Kockázat és megbízhatóság
Becslés gyakorlat november 3.
Mintavétel és becslés október 25. és 27.
Végeselemes modellezés matematikai alapjai
Technológiai folyamatok optimalizálása
A szórás típusú egyenlőtlenségi mutatók
Kockázat és megbízhatóság
Igen-nem változás előrejelzése több változó hatásának együttes elemzése alapján A többszörös logisztikus regresszió Dr. Gombos Tímea.
Mintavétel és becslés október 27. és 29.
Kockázat és megbízhatóság
Korrelációszámítás.
Kockázat és megbízhatóság
Rendszerező összefoglalás
Végeselemes modellezés matematikai alapjai
13. Gyakorlat Dr. Pauler Gábor, Egyetemi Docens
Rangsorolás tanulása ápr. 13..
Kvantitatív módszerek
Hipotézisvizsgálat.
Kvantitatív módszerek
Nemparaméteres próbák 2.
Gazdaságstatisztika Korreláció- és regressziószámítás II.
Geostatisztika prof. Geresdi István szoba szám: E537.
Gazdaságinformatikai MSc
FÜGGVÉNYEK Legyen adott A és B két nem üres (szám)halmaz. Az A halmaz minden eleméhez rendeljük hozzá a B halmaz pontosan egy elemét. Ezt az egyértelmű.
INFOÉRA 2006 Véletlenszámok
Összefüggés vizsgálatok
Varianciaanalízis- ANOVA (Analyze Of VAriance)
Mi a káosz? Olyan mozgás, mely
Földrajzi összefüggések elemzése: sztochasztikus módszerek
Kvantitatív módszerek
? A modell illesztése a kísérleti adatokhoz
Kvantitatív módszerek
Business Mathematics
Érték-, ár-, volumenindexek
Regressziós modellek Regressziószámítás.
Valószínűségszámítás felelevenítő
Sztochasztikus kapcsolatok I. Asszociáció
Gazdaságinformatikus MSc
Trendelemzés előadó: Ketskeméty László
A talajok mechanikai tulajdonságai IV.
Adatbányászati szemelvények MapReduce környezetben
Készletek - Rendelési tételnagyság számítása -1
Matematikai statisztika előadó: Ketskeméty László
3. előadás.
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John.
Alkalmazott statisztikai alapok
Matematikai Analízis elemei
Területi egyenlőtlenségek összetettebb mérése: Gini együttható
Matematika I. BGRMA1GNNC BGRMA1GNNB 8. előadás.
3(+1) osztályozó a Bayes világból
Földrajzi összefüggések elemzése: sztochasztikus módszerek
Dr. Varga Beatrix egyetemi docens
Matematika 11.évf. 1-2.alkalom
A területi koncentráció mérése: Hirschman–Herfindahl index
Paraméteres próbák Adatelemzés.
Lorenz-görbe dr. Jeney László egyetemi adjunktus
Kísérlettervezés 2018/19.
Tájékoztató az EPER pályázati folyamatáról
3. előadás.
Várhatóérték, szórás
Hagyományos megjelenítés
FÜGGVÉNYEK ÉS GRAFIKONJUK
Hipotéziselmélet Adatelemzés.
Vargha András KRE és ELTE, Pszichológiai Intézet
Területi egyenlőtlenségek összetettebb mérése: Gini együttható
Előadás másolata:

Lineáris regresszió Adatelemzés

A regressziószámítás alapproblémája Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk. Y függőváltozó X1, X2, ... Xp független változók Y f(X1, X2, ... Xp ) becslés fF E(Y- f*(X1, X2, ... Xp ))2 = min E(Y- f(X1, X2, ... Xp ))2 fF

Példák 1. A Duna vízállásának előrejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Műholdkép alapján a búza terméshozamának becslése 4. Műholdkép alapján a Mars vastartalmának becslése 5. Predikciók, trendek idősoroknál 6. Lineáris közgazdasági modellek

A regressziószámítás alapproblémája Ha ismerjük az Y és az X1, X2, ... Xp együttes eloszlását, akkor a probléma elméletileg megoldott: f (X1, X2, ... Xp ) = E ( Y | X1, X2, ... Xp ). Gyakorlatban azonban „csak” egy adatmátrix adott:

Feltételes várható érték, folytonos eset I.

Feltételes várható érték, folytonos eset II.

Feltételes várható érték, folytonos eset III.

A regresszió tulajdonságai Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!

Normális komponensek esetén a regressziós összefüggés lineáris! Regresszió normális eloszlás esetén Normális komponensek esetén a regressziós összefüggés lineáris!

Elméleti lineáris regresszió

Elméleti lineáris regresszió Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!

 A regressziószámítás alapproblémája F = {f(x1,x2,…,xp, a,b,c,… | a, b, c, … valós paraméterek} A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél:  n  min h(a,b,c,...) = (Yi- f(X1i, X2i, ..., Xpi, a,b,c,... ))2 a,b,c,... i=1 Ez a legkisebb négyzetek módszere!

A regresszióanalízis fajtái Lineáris regresszió f(X) = B0 + B1 X Többváltozós lineáris regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X1 + B2 X2+...+ Bp Xp Polinomiális regresszió f(X1 , X2 ,...,Xp ) = B0 + B1 X + B2 X2+...+ BpXp X1=X, X2=X2, ... , Xp=Xp Kétparaméteres (lineárisra visszavezethető) regresszió pl. Y=f(X) = Bo·e B1 X  lnY = B1 X + ln Bo

A regresszióanalízis fajtái Nemlineáris regressziók két változó között I. f(X ) = B1 + B2 exp(B3 X ) aszimptotikus I. f(X ) = B1 - B2 · (B3 )X aszimptotikus II. sűrűség f(X ) = (B1 + B2 X )-1/B3 f(X ) = B1 · (1- B3 · exp(B2 X 2)) Gauss f(X ) = B1 · exp( - B2 exp( - B3 X 2))) Gompertz f(X ) = B1 · exp( - B2 /(X + B3 )) Johnson-Schumacher

A regresszióanalízis fajtái Nemlineáris regressziók két változó között II. log-módosított f(X) = (B1 + B3 X)B2 log-logisztikus f(X) = B1 - ln(1 + B2 exp( - B3 X ) f(X) = B1 + B2 exp( - B3 X ) Metcherlich f(X) = B1 · X / (X + B2 ) Michaelis Menten f(X) = (B1 B2 +B3 XB4)/(B2 + XB4 ) Morgan-Merczer-Florin f(X) = B1 /(1+B2 exp( - B3 X +B4X2 + B5X3 )) Peal-Reed

A regresszióanalízis fajtái Nemlineáris regressziók két változó között III. f(X) = (B1 + B2 X +B3X2 + B4X3)/ B5X3 köbök aránya f(X) = (B1 + B2 X +B3X2 )/ B4X2 négyzetek aránya Richards f(X) = B1/((1+B3 · exp(B2 X))(1/B4) Verhulst f(X) = B1/((1+B3 · exp(B2 X)) Von Bertalanffy f(X) = (B1 (1-B4) · B2 exp( - B3 X))1/(1-B4) f(X) = B1 - B2 exp( -B3 X B4) Weibull f(X) = 1/(B1 + B2 X +B3X2 ) Yield sűrűség

Szakaszonkénti lineáris regresszió A regresszióanalízis fajtái Szakaszonkénti lineáris regresszió

Poligoniális regresszió A regresszióanalízis fajtái Poligoniális regresszió

Többváltozós lineáris regresszió kategória-változóval A regresszióanalízis fajtái Többváltozós lineáris regresszió kategória-változóval

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió { Y= 1, ha az A esemény bekövetkezik 0, ha az A esemény nem következik be Y dichotóm A választó fog szavazni A páciensnek szívinfarktusa lesz Az üzletet meg fogják kötni A esemény X1 , X2 ,...,Xp ordinális szintű független változók eddig hányszor ment el, kor, iskola, jövedelem napi cigi, napi pohár, kor, stressz ár, mennyiség, piaci forgalom, raktárkészlet

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió P(Y=1) = P(A)  ————— 1 1 - e-Z Z = B0 + B1 X1 + B2 X2+...+ Bp Xp 1 - P(A) ODDS = ————— P(A)  e Z  log (ODDS) =

Logisztikus regresszió A regresszióanalízis fajtái Logisztikus regresszió A legnagyobb valószínűség elve L(1,2,...,n) = P(Y1= 1, Y2= 2, ... , Yn= n) = = P(Y1= 1) P(Y2= 2)  P(Yn= n)  ———— 1 1 - e-Z1 1 - e-Z2 1 - e-Zn  ·  ln L(1,2,...,n) =  ln ( ) —————————————— 1 - exp (B0 + B1 X1 + B2 X2+...+ Bp Xp)

Lineáris regresszió A lineáris kapcsolat kitüntetett: (1) a legegyszerűbb és leggyakoribb, könnyű a két paramétert értelmezni (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs)

Lineáris regresszió Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg: Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelő empirikus momentumok állnak:

Lineáris regresszió A teljes négyzetösszeg A maradékösszeg A regressziós összeg

A lineáris regresszió (xi, yi ) (xi, ) ( x, ) y = b + a xi x Q = Qres + Qreg (xi, yi ) y res (xi, ) reg ( x, ) = b + a xi x

mindössze 1, mert az átlag konstans A lineáris regresszió A teljes négyzetösszeg felbontása: Q = Qres + Qreg fres szabadsági foka mindössze 1, mert az átlag konstans freg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ.

A lineáris regresszió y = b + a xi (x1, y1) (x2, y2) (x3, y3) A legkisebb négyzetek módszere alapelve: y = b + a xi (x1, y1) (x2, y2) (x3, y3) (x4, y4) (x5, y5) e1 e2 e3 e4 e5 (x5, y5) e2 e1 e3 e4 e5 (x3, y3) (x1, y1) (x4, y4) (x2, y2) x

A lineáris regresszió Megjegyzések: 1. 2.

Lineárisra visszavezethető kétparaméteres regresszió Amennyiben találhatók olyan alkalmas függvények, amivel a probléma linearizálható: A trükkel nem az eredeti minimalizálási feladat megoldását kapjuk meg, csak attól nem túl messze eső közelítéseket!

Lineárisra visszavezethető kétparaméteres regresszió exponenciális függvénykapcsolat: „growth” függvény: „compoud” függvény:

Lineárisra visszavezethető kétparaméteres regresszió hatványfüggvény: Arrhenius:

Lineárisra visszavezethető kétparaméteres regresszió reciprok: racionális:

Lineárisra visszavezethető kétparaméteres regresszió homogén kvadratikus: logaritmikus: hiperbolikus:

Linearizálás, pl.

Polinomiális regresszió A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: Xi=X i !

Polinomiális regresszió

Polinomiális regresszió

Példa kétváltozós lineáris regresszióra Keressünk lineáris összefüggést az employee data állományban a kezdőfizetés és a jelenlegi fizetés között!

Példa kétváltozós lineáris regresszióra

Példa kétváltozós lineáris regresszióra

Példa kétváltozós lineáris regresszióra a maradéktagok Heteroszkedaszticitás jelensége megfigyelhető: nagyobb X-hez nagyobb szórás tartozik!

Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra

Példa kétparaméteres nemlineáris regresszióra