Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Regresszióanalízis Informatikai Tudományok Doktori Iskola.

Hasonló előadás


Az előadások a következő témára: "Regresszióanalízis Informatikai Tudományok Doktori Iskola."— Előadás másolata:

1 Regresszióanalízis Informatikai Tudományok Doktori Iskola

2 A regressziószámítás alapproblémája Yfüggőváltozó X 1, X 2,... X p független változók E(Y- f * (X 1, X 2,... X p )) 2 = min E(Y- f(X 1, X 2,... X p )) 2 fFfF Y  f(X 1, X 2,... X p ) becslés fFfF Regressziószámításkor egy változót egy (vagy több) másik változóval becslünk.

3 Példák 1. A Duna vízállásának előrejelzése Budapesten 2. A paradicsom beérési idejének becslése 3. Műholdkép alapján a búza terméshozamának becslése 4. Műholdkép alapján a Mars vastartalmának becslése 5. Predikciók, trendek idősoroknál 6. Lineáris közgazdasági modellek

4 A regressziószámítás alapproblémája Ha ismerjük az Y és az X 1, X 2,... X p együttes eloszlását, akkor a probléma elméletileg megoldott: f ( X 1, X 2,... X p ) = E ( Y | X 1, X 2,... X p ). Gyakorlatban azonban „csak” egy adatmátrix adott:

5 Feltételes várható érték, folytonos eset I.

6 Feltételes várható érték, folytonos eset II.

7 Feltételes várható érték, folytonos eset III.

8 A regresszió tulajdonságai Az összes függvény közül a regressziós görbével lehet legpontosabban közelíteni!

9 Regresszió normális eloszlás esetén Normális komponensek esetén a regressziós összefüggés lineáris!

10 Elméleti lineáris regresszió

11 Láttuk, hogyha X,Y együttes eloszlása normális, akkor a regresszió lineáris lesz!

12 Ez a legkisebb négyzetek módszere!  (Y i - f(X 1i, X 2i,..., X pi, a,b,c,... )) 2 i=1 n  min h(a,b,c,...) = a,b,c,... F = { f(x 1,x 2,…,x p, a,b,c,… | a, b, c, … valós paraméterek } A regressziószámítás alapproblémája A függvényhalmazból azt az elemet fogjuk kiválasztani, amelynél:

13 Lineáris regresszióf(X) = B 0 + B 1 X Többváltozós lineáris regresszió f(X 1, X 2,...,X p ) = B 0 + B 1 X 1 + B 2 X B p X p Polinomiális regresszió f(X 1, X 2,...,X p ) = B 0 + B 1 X + B 2 X B p X p X 1 =X, X 2 =X 2,..., X p =X p Kétparaméteres (lineárisra visszavezethető) regresszió pl. Y=f(X) = B o · e B 1 X  lnY = B 1 X + ln B o A regresszióanalízis fajtái

14 Nemlineáris regressziók két változó között I. f(X ) = B 1 + B 2 exp(B 3 X ) aszimptotikus I. f(X ) = B 1 - B 2 · (B 3 ) X aszimptotikus II. f(X ) = (B 1 + B 2 X ) -1/B3 sűrűség f(X ) = B 1 · (1- B 3 · exp(B 2 X 2 )) Gauss f(X ) = B 1 · exp( - B 2 exp( - B 3 X 2 ))) Gompertz f(X ) = B 1 · exp( - B 2 /(X + B 3 )) Johnson-Schumacher

15 f(X) = (B 1 + B 3 X) B 2 log-módosított f(X) = B 1 - ln(1 + B 2 exp( - B 3 X ) log-logisztikus f(X) = B 1 + B 2 exp( - B 3 X ) Metcherlich f(X) = B 1 · X / (X + B 2 ) Michaelis Menten f(X) = (B 1 B 2 +B 3 X B 4 )/(B 2 + X B 4 ) Morgan-Merczer-Florin f(X) = B 1 /(1+B 2 exp( - B 3 X +B 4 X 2 + B 5 X 3 )) Peal-Reed A regresszióanalízis fajtái Nemlineáris regressziók két változó között II.

16 A regresszióanalízis fajtái Nemlineáris regressziók két változó között III. f(X) = (B 1 + B 2 X +B 3 X 2 + B 4 X 3 )/ B 5 X 3 f(X) = (B 1 + B 2 X +B 3 X 2 )/ B 4 X 2 f(X) = B 1 /((1+B 3 · exp(B 2 X)) (1/B4) f(X) = B 1 /((1+B 3 · exp(B 2 X)) f(X) = (B 1 (1-B4) · B 2 exp( - B 3 X)) 1/(1-B4) f(X) = B 1 - B 2 exp( -B 3 X B4 ) f(X) = 1/(B 1 + B 2 X +B 3 X 2 ) köbök aránya négyzetek aránya Richards Verhulst Von Bertalanffy Weibull Yield sűrűség

17 Szakaszonkénti lineáris regresszió A regresszióanalízis fajtái

18 Poligoniális regresszió A regresszióanalízis fajtái

19 Többváltozós lineáris regresszió kategória-változóval A regresszióanalízis fajtái

20 Logisztikus regresszió Ydichotóm{ Y=Y=Y=Y= 1, ha az A esemény bekövetkezik 0, ha az A esemény nem következik be A esemény A választó fog szavazni A páciensnek szívinfarktusa lesz Az üzletet meg fogják kötni X 1, X 2,...,X p ordinális szintű független változók eddig hányszor ment el, kor, iskola, jövedelem napi cigi, napi pohár, kor, stressz ár, mennyiség, piaci forgalom, raktárkészlet A regresszióanalízis fajtái

21 Logisztikus regresszió P(Y=1) = P(A)  ————— e -Z Z = B 0 + B 1 X 1 + B 2 X B p X p 1 - P(A) ODDS = ————— P(A)  e Z  log (ODDS) = Z = B 0 + B 1 X 1 + B 2 X B p X p A regresszióanalízis fajtái

22 Logisztikus regresszió A legnagyobb valószínűség elve L(  1,  2,...,  n ) = P(Y 1 =  1, Y 2 =  2,..., Y n =  n ) = = P(Y 1 =  1 ) P(Y 2 =  2 )  P(Y n =  n )  ———— e -Z 1 ———— e -Z 2 ———— e -Z n  · · ·  ln L(  1,  2,...,  n ) =  ln ( ) —————————————— exp (B 0 + B 1 X 1 + B 2 X B p X p ) A regresszióanalízis fajtái

23 Lineáris regresszió A lineáris kapcsolat kitüntetett: (1) a legegyszerűbb és leggyakoribb, könnyű a két paramétert értelmezni (2) két dimenziós normális eloszlás esetén a kapcsolat nem is lehet más (vagy lineáris vagy egyáltalán nincs)

24 Lineáris regresszió Az empirikus lineáris regresszió együtthatói az elméleti regressziós egyenes együtthatóitól annyiban különböznek, hogy a képletekben az elméleti momentumok helyett a mintából számolt megfelelő empirikus momentumok állnak: Az empirikus lineáris regresszió együtthatóit a legkisebb négyzetek módszerével kaphatjuk meg:

25 A teljes négyzetösszeg A maradékösszeg A regressziós összeg Lineáris regresszió

26 A lineáris regresszió x 0 y (x i, ) = b + a  x i ( x, ) (x i, y i ) res reg Q Q = Q res + Q reg

27 A lineáris regresszió A teljes négyzetösszeg felbontása: Q = Q res + Q reg Ha nincs lineáris regresszió, a varianciák hányadosa (1, n-2) szabadsági fokú F eloszlást követ. f reg szabadsági foka n-2, mert n tagú az összeg, de ezek között két összefüggés van. f res szabadsági foka mindössze 1, mert az átlag konstans

28 (x 1, y 1) (x 2, y 2) (x 3, y 3) (x 4, y 4) (x 5, y 5) e2e2 e1e1 e3e3 e4e4 e5e5 A lineáris regresszió A legkisebb négyzetek módszere alapelve: 0 y x (x 1, y 1) (x 2, y 2) (x 3, y 3) (x 4, y 4) (x 5, y 5) e1e1 e2e2 e3e3 e4e4 e5e5 = b + a  x i

29 A lineáris regresszió Megjegyzések:

30 Tervezett (determinisztikus) megfigyelés Főleg műszaki alkalmazasokban gyakori, hogy a méréseket Y -ra előírt x beálltásoknál végzik el, és így keresik az ismeretlen Y~f(x) függvénykapcsolatot. A modell ilyenkor az, hogy Y = f(x) + , ahol  a mérési hibát jelentő valószínűségi változó, melyre E  = 0 és  2  véges. A lineáris regresszió

31 Gauss-Markov-tétel

32 Lineárisra visszavezethető kétparaméteres regresszió Amennyiben találhatók olyan alkalmas függvények, amivel a probléma linearizálható: A trükkel nem az eredeti minimalizálási feladat megoldását kapjuk meg, csak attól nem túl messze eső közelítéseket!

33 exponenciális függvénykapcsolat: „growth” függvény: „compoud” függvény: Lineárisra visszavezethető kétparaméteres regresszió

34 hatványfüggvény: Arrhenius:

35 reciprok: Lineárisra visszavezethető kétparaméteres regresszió racionális:

36 homogén kvadratikus: hiperbolikus: Lineárisra visszavezethető kétparaméteres regresszió logaritmikus:

37 Linearizálás, pl.

38 Polinomiális regresszió A polinomiális regressziós feladatot többváltozós lineáris regresszióval oldhatjuk meg, a prediktor változók ilyenkor az X változó hatványai: X i =X i !

39 Polinomiális regresszió

40

41 A többváltozós lineáris regresszió A független változók azon lineáris kombinációját keressük, amelynél a függőváltozót legkisebb négyzetes hibával tudjuk közelíteni:

42 Az együtthatók meghatározása a legkisebb négyzetek módszerével: A többváltozós lineáris regresszió

43

44 Szórásanalízis (ANOVA) a modell érvényességének eldöntésére A nullhipotézis az, hogy a független változók mindegyike 0, vagyis egyik prediktor változó sem magyarázza a célváltozót! F-próbával dönthetünk a nullhipotézisről.

45 Béta-együtthatók az i-edik regressziós együttható, az i-edik változó standard szórása, a célváltozó standard szórása. A béta-együtthatók egyfajta szempontból minősítik a változók fontosságát a lineáris összefüggésben. Ha egy változónak nagy az együtthatója abszolút értékben, akkor fontos, ha kicsi, kevésbé fontos. A többváltozós lineáris regresszió

46 R 2 (coefficient of determination) meghatározottsági együttható Megmutatja, hogy a lineáris regresszióval a célváltozó varianciájának mekkora hányadát lehet magyarázni Ha csak egy magyarázó változó van, akkor R 2 éppen a korrelációs együttható négyzete!

47 A többváltozós lineáris regresszió Az R 2 érték megmutatja a lineáris kapcsolat mértékét

48 A többváltozós lineáris regresszió Korrigált (adjusztált) meghatározottsági mutató p a független változók száma A korrekció azért szükséges, mert újabb változók bevonásával R 2 automatikusan nő, és túl optimista képet mutat a modell illeszkedéséről. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk.

49 A többváltozós lineáris regresszió Modell-építési technikák Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X 1, X 2,…, X p magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe. Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen modellillesztést kellene elvégeznünk! Már 4 változó esetén 15 modellt kellene illesztenünk!

50 A többváltozós lineáris regresszió Modell-építési technikák Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést.

51 A többváltozós lineáris regresszió Modell-építési technikák Automatikus modellépítési technikák: STEPWISE FOREWARD BACKWARD REMOVE A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, az SPSS program ebből választva állít elő „jó” modelleket, amik közül választhatunk „végső” megoldást.

52 A többváltozós lineáris regresszió A parciális F-próba Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n-p-1 szabadságfokú Fisher-eloszlást követ: az új p változós modell meghatározottsági együtthatója, a régi p-1 változós modell meghatározottsági együtthatója,

53 A többváltozós lineáris regresszió A parciális F-próba A p-edik változót akkor vonjuk be a modellbe, ha ahol olyan kritikus érték, hogy:

54 A többváltozós lineáris regresszió FOREWARD modell-építés Alulról építkező modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb  szint tartozik. A bevonási folyamat addig tart, amíg ez a legkisebb  szint egy beállított PIN korlát alatt marad. Előnye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni.

55 A többváltozós lineáris regresszió BACKWARD modell-építés Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb  érték tartozik. Akkor állunk meg, ha az előre beállított POUT küszöbérték alá megy ez az . A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben.

56 A többváltozós lineáris regresszió STEPWISE modell-építés A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenőrizzük a modellbe korábban már bevont változókhoz tartozó  szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN

57 A többváltozós lineáris regresszió REMOVE modell-építés A REMOVE eljárás az ENTER beállításából indul ki, egyszerre hagy el változókat a modellből, összehasonlításként csak a konstans tagot tartalmazó modell eredményeit közli.

58 A többváltozós lineáris regresszió Multikollinearitás Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét. A multikollinearitás mérőszámai: tolerancia variancia infláló faktor (VIF) kondíciós index (CI) variancia hányad

59 A többváltozós lineáris regresszió A multikollinearitás mérőszámai 1. tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1-R i 2, ahol R i az i-edik változónak a többivel vett lineáris regressziójának a korrelációs együtthatója, a többszörös korrelációs együttható. A variancia infláló faktor (VIF) a tolerancia reciproka: VIF=1/(1-R i 2 ). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1.

60 A többváltozós lineáris regresszió A multikollinearitás mérőszámai 2. A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeiből számolt statisztika. A legnagyobb és legkisebb sajátértékek hányadosának négyzetgyöke. A CI>15 esetében megállapítható az erős kollinearitás. Variancia hányad is utalhat multikollinearitásra. Ha egy-egy nagy kondíciós index sorában több regressziós együtthatónak van magas variancia hányada. A regressziós együtthatók varianciáit a sajátértékek között szétosztjuk.

61 A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása A lineáris regressziós modell értékelésének fontos lépése az egyes adatpontok fontosságának feltárása. Melyek azok az adatpontok, amelyek a végleges összefüggést legerősebben mutatják, erősítik, és melyek azok az ún. outlier pontok, melyek legkevésbé illeszkednek az adott regressziós összefüggésbe.

62 A többváltozós lineáris regresszió A Y célváltozó és a lineáris becslés közötti kapcsolat: A becslés hibavektora, maradékösszeg, regressziós összeg: A becslést befolyásoló pontok feltárása

63 A többváltozós lineáris regresszió A mátrix szimmetrikus, h ii diagonális elemei azt mutatják, hogy az i-edik eset mekkora hatást fejt ki a regressziós becslésre. a leverage (hatalom) vagy hat mátrix, ahol az i-edik esetvektor A becslést befolyásoló pontok feltárása

64 Az i-edik eset befolyása átlagos, ha Az i-edik eset befolyása jelentős, ha Ha az i-edik eset bevonható az elemzésbe Hakockázatos az i-edik eset bevonása az i-edik esetet ki kell hagyni, „outlier” pont ezek a tipikus esetek! A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása

65 A maradéktagok (reziduálisok) elemzése Közönséges reziduális: Törölt reziduális: A lineáris becslés elkészítésekor nem számolunk az i-edik esettel, „töröljük”. Standardizált reziduális: Belsőleg studentizált reziduális: A többváltozós lineáris regresszió

66 Heteroszkedaszticitás: A maradéktagok nulla szint körüli szóródásának lehetséges típusai a.) a szóródás megfelel a lineáris modellnek, b.) nem a lineáris modellhez tartoznak a maradéktagok, c.) a szóródások nem azonosak, d.) a hibatagok nem függetlenek egymástól. A maradéktagok (reziduálisok) elemzése

67 Példa kétváltozós lineáris regresszióra Keressünk lineáris összefüggést az employee data állományban a kezdőfizetés és a jelenlegi fizetés között!

68 Példa kétváltozós lineáris regresszióra

69

70 a maradéktagok Heteroszkedaszticitás jelensége megfigyelhető: nagyobb X-hez nagyobb szórás tartozik!

71 Példa kétparaméteres nemlineáris regresszióra Keressünk nemlineáris kapcsolatot Cars állományban a lóerő és a fogyasztás között!

72 Példa kétparaméteres nemlineáris regresszióra

73

74

75

76 Példa többváltozós lineáris regresszióra Végezzünk lineáris elemzést az employee data állományon! A jelenlegi fizetés legyen a célváltozó, a magyarázó változók a kezdőfizetés, alkalmazás ideje (jobtime) és a dolgozó kora legyen!

77 Példa többváltozós lineáris regresszióra A konstans szerepe elhanyagolható a modellben.


Letölteni ppt "Regresszióanalízis Informatikai Tudományok Doktori Iskola."

Hasonló előadás


Google Hirdetések