Többváltozós lineáris regresszió

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.
IBM SPSS Statistics Regressziós elemzések Informatikai Tudományok Doktori Iskola.
Kvantitatív módszerek
Gazdaságelemzési és Statisztikai Tanszék
Informatikai Tudományok Doktori Iskola
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Matematikai Statisztika VIK Doktori Iskola
Földrajzi összefüggések elemzése
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VIII.. Dr. Szalka Éva, Ph.D.2 Többváltozós korreláció és regresszióanalízis.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
A középérték mérőszámai
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
STATISZTIKA II. 7. Előadás
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Kvantitatív Módszerek
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Lineáris regresszió.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
A kombinációs táblák (sztochasztikus kapcsolatok) elemzése
Petrovics Petra Doktorandusz
A szóráselemzés gondolatmenete
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Többváltozós lineáris regressziós modell feltételeinek tesztelése.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Informatikai Tudományok Doktori Iskola
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Korreláció, regresszió
Lineáris regressziós modellek
Kiváltott agyi jelek informatikai feldolgozása 2016
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
Gazdaságinformatika MSc labor
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Többváltozós lineáris regresszió Adatelemzés

A többváltozós lineáris regresszió

A többváltozós lineáris regresszió A független változók azon lineáris kombinációját keressük, amelynél a függőváltozót legkisebb négyzetes hibával tudjuk közelíteni:

A többváltozós lineáris regresszió Az együtthatók meghatározása a legkisebb négyzetek módszerével:

A többváltozós lineáris regresszió A regressziós egyenlet együtthatóinak a keresése itt is a legkisebb négyzetek elve alapján történik. Geometriailag az (r+1)-dimenziós térben adott pontokhoz legjobban illeszkedő (hiper)síkot keresünk. A megoldás matematikai módszere itt is ismert (mátrix-egyenletek megoldását kell keresni), amelyet a statisztikai szoftverekbe beépítettek.

A többváltozós lineáris regresszió Szórásanalízis (ANOVA) a modell érvényességének eldöntésére A nullhipotézis az, hogy a független változók mindegyike 0, vagyis egyik prediktor változó sem magyarázza a célváltozót! F-próbával dönthetünk a nullhipotézisről.

A többváltozós lineáris regresszió Béta-együtthatók A béta-együtthatók egyfajta szempontból minősítik a változók fontosságát a lineáris összefüggésben. Ha egy változónak nagy az együtthatója abszolút értékben, akkor fontos, ha kicsi, kevésbé fontos . az i-edik regressziós együttható, az i-edik változó standard szórása, a célváltozó standard szórása.

A többváltozós lineáris regresszió R2 (coefficient of determination) meghatározottsági együttható Ha csak egy magyarázó változó van, akkor R2 éppen a korrelációs együttható négyzete! Megmutatja, hogy a lineáris regresszióval a célváltozó varianciájának mekkora hányadát lehet magyarázni

A többváltozós lineáris regresszió Az R2 érték megmutatja a lineáris kapcsolat mértékét

A többváltozós lineáris regresszió Korrigált (adjusztált) meghatározottsági mutató A korrekció azért szükséges, mert újabb változók bevonásával R2 automatikusan nő, és túl optimista képet mutat a modell illeszkedéséről. Az adjusztált változatban „büntetjük” a túl sok változó bevonását a modellbe. p=1 esetben nem korrigálunk. p a független változók száma

A többváltozós lineáris regresszió Modell-építési technikák Egy tipikus többváltozós lineáris regressziós problémánál adott az Y célváltozó és nagy számú X1, X2,…, Xp magyarázó változó. Az elemzés kezdetekor azt sem tudjuk, melyek azok a változók, amik bekerülnek, és melyek azok, amik nem kerülnek majd be a modellbe. Ha minden lehetséges kombinációt ki akarnánk próbálni, akkor összesen Már 4 változó esetén 15 modellt kellene illesztenünk! modellillesztést kellene elvégeznünk!

A többváltozós lineáris regresszió Modell-építési technikák Nyilván szűkítenünk kell kell az illesztendő modellek számát! Alkalmazhatjuk az ENTER eljárást, amelyben azokat a magyarázó változókat vesszük be a változólistából a modellbe, amely változókat szeretnénk, hogy benne legyenek. Ezeket a modelleket utólag értékelni kell a meghatározottsági együttható nagysága, és a regressziós együtthatók szignifikancia szintje alapján. A módosításokkal újra el kell végezni az illesztést.

A többváltozós lineáris regresszió Modell-építési technikák Automatikus modellépítési technikák: STEPWISE FOREWARD BACKWARD REMOVE A felhasználónak csak az indulási magyarázó változó listát kell specifikálnia, az SPSS program ebből választva állít elő „jó” modelleket, amik közül választhatunk „végső” megoldást.

A többváltozós lineáris regresszió A parciális F-próba Tegyük fel, hogy bevontuk a p-edik magyarázó változót a modellbe. Ha az új változó magyarázó ereje elhanyagolható, akkor az alábbi statisztika 1, n-p-1 szabadságfokú Fisher-eloszlást követ: az új p változós modell meghatározottsági együtthatója, a régi p-1 változós modell meghatározottsági együtthatója,

A többváltozós lineáris regresszió A parciális F-próba A p-edik változót akkor vonjuk be a modellbe, ha ahol olyan kritikus érték, hogy:

A többváltozós lineáris regresszió FOREWARD modell-építés Alulról építkező modellépítési eljárás. Minden modellépítési lépésben a listából azt a változót vonjuk be, amely F-tesztjéhez a legkisebb  szint tartozik. A bevonási folyamat addig tart, amíg ez a legkisebb  szint egy beállított PIN korlát alatt marad. Előnye, hogy viszonylag kevés magyarázó változó lesz a modellben, így könnyebb a modellt értelmezni.

A többváltozós lineáris regresszió BACKWARD modell-építés Felülről lebontó eljárás. Kezdetben az összes változót berakjuk a modellbe. Minden lépésben azt a változót hagyjuk el a modellből, amelynél parciális F-próbánál a legnagyobb  érték tartozik. Akkor állunk meg, ha az előre beállított POUT küszöbérték alá megy ez az . A BACKWARD modellépítéssel viszonylag sok magyarázó változó marad benn a modellben.

A többváltozós lineáris regresszió STEPWISE modell-építés A FOREWARD eljárást úgy módosítjuk, hogy minden lépésben ellenőrizzük a modellbe korábban már bevont változókhoz tartozó  szignifikancia-szintet, és azt elhagyjuk, ahol ez a szint nagyobb mint POUT. Nem kerülünk végtelen ciklusba, ha PIN<POUT. (Szokásos beállítás: PIN=0,05 és POUT=0,10.

A többváltozós lineáris regresszió REMOVE modell-építés A REMOVE eljárás az ENTER beállításából indul ki, egyszerre hagy el változókat a modellből, összehasonlításként csak a konstans tagot tartalmazó modell eredményeit közli.

Multikollinearitás További lehetséges probléma a többváltozós lineáris regresszió során a (multi)kollinearitás, amiről akkor beszélünk, ha a magyarázó változók erősen korrelálnak. Ilyenkor • a magyarázó változók hatását a függő változóra nem lehet szétválasztani, • a magyarázó változók átvehetik egymás szerepét, • a regressziós együtthatók becslése megbízhatatlanná válik, • szélsőséges esetben az elemzés el sem végezhető.

A többváltozós lineáris regresszió Multikollinearitás Multikollinearitáson a magyarázó változók között fellépő lineáris kapcsolat meglétét értjük. A multkollinearitás jelenléte rontja a modell értékelhetőségét. A multikollinearitás mérőszámai: tolerancia variancia infláló faktor (VIF) kondíciós index (CI) variancia hányad

A többváltozós lineáris regresszió A multikollinearitás mérőszámai 1. tolerancia azt méri, hogy az i-edik magyarázó változót az összes többi milyen szorosan határozza meg. A nullához közeli tolerancia jelenti azt, hogy közel függvényszerű kapcsolat van a magyarázó változók között. Értéke 1-Ri2, ahol Ri az i-edik változónak a többivel vett lineáris regressziójának a korrelációs együtthatója, a többszörös korrelációs együttható. A variancia infláló faktor (VIF) a tolerancia reciproka: VIF=1/(1-Ri2). Ezért, ha a magyarázó változók között szoros a kapcsolat, VIF végtelen nagy is lehet. Ha a magyarázó változók korrelálatlanok, a VIF értéke 1.

A többváltozós lineáris regresszió A multikollinearitás mérőszámai 2. A kondíciós index (CI) a magyarázó változók korrelációs mátrixának sajátértékeiből számolt statisztika. A legnagyobb és legkisebb sajátértékek hányadosának négyzetgyöke. A CI>15 esetében megállapítható az erős kollinearitás. Variancia hányad is utalhat multikollinearitásra. Ha egy-egy nagy kondíciós index sorában több regressziós együtthatónak van magas variancia hányada. A regressziós együtthatók varianciáit a sajátértékek között szétosztjuk.

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása A lineáris regressziós modell értékelésének fontos lépése az egyes adatpontok fontosságának feltárása. Melyek azok az adatpontok, amelyek a végleges összefüggést legerősebben mutatják, erősítik, és melyek azok az ún. outlier pontok, melyek legkevésbé illeszkednek az adott regressziós összefüggésbe.

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása A Y célváltozó és a lineáris becslés közötti kapcsolat: A becslés hibavektora, maradékösszeg, regressziós összeg:

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása a leverage (hatalom) vagy hat mátrix A mátrix szimmetrikus, hii diagonális elemei azt mutatják, hogy az i-edik eset mekkora hatást fejt ki a regressziós becslésre. , ahol az i-edik esetvektor

A többváltozós lineáris regresszió A becslést befolyásoló pontok feltárása Az i-edik eset befolyása átlagos, ha ezek a tipikus esetek! Az i-edik eset befolyása jelentős, ha Ha az i-edik eset bevonható az elemzésbe Ha kockázatos az i-edik eset bevonása az i-edik esetet ki kell hagyni, „outlier” pont

A többváltozós lineáris regresszió A maradéktagok (reziduálisok) elemzése A lineáris becslés elkészítésekor nem számolunk az i-edik esettel, „töröljük”. Közönséges reziduális: Törölt reziduális: Standardizált reziduális: Belsőleg studentizált reziduális:

A többváltozós lineáris regresszió A maradéktagok (reziduálisok) elemzése Heteroszkedaszticitás: A maradéktagok nulla szint körüli szóródásának lehetséges típusai a.) a szóródás megfelel a lineáris modellnek, b.) nem a lineáris modellhez tartoznak a maradéktagok, c.) a szóródások nem azonosak, d.) a hibatagok nem függetlenek egymástól.

Kis kitérő: két változó „tiszta” kapcsolatának mérése

Példa többváltozós lineáris regresszióra Végezzünk lineáris elemzést az employee data állományon! A jelenlegi fizetés legyen a célváltozó, a magyarázó változók a kezdőfizetés, alkalmazás ideje (jobtime) és a dolgozó kora legyen!

Példa többváltozós lineáris regresszióra A konstans szerepe elhanyagolható a modellben.