Többváltozós adatelemzés

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Kvantitatív Módszerek
Kvantitatív módszerek
Földrajzi összefüggések elemzése
Lineáris és nemlineáris regressziók, logisztikus regresszió
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
PTE PMMK Matematika Tanszék dr. Klincsik Mihály Valószínűségszámítás és statisztika előadások Gépész-Villamosmérnök szak BSc MANB030, MALB030 Bevezető.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Készítette: Kosztyán Zsolt Tibor
Kvantitatív módszerek
Kvantitatív módszerek
Az Alakfelismerés és gépi tanulás ELEMEI
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
Nemparaméteres próbák Statisztika II., 5. alkalom.
Egytényezős variancia-analízis
STATISZTIKA II. 7. Előadás
Idősor komponensei Trend vagy alapirányzat: az idősor alakulásának fő irányát mutatja meg. Szezonális vagy idényszerű ingadozás: szabályos időszakonként.
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Gazdaságstatisztika Korreláció- és regresszióelemzés 20. előadás.
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Lineáris regresszió.
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Statisztikai alapfogalmak
Petrovics Petra Doktorandusz
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
A számítógépes elemzés alapjai
Kvantitatív módszerek
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Korreláció, regresszió
Lineáris regressziós modellek

Többváltozós lineáris regresszió
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
Gazdaságinformatikus MSc
A Box-Jenkins féle modellek
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
Előadás másolata:

Többváltozós adatelemzés 6. előadás

Többváltozós regressziószámítás Alapeset: Egy eredményváltozó, legalább intervallum skálán mért változó Egy vagy több magyarázó változó, mindegyike legalább intervallum szinten mért változó Ideális esetben a magyarázó változók függetlenek, de ez a gyakorlatban nem teljesül Eredményváltozó normális eloszlású Feltételes variancia állandó (homoszkedaszticitás)

Regressziós modellek csoportosítása Idősor Determinisztikus idősorelemzés (trendszámítás, szezonindexek) Sztochasztikus idősorelemzés (ARMA, ARIMA, VAR, ARCH, GARCH) Keresztmetszeti elemzések A kettő kominációja is előfordul egyre több helyen

Regressziós modellek csoportosítása Előrejelző modellek Az eredményváltozó értékét szeretnénk minél pontosabban előre jelezni. Pl. infláció, kamatláb előrejelzése (ha tudom, hogy mennyi lesz a kamat jövöre, abból hasznot tudok húzni még akkor is, ha nem tudom megmagyarázni, hogy mitől annyi) Magyarázó modellek Nem az eredményváltozó pontos előrejelzése a cél, hanem az eredményváltozó és a magyarázó változók közötti összefüggés feltérképezése (pl. a többletjövedelmet inkább az oktatásba, vagy inkább az egyészségügybe kell befektetni)

Paraméterbecslés Az eredményváltozó és a magyarázóváltozók között lineáris összefüggést tételezek fel: Y=b0+b1*X1+b2*X2+b3*X3+…+b4*X4+e A b együtthatók meghatározása legkisebb négyzetek módszerével történik: b=(XTX)-1XTy

Paraméterbecslés A becslés előállítása lineáris algebrai műveletsor, eloszlásra tett feltételezést nem igényel A becslés nem állítható elő, ha a (XTX) mátrix inverze nem állítható elő Az inverz csak abban az esetben nem állítható elő, ha a magyarázó változók lineárisan összefüggők (tökéletes multikollinearitás)

Működési kiadás tagintézmények nélkül (tisztított adatok)

Működési kiadás tagintézmények nélkül (tisztított adatok)

Becsült együtthatók értelmezése Ceteris paribus elv Minden más változatlansága mellett Pl.: normál tanuló csoportok esetén a becsült együttható 2654

Korrelációs mátrix

Becsült paraméter csak a normál tancsoportok esetére

Illeszkedés jósága Regressziós egyenes hiányában minden megfigyelés esetén a sokasági átlag a ’becslés’. Ekkor az átlagos négyzetes eltérés a változó varianciája. Regressziós egyenes esetén kiszámoljuk a regressziós egyenestől vett négyzetes eltérést. Azt nézzük, hogy a regressziós egyenes mennyivel csökkenti a változó varianciáját A programcsomagok az ún. R2 mutatószámot közlik. A mutatószám azt méri, hogy a regressziós egyenes a variancia hány százalékát magyarázza.

Illeszkedés jósága Konstans megléte esetén az R2 muató értéke 0 és 1 között van. Minél nagyobb a mutató értéke, annál jobb az illeszkedés. A mutató 1 értéke a tökéletes illeszkedést jelzi. Amennyiben nincs konstans a modellben a mutató értéke lehet negatív is.

Illeszkedés jósága

Illeszkedés jósága R2 mutató értéke: -22,24

Illeszkedés jósága Az SPSS programcsomag máshogy számolja az R2 mutatót, ha nincs konstans a modellben. A két különféle számítás eredménye nem vethető össze!

Illeszkedés jósága Az R2 mutató értéke növekszik a változók számával. Amennyiben a változók száma megegyezik a megfigyelések számával, a mutató értéke 1. Hüvelykujj szabály: a megfigyelések száma legyen legalább 5X akkora, mint a változók száma. Korrigált R2 (adjusted R square) a változók számával korrigálja az R2 mutató értékét. Új változót akkor érdemes felvenni, ha a korrigált R2 mutató is növekszik Az R2 mutató gyöke a az eredményváltozó eredeti és becsült értékei közötti korreláció.

Illeszkedés jósága

Modell tesztelése Amennyiben a kapott modellt tesztelni szeretnénk szükséges az eloszlásra tett feltételezésekkel élnünk. Az ‘általános’ feltételezés az eltérésváltozó (és ezáltal az eredményváltozó) normalitása és homoszkedaszticitása A feltételeken azért lehet valamelyest lazítani

Modell tesztelése Ún. omnibusz teszt: az összes változó (a konstanson kívül) becsült együtthatója 0, a 0-tól csak a véletlen hatására különbözik. Ez az ún. globális F teszt.

Modell tesztelése

Modell tesztelése Változók hatását parciálisan is tudjuk tesztelni. Az ún. t teszt során az a nulhipotézis, hogy a vizsgált változó együtthatója 0, és csak a véletlennek köszönhetően lett a becslés ettől különböző

Modell tesztelése A nem szignifikáns változókat a modellből el kell távolítani. Az eltávolítást az t-teszt értékei alapján történik. Ha a modellből elhagyunk egy változót, akkor többi változó becsült együtthatója és szignifikancia szintje változhat.

Modell tesztelése

Modell tesztelése

Modell tesztelése

Modellezés

Változószelekciós eljárások A szignifikáns változók kiválasztásához vannak ún. változószelekciós eljárások: Bacward: induláskor berakja a modellbe az összes változót és a nem szignifikáns változókat folyamatosan kiszedi Forward: Ameddig talál szignifikáns változót, beteszi a modellbe Stepwise: Ha talál szignifikáns változót beteszi a modellbe, ha viszont nem szignifikáns változó van a modellben kiveszi azt

Változószelekciós eljárások stepwise

Változószelekciós eljárások stepwise

Változószelekciós eljárások backward

Lineáris kombináció A regresszió érzéketlen a lineáris kombinációra Amennyiben valamelyik változót lineáris módon transzformáljuk, csak a változó becsült együtthatója változik a transzformációnak megfelelően, sem a szignifikancia szintek, sem az előrejelzés nem változik Ha sztenderdizált változókra építünk modellt, akkor az együtthatók nagyságából arra lehet következtetni, hogy mennyire erős hatása van a változónak

Lineáris kombináció

Lineáris kombináció tancsop_szum2=tancsop_szum/2+100 kiadas=22669+3139*tancsop_szum tancsop_szum=2*tancsop_szum2-200 kiadas=22669+3139*(2*tancsop_szum2-200) kiadas=22669-3139*200+6278*tancsop_szum2 kiadas=-605131+6278*tancsop_szum2

Lineáris kombináció A regresszió érzéketlen a lineáris kombinációra Amennyiben a modellben lévő változókat trancsformáljuk lineárisan, a modell érzéketlen a transzformációra abban az értelemben, hogy a becsült együtthatók a transzfomációnak megfelelően változnak, az eredményváltozó becsült értékeki nem változnak, de a változók szignifikancia szintje ebben az esetben már változhatnak

Lineáris kombináció

Lineáris kombináció tancsop_szum=tancsop_tobbi+tancsop_normal+tancsop_nemzet+ +,,,+tancsop_eretts_utani2 kiadás=17961+2385*tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*tancsop_tobbi tancsop_tobbi=tancsop_szum-tancsop_normal-tancsop_nemzet-,,, kiadas=17961+2385*tancsop_normal+2964*tancsop_nemzet+ +,,,+1964*(tancsop_szum-tancsop_normal-,,) kiadas=17961+(2385-1964)*tancsop_normal+(2964-1964)*tancsop_nemzet+ +,,,+1964*tancsop_szum kiadas=17961+421*tancsop_normal+1000*tancsop_nemzet+

Lineáris kombináció

Új változó felvétele Egy új változó felvétele a modellbe a modellt lényegesen megváltoztathatja A változás amiatt történik, mert összefüggés van a magyarázó változók között Ha egy változó becsült együtthatója nem nagyon változik új változó felvételével, vagy régi elhagyásával azt mondjuk, hogy robosztus változó

Új változó felvétele

Új változó felvétele

Kategória változó felvétele a modellbe Kategória változókat ún. dummy változók segítségével lehet szerepeltetni a modellben A változó kategóriái közül kinevezünk 1-et kontrolcsoportnak, a többit hozzá viszonyítjuk Eggyel kevesebb dummy változót kell bevezetni, mint ahány kategóriája van a változónak.

Kategória változók szerepeltetése

Kategória változók szerepeltetése Kontrollcsoport: Budapest Kategória: dummy1 dummy2 Budapest 0 0 Megyei jogú város 1 0 Egyéb település 0 1

Kategória változók szerepeltetése