Többváltozós adatelemzés

Slides:



Advertisements
Hasonló előadás
Nevezetes eloszlások, normál eloszlás
Advertisements

Összetett kísérleti tervek és kiértékelésük:
Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.
Kvantitatív Módszerek
Kvantitatív módszerek
Informatikai Tudományok Doktori Iskola
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Matematikai Statisztika VIK Doktori Iskola
Földrajzi összefüggések elemzése
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VIII.. Dr. Szalka Éva, Ph.D.2 Többváltozós korreláció és regresszióanalízis.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
Az élővilág kutatásának matematikai, statisztikai eszköztára
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
SPSS többváltozós (lineáris) regresszió (4. fejezet)
SPSS többváltozós regresszió
Diszkriminancia analízis
Kovarianciaanalízis Tételezzük fel, hogy a kvalitatív tényező(k) hatásának azonosítása után megmaradó szóródás egy részének eredete ismert, és nem lehet,
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Készítette: Kosztyán Zsolt Tibor
Kvantitatív módszerek
Kvantitatív módszerek
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.

STATISZTIKA II. 7. Előadás
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Lineáris regresszió.
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
Petrovics Petra Doktorandusz
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Informatikai Tudományok Doktori Iskola
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Korreláció, regresszió
Lineáris regressziós modellek
Haladó Pénzügyek Vezetés szervezés MSC I. évfolyam I
Többváltozós lineáris regresszió
Gazdaságstatisztika Konzultáció a korreláció- és regressziószámítás, idősorok elemzése témakörökből.
III. előadás.
Dr. Varga Beatrix egyetemi docens
Trendelemzés előadó: Ketskeméty László
Haladó Pénzügyek Vezetés szervezés MSC I. évfolyam I
A leíró statisztikák alapelemei
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Többváltozós adatelemzés 7. előadás

Regressziós modell vizsgálata Megfigyelések hatása a becsült együtthatókra Eltérésváltozó viselkedése Magyarázó változók közötti összefüggés (multikollinearitás) Eredményváltozó szórásának változása (heteroszkedaszticitás)

Regressziós modell

Megfigyelések hatása a becsült együtthatókra b_kalap=(XTX)-1XTy y_kalap=X*b_kalap=X(XTX)-1XTy=H*y H mátrix angol neve: ‘hat matrix’ Ez teremt kapcsolatot a megfigyelt és becsült értékek között

Megfigyelések hatása a becsült együtthatókra A mátrix diagonális elemei egy adott megfigyelés hatását mutatják. A diagonális elemek összege p+1 (változók száma a konstanst is beleértve), tehát az átlagos érték (p+1)/n. Egy megfigyelést akkor tartunk jelentős befolyással bírónak, ha értéke nagyobb, mint az átlag kétszerese

Megfigyelések hatása a becsült együtthatókra Az SPSS programcsomag az ún. centralizált leverage értékeket közli, ami az eredeti értékekből levon 1/n –t A mi esetünkben (2p+1)/n=0,22

Regressziós modell

Regressziós modell outlierek nélkül

Megfigyelések hatása a becsült együtthatókra Mivel változott a hat mátrix, ezért változnak a leverage értékek is

Megfigyelések hatása a becsült együtthatókra Cook féle D statisztika Minden megfigyelésre számítható Azt vizsgálja, hogy ha az i-edik megfigyelést kihagyjuk a regressziós illesztésnél, mennyire változnak a becsült együtthatók Hüvelykujj szabály: a mutató 1-nél nagyobb értékeire kell odafigyelni

Megfigyelések hatása a becsült együtthatókra

Eltérésváltozó eloszlása

Studentizált reziduálisok A megfigyelések azonos szórása még akkor sem biztosított, ha az elméletileg megalapozott Ezért szokták a reziduálisokat studentizálni: ri=ei/[s*sqrt(1-hii)], ahol s az eltérésváltozó szórása külső/belső studentizálás (a szórás kiszámításánál figyelembe vesszük-e az i-edik eltérést)

Studentizált eltérések

Magyarázó változók egymásra hatása Multikollinearitás Ideális esetben a magyarázó változók korrelálatlanok Ha a magyarázó változók korrelálatlanok, akkor egy új változó bevonása nem változtatja meg a többi változó becsült együtthatóját Ha a magyarázó változók korrelálatlanok, nehéz szétválasztani a változók hatását

Kísérlet X1, X2 változók sztenderd normális eloszlásúak Y=20*X1-10*X2+zaj Három különböző eset X1, X2 független X1, X2 között közepes korreláció van X1, X2 között magas korreláció van

Korreláció hatása a becsült együtthatókra

Korreláció hatása a t értékekre

Honnan lehet észrevenni ‘furcsa’ végeredmény: pl. a becsült együttható a ellentétes előjelű Tolerancia, VIF Kondíciós index

Tolerancia, VIF Azt méri, hogy a magyarázó változók mennyire magyarázzák egymást. Regressziós modellt illesztünk, ahol az egyik magyarázó változót (mint eredményváltozót) magyarázzuk a többi magyarázó változó segítségével. Egy mínusz az illesztett regresszió R négyzete a tolerancia

Tolerancia, VIF

Tolerancia, VIF VIF = 1/ Tolerancia Pl.: 1,425= 1 / 0,702 Hüvelykujj szabály: ha a tolerancia kisebb 0,2-nél (VIF nagyobb 5-nél) multikollinearitásra utal

Kondíciós index Egzakt multikollinearitás esetén az (XT*X)-1 invertálása nem végezhető el. Ha az invertálás nem végezhető el, a (XT*X)-1 mátrix invertálása, akkor ez azt jelenti, hogy a sajátértékek között van 0. Amennyiben az invertálás elvégezhető, kérdés, hogy mennyire ‘stabil’ az inverz mátrix

Példa Egzakt multikollinearitás Nem egzakt multikollinearitás

Inverzmátrix Inverz mátrix Inverz mátrix

Kondíciós index Az (XT*X)-1 mátrix sajátértékeit vizsgáljuk. Ha az összes sajátérték 1, akkor a magyarázó változók korrelálatlanok Ha a sajátértékek között van 0-hoz közeli érték, akkor a magyarázó változók között erős összefüggés van Kondíciós index: sqrt(lambda_max / lambda_i) Ha a kondíciós index maximális értéke 15-nél nagyobb, akkor problémára utal, ha 30-nál nagyobb, komoly problémára utal

Kondíciós index

Multikollinearitás Mit lehet tenni? Nem sokat: a multikollinearitás adatprobléma és nem modellprobléma A legnagyobb probléma, hogy lényeges változókat kihagyunk a modellből. Ezért ha tudjuk növeljük az elemszámot. Változócsoportokat hozzunk létre Ha indokolható, hagyjunk el változókat. Ha előrejelzés a cél, nincs probléma

Heteroszkedaszticitás Az eredményváltozó szórása konstans (homoszkedaszticitás) Az eredményváltozó szórása (vagy a hibatagok) a magyarázó változók mentén konstans

Heteroszkedaszticitás

Heteroszkedaszticitás Mit lehet tenni? Változók transzformációja Pl. egy főre jutó jövedelem logaritmálás Másfajta becslési módszer (ökonometria)

Intervallumbecslés Ugyanolyan, a szerepe, mint a konfidencia intervallumnak paraméterbecslés esetén Minden megfigyelésre (sor) lehet az Y változó értékére intervallumbecslést adni Megkülönböztetjük hogy az Y változó átlagára adunk becslést, vagy pedig magára a változóra

Regressziós egyenes változékonysága

Predikciós intervallum Predikciós intervallum esetén az eredményváltozó átlagának ingadozásához hozzáadódik még az eredményváltozó ingadozása is

Predikciós intervallum