Többváltozós adatelemzés 8. előadás
Modellezés Nemlineáris hatások modellezése Négyzetes tagok szerepeltetése a regresszióban Keresztszorzat (interakció szerepeltetése a modellben)
Négyzetes tagok Négyzetes tagok szerepeltetése a modellben Arra akarunk választ kapni, hogy a magyarázó változó és az eredményváltozó között konvex, vagy konkáv (vagy lineáris) az összefüggés
Négyzetes tagok Az eredményváltozó és a magyarázó változó közötti kapcsolatot konkavitását úgy vizsgáljuk, hogy szerepeltetjük a regresszióban a változó négyzetét is a magyarázó változók között A gyakorlatban annyit jelent, hogy az adatokra parabolát illesztünk
Négyzetes tagok Konvex jellegű kapcsolat (felfelé nyíló parabola) Lassuló ütemű csökkenés Gyorsuló ütemű növekedés Trendfordulás: a csökkenés növekedésbe megy át
Négyzetes tagok Konkáv jellegű kapcsolat (lefelé nyíló parabola) Gyorsuló ütemű csökkenés Lassuló ütemű növekedés Trendfordulás: a növekedés csökkenésbe megy át
Négyzetes tagok
Négyzetes tagok
Négyzetes tagok Y=-1090+2686*tancsop_szum+ -15*tancsop_szum^2+…. A négyzetes tag előjeléből lehet eldönteni, hogy konvex, vagy konkáv a kapcsolat, jelen esetben konkáv Az, hogy a konkáv esetek közül melyik eset áll fenn, a szélsőérték megkeresésével dönthetjük el
Négyzetes tagok a*x^2+b*x+c alakú függvény szélsőértékhelye A kifejezés deriváltja: 2*a*x+b=0, amiből: x=(-b) / (2*a) Ha az szélsőérték az előforduló értékektől balra esik (kisebb), akkor gyorsuló ütemű csökkenésről beszélhetünk (konkáv kapcsolat esetén), ha jobbra (nagyobb), akkor lassuló ütemű emelkedés, ha az előforduló értékek ‘közepébe’ esik, akkor valódi trendfordulásról beszélünk
Négyzetes tagok Mi esetünkben a szélsőérté a tancsop_szum változó (2886,91) / (2*15,38) ) = 93,8 értékénél van
Négyzetes tagok
Négyzetes tagok Mivel a szélsőérték (ami maximum, hiszen konkáv paraboláról van szó) az előforduló értékektől jobbra esik, ezért csökkenő mértékű emelkedésről van szó
Négyzetes tagok Az összehasonlítás abból a szempontból problematikus, hogy a többi változó becsült együtthatója is változik, amit nem veszünk figyelembe az ábrázolásnál
Négyzetes tagok
Négyzetes tagok
Négyzetes tagok
Négyzetes tagok Y=-1090+1789*szamtech+ +3259*szamtech^2+…. Konvex kapcsolat Szélsőérték helye: -[ 1789 / (2*3259) ] = -0,27 A szélsőérték az adatoktól balra helyezkedik el, tehát gyorsuló ütemű növekedésről van szó
Négyzetes tagok
Kereszszorzat 3 típusú keresztszorzatot érdemes megkülönböztetni: Két dummy változó szorzata Egy folytonos és egy dummy változó szorzata Két folytonos változó szorzata
Keresztszorzat Két dummy változó szorzata: Azt vizsgáljuk, hogy szétválasztható-e a két változó hatása, vagy sem Pl. nők fizetése kisebb a férfiakénál, a kisebbséghez tartozók fizetése kisebb a nem kisebbséghez tartozókénál. Ha valaki nő és kisebbséghez tartozik, akkor a fizetése annyival kisebb, mint a két változó indokolná, vagy ‘halmozódás’ fizethető meg (vagy esetleg pont fordítva)
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat Egy dummy változó és egy folytonos változó szorzata Azt vizsgáljuk, hogy a két csoport közötti különbség a folytonos változó mentén konstans vagy sem: a két csoportra különböző a meredekség
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat Két folytonos változó szorzata Megint csak azt vizsgáljuk, hogy a két változó hatása szétbontható-e vagy sem. Amennyiben nem, akkor az egyik változó meredeksége függ a másik változó konkrét értékétől.
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Keresztszorzat
Összesítés
Összesítés
Összesítés
Parciális korreláció X és Y változó közötti összefüggés megtisztítva Z1, Z2, … Zn változók hatásától Regressziós modellt illesztünk X és Y változóra Z1, Z2, … Zn magyarázóváltozók segítségével A két regressziós modellben kapott eltérésváltozó realizációi közötti korrelációs együttható
Parciális korreláció A pedagógusokra és nem pedagógusokra jutó személyi kiadás között erős korreláció mutatkozik. Ugyanakkor jó lenne az intézmény nagyságát kiszűrni, mert nyilvánvalóan nagy intézményekben mindkét változó nagy
Parciális korreláció
Parciális korreláció
Parciális korreláció Numerikusan nem az előbb felvázolt módon érdemes számolni: rXY.Z=[rXY-rXZ*rYZ] / [sqrt[(1-r2XZ)*(1-r2YZ)] ] Több változó hatásának kiszűrése esetén rekurzív összefüggés Korrelációs mátrix inverzéből is lehet számítani
Parciális korreláció Regresszió esetén kíváncsiak vagyunk valamelyik magyarázó változó és az eredményváltozó közötti kapcsolat szorosságára kiszűrve a többi magyarázó változó hatását
Parciális korreláció