Lineáris regresszió
Gyakorlati probléma Műtrágyázási kísérletben vizsgáljuk a N adag és a termés közötti összefüggést Ha az eredményeket ANOVA-val szeretnénk kiértékelni: viszonylag kevés különböző N adagot tudunk összehasonlítani, mert minden adagból kellő számú ismétlés kell nem tudunk semmit mondani azokról a N adagokról, amelyek nem szerepelnek a kísérletben
Lineáris regresszió Model I. Model II a független változó (X) egy fix változó, amelynek értékét mi állítjuk be, vagy pontosan mérjük a függő változó (Y) random változó a regresszió nem jelent ok-okozati összefüggést Model II mindkét változó (Y1 és Y2) random változó ha az egyik változó értékét a másikénál nagyságrendekkel pontosabban tudjuk mérni, akkor azt ebben a kontextusban tekinthetjük fix változónak
Model I. Linearitás: a független változó és a függő változó várhatóértéke közötti összefüggés lineáris Additív hiba: a független változó alapján várt értékhez az egyéb hatások („hiba”) hozzáadódnak Normalitás: a hiba nulla várhatóértékű normális eloszlású valószínűségi változó Homoscedaszticitás: a hiba szórása konstans
Regresszió lépései becslés hipotézis vizsgálat az egyenlet a és b paraméterének becslése (a és b) hipotézis vizsgálat H0: b=0 H1: b0 model szelekció: a bonyolultabb model (lineáris összefüggés, 2 paraméter) jobb illeszkedést ad-e, mint az egyszerűbb (nincs összefüggés, az egyetlen paraméter a várhatóérték).
Becslés Maximum-likelihood becslés: ha a feltételek teljesülnek a legkisebb négyzetek módszere a becsült egyenestől a megfigyelt értékek mindkét irányba eltérnek, a pozitív és negatív eltérések kioltanák egymást az eltérések négyzeteit összegezzük azt az a és b értéket keressük, amelyre
Becslés 2 A függvény minimuma ott van, ahol a parciális deriváltak nullák
Hipotézis vizsgálat I. ha a feltételek teljesülnek b normális eloszláslású valószínűségi változó b varianciáját is becsülhetjük a mintából egymintás t-próbával tesztelhetjük a b=0 hipotézist
Hipotézis vizsgálat II. Y teljes varianciáját felbonthatjuk a regresszió által magyarázott és nem magyarázott részre ANOVA (lásd a Word file-ban)
Konfidencia intervallumok a regressziós koefficiensre (b) az Y becsült értékére
Regresszió feltételeinek ellenőrzése kiszámítjuk a reziduálisokat ellenőrizzük, hogy normális eloszlásúak-e a mérés sorrendjében ábrázolva megnézzük, hogy van-e trend hibák függetlensége X függvényében van-e trend hibák függetlensége + nem lineáris hatások
Torzító pontok olyan adatpont, aminek a kihagyása jelentősen megváltoztatja az eredményt a torzító pont általában messze van a független változó(k) átlagától nagy hatóerő (leverage) kiugró pont a függő változó értékében nagy reziduális standardizált reziduális: összehasonlíthatók a különböző adatsorok, megadható határérték studentizált reziduális: olyan standardizált reziduális, ahol a regresszióból a vizsgált pontot kihagytuk (ha nagy a hatóereje, maga felé húzza a regressziós egyenest, és így kicsi lesz a reziduális) Cook distance: a pontot tartalmazó és nem tartalmazó regresszió eredménye közötti különbség
Lineáris alakra hozható nem lineáris összefüggések
Exponenciális függvény Y’-re kell, hogy teljesüljenek a regresszió feltételei Y lognormális eloszlású és a hiba multiplikatív
Hatványfüggvény Y’-re kell, hogy teljesüljenek a regresszió feltételei Y lognormális eloszlású és a hiba multiplikatív b<0 lassulva csökkenő 0<b<1 lassulva növekvő b>1 gyorsulva növekvő
Hyperbolikus, logaritmikus stb. Általában X nem random változó, ezért szabadon transzformálható hyperbola logaritmikus
Korreláció
Kétváltozós normális eloszlás Y1 és Y2 valószínűségi változók kétváltozós normális eloszlásúak, ha Y1 rögzített értéke mellett Y2 normális eloszlású Y2 rögzített értéke mellett Y1 normális eloszlású a két változó független, vagy lineáris összefüggés van közöttük
Lineáris korreláció kétváltozós normális eloszlásnak 5 paramétere van 2 várhatóérték 2 szórás a két változó közötti összefüggést leíró r paraméter r<0 negatív korreláció r=0 a változók korrelálatlanok r>0 pozitív korreláció
Lineáris korreláció a lineáris korrelációs koefficiens (r) a r paraméter becslése a korrelációs koefficiens a kapcsolat irányát és erősségét méri model I regressziónál is kiszámítható a korrelációs koefficiens, de ott nem egy paraméter becslése, hanem az összefüggés szorosságát mérő deszkriptív statisztika
A lineáris korrelációs koefficiensre vonatkozó próbák Ha r=0, r normális eloszlású valószínűségi változó, amelynek szórása sr a H0: r=0 hipotézis tesztelésére egymintás t-próbát végezhetünk. Megjegyzés: ez számszerűleg ugyanazt az eredményt adja, mint a regresszió b paraméterére végzett hasonló próba
A lineáris korrelációs koefficiens transzformációja normális eloszlású változóvá Ha n>50 (25) Ha n>10
Rangkorreláció minden monoton összefüggésre érzékeny, nem csak a lineárisra lináris összefüggésnél kevésbé erős, mint a lineáris korrelációs koefficiens kilógó értékekre kevésbé érzékeny ordinális skálán is használható Spearman rangkorreláció: lineáris korreláció rangszámokra. Ha vannak egyezések korrigálni kell. Vannak más rangkorrelációs koefficiensek is.
Model II regresszió mind a két változó random változó nem csak „függőlegesen” lehet eltérés a regressziós egyenestől Major axis: ha heltételezzük, hogy a két változót egyforma pontosan mértük Standard major axis: ha feltételezhető, hogy a mérési hiba a változó szórásával arányos