Regresszióanalízis Lineáris regresszió REGRESSZIÓ.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Hipotézisvizsgálat az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi az adatok ismeretében megfogalmazódnak bizonyos hipotézisek erre.
I. előadás.
II. előadás.
Egy faktor szerinti ANOVA
Kvantitatív módszerek
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Statisztika feladatok Informatikai Tudományok Doktori Iskola.
Csoportosítás megadása: Δx – csoport szélesség
Lineáris és nemlineáris regressziók, logisztikus regresszió
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. IX.. Dr. Szalka Éva, Ph.D.2 Idősorok elemzése.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Statisztika II. II. Dr. Szalka Éva, Ph.D..
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
SPSS többváltozós (lineáris) regresszió (4. fejezet)
Nem-paraméteres eljárások, több csoport összehasonlítása
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Nemparaméteres próbák Statisztika II., 5. alkalom.

A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
STATISZTIKA II. 7. Előadás
Kvantitatív Módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
Gazdaságstatisztika 19. előadás Hipotézisvizsgálatok
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Következtető statisztika 9.
Hipotézis-ellenőrzés (Folytatás)
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Várhatóértékre vonatkozó próbák
Lineáris regresszió.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Hipotézisvizsgálat v az adatforrás működési “mechanizmusát” egy véletlen eloszlás jellemzi v az adatok ismeretében megfogalmazódnak bizonyos hipotézisek.
I. előadás.
Petrovics Petra Doktorandusz
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
Lineáris regressziós modellek
Kiváltott agyi jelek informatikai feldolgozása 2016
II. előadás.
I. Előadás bgk. uni-obuda
III. előadás.
Trendelemzés előadó: Ketskeméty László
5. Kalibráció, függvényillesztés
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Dr. Varga Beatrix egyetemi docens
1.3. Hipotézisvizsgálat, statisztikai próbák
3. Varianciaanalízis (ANOVA)
Előadás másolata:

Regresszióanalízis Lineáris regresszió REGRESSZIÓ

Modell: Valamely (pl. fizikai) törvényszerûség értelmében az x független változó bizonyos értékénél a függõ változó értéke Y = j (x). Y helyett y értéket mérünk, E(y½x) = Y, vagy és Amennyiben nincsen ismert és igazolt fizikai összefüggés, nem lehetünk elõre meggyõzõdve az illesztett függvény alkalmasságáról. REGRESSZIÓ

A regresszióanalízis során feltételezzük, hogy y az x minden értékénél normális eloszlású, vagyis az ei mérési hibák N(0,s2) normális eloszlásúak; Var(y) = konstans, illetve y-nak vagy x-nek ismert függvénye; a különbözõ i mérési pontokban elkövetett mérési hibák egymástól függetlenek; Y(x) = f(x, a,b,g, ...) az ismert vagy feltételezett függvénykapcsolat alakja, ahol a, b, g a függvény konstansai (paraméterei). REGRESSZIÓ

Egyváltozós lineáris regresszió ismétlés nélküli mérések esetén, konstans A becslési kritérium: REGRESSZIÓ

a b0 és b becslések egymástól nem függetlenek A normálegyenletek: Átrendezve: Ha a b0 és b becslések egymástól nem függetlenek REGRESSZIÓ

Az a és b becslések egymástól függetlenek, mert A normálegyenletek az modell illesztésekor Átrendezve: Az a és b becslések egymástól függetlenek, mert REGRESSZIÓ

és tehát az a és b becsült paraméterek egymástól függetlenül kaphatók meg a két normálegyenletbõl: ; REGRESSZIÓ

A becslések tulajdonságai: REGRESSZIÓ

REGRESSZIÓ

A konfidenciatartományok a t-eloszlás alapján számíthatók. REGRESSZIÓ

1. példa Kísérletileg vizsgálták az x független változó és az y függő változó közötti összefüggést. Az x független változó értéke pontosan beállítható, az y függő változó értéke azonban a Y valódi érték körül ingadozik. A mérési adatok a következő táblázatban láthatók, az y értéke szerint növekvő sorrendbe rendezve. A tényleges mérési sorrendet a táblázat második oszlopa tartalmazza. Feltételezve, hogy y normális eloszlású, valamint azt hogy az y és x közötti függvénykapcsolat lineáris, adjunk becslést az egyenes paramétereire! REGRESSZIÓ

REGRESSZIÓ

Excel eredmények R2 sr reziduális szórás b0 b REGRESSZIÓ

Determinációs együttható: “Residual” “Regression” “Total” REGRESSZIÓ

R2 = SSR/SST REGRESSZIÓ

REGRESSZIÓ

SSR SSE SST n - 2 REGRESSZIÓ

REGRESSZIÓ

A konfidenciatartományok a t-eloszlás alapján számíthatók. REGRESSZIÓ

intervallum a paraméterekre 95%-os konfidencia intervallum a paraméterekre REGRESSZIÓ

Konfidencia sáv az Y(x) valódi értékre REGRESSZIÓ

Jóslási intervallum intervallum: (1- a) a valószínűsége annak, hogy x adott értékénél egy későbbi mérés eredménye a számított intervallumba esik. REGRESSZIÓ

REGRESSZIÓ

A mérések sorrendje REGRESSZIÓ

Egyváltozós lineáris regresszió ismételt mérések esetén, konstans

SST = SSrepl + SSres + SSR SST = SSE + SSR SST = SSrepl + SSres + SSR Reziduális négyzetösszeg Ismétlésekbõl számított négyzetösszeg A szabadsági fokok száma: REGRESSZIÓ

Az csoportokon belüli error szórásnégyzet a variancia torzítatlan becslése, függetlenül az Y függvény alakjától. Az reziduális szórásnégyzet csak akkor becslése -nak, ha a tapasztalati regressziós függvény "megfelelõ alakú", vagyis az elméleti regressziós függvény lineáris. Esetünkben tehát akkor, ha . REGRESSZIÓ

A hipotézis vizsgálatára az F-próbát használjuk: Ha az arány (feltéve, hogy ) nem halad meg egy Fa kritikus értéket, mondhatjuk, hogy a mérési adatok nem mondanak ellent annak a nullhipotézisnek, amely szerint az elméleti és tapasztalati regressziós görbe matematikailag azonos alakú. REGRESSZIÓ

Célszerû tehát a két becslést egyesíteni. Ha elfogadjuk a nullhipotézist, egyben azt állítjuk, hogy és egyaránt torzítatlan becslései. A kettõ együtt több információt nyújt, mint bármelyik külön-külön, mivel az így egyesített szórásnégyzet nagyobb szabadsági fokú (tehát kisebb varianciájú) becslése -nak, mint akár , akár . Célszerû tehát a két becslést egyesíteni. REGRESSZIÓ

2. példa Kalibrációs eljárás során a táblázatban közölt adatokat mérték, x a koncentráció, y a mért jel. Illesszünk egyenest a mérési adatokra. REGRESSZIÓ

Az adatok a mérési sorrendjében kerülnek be az input file-ba, tehát a programok számára általában ugyanaz az x - y adatok szerkezete, mint ismétlés nélküli mérések esetén. REGRESSZIÓ

REGRESSZIÓ

REGRESSZIÓ

Annak ellenõrzésére, hogy az alkalmazott lineáris modell megfelelõ-e, F-próbát végzünk. Az Excel táblázat segítségével számítsuk ki a reziduális szórásnégyzetet, majd végezzük el a próbát! REGRESSZIÓ

Az F-eloszlás kritikus értéke 95 % -os egyoldali szinten ( a = 0 Az F-eloszlás kritikus értéke 95 % -os egyoldali szinten ( a = 0.05), ha a számláló szabadsági foka 3, a nevezõé 18: F0.05(3, 18) = 3.16. Azt mondhatjuk, hogy a számított egyenes (a tapasztalati regressziós görbe) a mérési pontokat megfelelõen leírja. REGRESSZIÓ

REGRESSZIÓ

REGRESSZIÓ

Egyváltozós lineáris regresszió ismételt mérések esetén, nem konstans A becslési kritérium: A négyzetösszeg felbontható: REGRESSZIÓ

A variancia nem konstans, hanem x-nek ismert függvénye: ahol x -tõl független konstans. A minimalizálandó függvény: ahol wi az ún. súly: REGRESSZIÓ

Ha az a és b becsült paraméterek egymástól függetlenül kaphatók meg a két normálegyenletbõl: REGRESSZIÓ

Kalibrációs egyenes: a regressziós egyenlet megoldása a független változóra Az egyenes egyenlete: Most y a független, de sztochasztikus változó (ötször mérve 5 különbözõ abszorbanciát kapunk), x a függõ változó, amelynek becslése várható értéke (és valódi értéke) X. (Az becslés valószínûségi változó, mivel y, a és b valószínûségi változók.) REGRESSZIÓ

konfidencia-intervalluma: segédváltozó Ha y n mérés átlagértéke, értelemszerûen írandó y helyébe, és REGRESSZIÓ

Az becslést úgy kapjuk, hogy Var(z) elõbbi kifejezésében a w súlyok helyett beírjuk a h2(x) függvény reciprokának becslését, becsléséül pedig az s2-statisztikát használhatjuk. ; REGRESSZIÓ

Az X-re másodfokú kifejezés átrendezése után a konfidenciaintervallum ahol REGRESSZIÓ

Az X-re másodfokú kifejezés átrendezése után a konfidenciaintervallum ahol és REGRESSZIÓ

, így az elõzõ kifejezés egyszerûsödik -val és -vel kifejezve Ha , , így az elõzõ kifejezés egyszerûsödik ahol REGRESSZIÓ

Az összefüggések felhasználásával, ha : ahol REGRESSZIÓ

3. példa A 2. példában kapott regressziós egyenest kalibrációs összefüggésként használjuk. Az ismeretlen koncentrációjú oldattal végzett 5 mérés átlagértéke 1.25. Adjunk becslést és 95 %-os konfidencia-intervallumot az oldat koncentrációjára (X-re ). ; ; REGRESSZIÓ

A konfidencia-intervallum: felhasználásával: A konfidencia-intervallum: REGRESSZIÓ

A regresszió feltételeinek ellenõrzése; a reziduumok vizsgálata A regresszióanalízis során feltételeztük, hogy y az x minden értékénél normális eloszlású, vagyis az e mérési hibák N(0,s2) normális eloszlásúak; Var(y) = Var(y½x) = konstans, illetve y-nak vagy x-nek ismert függvénye; a különbözõ i mérési pontokban elkövetett mérési hibák egymástól függetlenek; E(y½x) = Y(x) = f(x, a,b,g, ...) az ismert vagy feltételezett függvénykapcsolat alakja, ahol a, b, g a függvény konstansai (paraméterei). REGRESSZIÓ

Reziduumok a mérések sorszámának függvényében: extrém értékek 1. Reziduumok a mérések sorszámának függvényében: extrém értékek REGRESSZIÓ

Reziduumok a mérések sorszámának függvényében: trend 2. REGRESSZIÓ

3. Ugrás (Szintváltozás a reziduumok vizsgálatánál) REGRESSZIÓ

4. A szórás (variancia, mérési pontosság) változása REGRESSZIÓ

A függvény megfelelõen írja le változását: REGRESSZIÓ

5. Normalitás Az közelítõleg zérus várható értékû normális eloszlású kell legyen az 1¼4. feltételezések szerint. A normalitást statisztikai próbával vizsgálhatjuk (c2 -próba, Kolmogorov – Szmirnov próba). A normalitást úgy is vizsgálhatjuk, hogy ún. valószínû-ségi papíron (Gauss hálón) ábrázoljuk értékét REGRESSZIÓ

A reziduumok eloszlása nem normális, az illesztett modell nem megfelelõ: REGRESSZIÓ

A reziduum értékek ábrázolása Gauss-hálón. a reziduumok nem normális eloszlásúak A reziduum értékek ábrázolása Gauss-hálón. elméleti eloszlás REGRESSZIÓ

A reziduum értékek ábrázolása Gauss-hálón. a reziduumok normális eloszlásúak A reziduum értékek ábrázolása Gauss-hálón. REGRESSZIÓ

Kétváltozós lineáris regresszió Az elméleti regressziós függvény: A becslési kritérium: A becsülendõ paraméterek szerint deriválva, és a deriváltakat nullával egyenlõvé téve kapjuk a normálegyenleteket: REGRESSZIÓ

ortogonális kísérleti terv A becsült paraméterek akkor függetlenek egymástól, ha ; ; és ortogonális kísérleti terv REGRESSZIÓ

Szempontok a független változók értékeinek megválasztásához Egymástól független becsült paraméterek (ortogonalitás) x2 1 -1 x1 -1 1 REGRESSZIÓ

A paraméter minél pontosabb becslése REGRESSZIÓ

Többváltozós lineáris regresszió Legyen r a független változók száma. A kísérletsorozat eredményeit a következő táblázatos formában szokásos írni: REGRESSZIÓ

ahol x0i az általános írásmód érdekében bevezetett fiktív változó. A modell ahol x0i az általános írásmód érdekében bevezetett fiktív változó. Az x0i elemek értéke 1. A tapasztalati regressziós egyenes A kétváltozós regressziónál mondottakhoz hasonlóan a bj becslések egymástól nem függetlenek. REGRESSZIÓ

Az egyes változók szignifikanciájának vizsgálata Eldöntendõ, hogy q < r változó figyelembevétele r változóhoz képest nem rontja-e a közelítést. A q ill. r számú változóra a mért pontok és a becsült sík közötti eltérések négyzetösszege, ha minden i pontban csak egy y mérés van: REGRESSZIÓ

Ha q változó is elég (H0 nullhipotézis), az Tegyük fel, hogy r változó biztosan elég (hibátlan a regressziós egyenlet alakja), ekkor az eltérések normális eloszlásúak, (konstansnak feltételezett) varianciával; az eltérések Sr négyzetösszegének szabadsági foka n-(r+1) Ha q változó is elég (H0 nullhipotézis), az eltérések is normális eloszlásúak, varianciával; az eltérések Sq négyzetösszegének szabadsági foka n-(q+1) REGRESSZIÓ

F-próba Ha a nullhipotézis igaz, az hányados F-eloszlású n – q – 1 és n – r – 1 szabadsági fokkal. F-próba REGRESSZIÓ

Sq és Sr különbsége szintén normális eloszlású eltérések négyzetösszege, szabadsági foka r – q: F-próba Bármelyik módszerrel elvégezhetõ az F-próba, a második érzékenyebb (általános regressziós próba). REGRESSZIÓ

Ha az arány a kritikus F értéket meghaladja, el kell vetnünk a nullhipotézist, amely szerint r – q változó hatása nem szignifikáns. Természetesen r – q = 1 is lehet, ekkor azt vizsgáljuk, hogy adott egyetlen változó hatásának (lineáris) figyelembevétele javítja-e a közelítést. Minthogy a becslések egymástól nem függetlenek, az elõbbi vizsgálat t-próbával nem végezhetõ el. Ha a normális eloszlás feltételezése nem jogos, az itt leírt vizsgálati módszer hamis eredményeket ad! REGRESSZIÓ

Vezessük be a következõ jelöléseket: Regresszió más, a független változóban nemlineáris, de a paraméterekben lineáris függvényekkel Vezessük be a következõ jelöléseket: Ezekkel A becslési probléma és az eredmények statisztikai elemzése teljesen azonos a többváltozós lineáris regressziónál leírtakkal. REGRESSZIÓ

Polinom illesztése Legyenek olyan mérési adataink, amelyeknél az y függõ változó nem lineáris, hanem polinommal leírható függvénye a z független változónak. Mivel a z független változó értéke pontosan beállítható és nem terheli mérési hiba, tetszõleges hatványa is pontosan ismert, tehát determinisztikus független változóként kezelhetõ. Bevezetve az x1 = z, x2 = z2 , ..., xk = zk jelöléseket, a feladat a többváltozós lineáris regresszióra vezethetõ vissza. Mivel xj értékek nem függetlenek egymástól, a becsült bj együtthatók erõsen korreláltak lesznek. REGRESSZIÓ