Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

A bizonytalanság és a kockázat
Hipotézis-ellenőrzés (Statisztikai próbák)
4. Két összetartozó minta összehasonlítása
Kvantitatív Módszerek
5. Változók kapcsolatának vizsgálata
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Kvantitatív módszerek
3. Két független minta összehasonlítása
A tételek eljuttatása az iskolákba
Két változó közötti összefüggés
Főkomponensanalízis Többváltozós elemzések esetében gyakran jelent problémát a vizsgált változók korreláltsága. A főkomponenselemzés segítségével a változók.
Összefüggés vizsgálatok
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
Gazdaságelemzési és Statisztikai Tanszék
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Statisztika II. IX. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Regresszió és korreláció
Statisztika II. IV. Dr. Szalka Éva, Ph.D..
III. előadás.
Regresszióanalízis 10. gyakorlat.
Kvantitatív módszerek
Kvantitatív módszerek 7. Becslés Dr. Kövesi János.
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Statisztika II. VIII. Dr. Szalka Éva, Ph.D..
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
Matematikai alapok és valószínűségszámítás
Nemparaméteres próbák Statisztika II., 5. alkalom.
szakmérnök hallgatók számára
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Egytényezős variancia-analízis
3. előadás Heterogén sokaságok Szórásnégyzet-felbontás
Logikai szita Izsó Tímea 9.B.
Kvantitatív Módszerek
Kvantitatív módszerek
Kvantitatív módszerek
Idősor elemzés Idősor : időben ekvidisztáns elemekből álló sorozat
6. Változók és csoportok összehasonlítása varianciaanalízissel
7. Csoportok és változók sztochasztikus összehasonlítása (összehasonlítások ordinális függő változók esetén)
Tartalom Arányokra vonatkozó hipotézisek vizsgálata (eloszlásvizsgálat 2-próbával) Arányok összehasonlítása összetartozó és független minták segítségével.
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Következtető statisztika 9.
Hipotézis-ellenőrzés (Folytatás)
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Hipotézis vizsgálat.
t A kétoldalú statisztikai próba alapfogalmai

Diszkrét változók vizsgálata
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 4. hét
TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Valószínűségszámítás - Statisztika. P Két kockával dobunk, összeadjuk az értékeket Mindegyik.
Vargha András KRE és ELTE, Pszichológiai Intézet
Valószínűségszámítás II.
Korreláció-számítás.
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
II. előadás.
Sztochasztikus kapcsolatok I. Asszociáció
Dr. Varga Beatrix egyetemi docens
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
1.3. Hipotézisvizsgálat, statisztikai próbák
Előadás másolata:

Igen-nem segítségével megválaszolható kérdések 1. Egyetemi hallgatók IQ-ja nagyobb-e az átlagosnál? 2. Van-e különbség a férfiak és a nők verbális intelligenciaszintje között? 3. Teljes csöndben jobban lehet-e tanulni, mint halk zene mellett? 4. Összefügg-e a nyugalmi vérnyomásszint és a CPI teszt Tolerancia skálájának értéke?

X=MAWI-IQ, populáció = egyetemi hallgatók H0: E(X) = 100 H1: E(X) < 100 H2: E(X) > 100 H0: Med(X) = 100 H1: Med(X) < 100 H2: Med(X) > 100 H0: E(X) = 100 HA: E(X)  100 H0: Med(X) = 100 HA: Med(X)  100

Verbális intelligencia: MAWI/VIQ, E(VIQ/férfi) = f, E(VIQ/nő) = n H0: f = n H1: f < n H2: f > n H0: f = n HA: f  n

A fenti hipotézisek a vizsgált változók valamilyen populációbeli jellemzőjére (várható érték, medián stb.) vonatkoznak. Közülük egyszerre mindig csak egy lehet igaz (egymást kizáró alternatívák). H0, a nullhipotézis mindig csak egyféleképpen valósulhat meg. Az ellenhipotézisek (alternatív hipotézisek) végtelen sokféleképpen.

A statisztikai hipotézisvizsgálat Lényege: A véletlen mintából valamilyen statisztikai eljárással javaslatot kell tenni arra, hogy a nullhipotézis az igaz, vagy pedig az (egyik) ellenhipotézis. A statisztikai hipotézisvizsgáló eljárásokat statisztikai próbáknak nevezzük. Statisztikai próba = döntési szabály

X-minta Statisztikai próba H0 H1 H2 Melyik az igaz?

Egy példa: melyik hipotézis az igaz? H0: E(X) = 100 H1: E(X) < 100 H2: E(X) > 100 Lehetséges minták X = (108, 99, 105, 135, 124) X = (65, 91, 58, 73, 69) X = (97, 107, 93, 104, 101)

Néhány példa intervallumbecslésre ( nem ismert,  = 0,95) Változó n átlag szórás s  n c1 c2 Pulzus 116 91,4 22,43 2,08 87,27 95,52 SZISZ 117 134,37 12,85 1,19 132,01 136,72 DIASZ 117 78,18 10,83 1,00 76,20 80,16 C0,95 = x ± ts t  1,98

Egy eljárás a H0: E(X)=100 hipotézis vizsgálatára 1. Intervallumbecslés E(X)-re: C0,95 = (c1; c2) X 100? c1 100? c2 100? 2. E(X) valószínűleg c1 és c2 között van. 3. Ha a 100 is c1 és c2 között van, tartsuk meg H0-t! 4. Ha c2 < 100, fogadjuk el a H1: E(X) < 100 hipotézist! 5. Ha c1 > 100, fogadjuk el a H2: E(X) > 100 hipotézist!

Egy másik eljárás a H0: E(X) = A alakú hipotézisek vizsgálatára ( ismert) Ha H0: E(X) = A igaz, akkor az  u =  mennyiség standardizáltja, ami X normalitása, illetve nagy n-ek esetén N(0,1) eloszlású. Mivel |u| < 1,96 95%-os valószínűséggel teljesül, nem számítunk arra, hogy u  -1,96 vagy u  1,96 következik be. Ha mégis ezek lépnek fel, arra gondolunk, hogy H0 nem igaz.

Példák Fej vagy írást játszunk és partnerünk 10-szer egymás után nyer a saját érméjével. Mire következtetünk ebből? 21-ezünk és partnerünk 3-szor egymás után 2 ászt oszt magának. Mire gondolunk? 8 fős csoport egymás után két nyelvi tesztet tölt ki. 8 személy közül 7-nél az első teszt-eredmény a jobb. Hogyan értelmezzük ezt?

u-próba u =  ismert 0  Feltételek: X normális eloszlású, H0: E(X) = 0 X-minta N(0,1) 0 u = 0,95  0,025 0,025 -1.96  1.96 u  -1,96 |u| < 1,96 u  1,96 H1: E(X) < 0 H0 H2: E(X) > 0

Mi lehet az igazság? u = u u u H1 H0 H2 100 s =15, n = 25     u u u H1 H0 H2      H0:  =100 100 u = s =15, n = 25 

A H0: E(X) = A hipotézis vizsgálata, ha -t nem ismerjük Ha H0: E(X) = A igaz, akkor a  t = s/ mennyiség X normalitása (illetve nagy n) esetén t-eloszlású, f = n -1 szabadságfokkal. Mivel |t| < t0,05 95%-os valószínűséggel teljesül, nem számítunk arra, hogy t  -t0,05 vagy t  t0,05 következik be. Ha mégis ezek lépnek fel, arra gondolunk, hogy H0 nem igaz.

Egymintás t-próba t t = Feltétel: X normális eloszlású s  X-minta H0: E(X) = A t  t = s    -t0,05  t0,05 t  -t0,05 |t| < t0,05 t  t0,05 H1: E(X) < A H0 H2: E(X) > A

A H0: E(X) = A hipotézis vizsgálata az egymintás t-próbával Változó átlag A t f = n-1 t0,10 t0,05 t0,01 Pulzus 91,4 80 5,473 115 1,66 1,98 2,62 SZISZ 134,4 130 3,677 116 1,66 1,98 2,62 DIASZ 78,2 90 -11,803 116 1,66 1,98 2,62 P/K-E 6,2 3,987 114 1,66 1,98 2,62 SZ/K-E 0,65 0,477 115 1,66 1,98 2,62 D/K-E -1,1 -0,806 115 1,66 1,98 2,62 Hogyan döntsünk az egyes esetekben?

t A kétoldalú statisztikai próba alapfogalmai a t-próbán bemutatva (szignifikanciaszint = ) t    Elfogadási tartomány -t0,05 t0,05 Kritikus tartomány Kritikus tartomány Kritikus értékek

t A felső egyoldalú statisztikai próba alapfogalmai a t-próbán bemutatva (szignifikanciaszint = ) t Feltétel: H1: E(X) < A érdektelen H0: E(X) = A H2: E(X) > A   Elfogadási tartomány t0,10 Kritikus tartomány Kritikus érték

t Az alsó egyoldalú statisztikai próba alapfogalmai a t-próbán bemutatva (szignifikanciaszint = ) t Feltétel: H2: E(X) > A érdektelen H0: E(X) = A H1: E(X) < A   Elfogadási tartomány t0,10 Kritikus tartomány Kritikus érték

A statisztikai próba hibái H0 elutasítása esetén: Hiba: jogtalan elutasítás Hiba neve: I. fajta hiba vagy elsőfajú hiba Hiba valószínűsége  szignifikanciaszint Mi függ tőle: a próba érvényessége H0 megtartása esetén: Hiba: jogtalan elfogadás Hiba neve: II. fajta hiba vagy másodfajú hiba Hiba valószínűsége: általában ismeretlen Mi függ tőle: a próba érzékenysége

Szokásos statisztikai szóhasználat Ha a statisztikai próbában 0,95 megbízhatósággal (azaz  = 0,05 elsőfajú hibaszintet választva) elutasíthatjuk a H0 nullhipotézist, akkor ezt mondjuk: a próba szignifikáns (5%-os szinten). Speciálisan a H0: E(X) = A hipotézis elutasítása esetén ezt mondjuk: szignifikánsan különbözik az A hipotetikus értéktől, éspedig t < -t0,05 esetén szignifikánsan kisebb, t > t0,05 esetén pedig szignifikánsan nagyobb, mint A.

Szokásos statisztikai szóhasználat Ha a statisztikai próbában a H0 nullhipotézist  = 0,05 szignifikanciaszinten megtartjuk, akkor ezt mondjuk: a próba 5%-os szinten nem szignifikáns. Speciálisan a H0: E(X) = A hipotézis megtartása esetén ezt mondjuk: az átlag nem különbözik szignifikánsan az A hipotetikus értéktől. FONTOS: a H0 nullhipotézis megtartása nem jelenti azt, hogy a H0 nullhipotézis igaz. Csupán nincs elég indokunk arra, hogy elutasítsuk. (Ártatlanság vélelme.)

Milyen szignifikanciaszinten döntsünk? Ha 10%-os szintet használunk, akkor a H0 nullhipotézis elutasítása esetén 90% az esélye annak, hogy helyesen döntünk. A 10%-os hibalehetőség túl nagy, ezért ezt az eredményt csak tendenciaszerű jelzésként értelmezzük. 1%-os szinten a 99%-os megbízhatóság kiváló. Ekkor azonban ritkábban utasítjuk el H0-t, mint kellene, ami csökkenti a próba érzékenységét. Tapasztalat: az 5%-os szint használata az ajánlott.

Két változó vagy populáció összehasonlítása 1. Szkizofréneknél különbözik-e egymástól a verbális és a performációs IQ szintje? 2. Teljes csöndben jobban lehet-e tanulni, mint halk zene mellett? 3. A neurotikusok toleranciája kisebb-e, mint a pszichopatáké? 4. Jobbak-e azok a házasságok, amelyekben a férj és a feleség iskolai végzettsége megegyezik, mint amelyekben különbözik?

Két középérték összehasonlítása Példák: H0: E(VIQ/Sch) = E(PIQ/Sch) H0: E(Telj/csönd) = E(Telj/halk zene) H0: E(CPI-Tol/Neurot) = E(CPI-Tol/Ppata) H0: E(Ház.jó/azon.isk) = E(Ház.jó/kül.isk) Általában (ha X és Y kvantitatív): H0: 1 = 2

Egy populáció, két változó esete Példa: Szkizofréneknél VIQ és PIQ összevetése. Megoldás: Z = VIQ-PIQ, vagy esetleg (kizárólag arányskálájú változóknál) Z = Y/X. Az új nullhipotézis: H0: E(Z) = 0 vagy H0: E(Z) = 1. Statisztikai próba: egymintás t-próba. Végrehajtás: véletlen mintavétel, z-adatok kiszámítása, végül a Z-mintán egymintás t-próba.

Két populáció, egy változó esete Példa: Férfiak és nők verbális IQ-jának összevetése. Nullhipotézis: H0: 1 = 2 Mintavétel: A két populációból egymástól függetlenül kiválasztunk egy-egy véletlen mintát. Számítás: A két mintában kiszámítjuk az átlagot és a varianciát: Elemszám Átlag Variancia 1. Minta: n1 x1 var1= (s1)2 2. Minta: n2 x2 var2= (s2)2

A kétmintás t-próba Ha igaz a H0: 1 = 2 nullhipotézis és X normális eloszlású, akkor 1 = 2 teljesülése esetén a statisztikai mennyiség f = f1 + f2 szabadságfokú t-eloszlást követ, ahol f1= n1-1, f2= n2-1 és

Kétmintás t-próba t Feltételek: független minták, normális eloszlás, 1 = 2 X-minta H0: 1 = 2 t    -t0,05  t0,05 t  -t0,05 |t| < t0,05 t  t0,05 H1: 1 < 2 H2: 1 > 2 H0

A Welch-féle d-próba Ha igaz a H0: 1 = 2 nullhipotézis és X normális eloszlású, akkor a statisztikai mennyiség közelítőleg f szabadságfokú t- eloszlást követ, ahol a=Var1/n1, b=Var2/n2 jelöléssel

Welch-féle d-próba t Feltételek: független minták, normális eloszlás X-minta H0: 1 = 2 t    -t0,05  t0,05 d  -t0,05 |d| < t0,05 d  t0,05 H1: 1 < 2 H0 H2: 1 > 2

A Fisher-féle F-próba Kérdés: Két populáció szórása megegyezik-e? Ez fontos a kétmintás t-próba végrehajthatósága szem- pontjából, de önmagában is izgalmas probléma. F-próba: Ha igaz a H0: 1 = 2 nullhipotézis és X normális eloszlású, akkor az statisztikai mennyiség (f1, f2) szabadságfokú F-eloszlást követ, ahol f1 a nagyobbik, f2 pedig a kisebbik mintavariancia szabadságfoka.

Fisher-féle F-próba Feltételek: független minták, normális eloszlás X-minta H0: 1 = 2 F     F0,025 F < F0,025 F  F0,025 H0: 1 = 2 HA: 1  2

Robusztus statisztikai próbák A Welch-féle d-próba a kétmintás t-próba robusztus (a feltételekre kevésbé érzékeny) változatának tekinthető, mert ugyanazon a nullhipotézis vizsgálatára alkalmas, csak enyhébb feltételek mellett. Az F-próba robusztus változatai a szóráshomogenitás ellenőrzésére, amelyek a normalitás megsértésére kevésbé érzékenyek: Levene-próba O’Brien-próba

Két kvantitatív változó kapcsolata

“Úgy táncolsz, ahogy én fütyülök” Mi az, hogy kapcsolat? Együttjárás, együttmozgás, együttváltozás Hatás, függés: “Úgy táncolsz, ahogy én fütyülök” Függetlenség: “Járja a maga útját”

Determinisztikus függvénykapcsolat Ha egy autó 80 km/óra sebességgel halad az autó-pályán, akkor t óra alatt hány km-t tesz meg? Válasz: s = 80t 400 320 240 S = Megtett út (km) 160 80 1 2 3 4 5 t = Eltelt idő (óra)

Nem determinisztikus összefüggések Tanulj fiam, hogy szép legyen a bizonyítványod, hogy meg ne bukj matekból, hogy felvegyenek az egyetemre, hogy vidd valamire az életben.

A kétváltozós pontdiagram 5 4 Tanulmányi átlag 3 2 1 2 3 4 5 Hány órát tanul naponta

Egy KSH-vizsgálat adatai (I) 55 50 45 Születési testhossz (cm) 40 35 1 2 3 4 5 Születési súly (kg)

Egy KSH-vizsgálat adatai (II) 145 140 135 Testmag. 10 évesen (cm) 130 125 120 115 20 25 30 35 40 45 Testsúly 10 éves korban (kg)

Egy KSH-vizsgálat adatai (III) 145 140 135 Gyerek testmag. 10 év (cm) 130 125 120 155 160 165 170 175 180 185 190 Apa testmagassága (cm)

Egy KSH-vizsgálat adatai (IV) 45 40 35 Gyerek tests. 10 év (kg) 30 25 20 40 50 60 70 80 Anya testsúlya (kg)

Az előrejelzés problémája Ha az anya 50 kg súlyú, hány kiló lehet 10 éves gyermeke?

Előrejelzés egy egyenes segítségével 45 40 35 Gyerek tests. 10 év (kg) 30 25 20 40 50 60 70 80 Anya testsúlya (kg)

Melyik a legjobb előrejelző egyenes? 45 40 35 Gyerek tests. 10 év (kg) 30 25 20 40 50 60 70 80 Anya testsúlya (kg)

Az az egyenes a legjobb, amelyik a legközelebb fekszik a pontdiagram pontjaihoz Az egyenesek az X változó különféle lineáris függvényeinek grafikonjai. Közös képletük: f(x) = a + bx Pl. f(x) = 20 + 3x f(x) = 31 - 7x f(1) = 20 + 3·1 = 23 f(1) = 31 - 7·1 = 24 f(2) = 20 + 3·2 = 26 f(2) = 31 - 7·2 = 17 f(3) = 20 + 3·3 = 29 f(3) = 31 - 7·3 = 10

Az egyenes paraméterei (együtthatói) 400 320 y = a + bx 240  Y változó 160 a 80 X változó 1 2 3 4 5 ‘a’ paraméter = Y tengelymetszet ‘b’ paraméter = egyenes hajlásszögének tangense: b = tg(

Az előrejelzés alapfogalmai Jósolt (függő) változó: Y Jósló (előrejelző, független) változó: X Lineáris előrejelzés (jóslás): Ŷ = a + bX Az x értékhez tartozó igazi Y-érték: y Az x értékhez tartozó előrejelzés: ŷ = a + bx Az előrejelzés hibája egy személynél: (y - ŷ)2 A legjobb előrejelzésnél E((Y - Ŷ)2) minimális

Szokásos szóhasználat Legjobb előrejelző egyenes: regressziós egyenes Regressziós egyenes képlete, y =  + x, a lineáris regressziós függvény/egyenlet Regressziós egyenlet meghatározása: regressziós feladat Regresszió hibája = hibavariancia: Res = E((Y - Ŷ)2)  és  paraméter: regressziós együtthatók

Példák lineáris regresszióra Változó Átlag Variancia Regressziós egyenlet X: SúlySzül 3,21 0,25 Y = 26,05 + 2,24X Y: Súly10 33,2 46,4 Res = 45,20 X: ThosszSzül 50,2 6,4 Y = 96,88 + 0,83X Y: Thossz10 138,7 41,5 Res = 37,09 X: Anyatesth 161,1 38,3 Y = 77,66 + 0,38X Y: Thossz10 138,7 41,5 Res = 36,02 X: Apatesth 173,4 46,0 Y = 78,42 + 0,35X Y: Thossz10 138,7 41,5 Res = 35,96

Az Y kvantitatív változó előrejelzése X ismerete nélkül, illetve X ismeretében Y legjobb előrejelzése abban az esetben, ha nem tudunk semmit X-ről vagy más változókról: Y Ezen előrejelzés hibája: E((Y - Y)2) = Var(Y) X-et is felhasználva a lekisebb hibájú előrejelzés: Ŷ =  + X, az X változó Y-ra vonatkozó lineáris regressziós függvénye. Ezen előrejelzés hibája, az ún. hibavariancia: E((Y - Ŷ)2) = Res

Milyen szoros az együttjárása Y-nak az X kvantitatív változóval? Minél informatívabb X az Y változóra nézve, annál kisebb lesz Res a Var(Y)-hoz viszonyítva, vagyis annál kisebb lesz a Res/Var(Y) hányados. Viszont annál nagyobb lesz a mutató, az X változónak az Y változóra vonatkozó lineáris determinációs együtthatója.

Alapösszefüggések a determinációs együtthatóra 0  Det(X,Y)  1 Det(X,Y) = 0 csakkor, ha Res = Var(Y). Ekkor X nem tartalmaz lineáris jellegű információt Y-ra nézve. Det(X,Y) = 1 csakkor, ha Res = 0. Ekkor Y hibamentesen előrejelezhető X által. X determinisztikusan meghatározza Y-t, éspedig lineáris függvény formájában.

A determinációs együttható Jól mutatja, hogy Y milyen mértékben függ lineárisan X-től, hogy X milyen mértékben határozza meg, “determinálja” Y-t. FONTOS: Det(X,Y) = Det(Y,X). Jelzi, hogy az X és az Y változó milyen mértékben határozza meg egymást, vagy másképpen: X és Y milyen szoros lineáris típusú kapcsolatban van egymással.

Két véletlen változó függetlensége DEFINÍCIÓ: Y független X-től, ha Y eloszlása ugyanaz bármely X=x mellett KÉRDÉS: Függ-e a személy magassága a nemétől?

Függ-e a születési testhossz a születési súlytól? És fordítva? 55 50 45 Születési testhossz (cm) 40 35 1 2 3 4 5 Születési súly (kg)

Függ-e az Y változó X-től? 1 80 Y Y 0,5 50 20 X X 0,5 1 20 50 80

Függ-e az Y változó X-től? 2 X -3 3

A függetlenség kölcsönös FONTOS: Ha Y független X-től, akkor X is független Y-tól

Függetlenség és elméleti átlag Bármely X és Y kvantitatív változóra: E(X+Y) = E(X) + E(Y) Ha X és Y független egymástól, akkor E(X·Y) = E(X)·E(Y), vagyis ekkor E(X·Y) - E(X)·E(Y) = 0, de a megfordítás nem mindig igaz.

Két kvantitatív változó kovarianciája DEFINÍCIÓ: Cov(X,Y) = E(X·Y) - E(X)·E(Y) Ha X és Y független változók, akkor Cov(X,Y) = 0 A megfordítás nem mindig igaz, vagyis nulla kovariancia esetén X és Y nem biztos, hogy független egymástól.

Két kvantitatív változó korrelációs együtthatója Ha X vagy Y szórását megkétszerezzük, kétszeresére nő a kovarianciájuk is. Szórásokkal leosztott, ún. “standardizált” kovariancia = korrelációs együttható:

Összefüggés a korrelációs és a determinációs együttható között A korrelációs együttható négyzete mindig megegyezik a determinációs együtthatóval: (X,Y)2 = Det(X,Y) (X,Y) tehát az X és Y közti összefüggés mértékét jelzi, vagyis a lineáris típusú kapcsolat szorosságának mérőszáma.

A korrelációs együttható jellemzői -1  (X,Y)  1 Ha X és Y független, akkor (X,Y) = 0. Ha (X,Y) = 0, vagyis ha X és Y korrelálatlan, akkor nem feltétlenül függetlenek, de biztos, hogy nincs köztük lineáris típusú összefüggés (U vagy fordított U alakú kapcsolatban persze lehetnek). Ha X és Y együttes eloszlása normális, azaz bármely rögzített X = x mellett Y normális, akkor a függetlenség és a korrelálatlanság ekvivalens.

A lineáris transzformáció hatása r-ra r abszolút értéke nem változik, legfeljebb az előjele Ha U = 10X + 5 és V = 4Y  10, akkor r(U, V) = r(X, Y) Ha U = 10X + 5 és V = 10  4Y, akkor r(U, V) = r(X, Y)

A korreláció nem feltétlenül oki kapcsolat, csak egy együttjárás Ha r(X, Y) > 0, akkor három eset lehetséges: X pozitív hatással van Y-ra Y pozitív hatással van X-re Egy Z háttérváltozó hat egyidejűleg X-re és Y-ra

Regresszió és korreláció kapcsolata Az elméleti korrelációs együttható szokásos jelölései: (X,Y), XY vagy  A lineáris regresszió képlete: Ŷ =  + X vagy Ŷ = YX + YXX Ekkor és zŶ = rzX s Y r b = s YX X

Kérdés Férj és feleség IQ-ja között r = 0,50 a korreláció. Várhatóan milyen IQ-jú a férj, ha a feleség IQ-ja 100? 140? 70?

Válasz A férj várható IQ-ja (r = 0,50): 100 100 140  120 70  85

Két következmény Ha X értékét 1 egységgel növeljük, akkor Y értéke várhatóan YX egységgel nő. Ha viszont X egységgel növeljük, akkor Y értéke várhatóan Y egységgel nő. Speciálisan, ha sX = sY, akkor b = r. XY előjele összhangban van a regressziós egyenes irányával. Ha a regressziós egyenes emelkedő, akkor X és Y között pozitív a korreláció. Ha ereszkedő, akkor XY negatív.

A korrelációs együttható két fontos jelentése : milyen mértékben „öröklődik” a szélsőségesség X-ről Y-ra, illetve Y-ról X-re - Szélsőségesség ~ standard érték 2: determinációs együttható, megmagyarázott variancia hányad, relatív hibacsökkenés

0

Ha az X vagy az Y változó értékskáláját szűkítjük, akkor a korreláció általában csökken 0 30

0

0





A mintabeli korrelációs együttható (Pearson-féle r) Jelölése: rXY vagy r Egyik képlete:   Mintabeli kovariancia: sXY = ∑(xi – x)(yi – y)/(n – 1) rXY a rXY elméleti korrelációs együttható egyik pontbecslése

Korrel. eh. vizsgálata t Feltétel: X és Y együttes eloszlása legyen normális X-minta H0: XY = 0 t (f = n  2)    -t 0,05 t 0,05  t  -t0,05 |t| < t0,05 t  t0,05 H1: XY < 0 H2: XY > 0 H0

Korrel. eh. vizsgálata rxy kiszámítása Feltétel: X és Y együttes eloszlása legyen normális X-minta H0: XY = 0 A t-táblázat helyett használható az rXY kritikus értékeinek táblázata is. rxy kiszámítása (f = n  2) r  -r0,05 |r| < r0,05 r  r0,05 H1: XY < 0 H2: XY > 0 H0

Dichotóm változók vizsgálata Dichotóm (kétértékű) változók Személy neme (x1 = férfi, x2 = nő) Egyetért-e ... (x1 = igen, x2 = nem) Előfordul-e ... (x1 = igen, x2 = nem) Megoldotta-e ... (x1 = igen, x2 = nem) Beteg-e (x1 = igen, x2 = nem) Bináris változó: az a speciális eset, amikor x1 = 0 és x2 = 1

Dichotóm változók eloszlása Eloszlás: Az x1 és x2 érték előfordulási valószínűsége, azaz P(x1) és P(x2). Pl. a ‘Személy neme’ egy lehetséges eloszlása: {P(ffi) = 0,45, P(nő) = 0,55}. A ‘Személy neme’ változó szintén lehetséges eloszlása: {P(ffi) = 0,60, P(nő) = 0,40}. Mindig igaz: P(x1) + P(x2) = 1

Egy dichotóm változó vizsgálata egy populációban Példa: pszichológia szakra felvételizők között a fiú-lány arány ugyanakkora-e? Nullhipotézis: H0: P(ffi) = 0,5, P(nő) = 0,5 Egy valódi vizsgálat adatai: 1981-ben 94 felvételiző között 16 fiú és 78 lány volt (kapott gyakoriságok: ni) Ha H0 igaz lenne, 94-ből 47-47 fiúra és lányra számítanánk (várt/elméleti gyakoriságok: i)

Eloszlásvizsgálat khi-négyzet-próbával Minél nagyobb az eltérés a kapott (ni) és a várt (i) gyakoriságok között, annál valószínűbb, hogy a nullhipotézis nem igaz. Az eltérés egy lehetséges mértéke: 2 = (n1 - 1)2/1 + (n2 - 2)2/2 Ha igaz a H0 hipotézis, akkor ez khi-négyzet eloszlású, f = 1 szabadságfokkal.

A fenti példa számításai 2 = (16 - )2/ + (78 - )2/ 2 2 (f=1) Emiatt a H0 hipotézist elutasítjuk, s azt mondjuk: A fiúk aránya szignifikánsan kisebb a lányokénál. 

Egy másik példa Egy dobókockával 30-szor dobunk szabályosan. Összesen 10 hatost kapunk. Hamis a kocka? 2 = (10 - )2/ + (20 - )2/ 2 2 (f=1) Az eredmény tehát 5%-os szinten szignifikáns, vagyis a dobókocka 95%-os valószínűséggel hamis. 

Khi-négyzet-próba Feltétel: i  5 H0: P(x1) = p1, P(x2) = p2 X-minta 0,6 f=1 0,4 (f = 1) 0,2   2     0,05 2 < 2 2  2 0,05 0,05 H0 HA: P(x1)  p1, P(x2)  p2

Két populáció összehasonlítása egy dichotóm változó segítségével Példa: Matematika és pszichológia szakra felvételizők között van-e különbség a nemi megoszlás tekintetében? Nullhipotézis: A két populációban a nemi megoszlás ugyanaz, vagyis P(fiú/matek) = P(fiú/pszich) és P(lány/matek) = P(lány/pszich)

Egy konkrét példa H0 igaz volta esetén a közös fiú-arány kb. 130/320, így a várt fiú-gyakoriság a matek és a pszichológus szakon: 11= 80130/320 = 32,5 és 21= 240130/320 = 97,5 Hasonlóan a közös lány-arány kb. 190/320, így 12= 80190/320 = 47,5 és 22= 240190/320 = 142,5

A 2×2-es khi-négyzet-próba H0 igaz volta esetén a statisztikai mennyiség f = 1 szabadságfokú khi-négyzet-eloszlást követ, így 2 < 3,841 esetén H0-t megtartjuk, 2  3,841 esetén pedig H0-t 5%-os szignifikanciaszinten elutasítjuk (2 = 3,841). 0,05

Számolás: kontingenciatáblázatból Kapott gyakoriságok Várt gyakoriságok 58 22 32,5 47,5 72 168 97,5 142,5 2 44,92 6,6352 (f=1) Konklúzió: a különbség 1%-os szinten szignifikáns. 

Alkalmazási feltétel: ij  5 Általános eset Minták X=x X=x Összesen 1 2 1. Minta n n n 11 12 1 ij= (nimj)/N 2. Minta n n n 21 22 2 Összesen m m N 1 2 (f = 1) Alkalmazási feltétel: ij  5

Két dichotóm változó eloszlásának összehasonlítása egy populációban Példa: Egy középiskolai osztályban előadást tartottak a dohányzás ártalmairól. Ezután 36 tanuló közül 8-an leszoktak, 3 tanuló pedig rászokott a dohányzásra. Volt-e hatása a felvilágosító előadásnak? Nullhipotézis: A dohányzás dichotóm változója eloszlása az előadás előtt és után ugyanaz. Különbségváltozó: x1= leszokik, x2 = rászokik Nullhipotézis: H0: P(x1) = P(x2)

Képlet és számolás: McNemar-próba: Adattáblázat: Dohányzik? Utána igen Utána nem Előtte igen a b = 8 Előtte nem c = 3 d Képlet és számolás: McNemar-próba: Alkalmazási feltétel: (b+c)/2  5, azaz b+c > 10

Egy példa 40 fős évfolyamon 12 kérdésből álló vizsgatesztet írattak. Az 1. feladatot 28-an, a 2. feladatot pedig 20-an oldották meg helyesen. Szignifikánsan nehezebbnek tekinthető-e a 2. feladat? A fenti kérdésre a megadott az adatok alapján nem lehet válaszolni. Hiányzik: n(1. jó, 2. rossz) és n(1. rossz, 2. jó)

Megfelelő adattáblázat: Megoldás 2. helyes 2. helytelen 1. helyes b 1. helytelen c A McNemar-próba képlete:

Két dichotóm változó kapcsolatának vizsgálata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 105 17 122 Nem 469 340 809 Összesen 574 357 931 Függetlenségvizsgálat  homogenitásvizsgálat

Sorösszegek szerinti százalékok táblázata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 86,1% 13,9% 100% Nem 58,0% 42,0% 100% Összesen 61,7% 38,3% 100%

Oszlopösszegek szerinti százalékok táblázata 15 éves lányok Könnyen teremt baráti kapcsolatokat Dohányzik Igen Nem Összesen Igen 18,3% 5,0% 13,1% Nem 81,7% 95,0% 86,9% Összesen 100,0% 100,0% 100,0%

A 2-próba számolása 2×2-es kontingenciatáblázatból Formailag ugyanúgy végzendő, mint két csoport összehasonlítása esetén. A fenti példa esetében Mivel 2 > 6,635 (f=1), az eredmény p < 0,01 (azaz 1%-os) szinten szignifikáns.

A kapcsolat szorosságának mérése dichotóm változók esetén Kontingencia-együttható: Yule-féle asszociációs együttható:

Néhány összefüggés a kapcsolati mutatókra -1    1 -1    1 2 = 2/N A fenti gyakorisági táblázathoz kapcsolódóan j = , 195 és y = , 635