TÁRSADALOMSTATISZTIKA Wesley János Lelkészképző Főiskola Pedagógia alapszak, I. évfolyam TÁRSADALOMSTATISZTIKA Előadó: Csákó Mihály egyetemi docens 30 kontaktóra + 60 egyéni munkaóra = 3 kredit (Levelező: 12 kontakt + 78 egyéni munkaóra) A jegyzet-rovatot is érdemes figyelni!!! FIGYELEM! A jegyzeteket is figyeljék, mert időnként fontos magyarázatokat vagy további példákat írtam ebbe a rovatba!!! A Bevezetés a pedagógiai kutatás módszertanába c. tárgyban tanultak ismertét kénytelen vagyok feltételezni.
Az előadások beosztása: 1. Mi a statisztika és mire jó? A kurzus célja 2. Adatgyűjtés és ábrázolás: a hisztogram 3. Csoportok jellemzése: középértékek 4. Csoportok szóródása: a szórás 5. A normálgörbe 6. A normális közelítés módszere 7. Két változó kapcsolata: varianciaelemzés 8. Két változó kapcsolata: korreláció 9. Két változó kapcsolata: regresszió 10. Statisztikai következtetés: mintavétel 11. Valószínűségszámítás 12. Megbízhatósági próbák, szignifikancia WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Számolási gyakorlat Ránézésre becsüljék meg a következő számokat %-ban! (Kb. 1%,10%, 50% …?) 99 a 407-ből? 57 a 209-ből? 99 a 197-ből? 39 a 398-ból? Ezek kb. a legnehezebb számolási feladatok amelyek előfordulhatnak a félév során. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Az igazság keresése: a kenyérfogyasztás példája 1. A büntetés-végrehajtási intézetekben fogva tartott elítéltek több mint 98 %-a kenyérfogyasztó. 2. A kenyérfogyasztó családokban felnövekedő gyermekek 50 %-a a standardizált teszteket átlag alatti eredménnyel teljesíti. 3. A XVIII. században, amikor gyakorlatilag minden kenyér otthon, a háztartásban készült, az átlag-életkor nem érte el az 50 évet, a csecsemőhalandó-ság elfogadhatatlanul magas volt, sok nő belehalt a szülésbe, és a lakosságot olyan járványok tizedel-ték, mint a tífusz, a sárgaláz és az influenza. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Az igazság keresése: a kenyérfogyasztás példája 4. Az erőszakos bűncselekmények több mint 90 %-át kenyérfogyasztás után 24 órán belül követik el. 5. A kenyér alapanyaga a tésztának nevezett szub-sztancia. Kísérletek során bebizonyosodott: ebből az anyagból néhány dekagramm elég, hogy egy egér megfulladjon tőle. Az átlag magyar ennek sokszorosát fogyasztja el egy hónap alatt! 6. A primitív törzsi társadalmakban, ahol a kenyér-fogyasztás ismeretlen, évszázadok óta feltűnően kevés rákos megbetegedést, Alzheimer-és Par-kinson-kóros, csontritkulásos esetet jegyeztek fel. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Az igazság keresése: a kenyérfogyasztás példája 7. A kenyér bizonyítottan addiktív. Kísérleti alanyok, akiktől egy időre megvonták, és csak vízzel táplálták őket, alig 2 nap elteltével már kenyérért könyörögtek. 8. A kenyérfogyasztás sok esetben csak előkészítője a "keményebb" élelmiszerek, mint például a vaj, lekvár, méz fogyasztásának. 9. A kenyérről bebizonyosodott, hogy magába szívja a vizet. Mivel az emberi testet több mint 90%-ban víz alkotja, a huzamos kenyérfogyasztás beláthatatlan következményekkel járhat a szervezet molekuláris összetételében. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Az igazság keresése: a kenyérfogyasztás példája 10. Az újszülöttek köhögnek a kenyértől. 11. A kenyeret 200 Celsius-fok körüli hőmérsékleten sütik. Ez a hőmérséklet nem egészen egy perc alatt elpusztít egy felnőtt embert. 12. A legtöbb kenyérfogyasztó képtelen megkülönböztetni a tudományos tényeket a statisztika álruhájába burkolt, értelmetlen locsogástól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Találkozásaink a statisztikával: hétköznapi tapasztalatok Népszámlálás Az európai népesség öregedése A magyar népesség fogyása A cigány gyerekek iskolázottsága Éves iskolai statisztikai jelentés A levegő hőmérsékletének sokévi átlaga Foglalkozási kategóriák átlagkeresete Munkanélküliség mértéke Stb. Kezdjük úgy, hogy összekapcsoljuk az ismerkedést és a tantárgyi gyakorlatot: Felmérés: ki találkozott már gyakorlatban a statisztikával? / Ki volt jó matekos? (Hol, hogyan, miért?) Ki szerzett valamilyen tapasztalatot: adatszolgáltatóként, kérdezőbiztosként (pl. népszámlálásban)? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Példa az alkalmazásra Freedman: májműtétes példája Veszélyes bypass műtét, de életmentőnek tartják. Kérdés: „megéri-e”? Hogyan lehet megtudni? Számoljuk meg az eredményt! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Mit értünk statisztikán? Összeszámlálás, Jelzőszámok Kapcsolatkeresés, Feltételezett kapcsolat ellenőrzése, magyarázat-keresés minőség-ellenőrzés Kutatási módszer (- pl. survey) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika ÖSSZEFOGLALÁS Mivel kezdődik a statisztikai tevékenység? Nem az adatgyűjtéssel, hanem a kategóriák megtervezésével. Mi mindenről kell dönteni az adatgyűjtéssel kapcsolatban? Kiktől? – miféle válaszok lehetségesek? Mit, milyen adatot gyűjtünk? Hogyan gyűjtjük? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika ÖSSZEFOGLALÁS: Célok Milyen célok érdekében gyűjtünk adatot? Leggyakrabban egy népesség/csoport leírására. Szélsőséges pl.: a népszámlálás – mi baj? Több mint 20 kötet adat – áttekinthetetlen A „demográfiai adatok” 1 kötet (vagy 19)… „Magyarországon az átlagéletkor: év” vagy: „Magyarországon az átlagkereset…” WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Változók Miért vizsgáljuk a dolgokat vagy személyeket? mert nem egyformák, sokfélék, és ráadásul változnak. Dolgoknak vagy személyeknek azt a tulajdonságát, jellemzőjét, amelyet vizsgálunk, változónak nevezzük. Pl.: életkor; fizetés; gyerekszám; munkahelyváltoztatások száma. Nem biztos, hogy megszámlálható (pl. lakóhely). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A tankönyv példája: jövedelem az USÁ-ban Mivel az emberek jövedelme nem ugyanakkora (változó), fontos tudni, hogy ezek a különbségek hogy alakulnak: mekkora csoportoknak mekkora jövedelmük van. Ábránkon azt látjuk, hogy kétszer annyi amerikainak van 1000 és 2000 $ közötti évi jövedelme, mint ahánynak legfeljebb 1000 $. 2000 és 3000 $ közötti összeget háromszor annyian keresnek, mint 0 és 1000 $ közötti összeget. És így tovább. Évi 5000 és 6000 $ közötti összeget már ötször annyian hoznak össze. De hánynak van 7000 és 10000 $ közötti jövedelme? Talán szintén ötször annyinak? Az nagyon furcsa lenne. A 7000 és 10000 $ közötti jövedelemmel bírókat jelző téglalap láthatóan ugyanolyan széles, mint a 4000 és 7000 $ közötti jövedelműeké. A hisztogramon ez azt jelenti, hogy ugyanannyian is vannak. NEM az „oszlopok” magassága számít, hanem A TÉGLALAPOK TERÜLETE. Ezért a hisztogram téglalapjainak összes területe megfelel az összes összeszámlált adatnak (ebben az esetben WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A tankönyv példája: jövedelem az USÁ-ban A függőleges tengely = = sűrűségskála (%/egység) A függőleges tengely = sűrűségskála (%/egység) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A tankönyv gyakorló feladata 1. A megoldások megtalálhatók a tankönyvben, többnyire egy kis magyarázattal. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A tankönyv gyakorló feladata 2-3. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A tankönyv gyakorló feladata 4. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A 18 évesek apjának és anyjának életkora (2010-2011) Forrás: Az OTKA K75879 sz. szerződéssel támogatott „Családi Politikai szocializáció” c. kutatás (kut. vez. Csákó Mihály) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Az apák életkora: grafikon Év Szám % 40-ig 257 9 41-45 1046 36 46-50 864 30 51-55 446 16 56-60 175 6 több 84 3 Csoportosított adatok. Ez a grafikon csak szemléltető eszköz - csak egy dolgot mutat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Az apák életkor szerint: hisztogram 36% 30% 16% 9% 6% 3% 32 40 45 50 55 60 74 A hisztogram pontosan megfelel az adatoknak, nemcsak szemléltet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Feladat: Rajzolják meg a hisztogramot! Testvérek száma Eset % 28,1 1 47,1 2-3 22,5 4-8 2,3 IDE Mire kellett ügyelni? – Nem %-grafikon, hanem hisztogram: a vízszintes tengely fontos! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A középértékekkel (átlag) egy csoport gyors áttekintését kívánjuk nyújtani. Alkalmazásuk feltételei: 1. legyen értelmezhető csoport, amelyet jellemez (pl. 7.osztály; bérből élők…) 2. a célnak megfelelőt válasszuk a középértékek közül WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A középértékek fajtái: - számtani átlag - medián - módusz - négyzetes átlag - harmonikus átlag - mértani átlag WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A számtani átlag a legismertebb. Képlete: a1+a2+…+an Σa ā = = n n WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK Mikor jó és mikor problémás a számtani közép: pl. testvérszám; testmagasság. A módusz a középtendenciát jobban kiemeli (ha van) = leggyakoribb érték A medián jó jelzőszám, de előnytelen matematikailag további számításokhoz WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A hetedikesek kérésünkre megjelölték egy [0; 100] egyenes szakaszon, hány % esélyük van rá, hogy érdemi választ kapjanak tanáraiktól a kérdéseikre. Az esélyüket átlagosan 58,9%-ra becsülték. A medián érték 59,8%, a módusz pedig 41-60% (mivel csoportosítottuk a válaszokat). Mi a véleményük erről? Mit jelent ez? Milyenek lehetnek a vélemények részletesebben? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK N= 27 62 81 182 133 169 45 = 699 % 3,9 8,9 11,626,0 19,024,2 6,4 = 100 Átlag = Módusz = 40–60% Medián = 350. eset = =180. a (40-60)-ban = = 59,78 59,8 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK Példa: Márta néni fantasztikus matektanár: minden osztályában eléri matekból a 3,2 átlagot, még az összevont osztályban is! Hogyan? „a” osztály: 2- 6; 3- 1; 4- 2; 5- 3 (12 fő) „b” osztály: 2- 2; 3- 6; 4- 4; 5- 0 (12 fő) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy: 5 Rajzoljuk meg először a hisztogramokat! Az osztályzatokat a (vízszintes) tengelyen ábrázoljuk, ezen helyezünk el annyi tanulót, ahányan az adott osztályzatot kapták . WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 31 31
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 5 Az A osztályban 6 elégséges volt elhelyezünk a kettesre hat azonos méretű egységet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 32 32
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy: 5 Ugyanígy elhelyezzük a többi tanulót is a skálára. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 33 33
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy: 5 Megismételjük az eljárást a B osztályra is. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 34 34
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy: 5 12 + 3 + 8 + 15 = 38 átlag (ā) 38 : 12 ≈ 3,2 Kiszámítjuk az A osztály osztályzatainak átlagát (6 db kettes = 12; 1 db hármas = 3 stb. összeadva, elosztva a tanulók számával). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 35 35
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy: 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 Ugyanezt csináljuk a B osztályra is. Látjuk, hogy az átlagok egyenlők. Az osztályok azonban látványosan különbözők matekból! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 36 36
Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK Hogyan lehetne kifejezni a két osztály különbségét? Miben is áll ez a különbség? Átlag „a”: 12+3+8+15=38 38/12=3,17 ≈ 3,2 Átlag: „b”: 4+18+16+0=38 38/12=3,17 ≈ 3,2 Az átlaguk azonos – mi eltérő? A szóródás WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 37 37
Csákó M.: Társadalomstatisztika A SZÓRÁS Eredmény: A két osztály átlageredménye azonos (3,2) de az egyikben nagy különbségek vannak a tanulók között (s 1,3), míg a másikban közel állnak egymáshoz (s 0,7). Vagyis a szórás segítségével tudjuk számszerűsíteni a különbséget. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 38 38
Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRTÉKE Mi a tanulság? A valóság a szóródásban rejlik, a középérték erős absztrakció. A mozgás mindig különbségből ered, oka tehát a különbségek okában van. Valamiképpen fogalmilag ki kell fejezni a változatosságot: a szórás mérőszámaival. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 39 39
Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE Első megközelítés: szélső értékek, vagyis az eloszlás kiterjedése. Pl. az emberi testmagasság A legmagasabb ismert férfi: Robert Pershing Wadlow (1918-1941) 272 cm A legmagasabb ismert nő: Zeng Jinlian (1964-1982) 246 cm WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 40 40
Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 41 41
Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE A valaha ismert legalacsonyabb emberek: Nő: Pauline Musters (1876-1895) 59 cm. Férfi: Calvin Philips (1791-1812) 67 cm. Eleget tudunk-e így az emberi testmagas-ságról? Nem: az eloszlás még sokféle lehet a két végpont között. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 42 42
Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE Második megközelítés = az esetek zömének kiterjedése = interkvartilis távolság Pl. a tanári válasz esélye: N= 27 62 81 182 133 169 45 = 699 % 3,9 8,9 11,626,0 19,024,2 6,4 = 100 kvartilis = a 175. eset (40-60%) kvartilis = medián kvartilis = az 525. eset (80-100%) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 43 43
Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE Harmadik megközelítés = az esetek átlagtól való távolságának átlaga = = szórás (s) A kiszámítás módja: négyzetes átlag Σ(a – ā)2 s = N Magyarázat: az összeadás tagjai előjelesek. (Lássuk Márta néni osztályainak példáján!) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika 12 fő 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 Milyen távol esnek az egyes tanulók átlagosan az átlagtól? Elkezdjük kiszámítani a szórást az A osztályra. Minden egyes tanuló osztályzatából kivonjuk az átlagot. Az a-ā sor ezt 1 tanulóra tartalmazza. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 45 45
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 Mivel előjeles távolságok vannak, el akarjuk kerülni a negatív előjeleket: négyzetes átlagot számítunk négyzetre emeljük a távolságokat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 46 46
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 8,64 + 0,04 + 1,28 + 9,72 ånx = 19,68 Mivel nem csak egy tanuló van az adott távolságra, a négyzetes távolságokat megszorozzuk az adott osztlyzatot kapott tanulók számával. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 47 47
Csákó M.: Társadalomstatisztika 12 fő 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 8,64 + 0,04 + 1,28 + 9,72 ånx = 19,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 A szorzatokat összeadjuk, és elosztjuk a tanulók számával (átlagolás). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 48 48
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 8,64 + 0,04 + 1,28 + 9,72 ånx = 19,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 A kapott átlagból négyzetgyököt vonunk, hogy visszatérjünk arra a szintre, ahonnan elindultunk. Az A osztályban a tanulók átlagos távolsága az átlagtól (vagyis az osztály szórása matekból) 1,3 osztályzat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 49 49
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 2x1,44 6x0,04 4x0,64 8,64 + 0,04 + 1,28 + 9,72 2,88 + 0,24 + 2,56 + ånx = 19,68 = 5,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 Ugyanezeket a lépéseket elvégezzük a B osztályra is. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 50 50
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 2x1,44 6x0,04 4x0,64 8,64 + 0,04 + 1,28 + 9,72 2,88 + 0,24 + 2,56 + ånx = 19,68 = 5,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 √(5,68:12) Eljutottunk a gyökvonásig, de már látjuk, hogy az eredmény kisebb lesz, mint A esetében. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 51 51
Csákó M.: Társadalomstatisztika 12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 2x1,44 6x0,04 4x0,64 8,64 + 0,04 + 1,28 + 9,72 2,88 + 0,24 + 2,56 + ånx = 19,68 = 5,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 √(5,68:12) ≈ 0,7 Valóban: a B osztály szórása csak 0,7 osztályzat, alig több, mint feleakkora az A osztályéhoz képest. Ez a két osztály különbsége matekból. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 52 52
A SZÓRÓDÁS MÉRÉSE = Az osztályok különbsége abban áll, hogy az „A” osztályban az eredmények szórása csaknem kétszer akkora, mint a „B”-ben: sa=1,3 osztályzat sb=0,7 osztályzat
Csákó M.: Társadalomstatisztika A SZÓRÁSEGYSÉG 103. OLDAL ÁBRA A szórást tekinthetjük az esetek átlagtól való távolsága átlagának. Ha ezt az átlagos távolságot egységnek tekintjük, minden egyes eset átlagtól való távolságát kifejezhetjük azzal, hogy hány szórásnyira van az átlagtól. A hisztogram ettől nem változik (hiszen maguk a mért esetek ugyanazok), csak a skála mértékegysége más: a szórásegység vagy standard egység. Ennek előnye: különböző eloszlások számszerűen összehasonlíthatók, mert a távolságot a szórásegységgel osztva „kiesnek” a természetes egységek (gramm, cm, Ft stb.). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika A NORMÁLGÖRBE 101. OLDAL ÁBRA Ezt a görbét de Moivre fedezte fel, és Quetelet kezdte empirikus eloszlások közelítésére alkalmazni számos statisztikailag „előnyös” tulajdonsága miatt. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A NORMÁLGÖRBE HASZNÁLATA Mekkora a 0 és 1 közötti intervallumba eső terület? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
GÖRBE ALATTI TERÜLETEK WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
FIGYELEM! Ez a fejezet NINCS BENNE a tankönyvben!!! VARIANCIA-ELEMZÉS FIGYELEM! Ez a fejezet NINCS BENNE a tankönyvben!!! Eddig mindig csak egy változó tulajdonságait vizsgáltuk és igyekeztünk leírni.
Mitől vannak a különbségek? Az ember igyekszik egyszerűnek látni a világot (pl. átlag). Ugyanez a törekvés a szabványosításban, a normában stb. Kénytelenek vagyunk beengedni valahogy a sokféleséget (pl. szórás). Ugyanez tör be a „tűrés” műszaki fogalmában, a „kalo”-ban stb. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 59
Mi kell a magyarázathoz ? Mit akarunk megmagyarázni? A szórást. (= Az esetek különbözőségét.) Kell legalább még egy változó (= tehát ez is változik, azaz több értéke lehet) Sőt: nem is lehet más, csak változó. Ui. ami ugyanolyan, az nem okoz különbséget. Egy lehetőség: a varianciaelemzés. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 60
Mire jó a varianciaelemzés? Mikor használható? - Ha egy nominális (kategoriális) változóval akarunk magyarázni egy folytonos kvantitatív változót. Példák: Mennyire befolyásolja a lakóhely a jövedelmet? vagy a dolgozó neme? Azaz: Ha az elemek csoportokat alkotnak, felmerülhet, hogy a csoportba tartozás okozza a szóródást vagy annak egy részét WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 61
Csákó M.: Társadalomstatisztika VARIANCIA-ELEMZÉS Variancia = teljes szórásnégyzetösszeg vagyis az összes elem átlagtól való távolságának négyzetes összege (amiből a szórást számítjuk) Ezt probáljuk „feldarabolni”: mekkora része származik a csoportbontásból. Vegyünk egy példát! (A tkv. adatai, 64. old.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Gyerekszám és iskolázottság Esetszám Összes gyerek (a-ā) n(a-ā)2 746 1,2135 1098,546 1 433 0,2135 19,73711 2 551 1102 0,7865 340,8388 3 203 609 1,7865 647,8912 4 52 208 2,7865 403,7583 5 15 75 3,7865 215,0637 N 2000 2427 2725,836 Átlag 1,362918 Szórás » 1,1675 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Gyerekszám és iskolázottság Max. középisk. Összes gyerek (a-ā) n(a-ā)2 254 1,486 560,8818 1 245 0,486 57,86802 2 321 642 0,514 84,80692 3 132 396 1,514 302,5699 4 37 148 2,514 233,8473 5 11 55 3,514 135,8302 N 1000 1486 1375,804 Átlag 1,375804 Szórás » 1,173 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Gyerekszám és iskolázottság Felsőfo-kon végz. Összes gyerek (a-ā) n(a-ā)2 492 0,941 435,6567 1 188 0,059 0,654428 2 230 460 1,059 257,9406 3 71 213 2,059 301,0032 4 15 60 3,059 140,3622 5 20 4,059 65,90192 N 1000 941 1201,519 Átlag 1,201519 Szórás » 1,096 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A csoportátlag és a főátlag kölönbségét (a csoport összes elemére összegezve) úgy tekintjük, hogy az a csoportok különbsége miatt van. A csoporton belül a csoportátlag körüli szórást viszont nem magyarázhatja az, hogy az elemek ehhez a csoporthoz tartoznak, hiszen ez mindannyiukra ugyanúgy fennáll, ebből különbségük nem adódhat. Ez tehát a megmagyarázatlan maradék. A variancia „megmagyarázott” és „megmagyarázatlan” része együtt a teljes varianciát teszi ki. Az ábra nem pontos adatokat tartalmaz, csak illusztráció!!! Teljes variancia = (csoportok és főátlag közötti) + csoporton belüli variancia WJLF Pedagógia BA WJLF Pedagógia BA Csákó M.: Társadalomstatisztika Csákó M.: Társadalomstatisztika 66
Csákó M.: Társadalomstatisztika VARIANCIA-ELEMZÉS Hány változót használtunk? Kettőt! 1. gyerekszám; 2. iskolázottság Milyen változók ezek? a gyerekszám kvantitatív és diszkrét* az iskolázottság kvalitatív (dichotóm) – itt! A varianciaelemzés akkor használható, ha egy kvalitatív változónak egy kvantitatív változóra való hatását akarjuk megtudni. (* Valójában csak folytonos változók varianciáját lehet felbontani. Ezt sokszor nem tartják be. Itt pedig a számítások egyszerűsége és az adatok hozzáférhetősége miatt használtunk diszkrét változót.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika A KORRELÁCIÓ WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A varianciaelemzéstől a korrelációig A varianciaelemzés megmutatta egy nominális (kategoriális) változó hatását egy folytonos kvantitatív változóra. De mit csináljunk, ha a magyarázó változónk is folytonos kvantitatív? (Pl. testmagasság a testsúly magyarázatára, vagy életkor a kereset magyarázatára Minden egyes esetet mégsem tekinthetünk külön kategóriának! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 69
Hogyan ábrázolunk két változót? a konkrét eset WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 70
Hogyan ábrázolunk két változót? (Gyakorlás) Ábrázoljunk néhány apa-fiú párt! Legyen F=A; F=A+5cm; F=A-2cm; F=A+17cm; minden F = A+15% ! Figyeljük meg az esetek elhelyezkedését a F=A szabályhoz képest! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 71
Descartes-féle koordinátarendszer Két változó értékei (adatpár) egy pontot határoz meg: P(x,y) Két pont meghatároz egy egyenest. Egyenlete: y=mx+b Mikor egyenes két változó kapcsolatának képe? (pl. az apák és fiak testmagasságának összefüggése?) Ha szigorú függvénykapcsolat van közöttük: vagyis ha az apa magasságából egyértelműen meg lehet mondani a fia magasságát. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 72
Descartes-féle koordinátarendszer WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 73
Descartes-féle koordinátarendszer WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 74
Van-e itt szigorú függvénykapcsolat? Természetesen NINCS. Az esetek pontjai nem esnek egy egyenesre, hanem felhőszerűen oszlanak el. De a felhőnek van bizonyos alakja: van valamilyen összefüggés a két változó között. (A szaggatott segédvonalaknak ebben az ábrában nincs jelentőségük.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 75
Két változó kapcsolata A társadalomban nincs szigorú függvénykapcsolat. A kapcsolat képe nem egyenes, hanem pontfelhő. Különböző alakú pontfelhők lehetnek. Hogyan lehetne őket pontosabban leírni? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 76
Próbáljuk körülrajzolni WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 77
Körülrajzolás: mit tudunk hozzá? Az apák magasságának a) átlagát, b) szórását A fiak magasságának c) átlagát, d) szórását. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 78
Hogyan használjuk, amit tudunk? (a) ábra: A két változó átlagát jelző (szaggatott) egyenesek metszéspontjában megkapjuk a pontdiagram átlagpontját. (b) ábra: Az x-tengelyen ábrázolt változó szórásának felhasználásával tudjuk, hogy az átlagtól ±2 szórásnyi távolságon belül van az adatok 95%-a (ha a változó folytonos és normáleloszlású). (c) ábra: Tudjuk, hogy ugyanez az összefüggés az y-tengelyen ábrázolt változóra is igaz (ha a változó folytonos és normáleloszlású). Mindezzek elég jól behatároltuk a pontfelhőnket – de tényleg körül tudjuk már rajzolni? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 79
Milyen lesz a pontfelhő alakja? Az előző dia utolsó kérdésére a válasz: MÉG MINDIG NEM. Olvassák figyelmesen ennek a képnek a szövegét! Az (a) és (b) ábrában a két változó átlaga és szórása megegyezik, mégsem ugyanolyan a pontfelhő! A kapcsolat erősségét, a pontoknak egy (képzelt) egyeneshez való közelségét a korrelációs együttható (r) fejezi ki. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 80
Korrelációs együttható számítása r = (standard x * standard y) átlaga átszámítjuk standard értékbe mind x-et, mind y-t*; minden pontra összeszorozzuk a szorzatokat átlagoljuk. * Vagyis a szórásukkal fejezzük ki őket: hány szórásnyira vannak az átlaguktól. A korrelációs együttható WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 81
A korrelációs együttható és a pontfelhő A baloldali ábrán nincs kapcsolat a két változó között, a jobboldalin közepesen erős (r=0,4) a kapcsolat. Figyeljük meg, hogy ennél az erősségnél, még mennyire szórtak a pontok! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 82
A korrelációs együttható és a pontfelhő A baloldali ábrán nincs kapcsolat a két változó között, a jobboldalin közepesen erős (r=0,4) a kapcsolat. Figyeljük meg, hogy ennél az erősségnél, még mennyire szórtak a pontok! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 83 83 83
A korrelációs együttható és a pontfelhő
A korrelációs együttható és a pontfelhő
Korrelációs együttható Az előző ábrákban látható, hogy 0 ≤ r ≤ 1 De ezt még tovább finomítjuk gyakorlati példák segítségével. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 86
Csákó M.: Társadalomstatisztika MENNYI ESÉLYED VAN ÉRDEMI VÁLASZRA A SZÜLEIDTŐL? MILYEN A KAPCSOLATA SZÜLEIVEL? AZ ANYA ISKOLAI VÉGZETT- SÉGE AZ APA VAN ÉRDEMI VÁLASZRA A SZÜLEIDTŐL? Pearson Correlation 1 -,069 ,014 ,016 Sig. (2-tailed) ,068 ,724 ,693 N 702 699 656 636 KAPCSOLAT A SZÜLEIVEL? -,092(*) -,037 ,017 ,342 735 678 658 AZ ANYA ISKOLAI VÉGZETTSÉGE ,673(**) ,000 680 653 AZ APA ISKOLAI 660 Így néz ki egy számítógépes „output” az SPSS statisztikai programból. Csak a Pearson Correlation nevű sorokat nézzék: ezek budapesti hetedikeseken végzett kutatásból származó korrelációk. Megtudjuk, hogy sem az apa, sem az anya iskolázottsága nincs kapcsolatban azzal, hogy gyerekük mennyire remél tőlük érdemi választ kérdéseire (legelső sor utolsó két oszlop - apa: r=0,016; anya r=0,014 – alig különböznek 0-tól). Viszont a két szülő iskolázottsága között erős kapcsolat van: r=0,673. (Nézzék meg az előző pontfelhő ábrákon, melyikhez áll közel ez az adat, azaz „szemre” mennyire szoros ez a kapcsolat!) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Kutatási példák a korrelációra MENNYI ESÉ- LYED VAN ÉRDEMI VÁ- LASZRA A SZÜ- LEIDTŐL? MILYEN A KAP- CSOLATA A SZÜLEIVEL? MENNYI ESÉLYED VAN ÉRDEMI VÁLASZRA A SZÜLEIDTŐL? Correlation 1 -,152(**) Sig. (2-tailed) ,000 N 700 697 MILYEN A KAPCSOLATA 735 Valójában csak a jobboldali oszlop 1. sora érdekes: a többi részben fölösleges, részben ismétlés (de a számítógép buta, és csak így tud működni). Itt azt keressük, van-e kapcsolat az érdemi válasz reményének foka (0-100%) és a szülőkkel való kapcsolat (1=felhőtlen, … 4=elviselhetetlen) között. Feltűnő, hogy a korrelációs együtthatónak negatív előjele van. Ennek oka: az egyik változó növekedésével a másik értéke nem nő, hanem csökken. (Ez itt csak véletlenül ilyen: fordítva írtuk a beosztást a szülőkkel való kapcsolat skálájára: ha 1 lenne a legrosszabb és 4 a legjobb, akkor az előjel megfordulna, mert ugyanolyan irányú lenne a skála – rosszjó –, mint a válaszesély skálája.) De tartalmilag is vannak ilyen kapcsolatok. Pl. a mulasztott iskolai napok száma ellentétesen változik a tanulmányi eredménnyel. Hogyan alakul itt a pontdiagram? (Fejtörő: a baloldali számoszlop első sorában miért 1 a korrelációs együttható?) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Negatív korrelációs együtthatók WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Negatív korrelációs együtthatók WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Negatív korrelációs együtthatók WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Korrelációs együttható Az előző ábrákban látható, hogy ki kell terjesztenünk r értékét a negatív számok felé: -1 ≤ r ≤ 1 .Ha r = -1 : szigorú negatív függvénykapcsolat, Ha r = 0, akkor nincs kapcsolat, Ha r = 1 : szigorú pozitív függvénykapcsolat WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 92
Csákó M.: Társadalomstatisztika A szórásegyenes Az az egyenes, amely körül a pontdiagram pontjai szóródnak: a szórásegyenes. A szórásegyenesen rajta lévő pontoknak ugyanakkora a szórásuk mind a két változóban: pl. 1 szórásnyira van az x átlagától és 1 szórásnyira az y átlagától; vagy 1,62 szórásnyira az x átlagtól és ugyancsak 1,62 századnyira az y átlagtól; vagy még -0,57 szórásnyira az x átlagtól és -0,57 szórásnyira az y átlagtól. Ha mindkét tengelyre szórásegységeket mérünk fel (aminek nincsen semmilyen mértékegysége: pl. cm, kg, év, Ft sem), akkor a két tengely beosztása ugyanolyan, és a szórásegyenes 45°-os. (Ezen az ábrán nem ilyen, itt még természetes egységekben számoltuk a szórást – bármi is az.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kivételek Az r csak lineáris kapcsolatok erőssége mérésére alkalmas. A baloldali pontfelhő nem egy egyenes mentén szóródik. Ez a pontfelhő láthatóan nem rendeződik egy egyeneshez, ezért nem tudunk korrelációt számolni a két változó között. Ha valamilyen matematikai átalakítással lineárissá tudjuk alakítani, akkor lehet valamit kezdeni vele. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kivételek Nem lineáris kapcsolat esetében meg lehet próbálni olyan matematikai átalakítást végezni, amely lineárissá teszi. Itt pl. mindkét változó értékeinek a logaritmusát véve lineáris kapcsolatot kapunk. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kivételek Problémákat okozhatnak az un. magányos elemek. (Pl. magas apa törpenövésű fia; vagy: milliárdos villája egy felsőközép-rétegű kertvárosi kerületben – egymaga elhúzza az átlagot) Megoldás lehet: kihagyjuk őket Lásd ezt a megoldást pontozásos sportoknál: síugrás, műkorcsolyázás De csak óvatosan, mert a valósághoz ezek is hozzátartoznak! Kihagyásuk is torzít. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A korrelációs együttható érdekességei Az r nem az abszolút számok közötti kapcsolatot méri, hanem a szóráshoz képest vett adatok kapcsolatát Miért? Mert standard egységbe számoltuk át az adatokat – más szóval: a szóráshoz viszonyítottuk őket. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A korrelációs együttható érdekességei Az r értéke nem változik, ha… a) … x értékeit ugyanazzal a számmal megszorozzuk. b) … x értékeihez ugyanazt a számot hozzáadjuk (kivonjuk). c) … a változókat (x, y) felcseréljük. Oksági összefüggést nem jelent! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A korrelációs együttható érdekességei Un. ökológiai korrelációk Azokat a korrelációkat hívjuk így, amelyeket csoportosított adatokból számítottak. Pl. Doll: cigarettafogyasztás – tüdőrák országonként (11 ország) Pl. iskolázottság és jövedelem kapcsolata USA teljes (25-54 éves): r = 0,44 államokra átlagolva 51 adatpárból: r = 0,64 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A korrelációs együttható érdekességei Saját „ökológiai korrelációs” példám: Szakmunkástanulók 21 rangsora alapján képzett kategóriák szépen szétváltak. ( társadalmi szakmablokkok) Diszkriminancia-elemzéssel kevéssé rekonstruálható Ok: a csoportokon belüli szórást figyelmen kívül hagytuk. „Társadalmi szakmablokk”: a szakmacsoportok egyes blokkjai más-más funkciót töltenek be a társadalmi mobilitásban. A hetvenes években a legnehezebb és legpiszkosabb szakmákat azok tanulták, akiknek a családjában még nem volt szakmája senkinek. A „legjobb” (vagy „elit”) szakmákba a tősgyökeres szakmunkáscsaládok és egyes a szakmatanulásba szoruló szellemi foglalkozású családok gyerekei jutottak be. Ezt szakmacsoportonként számított adatokból állapítottuk meg. Ha nem szakmacsoportokból, hanem az összes tanuló egyéni adataiból számolunk (diszkriminancia-elemzés), akkor alig látszik ebből valami, mert itt figyelembe vesszük a szakmacsoportokon belüli szórást is. (Ez a példa nem teljesen ugyanaz, mint az „ökológiai korreláció”, de a mögöttes probléma – a csoportokon belüli szórás figyelmen kívül hagyása – ugyanaz.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A REGRESSZIÓSZÁMÍTÁS (Tkv. 188–252. old.)
Mit jelent a regresszió? Politikai-köznyelvi értelemben: a progresszió = haladás, akkor a regresszió = visszafejlődés A statisztikában más a jelentése: két összefüggő változó egyikének visszavezetése a másikra Pl. a testsúly és a testmagasság összefügg megpróbálhatjuk visszavezetni a testsúlyt a test-magasságra (ld. a tkv. példáját) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A regresszió lépésenként – 1. Nézzük meg a pontfelhő átlagától egy szórásnyira lévő x-értékeket! Ezeknek vajon hol van az átlaguk? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A regresszió lépésenként – 2. Természetesen nem a szórásegyenesen, hanem alacsönyabban. Az átlag + 1 szórás testmagassághoz tartozó testsúlyátlag WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A regresszió lépésenként – 3. A magasság ± 2 szórásához tartozó testsúlyátlagok Az átlagnál kisebb x (testmagasság) értékekhez tartozó testsúlyok átlaga a szórásegyenes fölött van. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A regresszió lépésenként – 4. A testmagasság szórásaihoz tartozó testsúlyátlagokat összekötő egyenes: a regressziós egyenes. A testmagasság szórásaihoz tartozó testsúlyátlagokat összekötő egyenes: a regressziós egyenes. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A regresszió lépésenként – 5. Figyeljék meg a szórásegyenes és a regressziós egyenes viszonyát! A regressziós egyenes kevésbé meredek. Miért? Mert az egyes esetek nem ugyanannyira térnek el a magasság átlagától, mint a testsúly átlagától. Milyen kapcsolat lenne, ha ugyanannyira térnének el? Mivel az egyedi esetek nagyon különbözők lehetnek, csak becslést tudunk adni a testsúlyok alakulásáról. Ehhez jó a regressziószámítás. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Regresszió = y becslése y x-re vonatkozó (vagy: x szerinti) regressziós egyenese becslést ad az egyes x értékekhez tartozó y értékek átlagára. Az x egy szórásnyi változásához átlagosan az y értékek r szórásnyi változása kapcsolódik. A korrelációs együttható csak a kapcsolat erősségét mutatja meg, az összefüggés módját pedig a regressziós egyenes. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Regresszió = y becslése ahol r = a korrelációs együttható ! ahol r = a korrelációs együttható ! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Regresszió = y becslése WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Egyedi eset becslése Az átlag + 1 szórás magassághoz tartozó testsúlyátlag. A becsült egyén súlya azonban nem feltétlenül átlagos: lehet sokkal magasabb vagy sokkal alacsonyabb is. Erre nem tudunk becslést adni. Becslés egy adott magasságú egyén súlyára = az átlag! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Egyedi eset becslése Regressziós egyenes A hiba természetesen negatív előjelű is lehet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A regressziószámítás feltételei Kvantitatív változók Folytonos változók Normáleloszlás (haranggörbe-szerű) „Rögbilabda alakú” pontfelhő Lineáris kapcsolat WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Gyakorlatok – 1. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Gyakorlatok – 2. Egy hallgatót 650 ponttal vettek fel az egyetemre. Tippeljük meg az évvégi tanulmányi átlagát! (Tkv. 196–197.) Tudjuk hozzá: a felvételi pontátlaga = 550; szórása 80 p. az évvégi átlag = 2,6; szórása = 0,6 a felvételi pontok és az évvégi átlag közötti kapcsolat: r = 0,4 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Gyakorlatok – 2. A megoldás menete: 1 – Mennyivel jobban felvételizett az átlagnál? 2 – Regressziós becslés a tanulmányi eredmény átlagtól való eltérésére 3 – Mennyit jelent ez az eltérés osztályzatban? 4 – Mit jelent ez az eredmény? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Következtetés y-ból x-re Ugyanolyan számítással becsülhetjük-e a testmagasságot a testsúlyból, ahogyan a testsúlyt becsültük a testmagasságból? A 192 font súlyú személyek testmagasságának átlaga láthatóan nem esik y x szerinti regressziós egyenesére. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Két regressziós egyenes van! y-nak x szerinti regressziós egyenesének meredeksége: r*(y szórása) x-nek y szerinti regressziós egyenesének meredeksége: r*(x szórása) súlyátlag=160 Mivel a két változó közötti kapcsolat erőssége mindkét irányban ugyanaz (r), a két regressziós egyenes a szórásegyenesre szimmetrikusan helyezkedik el és az átlagpontban metszi egymást. magasságátlag=70 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
MINTAVÉTEL, HIBA, VALÓSZÍNŰSÉG
Csákó M.: Társadalomstatisztika MINTAVÉTEL Mit nevezünk mintának? A kutatók többnyire az emberek egy nagyobb csoportjáról – ez a populáció – szeretnének megállapítani számszerű adatokat – un. paramétereket. Mivel a populáció túl nagy, kiválasztanak belőle egy részt, és csak arról gyűjtenek adatokat. Ez a kiválasztott rész a minta. A paramétereket a minta adataiból becsülik: fel-tételezve, hogy a minta olyan, mint a populáció. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika MINTAVÉTEL DE OLYAN-E A MINTA, MINT A POPULÁCIÓ? Mikor lesz jó a becslés? Ha a minta tényleg olyan, mint a populáció. Hogyan tudhatnánk meg? Össze kéne hasonlítani! De ezt nem lehet: hiszen épp azért veszünk mintát, mert az egész populációt nem tudjuk megnézni. Csak azt tudjuk ellenőrizni, hogyan választották ki a mintát. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika MINTAVÉTEL Példa a mintavételi eljárás fontosságára: Roosevelt és Landon megválasztási esélye (1936): A Literary Digest előrejelzése: 43% a Gallup előrejelzése: 56% Roosevelt eredménye: 62% A különbség oka: a mintavétel módja WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika MINTAVÉTEL A Literary Digest eljárása: postai kérdőív 10 millió (!) embernek A neveket honnan választják? telefonkönyvekből, klubnévsorokból DE: a telefonja a családok ¼ részének volt! ez a minta torzít a gazdagok javára! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika MINTAVÉTEL Kétféle torzítás fordul elő: mintavételi torzítás (mint láttuk) a nem válaszolók torzítása Akik nem válaszolnak, azok nagyon különbözhetnek a válaszolóktól! (Ez az egyik nehézsége ma a választási előrejelzéseknek Magyarországon.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika MINTAVÉTEL A véletlen mintavétel a legjobb módszer = a populáció minden tagjának ugyanakkora esélye legyen bekerülni a mintába. Az egyszerű véletlen mintavétel valójában visszatevés nélküli sorsolás (mint a lottó). De így változik a későbbi húzások valószínűsége! Ha nagy a populáció, egy húzás valószínűségét elhanyagolhatóan növeli csak, hogy nem tesszük vissza a kihúzottakat. (Pl. 1/68000; 1/67999…) Ez is ritkán valósítható meg, ezért többnyire többlépcsős csoportos mintavételt alkalmazunk. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Mintavétel Az egyszerű véletlen mintavétel ritkán valósítható meg, ezért többnyire többlépcsős csoportos mintavételt alkalmazunk. Pl. osztályokat választunk, abból diákokat: Legyen Bp-en 500 hetedik osztály, és válasszunk belőle 50-et. Hányféleképpen lehet? első 2. 3. … 49. 50. 500*499*498*…*452*451 = legalább 133 számjegyű ! A megítélése valószínűségszámítási feladat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 126 126
2. Valószínűségszámítás 2.1. Alapfogalmak, szabályok 2.2. A binomiális formula 2.3. Várható érték és standard hiba
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Valószínűség = az eseteknek várhatóan hány százalékában fog bekövetkezni a dolog, ha sokszor, egymástól függetlenül, azonos körülmények között megismételjük a kísérletet. (rövidítése: p – probability) Egy dolognak és az ellentétének a valószínűsége együtt mindig = 100%. (Vagyis: A + nemA = 1) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Véletlenszerű húzás esetén egy dobozban lévő minden lap/golyó kihúzásának ugyanakkora az esélye. Ha visszatevéssel húzunk egymás után többször, akkor ez az esély nem változik. Ha nem tesszük vissza a kihúzott lapot, akkor a következő húzásnál eggyel kevesebb lapból húzunk nő az esély. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Gyakorlás 1. Melyik számnak melyik állítás felel meg? - 50% 0% 10% 50% 90% 100% 200% Ugyanolyan valószínű, hogy bekövetkezik. mint hogy nem. Ez egészen biztosan bekövetkezik. Ez nem következhet be. Bekövetkezhet, de nem valószínű. Nagyon valószínű, de nem biztos. Programhiba WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Gyakorlás 2. 1000-szer dobunk egy érmével. Hány fejre számíthatunk? 100 lapot húzhatunk két doboz egyikéből, visszatevéssel. Minden húzásért annyi $-t kapunk, amekkora szám a lapon van. Melyik dobozt választaná? Miért? 1 2 1 3 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Feltétlen valószínűség: pl. annak a valószínűsége, hogy a pikk dáma a második lap a pakliban. (1/52) Feltételes valószínűség: pl. annak a valószínűsége, hogy a pikk dáma a második lap, HA az első a kőr 7. (1/51 – mert az első lapot már kivettük.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Példa: Mi a valószínűsége annak, hogy elsőre a pikk dámát, és azt megtartva, másodikra a kőr királyt húzzuk a pakliból? Pikk dáma: 1/52 Kőr király: 1/51 Szorzási szabály: Két esemény együttes bekövetkezésének valószínűsége = külön-külön valószínűsé-gük szorzata (pa,b= pa*pb; pl.: 1/52*1/51) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Független és nem független események: nem független a második esemény, ha valószínűsége függ az első bekövetkezésétől; Visszatevés nélküli húzások összefüggenek, visszatevésesek függetlenek egymástól. Nem független események együttes bekövetkezésekor a feltételes valószínűségeket szorozzuk össze, független eseményeknél feltétel nélküli valószínűségüket. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Függetlenség kölcsönös kizárás (!!!) Két esemény kölcsönösen kizárja egymást, ha egyik bekövetkezése esetén a másik nem következhet be. Összeadási szabály: két egymást kölcsönö-sen kizáró esemény közül legalább az egyik bekövetkezésének valószínűsége = = a kettő valószínűségeinek összege. Pl. Az, hogy elsőre a pikk dámát húzzuk-e, majd visszatevése után a kőr 7-est, független egymástól, de nem zárja ki egymást. Ezzel szemben az, hogy elsőre a pikk dámát húzzuk, és ha nem tesszük vissza, másodikra is a pikk dámát húzzuk, kizárja egymást és nem független egymástól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Összeadáskor Szorzáskor „B” esemény „A” esemény Bekövetkezik (I) Nem kö-vetkezik be (H) Bekövet-kezik (I) Kizárt! I + H H + I H + H „B” esemény „A” esemény Bekövetkezik (I) Nem kö-vetkezik be (H) Bekövet-kezik (I) I + I I + H H + I H +H Csak akkor adhatjuk össze két esemény valószínűségét, ha a két esemény kölcsönösen kizárja egymást. és annak a valószínűségét keressük, hogy az egyik bekövetkezik. Szorzással annak a valószínűségét kapjuk meg, hogy egymást nem kizáró események együtt bekövetkeznek. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Ismétlő gyakorlat 1 2 3 4 5 1 2 3 4 5 6 „B” doboz „A” doboz Egy-egy lapot húzunk az „A” és a „B” dobozból. Állapítsák meg annak valószínűségét, hogy… a húzott számok egyike 2 és a másika 5. a számok összege 7. a két szám egyenlő. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Ismétlő gyakorlat (bemutatása) 1 2 3 4 5 1 2 3 4 5 6 „B” doboz „A” doboz Mi annak valószínűsége, hogy a számok összege 7 a) hányféleképpen fordulhat elő a 7 mint összeg? „A”=1 és „B”=6. „A”=2 és „B”=5. „A”=3 és „B”=4. „A”=4 és „B”=3. „A”=5 és „B”=2. b) Hányféle „kimenet” van összesen? Akkor p(7) = ? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kutatási példa A középiskolások jogtudatának fokát azzal mértük, hogy három gyakorlati példából hányban ismerik fel, mihez van joguk. Kérdésenként 3 válaszból kellett a helyeset kiválasztani. Forrás: „Iskola és társadalom 2005” kutatás (ELTE TáTK, kut.vez. Csákó M. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kutatási példa Melyik eredménynek mekkora a valószínűsége? Hányféleképpen lehet 0 találat? Nem 1-féleképpen!!! Jelöljük az 1. kérdést normál, a 2.-at dőlt, a 3.-at vastag betűkkel, legyen R=rossz, J=jó, és számozzuk a lehetséges válaszokat! 0: (R1 R1 R1) (R1 R1 R2) (R1 R2 R1) (R2 R1 R1) ugyanez a számok felcserélésével (R2 R2 R2) Vagyis: 8-féleképpen lehet 0 szintű jogtudat!!! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kutatási példa Jelöljük az ábrán az egyes szintek valószínűségét! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Kutatási példa Megállapítás: A magyar középiskolások jogismereti válaszainak eloszlása nem tér el attól, mintha csak találgatnának. Következtetés: A magyar középiskolások általában nem ismerik a jogaikat. A valószínűségi eloszlás figyelembe vétele ahhoz segített, hogy ne csak a normához (3), hanem a „0-ponthoz” is mérhessünk. Mire gondolhatnánk, ha 0 találatból több, 2 és 3 találatból sokkal kevesebb lenne, mint valószínű? (Mire gondolhatnánk?): Arra, hogy a diákokat valami/valaki félrevezeti jogaikat illetően. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Esélyek, valószínűség Példa: Mekkora a valószínűsége annak, hogy a lottón a 8-jegyű joker-számban két 0 lesz? Tíz szám közül húznak, visszatevéssel. Mennyi a kedvező eset, és mennyi az összes? Egyszerűbb példa: 5-ször húzunk visszatevéssel 9 zöld és 1 piros golyó közül – mekkora a való-színűsége annak, hogy kétszer húzunk pirosat? Itt könnyű listát csinálni a kedvező esetekről: PPZZZ PZPZZ PZZPZ PZZZP ZPPZZ ZPZPZ ZPZZP ZZPPZ ZZPZP ZZZPP (10 kedvező) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Binomiális együttható A binomiális együttható azt mondja meg, hányféleképpen lehet sorba rendezni n elemet, ha közülük k egyfajtájú és n-k egy másik fajtájú: n! k! * (n-k)! Az előbbi példa lehetséges sorrendjei: 5! 5*4*3*2*1 2!*(5-2)! (2*1)*(3*2*1) (Ha bonyolultnak látszik a mondat, helyettesítse be így: k = „néhány” n-k = „a többi”.) = = 5*2 = 10 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Binomiális formula A formula nem más, mint a binomiális együttható alkalmazása a keresett valószínűség kiszámítá-sára (k és n-k valószínűségével kell szorozni). Pl. a piros és zöld golyók esetében: p(piros) = 1/10; p(zöld) = 9/10 Két piros golyóra p=(1/10)2 …. (a kitevő=k), Három zöld golyóra p=(9/10)3 …. (a kitevő=n-k). A binomiális formula feltalálását Pascalnak és Newtonnak tulajdonítják, de a kínai Jia Xian már a 11. században felfedezte. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika A nagy számok törvénye Ha több „fej” jött egymás után, megnő-e az „írások” valószínűsége? NEM! => Mindig 50% marad. Minél hosszabb a feldobás-sorozat, annál nagyobb az abszolút eltérés a várható értéktől, de annál kisebb az eltérés százalékban. De mindig van „véletlen hiba”. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika A nagy számok törvénye A dobások számá-val a hiba abszolút nagysága nő. A dobások számá-nak növekedésével a „fejek” aránya egyre kevésbé tér el az 50%-tól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika A nagy számok törvénye „Fejek” száma = várható érték + véletlen hiba A véletlen hiba a dobások számával nő, de egyre kevésbé tér el az 50%-tól. A véletlen hiba nagyjából a dobások száma sokszorozódásának négyzetgyöke arányában nő. = 100-szor annyi dobás hibája kb. 10-szeresre nő WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Véletlen folyamatok Az érme feldobálása, a rulettezés, egy választási előrejelzés mintavétele – mind véletlen folyamat, vagyis: a következő dobásoknál, pörgetésnél, mintavételnél más lesz a fejek, a nyertesek, a szocialisták és jobbikosok aránya. A statisztika megpróbálja kiszámítani közelítőleg, h. mennyire függenek a számok a véletlentől. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Véletlen folyamatok Két fő gondolat: 1. hasonlóságot keresünk a minket érdeklő véletlen folyamat (mintavétel) és egy dobozból való véletlen húzások között; 2. a bennünket érdeklő ingadozást (pl. Fidesz szavazók becsült aránya) párhuzamba állítjuk a dobozból húzott számok összegének véletlen ingadozásával. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Dobozmodell bevezetése 1 2 3 4 5 6 Ebből a dobozból húztunk 25-ször, vissza-tevéssel, feljegyeztük a lapokra írt számokat, és összeadtuk őket. Tízszer megismételtük a sorozatot és a következő eredményeket kaptuk: 88 84 80 90 83 78 95 94 80 89 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Dobozmodell bevezetése WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Dobozmodell bevezetése Jó, hogy ezt tudjuk a húzás-sorozatokról, de hogyan csináljunk modellt? Az alapvető eldöntendő kérdések: Milyen számok kerüljenek a dobozba? Melyikből mennyi? Hányat húzzunk? Egyelőre csak szerencsejátékokra nézzük. (Rulett) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Dobozmodell bevezetése Szerkesszünk dobozmodellt nevadai ruletthez! A fő: a dobozból minden számot ugyanolyan valószínűséggel húzhassunk, mint amekkora a annak a valószínűsége, hogy annyit nyerjünk a valóságban. Tegyünk fel 1$-t a a) párosra b) harmadik tucatra c) sarokra (négy számra) a) 18 db +1$; 20 db -1$ 12 db +2$; 26 db -1$ 4 db +8$; 32 db -1$ WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
3. Hibák valószínűsége
Dobozmodell és mintavétel Dobozmodellel tudjuk ellenőrizni (vala-mennyire) a mintavételünket: Ha ismerjük a populáció egy változójának eloszlását (pl. férfi/nő), akkor kiszámíthat-juk, mekkora lehet a standard hiba a mintában. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Dobozmodell bevezetése Fontos fogalmak: várható érték = a modell alapján várt összeg véletlen hiba = a várható érték eltérése a ténytől standard hiba = a modell alapján várt eltérés összeg = várható érték + véletlen hiba várható érték = (doboz átlaga)* húzások standard hiba = a doboz szórása* húzások WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Dobozmodell és mintavétel Pl. (a tkv-ből): Egy populációban 46% férfi és 54% nő van. Az első 100 fős mintában 51% ffi és 49% nő. mintabeli % = alapsokaságbeli % + véletlen hiba Egyszerű véletlen mintában a %-arány várható értéke = alapsokaságbeli %-arány. A %-arány standard hibájához szükségünk van a darabszám standard hibájára: a %-arány standard hibája a darabszám standard hibája a %-arány standard hibája = * 100% a minta nagysága WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Mintavétel és standard hiba A mintabeli darabszám standard hibája a mintanagyság négyzetgyökével arányosan nő. A mintabeli %-arány standard hibája a mintanagyság négyzetgyökével arányosan csökken. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A statisztikai becslés Mit tehetünk akkor, ha nem ismerjük az alapsokaság eloszlását? (épp azt keressük) Pl. hányan regisztráltatnák magukat? 1 ?? db ?? db A mintabeli arányt fogadjuk el a doboz szórásának megállapításához (100 fős minta 10000 választóból) (pl. 64 igen 36 nem s=0,64*0,36 = 0,2304 = 0,48) A standard hiba akkor 100 * 0,48 = 4,8 vagyis a regisztrálók aránya 64% ± 4,8% Ez az un. bootstrap módszer. ?? db WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
A statisztikai becslés Konfidencia-intervallum = Milyen határok között megbízható a becslés? A normálgörbét vesszük segítségül: ± 2SH-n belül 95% biztonságú! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
4. Szignifikanciaszámítások
Mire jó a szignifikancia-próba? Válaszol arra a kérdésre, hogy egy eredmény a véletlen műve-e, vagy valami más oka kell legyen. Más megfogalmazásban: származhat-e az eredmény a mintavétel véletlen ingadozásából? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Mire jó a szignifikancia-próba? Pl. adótörvényt egyszerűsítő törvényjavaslat A javaslat szerint a beszedett adó mennyisége nem fog változni. Mit is jelent ez? ∑ változás = új adózás – régi adózás = 0. Ha v > 0, akkor többet szednek be; ha v < 0, akkor kevesebbet szednek be. A tankönyv részletesen ismertetett példája. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Mire jó a szignifikancia-próba? Ellenőrzés: mekkora lehet a standard hiba? Lépések: 100 lapos mintát vettek 100 000 adólapból. Mintaátlag = - 219 $; szórás 725 $ Eredhet-e a várt 0 $ és a „tényleges” -219 $ különbsége a mintavétel véletlen ingadozásából? Dobozmodellt készítenek: 100000 lappal és 100-at húznak közülük. A doboz szórását az adatok szórásával becsülik! Akkor SH = 100 * 725 $ / 100 = 72,5 $ Az átlag (-219$) a feltevéstől (0$) 3 SH-nyira van! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Mire jó a szignifikancia-próba? Mit is jelent ez? Használjunk normális közelítést! (Az adóváltozások eloszlása nem normális, de az átlag körüli ingadozás normális!) Az átlag ekkora eltérésének valószínűsége mindössze p = 1‰ – tehát nem véletlen. tehát a kincstár valószínűleg átlagosan >200 $-t fog veszteni adófizetőnként, azaz összesen kb. 20 md-ot (100 000 adózóval) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Mit használtunk a példában? A (null)hipotézist (változás = 0) Mintavételt (átlag, szórás) Az ellenhipotézist (változás = -219$) Dobozmodellt Az átlag körüli véletlen ingadozásról szerzett ismereteket (SH számítása) A normális közelítést WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Szignifikancia-próba Nullhipotézis = Az eltérést a véletlen okozza. Ellenhipotézis = Az eltérésnek más oka van. Dobozmodell nélkül nincs korrekt szignfikancia-próba! Próbastatisztika – azt méri, mennyire térnek el az adatok a nullhipotézis szerint várható értéktől. Ezekkel kiszámítjuk a szignifikanciaszintet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Szignifikancia-próba megfigyelt érték – várható érték z-próba: z = A z-próba azt mondja meg, hogy a megfigyelt érték hány standard hibányira van a nullhipotézis alapján kiszámolt várható értéktől. A z-próbát két független minta össze-hasonlítására is használhatjuk. standard hiba WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Szignifikanciaszint Megfigyelt szignifikanciaszint = annak valószínűsége, hogy olyan szélsőséges próbastatisztikát kapunk, mint amit meg-figyeltünk – ehhez feltesszük, hogy a nullhipotézis igaz. NEM AZT jelenti, hogy mennyire valószínű a nullhipotézis, hanem azt, hogy mennyire valószínű a próbastatisztika, HA igaz a nullhipotézis. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Szignifikancia-próbák z-próba (az előbb láttuk) – nagy mintára t-próba – olyan, mint a z-próba, de kis mintán alkalmazható torzítás nélkül χ2-próba (khí-négyzet próba) – több kategória összehasonlítására alkalmas: összeadja a (megfigyelt érték – várható érték) SH törteket. Az összeg már nem normáleloszlású, ezért külön táblázat tartalmazza a χ2-görbék alatti területekhez tartozó valószínűségeket. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
χ2-próba számítása c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN: FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE GY KZP JÓ Összes F 45 várható L 55 Együtt 35 50 15 100 1. A két változó (nem, tanulmányi eredmény) külön-külön eloszlása a mintában. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
χ2-próba számítása c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN: FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE GY KZP JÓ Összes F 10 25 45 várható L 5 55 Együtt 35 50 15 100 Az esetek megfigyelt száma a két változó szerint. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
χ2-próba számítása SZIGNIFIKANCIA c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN : FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE GY KZP JÓ Összes F 10 25 45 várható 15,75 22,5 6,75 eltérés L 5 55 24,25 8,25 Együtt 35 50 15 100 0-hipotézis: a két nem között nincs különbség = azaz mindkettőben ugyanolyan arányban vannak gyenge, közepes és jó tanulók, A táblázatba beírtuk a 0-hip. alapján várható esetszámokat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
χ2-próba számítása SZIGNIFIKANCIA c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN : FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE GY KZP JÓ Összes F 10 25 45 várható 15,75 22,5 6,75 eltérés 5,75 2,5 3,25 L 5 55 24,25 8,25 0,75 Együtt 35 50 15 100 Beírtuk a megfigyelt és a várható értékek különbségét. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
χ2-próba számítása SZIGNIFIKANCIA c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN : FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE GY KZP JÓ Összes F 10 25 45 várható 15,75 22,5 6,75 eltérés2 33,06 6,25 3,25 3,89 L 5 55 24,25 8,25 0,56 10,56 6,27 Együtt 35 50 15 100 c2összeg 10,16 Az eltérést négyzetre emeljük és elosztjuk a várható gyakorisággal és összegezzük. A χ2 összeget a két változó együttes szabadságfokának megfelelő sorban keressük vissza a χ2-táblázatból. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika χ2-próba számítása A fiúk és lányok tanulmányi eredményének összehasonlításában a χ2-összeg = 10,16 A táblázat szabadságfoka (df) = ahány cella „szabadon” kitölthető, ha ismerjük a „peremeloszlást” (=az „összesen”-eket) – ez most itt df = 2. Nézzük meg a táblázatot (585. oldal) ! A szabadságfok = 2 sorban a legnagyobb szám 9,21 – és ott p = 1% ! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika χ2-próba számítása Mit jelent ez? Értelmezés: Azt, hogy ilyen nagy próbastatisztikát (χ2 = 10,16) csak 1%-nál is kisebb valószínűséggel kaphatnánk véletlenül. Vagyis: Következtetés: Nyugodtan elvethetjük azt a null-hipotézist, hogy a fiúk és a lányok tanulmányi eredménye közötti eltérés oka pusztán a véletlen mintavétel. A fiúk és a lányok eredménye tényleg különbözik egymástól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika ÖSSZEFOGLALÁS WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Miről szólt ez a kurzus? Megszámlálható és megmérhető dolgok adatainak kezeléséről : - hogyan tudjuk leírni őket; - hogyan tudunk jellemzőik alapján következtetéseket levonni; - hogyan tudunk közöttük kapcsolatokat megállapítani; - hogyan tudunk olyanokat megismerni, amelyekhez nem férünk hozzá; - hogyan tudunk megbizonyosodni arról, hogy következtetéseink nem a véletlen művei. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika
Csákó M.: Társadalomstatisztika Miről szólt ez a kurzus? Leírás: hisztogram, átlag, szórás Következtetések normálgörbével Kapcsolatok megállapítása: varianciaelemzéssel, korreláció- és regressziószámítással Az alapsokaság paramétereinek becslése mintavétellel A valószínűségszámítás alkalmazása a standard hiba kiszámítására és a minta véletlen ingadozásának ellenőrzésére (dobozmodellel) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika