TÁRSADALOMSTATISZTIKA

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Események formális leírása, műveletek
Hipotézis-ellenőrzés (Statisztikai próbák)
I. előadás.
Kvantitatív Módszerek
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Kvantitatív módszerek
A SZÓRÁS FONTOSSÁGA ÉS KISZÁMÍTÁSA
3. Két független minta összehasonlítása
Valószínűségszámítás
Két változó közötti összefüggés
Mérési pontosság (hőmérő)
Becsléselméleti ismétlés
STATISZTIKA II. 5. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Közlekedésstatisztika
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
Előadó: Prof. Dr. Besenyei Lajos
III. előadás.
A középérték mérőszámai
A hisztogram Társadalomstatisztika, 2. előadás 2012/13. tanév, 1. félév Csákó Mihály (WJLF)
Regresszióanalízis 10. gyakorlat.
Varianciaanalízis 12. gyakorlat.
ÖSSZEFOGLALÓ ELŐADÁS Dr Füst György.
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Kvantitatív módszerek
A statisztikai próba 1. A munka-hipotézisek (Ha) nem igazolhatók közvetlen úton Ellenhipotézis, null hipotézis felállítása (H0): μ1= μ2, vagy μ1- μ2=0.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Logikai szita Izsó Tímea 9.B.
A kenyérfogyasztás veszélyei A legújabb kutatások alapján... PéPéeS
Készítette: Horváth Zoltán (2012)
Kvantitatív Módszerek
Kvantitatív módszerek
Valószínűségszámítás
Hipotézis vizsgálat (2)
Többváltozós adatelemzés
Hipotézis-ellenőrzés (Folytatás)
Alapsokaság (populáció)
Hipotézis vizsgálat.
Alapfogalmak.
Lineáris regresszió.
Többtényezős ANOVA.
Adatleírás.

Diszkrét változók vizsgálata
Két kvantitatív változó kapcsolatának vizsgálata
HALLGATÓI ELÉGEDETTSÉGI VIZSGÁLATOK A WJLF-EN A es tanév eredményei.
Adalékok a magyar tizenévesek vallásosságáról a rendszerváltás után Csákó Mihály CSc egyetemi docens WJLF Pedagógiai Tanszék.
Paleobiológiai módszerek és modellek 4. hét
Valószínűségszámítás
I. előadás.
TÁRSADALOMSTATISZTIKA Sztochasztikus kapcsolatok II.
Statisztikai alapfogalmak
1. Melyik jármű haladhat tovább elsőként az ábrán látható forgalmi helyzetben? a) A "V" jelű villamos. b) Az "M" jelű munkagép. c) Az "R" jelű rendőrségi.
Valószínűségszámítás - Statisztika. P Két kockával dobunk, összeadjuk az értékeket Mindegyik.
Számtani és mértani közép
Mikroökonómia gyakorlat
Valószínűségszámítás II.
Többdimenziós valószínűségi eloszlások
A számítógépes elemzés alapjai
Gazdaságstatisztika Gazdaságstatisztika Korreláció- és regressziószámítás II.
A számítógépes elemzés alapjai
Szóródási mérőszámok, alakmutatók, helyzetmutatók
I. Előadás bgk. uni-obuda
Adatfeldolgozási ismeretek műszeres analitikus technikusok számára
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Előadás másolata:

TÁRSADALOMSTATISZTIKA Wesley János Lelkészképző Főiskola Pedagógia alapszak, I. évfolyam TÁRSADALOMSTATISZTIKA Előadó: Csákó Mihály egyetemi docens 30 kontaktóra + 60 egyéni munkaóra = 3 kredit (Levelező: 12 kontakt + 78 egyéni munkaóra) A jegyzet-rovatot is érdemes figyelni!!! FIGYELEM! A jegyzeteket is figyeljék, mert időnként fontos magyarázatokat vagy további példákat írtam ebbe a rovatba!!! A Bevezetés a pedagógiai kutatás módszertanába c. tárgyban tanultak ismertét kénytelen vagyok feltételezni.

Az előadások beosztása: 1. Mi a statisztika és mire jó? A kurzus célja 2. Adatgyűjtés és ábrázolás: a hisztogram 3. Csoportok jellemzése: középértékek 4. Csoportok szóródása: a szórás 5. A normálgörbe 6. A normális közelítés módszere 7. Két változó kapcsolata: varianciaelemzés 8. Két változó kapcsolata: korreláció 9. Két változó kapcsolata: regresszió 10. Statisztikai következtetés: mintavétel 11. Valószínűségszámítás 12. Megbízhatósági próbák, szignifikancia WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Számolási gyakorlat Ránézésre becsüljék meg a következő számokat %-ban! (Kb. 1%,10%, 50% …?) 99 a 407-ből? 57 a 209-ből? 99 a 197-ből? 39 a 398-ból? Ezek kb. a legnehezebb számolási feladatok amelyek előfordulhatnak a félév során. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Az igazság keresése: a kenyérfogyasztás példája 1. A büntetés-végrehajtási intézetekben fogva tartott elítéltek több mint 98 %-a  kenyérfogyasztó. 2. A kenyérfogyasztó családokban felnövekedő gyermekek 50 %-a a standardizált teszteket átlag alatti eredménnyel teljesíti. 3. A XVIII. században, amikor gyakorlatilag minden kenyér otthon, a háztartásban készült, az átlag-életkor nem érte el az 50 évet, a csecsemőhalandó-ság elfogadhatatlanul magas volt, sok nő belehalt a szülésbe, és a lakosságot olyan járványok tizedel-ték, mint a tífusz, a sárgaláz és az influenza. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Az igazság keresése: a kenyérfogyasztás példája  4. Az erőszakos bűncselekmények több mint 90 %-át kenyérfogyasztás után 24  órán belül követik el.  5. A kenyér alapanyaga a tésztának nevezett szub-sztancia. Kísérletek során bebizonyosodott: ebből az anyagból néhány dekagramm elég, hogy egy egér megfulladjon tőle. Az átlag magyar ennek sokszorosát fogyasztja el egy hónap alatt!  6. A primitív törzsi társadalmakban, ahol a kenyér-fogyasztás ismeretlen, évszázadok óta feltűnően kevés rákos megbetegedést, Alzheimer-és  Par-kinson-kóros, csontritkulásos esetet jegyeztek fel. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Az igazság keresése: a kenyérfogyasztás példája 7. A kenyér bizonyítottan addiktív. Kísérleti alanyok, akiktől egy időre  megvonták, és csak vízzel táplálták őket, alig 2 nap elteltével már  kenyérért könyörögtek.  8. A kenyérfogyasztás sok esetben csak előkészítője a "keményebb"  élelmiszerek, mint például a vaj, lekvár, méz fogyasztásának. 9. A kenyérről bebizonyosodott, hogy magába szívja a vizet. Mivel az emberi testet több mint 90%-ban víz alkotja, a huzamos kenyérfogyasztás beláthatatlan következményekkel járhat a szervezet molekuláris összetételében. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Az igazság keresése: a kenyérfogyasztás példája 10. Az újszülöttek köhögnek a kenyértől. 11. A kenyeret 200 Celsius-fok körüli hőmérsékleten sütik. Ez a hőmérséklet nem egészen egy perc alatt elpusztít egy felnőtt embert. 12. A legtöbb kenyérfogyasztó képtelen megkülönböztetni a tudományos  tényeket a statisztika álruhájába burkolt, értelmetlen locsogástól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Találkozásaink a statisztikával: hétköznapi tapasztalatok Népszámlálás Az európai népesség öregedése A magyar népesség fogyása A cigány gyerekek iskolázottsága Éves iskolai statisztikai jelentés A levegő hőmérsékletének sokévi átlaga Foglalkozási kategóriák átlagkeresete Munkanélküliség mértéke Stb. Kezdjük úgy, hogy összekapcsoljuk az ismerkedést és a tantárgyi gyakorlatot: Felmérés: ki találkozott már gyakorlatban a statisztikával? / Ki volt jó matekos? (Hol, hogyan, miért?) Ki szerzett valamilyen tapasztalatot: adatszolgáltatóként, kérdezőbiztosként (pl. népszámlálásban)? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Példa az alkalmazásra Freedman: májműtétes példája Veszélyes bypass műtét, de életmentőnek tartják. Kérdés: „megéri-e”? Hogyan lehet megtudni? Számoljuk meg az eredményt! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Mit értünk statisztikán? Összeszámlálás, Jelzőszámok Kapcsolatkeresés, Feltételezett kapcsolat ellenőrzése, magyarázat-keresés minőség-ellenőrzés Kutatási módszer (- pl. survey) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika ÖSSZEFOGLALÁS Mivel kezdődik a statisztikai tevékenység? Nem az adatgyűjtéssel, hanem a kategóriák megtervezésével. Mi mindenről kell dönteni az adatgyűjtéssel kapcsolatban? Kiktől? – miféle válaszok lehetségesek? Mit, milyen adatot gyűjtünk? Hogyan gyűjtjük? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika ÖSSZEFOGLALÁS: Célok Milyen célok érdekében gyűjtünk adatot? Leggyakrabban egy népesség/csoport leírására. Szélsőséges pl.: a népszámlálás – mi baj? Több mint 20 kötet adat – áttekinthetetlen A „demográfiai adatok” 1 kötet (vagy 19)… „Magyarországon az átlagéletkor: év” vagy: „Magyarországon az átlagkereset…” WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Változók Miért vizsgáljuk a dolgokat vagy személyeket? mert nem egyformák, sokfélék, és ráadásul változnak. Dolgoknak vagy személyeknek azt a tulajdonságát, jellemzőjét, amelyet vizsgálunk, változónak nevezzük. Pl.: életkor; fizetés; gyerekszám; munkahelyváltoztatások száma. Nem biztos, hogy megszámlálható (pl. lakóhely). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A tankönyv példája: jövedelem az USÁ-ban Mivel az emberek jövedelme nem ugyanakkora (változó), fontos tudni, hogy ezek a különbségek hogy alakulnak: mekkora csoportoknak mekkora jövedelmük van. Ábránkon azt látjuk, hogy kétszer annyi amerikainak van 1000 és 2000 $ közötti évi jövedelme, mint ahánynak legfeljebb 1000 $. 2000 és 3000 $ közötti összeget háromszor annyian keresnek, mint 0 és 1000 $ közötti összeget. És így tovább. Évi 5000 és 6000 $ közötti összeget már ötször annyian hoznak össze. De hánynak van 7000 és 10000 $ közötti jövedelme? Talán szintén ötször annyinak? Az nagyon furcsa lenne. A 7000 és 10000 $ közötti jövedelemmel bírókat jelző téglalap láthatóan ugyanolyan széles, mint a 4000 és 7000 $ közötti jövedelműeké. A hisztogramon ez azt jelenti, hogy ugyanannyian is vannak. NEM az „oszlopok” magassága számít, hanem A TÉGLALAPOK TERÜLETE. Ezért a hisztogram téglalapjainak összes területe megfelel az összes összeszámlált adatnak (ebben az esetben WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A tankönyv példája: jövedelem az USÁ-ban A függőleges tengely = = sűrűségskála (%/egység) A függőleges tengely = sűrűségskála (%/egység) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A tankönyv gyakorló feladata 1. A megoldások megtalálhatók a tankönyvben, többnyire egy kis magyarázattal. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A tankönyv gyakorló feladata 2-3. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A tankönyv gyakorló feladata 4. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A 18 évesek apjának és anyjának életkora (2010-2011) Forrás: Az OTKA K75879 sz. szerződéssel támogatott „Családi Politikai szocializáció” c. kutatás (kut. vez. Csákó Mihály) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Az apák életkora: grafikon Év Szám % 40-ig 257 9 41-45 1046 36 46-50 864 30 51-55 446 16 56-60 175 6 több 84 3 Csoportosított adatok. Ez a grafikon csak szemléltető eszköz - csak egy dolgot mutat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Az apák életkor szerint: hisztogram   36% 30% 16% 9% 6% 3% 32 40 45 50 55 60 74 A hisztogram pontosan megfelel az adatoknak, nemcsak szemléltet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Feladat: Rajzolják meg a hisztogramot! Testvérek száma Eset % 28,1 1 47,1 2-3 22,5 4-8 2,3 IDE Mire kellett ügyelni? – Nem %-grafikon, hanem hisztogram: a vízszintes tengely fontos! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A középértékekkel (átlag) egy csoport gyors áttekintését kívánjuk nyújtani. Alkalmazásuk feltételei: 1. legyen értelmezhető csoport, amelyet jellemez (pl. 7.osztály; bérből élők…) 2. a célnak megfelelőt válasszuk a középértékek közül WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A középértékek fajtái: - számtani átlag - medián - módusz - négyzetes átlag - harmonikus átlag - mértani átlag WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A számtani átlag a legismertebb. Képlete: a1+a2+…+an Σa ā = = n n WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK Mikor jó és mikor problémás a számtani közép: pl. testvérszám; testmagasság. A módusz a középtendenciát jobban kiemeli (ha van) = leggyakoribb érték A medián jó jelzőszám, de előnytelen matematikailag további számításokhoz WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK A hetedikesek kérésünkre megjelölték egy [0; 100] egyenes szakaszon, hány % esélyük van rá, hogy érdemi választ kapjanak tanáraiktól a kérdéseikre. Az esélyüket átlagosan 58,9%-ra becsülték. A medián érték 59,8%, a módusz pedig 41-60% (mivel csoportosítottuk a válaszokat). Mi a véleményük erről? Mit jelent ez? Milyenek lehetnek a vélemények részletesebben? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK N= 27 62  81 182  133  169 45 = 699 % 3,9 8,9  11,626,0  19,024,2 6,4 = 100 Átlag =  Módusz = 40–60%  Medián = 350. eset = =180. a (40-60)-ban = = 59,78  59,8  WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK Példa: Márta néni fantasztikus matektanár: minden osztályában eléri matekból a 3,2 átlagot, még az összevont osztályban is! Hogyan? „a” osztály: 2- 6; 3- 1; 4- 2; 5- 3 (12 fő) „b” osztály: 2- 2; 3- 6; 4- 4; 5- 0 (12 fő) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy: 5 Rajzoljuk meg először a hisztogramokat! Az osztályzatokat a (vízszintes) tengelyen ábrázoljuk, ezen helyezünk el annyi tanulót, ahányan az adott osztályzatot kapták . WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 31 31

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 5 Az A osztályban 6 elégséges volt  elhelyezünk a kettesre hat azonos méretű egységet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 32 32

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy: 5 Ugyanígy elhelyezzük a többi tanulót is a skálára. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 33 33

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy: 5 Megismételjük az eljárást a B osztályra is. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 34 34

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy: 5 12 + 3 + 8 + 15 = 38 átlag (ā) 38 : 12 ≈ 3,2 Kiszámítjuk az A osztály osztályzatainak átlagát (6 db kettes = 12; 1 db hármas = 3 stb. összeadva, elosztva a tanulók számával). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 35 35

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy: 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 Ugyanezt csináljuk a B osztályra is. Látjuk, hogy az átlagok egyenlők. Az osztályok azonban látványosan különbözők matekból! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 36 36

Csákó M.: Társadalomstatisztika KÖZÉPÉRTÉKEK Hogyan lehetne kifejezni a két osztály különbségét? Miben is áll ez a különbség? Átlag „a”: 12+3+8+15=38 38/12=3,17 ≈ 3,2 Átlag: „b”: 4+18+16+0=38 38/12=3,17 ≈ 3,2 Az átlaguk azonos – mi eltérő? A szóródás WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 37 37

Csákó M.: Társadalomstatisztika A SZÓRÁS Eredmény: A két osztály átlageredménye azonos (3,2) de az egyikben nagy különbségek vannak a tanulók között (s  1,3), míg a másikban közel állnak egymáshoz (s  0,7). Vagyis a szórás segítségével tudjuk számszerűsíteni a különbséget. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 38 38

Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRTÉKE Mi a tanulság? A valóság a szóródásban rejlik, a középérték erős absztrakció. A mozgás mindig különbségből ered, oka tehát a különbségek okában van.  Valamiképpen fogalmilag ki kell fejezni a változatosságot:  a szórás mérőszámaival. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 39 39

Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE Első megközelítés: szélső értékek, vagyis az eloszlás kiterjedése. Pl. az emberi testmagasság A legmagasabb ismert férfi: Robert Pershing Wadlow (1918-1941) 272 cm A legmagasabb ismert nő: Zeng Jinlian (1964-1982) 246 cm WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 40 40

Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 41 41

Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE A valaha ismert legalacsonyabb emberek: Nő: Pauline Musters (1876-1895) 59 cm. Férfi: Calvin Philips (1791-1812) 67 cm. Eleget tudunk-e így az emberi testmagas-ságról? Nem: az eloszlás még sokféle lehet a két végpont között. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 42 42

Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE Második megközelítés = az esetek zömének kiterjedése = interkvartilis távolság Pl. a tanári válasz esélye: N= 27 62  81 182  133  169 45 = 699 % 3,9 8,9  11,626,0  19,024,2 6,4 = 100 kvartilis = a 175. eset (40-60%) kvartilis = medián kvartilis = az 525. eset (80-100%) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 43 43

Csákó M.: Társadalomstatisztika A SZÓRÓDÁS MÉRÉSE Harmadik megközelítés = az esetek átlagtól való távolságának átlaga = = szórás (s) A kiszámítás módja: négyzetes átlag Σ(a – ā)2 s =  N Magyarázat: az összeadás tagjai előjelesek. (Lássuk Márta néni osztályainak példáján!) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika   12 fő 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 Milyen távol esnek az egyes tanulók átlagosan az átlagtól? Elkezdjük kiszámítani a szórást az A osztályra. Minden egyes tanuló osztályzatából kivonjuk az átlagot. Az a-ā sor ezt 1 tanulóra tartalmazza. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 45 45

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 Mivel előjeles távolságok vannak, el akarjuk kerülni a negatív előjeleket: négyzetes átlagot számítunk  négyzetre emeljük a távolságokat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 46 46

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 8,64 + 0,04 + 1,28 + 9,72 ånx = 19,68 Mivel nem csak egy tanuló van az adott távolságra, a négyzetes távolságokat megszorozzuk az adott osztlyzatot kapott tanulók számával. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 47 47

Csákó M.: Társadalomstatisztika   12 fő 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 8,64 + 0,04 + 1,28 + 9,72 ånx = 19,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 A szorzatokat összeadjuk, és elosztjuk a tanulók számával (átlagolás). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 48 48

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 8,64 + 0,04 + 1,28 + 9,72 ånx = 19,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 A kapott átlagból négyzetgyököt vonunk, hogy visszatérjünk arra a szintre, ahonnan elindultunk. Az A osztályban a tanulók átlagos távolsága az átlagtól (vagyis az osztály szórása matekból) 1,3 osztályzat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 49 49

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 2x1,44 6x0,04 4x0,64 8,64 + 0,04 + 1,28 + 9,72 2,88 + 0,24 + 2,56 + ånx = 19,68 = 5,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 Ugyanezeket a lépéseket elvégezzük a B osztályra is. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 50 50

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 2x1,44 6x0,04 4x0,64 8,64 + 0,04 + 1,28 + 9,72 2,88 + 0,24 + 2,56 + ånx = 19,68 = 5,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 √(5,68:12) Eljutottunk a gyökvonásig, de már látjuk, hogy az eredmény kisebb lesz, mint A esetében. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 51 51

Csákó M.: Társadalomstatisztika   12 fő B 6 1 2 3 4 jegy 5 12 + 3 + 8 + 15 4 + 18 + 16 + = 38 átlag (ā) 38 : 12 ≈ 3,2 a-ā 1,2 0,2 0,8 1,8 (a-ā)2 1,44 0,04 0,64 3,24 nx 6x1,44 2x0,64 3x3,24 2x1,44 6x0,04 4x0,64 8,64 + 0,04 + 1,28 + 9,72 2,88 + 0,24 + 2,56 + ånx = 19,68 = 5,68 Ö(ånx)/N √(19,68:12) ≈ 1,3 √(5,68:12) ≈ 0,7 Valóban: a B osztály szórása csak 0,7 osztályzat, alig több, mint feleakkora az A osztályéhoz képest. Ez a két osztály különbsége matekból. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 52 52

A SZÓRÓDÁS MÉRÉSE = Az osztályok különbsége abban áll, hogy az „A” osztályban az eredmények szórása csaknem kétszer akkora, mint a „B”-ben: sa=1,3 osztályzat sb=0,7 osztályzat

Csákó M.: Társadalomstatisztika A SZÓRÁSEGYSÉG 103. OLDAL ÁBRA A szórást tekinthetjük az esetek átlagtól való távolsága átlagának. Ha ezt az átlagos távolságot egységnek tekintjük, minden egyes eset átlagtól való távolságát kifejezhetjük azzal, hogy hány szórásnyira van az átlagtól. A hisztogram ettől nem változik (hiszen maguk a mért esetek ugyanazok), csak a skála mértékegysége más: a szórásegység vagy standard egység. Ennek előnye: különböző eloszlások számszerűen összehasonlíthatók, mert a távolságot a szórásegységgel osztva „kiesnek” a természetes egységek (gramm, cm, Ft stb.). WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika A NORMÁLGÖRBE 101. OLDAL ÁBRA Ezt a görbét de Moivre fedezte fel, és Quetelet kezdte empirikus eloszlások közelítésére alkalmazni számos statisztikailag „előnyös” tulajdonsága miatt. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A NORMÁLGÖRBE HASZNÁLATA Mekkora a 0 és 1 közötti intervallumba eső terület? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

GÖRBE ALATTI TERÜLETEK WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

FIGYELEM! Ez a fejezet NINCS BENNE a tankönyvben!!! VARIANCIA-ELEMZÉS FIGYELEM! Ez a fejezet NINCS BENNE a tankönyvben!!! Eddig mindig csak egy változó tulajdonságait vizsgáltuk és igyekeztünk leírni.

Mitől vannak a különbségek? Az ember igyekszik egyszerűnek látni a világot (pl. átlag). Ugyanez a törekvés a szabványosításban, a normában stb. Kénytelenek vagyunk beengedni valahogy a sokféleséget (pl. szórás). Ugyanez tör be a „tűrés” műszaki fogalmában, a „kalo”-ban stb. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 59

Mi kell a magyarázathoz ? Mit akarunk megmagyarázni? A szórást. (= Az esetek különbözőségét.) Kell legalább még egy változó (= tehát ez is változik, azaz több értéke lehet) Sőt: nem is lehet más, csak változó. Ui. ami ugyanolyan, az nem okoz különbséget. Egy lehetőség: a varianciaelemzés. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 60

Mire jó a varianciaelemzés? Mikor használható? - Ha egy nominális (kategoriális) változóval akarunk magyarázni egy folytonos kvantitatív változót. Példák: Mennyire befolyásolja a lakóhely a jövedelmet? vagy a dolgozó neme? Azaz: Ha az elemek csoportokat alkotnak, felmerülhet, hogy a csoportba tartozás okozza a szóródást vagy annak egy részét WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 61

Csákó M.: Társadalomstatisztika VARIANCIA-ELEMZÉS Variancia = teljes szórásnégyzetösszeg vagyis az összes elem átlagtól való távolságának négyzetes összege (amiből a szórást számítjuk) Ezt probáljuk „feldarabolni”: mekkora része származik a csoportbontásból. Vegyünk egy példát! (A tkv. adatai, 64. old.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Gyerekszám és iskolázottság Esetszám Összes gyerek (a-ā) n(a-ā)2 746 1,2135 1098,546 1 433 0,2135 19,73711 2 551 1102 0,7865 340,8388 3 203 609 1,7865 647,8912 4 52 208 2,7865 403,7583 5 15 75 3,7865 215,0637 N 2000 2427   2725,836 Átlag 1,362918 Szórás » 1,1675 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Gyerekszám és iskolázottság Max. középisk. Összes gyerek (a-ā) n(a-ā)2 254 1,486 560,8818 1 245 0,486 57,86802 2 321 642 0,514 84,80692 3 132 396 1,514 302,5699 4 37 148 2,514 233,8473 5 11 55 3,514 135,8302 N 1000 1486   1375,804 Átlag 1,375804 Szórás » 1,173 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Gyerekszám és iskolázottság Felsőfo-kon végz. Összes gyerek (a-ā) n(a-ā)2 492 0,941 435,6567 1 188 0,059 0,654428 2 230 460 1,059 257,9406 3 71 213 2,059 301,0032 4 15 60 3,059 140,3622 5 20 4,059 65,90192 N 1000 941   1201,519 Átlag 1,201519 Szórás » 1,096 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A csoportátlag és a főátlag kölönbségét (a csoport összes elemére összegezve) úgy tekintjük, hogy az a csoportok különbsége miatt van. A csoporton belül a csoportátlag körüli szórást viszont nem magyarázhatja az, hogy az elemek ehhez a csoporthoz tartoznak, hiszen ez mindannyiukra ugyanúgy fennáll, ebből különbségük nem adódhat. Ez tehát a megmagyarázatlan maradék. A variancia „megmagyarázott” és „megmagyarázatlan” része együtt a teljes varianciát teszi ki. Az ábra nem pontos adatokat tartalmaz, csak illusztráció!!! Teljes variancia = (csoportok és főátlag közötti) + csoporton belüli variancia WJLF Pedagógia BA WJLF Pedagógia BA Csákó M.: Társadalomstatisztika Csákó M.: Társadalomstatisztika 66

Csákó M.: Társadalomstatisztika VARIANCIA-ELEMZÉS Hány változót használtunk? Kettőt! 1. gyerekszám; 2. iskolázottság Milyen változók ezek? a gyerekszám kvantitatív és diszkrét* az iskolázottság kvalitatív (dichotóm) – itt! A varianciaelemzés akkor használható, ha egy kvalitatív változónak egy kvantitatív változóra való hatását akarjuk megtudni. (* Valójában csak folytonos változók varianciáját lehet felbontani. Ezt sokszor nem tartják be. Itt pedig a számítások egyszerűsége és az adatok hozzáférhetősége miatt használtunk diszkrét változót.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika A KORRELÁCIÓ WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A varianciaelemzéstől a korrelációig A varianciaelemzés megmutatta egy nominális (kategoriális) változó hatását egy folytonos kvantitatív változóra. De mit csináljunk, ha a magyarázó változónk is folytonos kvantitatív? (Pl. testmagasság a testsúly magyarázatára, vagy életkor a kereset magyarázatára Minden egyes esetet mégsem tekinthetünk külön kategóriának! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 69

Hogyan ábrázolunk két változót? a konkrét eset WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 70

Hogyan ábrázolunk két változót? (Gyakorlás) Ábrázoljunk néhány apa-fiú párt! Legyen F=A; F=A+5cm; F=A-2cm; F=A+17cm; minden F = A+15% ! Figyeljük meg az esetek elhelyezkedését a F=A szabályhoz képest! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 71

Descartes-féle koordinátarendszer Két változó értékei (adatpár) egy pontot határoz meg: P(x,y) Két pont meghatároz egy egyenest. Egyenlete: y=mx+b Mikor egyenes két változó kapcsolatának képe? (pl. az apák és fiak testmagasságának összefüggése?) Ha szigorú függvénykapcsolat van közöttük: vagyis ha az apa magasságából egyértelműen meg lehet mondani a fia magasságát. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 72

Descartes-féle koordinátarendszer WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 73

Descartes-féle koordinátarendszer WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 74

Van-e itt szigorú függvénykapcsolat? Természetesen NINCS. Az esetek pontjai nem esnek egy egyenesre, hanem felhőszerűen oszlanak el. De a felhőnek van bizonyos alakja: van valamilyen összefüggés a két változó között. (A szaggatott segédvonalaknak ebben az ábrában nincs jelentőségük.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 75

Két változó kapcsolata A társadalomban nincs szigorú függvénykapcsolat. A kapcsolat képe nem egyenes, hanem pontfelhő. Különböző alakú pontfelhők lehetnek. Hogyan lehetne őket pontosabban leírni? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 76

Próbáljuk körülrajzolni WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 77

Körülrajzolás: mit tudunk hozzá? Az apák magasságának a) átlagát, b) szórását A fiak magasságának c) átlagát, d) szórását. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 78

Hogyan használjuk, amit tudunk? (a) ábra: A két változó átlagát jelző (szaggatott) egyenesek metszéspontjában megkapjuk a pontdiagram átlagpontját. (b) ábra: Az x-tengelyen ábrázolt változó szórásának felhasználásával tudjuk, hogy az átlagtól ±2 szórásnyi távolságon belül van az adatok 95%-a (ha a változó folytonos és normáleloszlású). (c) ábra: Tudjuk, hogy ugyanez az összefüggés az y-tengelyen ábrázolt változóra is igaz (ha a változó folytonos és normáleloszlású). Mindezzek elég jól behatároltuk a pontfelhőnket – de tényleg körül tudjuk már rajzolni? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 79

Milyen lesz a pontfelhő alakja? Az előző dia utolsó kérdésére a válasz: MÉG MINDIG NEM. Olvassák figyelmesen ennek a képnek a szövegét! Az (a) és (b) ábrában a két változó átlaga és szórása megegyezik, mégsem ugyanolyan a pontfelhő! A kapcsolat erősségét, a pontoknak egy (képzelt) egyeneshez való közelségét a korrelációs együttható (r) fejezi ki. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 80

Korrelációs együttható számítása r = (standard x * standard y) átlaga átszámítjuk standard értékbe mind x-et, mind y-t*; minden pontra összeszorozzuk a szorzatokat átlagoljuk. * Vagyis a szórásukkal fejezzük ki őket: hány szórásnyira vannak az átlaguktól. A korrelációs együttható WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 81

A korrelációs együttható és a pontfelhő A baloldali ábrán nincs kapcsolat a két változó között, a jobboldalin közepesen erős (r=0,4) a kapcsolat. Figyeljük meg, hogy ennél az erősségnél, még mennyire szórtak a pontok! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 82

A korrelációs együttható és a pontfelhő A baloldali ábrán nincs kapcsolat a két változó között, a jobboldalin közepesen erős (r=0,4) a kapcsolat. Figyeljük meg, hogy ennél az erősségnél, még mennyire szórtak a pontok! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 83 83 83

A korrelációs együttható és a pontfelhő

A korrelációs együttható és a pontfelhő

Korrelációs együttható Az előző ábrákban látható, hogy 0 ≤ r ≤ 1 De ezt még tovább finomítjuk gyakorlati példák segítségével. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 86

Csákó M.: Társadalomstatisztika MENNYI ESÉLYED VAN ÉRDEMI VÁLASZRA A SZÜLEIDTŐL? MILYEN A KAPCSOLATA SZÜLEIVEL? AZ ANYA ISKOLAI VÉGZETT- SÉGE AZ APA VAN ÉRDEMI VÁLASZRA A SZÜLEIDTŐL? Pearson Correlation 1 -,069 ,014 ,016 Sig. (2-tailed) ,068 ,724 ,693 N 702 699 656 636 KAPCSOLAT A SZÜLEIVEL? -,092(*) -,037 ,017 ,342 735 678 658 AZ ANYA ISKOLAI VÉGZETTSÉGE ,673(**) ,000 680 653 AZ APA ISKOLAI 660 Így néz ki egy számítógépes „output” az SPSS statisztikai programból. Csak a Pearson Correlation nevű sorokat nézzék: ezek budapesti hetedikeseken végzett kutatásból származó korrelációk. Megtudjuk, hogy sem az apa, sem az anya iskolázottsága nincs kapcsolatban azzal, hogy gyerekük mennyire remél tőlük érdemi választ kérdéseire (legelső sor utolsó két oszlop - apa: r=0,016; anya r=0,014 – alig különböznek 0-tól). Viszont a két szülő iskolázottsága között erős kapcsolat van: r=0,673. (Nézzék meg az előző pontfelhő ábrákon, melyikhez áll közel ez az adat, azaz „szemre” mennyire szoros ez a kapcsolat!) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Kutatási példák a korrelációra MENNYI ESÉ- LYED VAN ÉRDEMI VÁ- LASZRA A SZÜ- LEIDTŐL? MILYEN A KAP- CSOLATA A SZÜLEIVEL? MENNYI ESÉLYED VAN ÉRDEMI VÁLASZRA A SZÜLEIDTŐL? Correlation 1 -,152(**) Sig. (2-tailed) ,000 N 700 697 MILYEN A KAPCSOLATA 735 Valójában csak a jobboldali oszlop 1. sora érdekes: a többi részben fölösleges, részben ismétlés (de a számítógép buta, és csak így tud működni). Itt azt keressük, van-e kapcsolat az érdemi válasz reményének foka (0-100%) és a szülőkkel való kapcsolat (1=felhőtlen, … 4=elviselhetetlen) között. Feltűnő, hogy a korrelációs együtthatónak negatív előjele van. Ennek oka: az egyik változó növekedésével a másik értéke nem nő, hanem csökken. (Ez itt csak véletlenül ilyen: fordítva írtuk a beosztást a szülőkkel való kapcsolat skálájára: ha 1 lenne a legrosszabb és 4 a legjobb, akkor az előjel megfordulna, mert ugyanolyan irányú lenne a skála – rosszjó –, mint a válaszesély skálája.) De tartalmilag is vannak ilyen kapcsolatok. Pl. a mulasztott iskolai napok száma ellentétesen változik a tanulmányi eredménnyel. Hogyan alakul itt a pontdiagram? (Fejtörő: a baloldali számoszlop első sorában miért 1 a korrelációs együttható?) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Negatív korrelációs együtthatók WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Negatív korrelációs együtthatók WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Negatív korrelációs együtthatók WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Korrelációs együttható Az előző ábrákban látható, hogy ki kell terjesztenünk r értékét a negatív számok felé: -1 ≤ r ≤ 1 .Ha r = -1 : szigorú negatív függvénykapcsolat, Ha r = 0, akkor nincs kapcsolat, Ha r = 1 : szigorú pozitív függvénykapcsolat WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 92

Csákó M.: Társadalomstatisztika A szórásegyenes Az az egyenes, amely körül a pontdiagram pontjai szóródnak: a szórásegyenes. A szórásegyenesen rajta lévő pontoknak ugyanakkora a szórásuk mind a két változóban: pl. 1 szórásnyira van az x átlagától és 1 szórásnyira az y átlagától; vagy 1,62 szórásnyira az x átlagtól és ugyancsak 1,62 századnyira az y átlagtól; vagy még -0,57 szórásnyira az x átlagtól és -0,57 szórásnyira az y átlagtól. Ha mindkét tengelyre szórásegységeket mérünk fel (aminek nincsen semmilyen mértékegysége: pl. cm, kg, év, Ft sem), akkor a két tengely beosztása ugyanolyan, és a szórásegyenes 45°-os. (Ezen az ábrán nem ilyen, itt még természetes egységekben számoltuk a szórást – bármi is az.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kivételek Az r csak lineáris kapcsolatok erőssége mérésére alkalmas. A baloldali pontfelhő nem egy egyenes mentén szóródik. Ez a pontfelhő láthatóan nem rendeződik egy egyeneshez, ezért nem tudunk korrelációt számolni a két változó között. Ha valamilyen matematikai átalakítással lineárissá tudjuk alakítani, akkor lehet valamit kezdeni vele. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kivételek Nem lineáris kapcsolat esetében meg lehet próbálni olyan matematikai átalakítást végezni, amely lineárissá teszi. Itt pl. mindkét változó értékeinek a logaritmusát véve lineáris kapcsolatot kapunk. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kivételek Problémákat okozhatnak az un. magányos elemek. (Pl. magas apa törpenövésű fia; vagy: milliárdos villája egy felsőközép-rétegű kertvárosi kerületben – egymaga elhúzza az átlagot) Megoldás lehet: kihagyjuk őket Lásd ezt a megoldást pontozásos sportoknál: síugrás, műkorcsolyázás De csak óvatosan, mert a valósághoz ezek is hozzátartoznak! Kihagyásuk is torzít. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A korrelációs együttható érdekességei Az r nem az abszolút számok közötti kapcsolatot méri, hanem a szóráshoz képest vett adatok kapcsolatát Miért? Mert standard egységbe számoltuk át az adatokat – más szóval: a szóráshoz viszonyítottuk őket. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A korrelációs együttható érdekességei Az r értéke nem változik, ha… a) … x értékeit ugyanazzal a számmal megszorozzuk. b) … x értékeihez ugyanazt a számot hozzáadjuk (kivonjuk). c) … a változókat (x, y) felcseréljük. Oksági összefüggést nem jelent! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A korrelációs együttható érdekességei Un. ökológiai korrelációk Azokat a korrelációkat hívjuk így, amelyeket csoportosított adatokból számítottak. Pl. Doll: cigarettafogyasztás – tüdőrák országonként (11 ország) Pl. iskolázottság és jövedelem kapcsolata USA teljes (25-54 éves): r = 0,44 államokra átlagolva 51 adatpárból: r = 0,64 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A korrelációs együttható érdekességei Saját „ökológiai korrelációs” példám: Szakmunkástanulók 21 rangsora alapján képzett kategóriák szépen szétváltak. ( társadalmi szakmablokkok) Diszkriminancia-elemzéssel kevéssé rekonstruálható Ok: a csoportokon belüli szórást figyelmen kívül hagytuk. „Társadalmi szakmablokk”: a szakmacsoportok egyes blokkjai más-más funkciót töltenek be a társadalmi mobilitásban. A hetvenes években a legnehezebb és legpiszkosabb szakmákat azok tanulták, akiknek a családjában még nem volt szakmája senkinek. A „legjobb” (vagy „elit”) szakmákba a tősgyökeres szakmunkáscsaládok és egyes a szakmatanulásba szoruló szellemi foglalkozású családok gyerekei jutottak be. Ezt szakmacsoportonként számított adatokból állapítottuk meg. Ha nem szakmacsoportokból, hanem az összes tanuló egyéni adataiból számolunk (diszkriminancia-elemzés), akkor alig látszik ebből valami, mert itt figyelembe vesszük a szakmacsoportokon belüli szórást is. (Ez a példa nem teljesen ugyanaz, mint az „ökológiai korreláció”, de a mögöttes probléma – a csoportokon belüli szórás figyelmen kívül hagyása – ugyanaz.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A REGRESSZIÓSZÁMÍTÁS (Tkv. 188–252. old.)

Mit jelent a regresszió? Politikai-köznyelvi értelemben: a progresszió = haladás, akkor a regresszió = visszafejlődés A statisztikában más a jelentése: két összefüggő változó egyikének visszavezetése a másikra Pl. a testsúly és a testmagasság összefügg  megpróbálhatjuk visszavezetni a testsúlyt a test-magasságra (ld. a tkv. példáját) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A regresszió lépésenként – 1. Nézzük meg a pontfelhő átlagától egy szórásnyira lévő x-értékeket! Ezeknek vajon hol van az átlaguk? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A regresszió lépésenként – 2. Természetesen nem a szórásegyenesen, hanem alacsönyabban. Az átlag + 1 szórás testmagassághoz tartozó testsúlyátlag WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A regresszió lépésenként – 3. A magasság ± 2 szórásához tartozó testsúlyátlagok Az átlagnál kisebb x (testmagasság) értékekhez tartozó testsúlyok átlaga a szórásegyenes fölött van. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A regresszió lépésenként – 4. A testmagasság szórásaihoz tartozó testsúlyátlagokat összekötő egyenes: a regressziós egyenes. A testmagasság szórásaihoz tartozó testsúlyátlagokat összekötő egyenes: a regressziós egyenes. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A regresszió lépésenként – 5. Figyeljék meg a szórásegyenes és a regressziós egyenes viszonyát! A regressziós egyenes kevésbé meredek. Miért? Mert az egyes esetek nem ugyanannyira térnek el a magasság átlagától, mint a testsúly átlagától. Milyen kapcsolat lenne, ha ugyanannyira térnének el? Mivel az egyedi esetek nagyon különbözők lehetnek, csak becslést tudunk adni a testsúlyok alakulásáról. Ehhez jó a regressziószámítás. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Regresszió = y becslése y x-re vonatkozó (vagy: x szerinti) regressziós egyenese becslést ad az egyes x értékekhez tartozó y értékek átlagára. Az x egy szórásnyi változásához átlagosan az y értékek r szórásnyi változása kapcsolódik. A korrelációs együttható csak a kapcsolat erősségét mutatja meg, az összefüggés módját pedig a regressziós egyenes. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Regresszió = y becslése ahol r = a korrelációs együttható ! ahol r = a korrelációs együttható ! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Regresszió = y becslése WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Egyedi eset becslése Az átlag + 1 szórás magassághoz tartozó testsúlyátlag. A becsült egyén súlya azonban nem feltétlenül átlagos: lehet sokkal magasabb vagy sokkal alacsonyabb is. Erre nem tudunk becslést adni. Becslés egy adott magasságú egyén súlyára = az átlag! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Egyedi eset becslése Regressziós egyenes A hiba természetesen negatív előjelű is lehet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A regressziószámítás feltételei Kvantitatív változók Folytonos változók Normáleloszlás (haranggörbe-szerű) „Rögbilabda alakú” pontfelhő Lineáris kapcsolat WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Gyakorlatok – 1. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Gyakorlatok – 2. Egy hallgatót 650 ponttal vettek fel az egyetemre. Tippeljük meg az évvégi tanulmányi átlagát! (Tkv. 196–197.) Tudjuk hozzá: a felvételi pontátlaga = 550; szórása 80 p. az évvégi átlag = 2,6; szórása = 0,6 a felvételi pontok és az évvégi átlag közötti kapcsolat: r = 0,4 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Gyakorlatok – 2. A megoldás menete: 1 – Mennyivel jobban felvételizett az átlagnál? 2 – Regressziós becslés a tanulmányi eredmény átlagtól való eltérésére 3 – Mennyit jelent ez az eltérés osztályzatban? 4 – Mit jelent ez az eredmény? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Következtetés y-ból x-re Ugyanolyan számítással becsülhetjük-e a testmagasságot a testsúlyból, ahogyan a testsúlyt becsültük a testmagasságból? A 192 font súlyú személyek testmagasságának átlaga láthatóan nem esik y x szerinti regressziós egyenesére. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Két regressziós egyenes van! y-nak x szerinti regressziós egyenesének meredeksége: r*(y szórása) x-nek y szerinti regressziós egyenesének meredeksége: r*(x szórása) súlyátlag=160 Mivel a két változó közötti kapcsolat erőssége mindkét irányban ugyanaz (r), a két regressziós egyenes a szórásegyenesre szimmetrikusan helyezkedik el és az átlagpontban metszi egymást. magasságátlag=70 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

MINTAVÉTEL, HIBA, VALÓSZÍNŰSÉG

Csákó M.: Társadalomstatisztika MINTAVÉTEL Mit nevezünk mintának? A kutatók többnyire az emberek egy nagyobb csoportjáról – ez a populáció – szeretnének megállapítani számszerű adatokat – un. paramétereket. Mivel a populáció túl nagy, kiválasztanak belőle egy részt, és csak arról gyűjtenek adatokat. Ez a kiválasztott rész a minta. A paramétereket a minta adataiból becsülik: fel-tételezve, hogy a minta olyan, mint a populáció. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika MINTAVÉTEL DE OLYAN-E A MINTA, MINT A POPULÁCIÓ? Mikor lesz jó a becslés? Ha a minta tényleg olyan, mint a populáció. Hogyan tudhatnánk meg? Össze kéne hasonlítani! De ezt nem lehet: hiszen épp azért veszünk mintát, mert az egész populációt nem tudjuk megnézni. Csak azt tudjuk ellenőrizni, hogyan választották ki a mintát. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika MINTAVÉTEL Példa a mintavételi eljárás fontosságára: Roosevelt és Landon megválasztási esélye (1936): A Literary Digest előrejelzése: 43% a Gallup előrejelzése: 56% Roosevelt eredménye: 62% A különbség oka: a mintavétel módja WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika MINTAVÉTEL A Literary Digest eljárása: postai kérdőív 10 millió (!) embernek A neveket honnan választják? telefonkönyvekből, klubnévsorokból DE: a telefonja a családok ¼ részének volt!  ez a minta torzít a gazdagok javára! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika MINTAVÉTEL Kétféle torzítás fordul elő: mintavételi torzítás (mint láttuk) a nem válaszolók torzítása Akik nem válaszolnak, azok nagyon különbözhetnek a válaszolóktól! (Ez az egyik nehézsége ma a választási előrejelzéseknek Magyarországon.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika MINTAVÉTEL A véletlen mintavétel a legjobb módszer = a populáció minden tagjának ugyanakkora esélye legyen bekerülni a mintába. Az egyszerű véletlen mintavétel valójában visszatevés nélküli sorsolás (mint a lottó). De így változik a későbbi húzások valószínűsége! Ha nagy a populáció, egy húzás valószínűségét elhanyagolhatóan növeli csak, hogy nem tesszük vissza a kihúzottakat. (Pl. 1/68000; 1/67999…) Ez is ritkán valósítható meg, ezért többnyire többlépcsős csoportos mintavételt alkalmazunk. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Mintavétel Az egyszerű véletlen mintavétel ritkán valósítható meg, ezért többnyire többlépcsős csoportos mintavételt alkalmazunk. Pl. osztályokat választunk, abból diákokat: Legyen Bp-en 500 hetedik osztály, és válasszunk belőle 50-et. Hányféleképpen lehet? első 2. 3. … 49. 50. 500*499*498*…*452*451 = legalább 133 számjegyű ! A megítélése valószínűségszámítási feladat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika 126 126

2. Valószínűségszámítás 2.1. Alapfogalmak, szabályok 2.2. A binomiális formula 2.3. Várható érték és standard hiba

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Valószínűség = az eseteknek várhatóan hány százalékában fog bekövetkezni a dolog, ha sokszor, egymástól függetlenül, azonos körülmények között megismételjük a kísérletet. (rövidítése: p – probability) Egy dolognak és az ellentétének a valószínűsége együtt mindig = 100%. (Vagyis: A + nemA = 1) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Véletlenszerű húzás esetén egy dobozban lévő minden lap/golyó kihúzásának ugyanakkora az esélye. Ha visszatevéssel húzunk egymás után többször, akkor ez az esély nem változik. Ha nem tesszük vissza a kihúzott lapot, akkor a következő húzásnál eggyel kevesebb lapból húzunk  nő az esély. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Gyakorlás 1. Melyik számnak melyik állítás felel meg? - 50% 0% 10% 50% 90% 100% 200% Ugyanolyan valószínű, hogy bekövetkezik. mint hogy nem. Ez egészen biztosan bekövetkezik. Ez nem következhet be. Bekövetkezhet, de nem valószínű. Nagyon valószínű, de nem biztos. Programhiba WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Gyakorlás 2. 1000-szer dobunk egy érmével. Hány fejre számíthatunk? 100 lapot húzhatunk két doboz egyikéből, visszatevéssel. Minden húzásért annyi $-t kapunk, amekkora szám a lapon van. Melyik dobozt választaná? Miért? 1 2 1 3 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Feltétlen valószínűség: pl. annak a valószínűsége, hogy a pikk dáma a második lap a pakliban. (1/52) Feltételes valószínűség: pl. annak a valószínűsége, hogy a pikk dáma a második lap, HA az első a kőr 7. (1/51 – mert az első lapot már kivettük.) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Példa: Mi a valószínűsége annak, hogy elsőre a pikk dámát, és azt megtartva, másodikra a kőr királyt húzzuk a pakliból? Pikk dáma: 1/52 Kőr király: 1/51 Szorzási szabály: Két esemény együttes bekövetkezésének valószínűsége = külön-külön valószínűsé-gük szorzata (pa,b= pa*pb; pl.: 1/52*1/51) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Független és nem független események: nem független a második esemény, ha valószínűsége függ az első bekövetkezésétől; Visszatevés nélküli húzások összefüggenek, visszatevésesek függetlenek egymástól. Nem független események együttes bekövetkezésekor a feltételes valószínűségeket szorozzuk össze, független eseményeknél feltétel nélküli valószínűségüket. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Függetlenség  kölcsönös kizárás (!!!) Két esemény kölcsönösen kizárja egymást, ha egyik bekövetkezése esetén a másik nem következhet be. Összeadási szabály: két egymást kölcsönö-sen kizáró esemény közül legalább az egyik bekövetkezésének valószínűsége = = a kettő valószínűségeinek összege. Pl. Az, hogy elsőre a pikk dámát húzzuk-e, majd visszatevése után a kőr 7-est, független egymástól, de nem zárja ki egymást. Ezzel szemben az, hogy elsőre a pikk dámát húzzuk, és ha nem tesszük vissza, másodikra is a pikk dámát húzzuk, kizárja egymást és nem független egymástól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Összeadáskor Szorzáskor „B” esemény „A” esemény Bekövetkezik (I) Nem kö-vetkezik be (H) Bekövet-kezik (I) Kizárt! I + H H + I H + H „B” esemény „A” esemény Bekövetkezik (I) Nem kö-vetkezik be (H) Bekövet-kezik (I) I + I I + H H + I H +H Csak akkor adhatjuk össze két esemény valószínűségét, ha a két esemény kölcsönösen kizárja egymást. és annak a valószínűségét keressük, hogy az egyik bekövetkezik. Szorzással annak a valószínűségét kapjuk meg, hogy egymást nem kizáró események együtt bekövetkeznek. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Ismétlő gyakorlat 1 2 3 4 5 1 2 3 4 5 6 „B” doboz „A” doboz Egy-egy lapot húzunk az „A” és a „B” dobozból. Állapítsák meg annak valószínűségét, hogy… a húzott számok egyike 2 és a másika 5. a számok összege 7. a két szám egyenlő. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Ismétlő gyakorlat (bemutatása) 1 2 3 4 5 1 2 3 4 5 6 „B” doboz „A” doboz Mi annak valószínűsége, hogy a számok összege 7 a) hányféleképpen fordulhat elő a 7 mint összeg? „A”=1 és „B”=6. „A”=2 és „B”=5. „A”=3 és „B”=4. „A”=4 és „B”=3. „A”=5 és „B”=2. b) Hányféle „kimenet” van összesen? Akkor p(7) = ? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kutatási példa A középiskolások jogtudatának fokát azzal mértük, hogy három gyakorlati példából hányban ismerik fel, mihez van joguk. Kérdésenként 3 válaszból kellett a helyeset kiválasztani. Forrás: „Iskola és társadalom 2005” kutatás (ELTE TáTK, kut.vez. Csákó M. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kutatási példa Melyik eredménynek mekkora a valószínűsége? Hányféleképpen lehet 0 találat? Nem 1-féleképpen!!! Jelöljük az 1. kérdést normál, a 2.-at dőlt, a 3.-at vastag betűkkel, legyen R=rossz, J=jó, és számozzuk a lehetséges válaszokat! 0: (R1 R1 R1) (R1 R1 R2) (R1 R2 R1) (R2 R1 R1) ugyanez a számok felcserélésével (R2 R2 R2) Vagyis: 8-féleképpen lehet 0 szintű jogtudat!!! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kutatási példa Jelöljük az ábrán az egyes szintek valószínűségét! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Kutatási példa Megállapítás: A magyar középiskolások jogismereti válaszainak eloszlása nem tér el attól, mintha csak találgatnának. Következtetés: A magyar középiskolások általában nem ismerik a jogaikat. A valószínűségi eloszlás figyelembe vétele ahhoz segített, hogy ne csak a normához (3), hanem a „0-ponthoz” is mérhessünk. Mire gondolhatnánk, ha 0 találatból több, 2 és 3 találatból sokkal kevesebb lenne, mint valószínű? (Mire gondolhatnánk?): Arra, hogy a diákokat valami/valaki félrevezeti jogaikat illetően. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Esélyek, valószínűség Példa: Mekkora a valószínűsége annak, hogy a lottón a 8-jegyű joker-számban két 0 lesz? Tíz szám közül húznak, visszatevéssel. Mennyi a kedvező eset, és mennyi az összes? Egyszerűbb példa: 5-ször húzunk visszatevéssel 9 zöld és 1 piros golyó közül – mekkora a való-színűsége annak, hogy kétszer húzunk pirosat? Itt könnyű listát csinálni a kedvező esetekről: PPZZZ PZPZZ PZZPZ PZZZP ZPPZZ ZPZPZ ZPZZP ZZPPZ ZZPZP ZZZPP (10 kedvező) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Binomiális együttható A binomiális együttható azt mondja meg, hányféleképpen lehet sorba rendezni n elemet, ha közülük k egyfajtájú és n-k egy másik fajtájú: n! k! * (n-k)! Az előbbi példa lehetséges sorrendjei: 5! 5*4*3*2*1 2!*(5-2)! (2*1)*(3*2*1) (Ha bonyolultnak látszik a mondat, helyettesítse be így: k = „néhány” n-k = „a többi”.) = = 5*2 = 10 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Binomiális formula A formula nem más, mint a binomiális együttható alkalmazása a keresett valószínűség kiszámítá-sára (k és n-k valószínűségével kell szorozni). Pl. a piros és zöld golyók esetében: p(piros) = 1/10; p(zöld) = 9/10 Két piros golyóra p=(1/10)2 …. (a kitevő=k), Három zöld golyóra p=(9/10)3 …. (a kitevő=n-k). A binomiális formula feltalálását Pascalnak és Newtonnak tulajdonítják, de a kínai Jia Xian már a 11. században felfedezte. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika A nagy számok törvénye Ha több „fej” jött egymás után, megnő-e az „írások” valószínűsége? NEM! => Mindig 50% marad. Minél hosszabb a feldobás-sorozat, annál nagyobb az abszolút eltérés a várható értéktől, de annál kisebb az eltérés százalékban. De mindig van „véletlen hiba”. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika A nagy számok törvénye A dobások számá-val a hiba abszolút nagysága nő. A dobások számá-nak növekedésével a „fejek” aránya egyre kevésbé tér el az 50%-tól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika A nagy számok törvénye „Fejek” száma = várható érték + véletlen hiba A véletlen hiba a dobások számával nő, de egyre kevésbé tér el az 50%-tól. A véletlen hiba nagyjából a dobások száma sokszorozódásának négyzetgyöke arányában nő. = 100-szor annyi dobás hibája kb. 10-szeresre nő WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Véletlen folyamatok Az érme feldobálása, a rulettezés, egy választási előrejelzés mintavétele – mind véletlen folyamat, vagyis: a következő dobásoknál, pörgetésnél, mintavételnél más lesz a fejek, a nyertesek, a szocialisták és jobbikosok aránya. A statisztika megpróbálja kiszámítani közelítőleg, h. mennyire függenek a számok a véletlentől. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Véletlen folyamatok Két fő gondolat: 1. hasonlóságot keresünk a minket érdeklő véletlen folyamat (mintavétel) és egy dobozból való véletlen húzások között; 2. a bennünket érdeklő ingadozást (pl. Fidesz szavazók becsült aránya) párhuzamba állítjuk a dobozból húzott számok összegének véletlen ingadozásával. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Dobozmodell bevezetése 1 2 3 4 5 6 Ebből a dobozból húztunk 25-ször, vissza-tevéssel, feljegyeztük a lapokra írt számokat, és összeadtuk őket. Tízszer megismételtük a sorozatot és a következő eredményeket kaptuk: 88 84 80 90 83 78 95 94 80 89 WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Dobozmodell bevezetése WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Dobozmodell bevezetése Jó, hogy ezt tudjuk a húzás-sorozatokról, de hogyan csináljunk modellt? Az alapvető eldöntendő kérdések: Milyen számok kerüljenek a dobozba? Melyikből mennyi? Hányat húzzunk? Egyelőre csak szerencsejátékokra nézzük. (Rulett) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Dobozmodell bevezetése Szerkesszünk dobozmodellt nevadai ruletthez! A fő: a dobozból minden számot ugyanolyan valószínűséggel húzhassunk, mint amekkora a annak a valószínűsége, hogy annyit nyerjünk a valóságban. Tegyünk fel 1$-t a a) párosra b) harmadik tucatra c) sarokra (négy számra) a) 18 db +1$; 20 db -1$ 12 db +2$; 26 db -1$ 4 db +8$; 32 db -1$ WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

3. Hibák valószínűsége

Dobozmodell és mintavétel Dobozmodellel tudjuk ellenőrizni (vala-mennyire) a mintavételünket: Ha ismerjük a populáció egy változójának eloszlását (pl. férfi/nő), akkor kiszámíthat-juk, mekkora lehet a standard hiba a mintában. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Dobozmodell bevezetése Fontos fogalmak: várható érték = a modell alapján várt összeg véletlen hiba = a várható érték eltérése a ténytől standard hiba = a modell alapján várt eltérés összeg = várható érték + véletlen hiba várható érték = (doboz átlaga)* húzások standard hiba = a doboz szórása* húzások WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Dobozmodell és mintavétel Pl. (a tkv-ből): Egy populációban 46% férfi és 54% nő van. Az első 100 fős mintában 51% ffi és 49% nő. mintabeli % = alapsokaságbeli % + véletlen hiba Egyszerű véletlen mintában a %-arány várható értéke = alapsokaságbeli %-arány. A %-arány standard hibájához szükségünk van a darabszám standard hibájára: a %-arány standard hibája a darabszám standard hibája a %-arány standard hibája = * 100% a minta nagysága WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Mintavétel és standard hiba A mintabeli darabszám standard hibája a mintanagyság négyzetgyökével arányosan nő. A mintabeli %-arány standard hibája a mintanagyság négyzetgyökével arányosan csökken. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A statisztikai becslés Mit tehetünk akkor, ha nem ismerjük az alapsokaság eloszlását? (épp azt keressük) Pl. hányan regisztráltatnák magukat? 1 ?? db ?? db A mintabeli arányt fogadjuk el a doboz szórásának megállapításához (100 fős minta 10000 választóból) (pl. 64 igen 36 nem  s=0,64*0,36 = 0,2304 = 0,48) A standard hiba akkor 100 * 0,48 = 4,8 vagyis a regisztrálók aránya 64% ± 4,8% Ez az un. bootstrap módszer. ?? db WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

A statisztikai becslés Konfidencia-intervallum = Milyen határok között megbízható a becslés? A normálgörbét vesszük segítségül: ± 2SH-n belül 95% biztonságú! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

4. Szignifikanciaszámítások

Mire jó a szignifikancia-próba? Válaszol arra a kérdésre, hogy egy eredmény a véletlen műve-e, vagy valami más oka kell legyen. Más megfogalmazásban: származhat-e az eredmény a mintavétel véletlen ingadozásából? WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Mire jó a szignifikancia-próba? Pl. adótörvényt egyszerűsítő törvényjavaslat A javaslat szerint a beszedett adó mennyisége nem fog változni. Mit is jelent ez? ∑ változás = új adózás – régi adózás = 0. Ha v > 0, akkor többet szednek be; ha v < 0, akkor kevesebbet szednek be. A tankönyv részletesen ismertetett példája. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Mire jó a szignifikancia-próba? Ellenőrzés: mekkora lehet a standard hiba? Lépések: 100 lapos mintát vettek 100 000 adólapból. Mintaátlag = - 219 $; szórás 725 $ Eredhet-e a várt 0 $ és a „tényleges” -219 $ különbsége a mintavétel véletlen ingadozásából? Dobozmodellt készítenek: 100000 lappal és 100-at húznak közülük. A doboz szórását az adatok szórásával becsülik! Akkor SH = 100 * 725 $ / 100 = 72,5 $ Az átlag (-219$) a feltevéstől (0$) 3 SH-nyira van! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Mire jó a szignifikancia-próba? Mit is jelent ez? Használjunk normális közelítést! (Az adóváltozások eloszlása nem normális, de az átlag körüli ingadozás normális!) Az átlag ekkora eltérésének valószínűsége mindössze p = 1‰ – tehát nem véletlen.  tehát a kincstár valószínűleg átlagosan >200 $-t fog veszteni adófizetőnként, azaz összesen kb. 20 md-ot (100 000 adózóval) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Mit használtunk a példában? A (null)hipotézist (változás = 0) Mintavételt (átlag, szórás) Az ellenhipotézist (változás = -219$) Dobozmodellt Az átlag körüli véletlen ingadozásról szerzett ismereteket (SH számítása) A normális közelítést WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Szignifikancia-próba Nullhipotézis = Az eltérést a véletlen okozza. Ellenhipotézis = Az eltérésnek más oka van. Dobozmodell nélkül nincs korrekt szignfikancia-próba! Próbastatisztika – azt méri, mennyire térnek el az adatok a nullhipotézis szerint várható értéktől. Ezekkel kiszámítjuk a szignifikanciaszintet. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Szignifikancia-próba megfigyelt érték – várható érték z-próba: z = A z-próba azt mondja meg, hogy a megfigyelt érték hány standard hibányira van a nullhipotézis alapján kiszámolt várható értéktől. A z-próbát két független minta össze-hasonlítására is használhatjuk. standard hiba WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Szignifikanciaszint Megfigyelt szignifikanciaszint = annak valószínűsége, hogy olyan szélsőséges próbastatisztikát kapunk, mint amit meg-figyeltünk – ehhez feltesszük, hogy a nullhipotézis igaz. NEM AZT jelenti, hogy mennyire valószínű a nullhipotézis, hanem azt, hogy mennyire valószínű a próbastatisztika, HA igaz a nullhipotézis. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Szignifikancia-próbák z-próba (az előbb láttuk) – nagy mintára t-próba – olyan, mint a z-próba, de kis mintán alkalmazható torzítás nélkül χ2-próba (khí-négyzet próba) – több kategória összehasonlítására alkalmas: összeadja a (megfigyelt érték – várható érték) SH törteket. Az összeg már nem normáleloszlású, ezért külön táblázat tartalmazza a χ2-görbék alatti területekhez tartozó valószínűségeket. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

χ2-próba számítása c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN: FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE   GY KZP JÓ Összes F 45 várható L 55 Együtt 35 50 15 100 1. A két változó (nem, tanulmányi eredmény) külön-külön eloszlása a mintában. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

χ2-próba számítása c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN: FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE   GY KZP JÓ Összes F 10 25 45 várható L 5 55 Együtt 35 50 15 100 Az esetek megfigyelt száma a két változó szerint. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

χ2-próba számítása SZIGNIFIKANCIA c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN : FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE   GY KZP JÓ Összes F 10 25 45 várható 15,75 22,5 6,75 eltérés L 5 55 24,25 8,25 Együtt 35 50 15 100 0-hipotézis: a két nem között nincs különbség = azaz mindkettőben ugyanolyan arányban vannak gyenge, közepes és jó tanulók, A táblázatba beírtuk a 0-hip. alapján várható esetszámokat. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

χ2-próba számítása SZIGNIFIKANCIA c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN : FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE   GY KZP JÓ Összes F 10 25 45 várható 15,75 22,5 6,75 eltérés 5,75 2,5 3,25 L 5 55 24,25 8,25 0,75 Együtt 35 50 15 100 Beírtuk a megfigyelt és a várható értékek különbségét. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

χ2-próba számítása SZIGNIFIKANCIA c2 PRÓBA SZÁMÍTÁSA FIKTÍV PÉLDÁN : FIÚK ÉS LÁNYOK TANULMÁNYI EREDMÉNYE   GY KZP JÓ Összes F 10 25 45 várható 15,75 22,5 6,75 eltérés2 33,06 6,25 3,25 3,89 L 5 55 24,25 8,25 0,56 10,56 6,27 Együtt 35 50 15 100 c2összeg 10,16 Az eltérést négyzetre emeljük és elosztjuk a várható gyakorisággal és összegezzük. A χ2 összeget a két változó együttes szabadságfokának megfelelő sorban keressük vissza a χ2-táblázatból. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika χ2-próba számítása A fiúk és lányok tanulmányi eredményének összehasonlításában a χ2-összeg = 10,16 A táblázat szabadságfoka (df) = ahány cella „szabadon” kitölthető, ha ismerjük a „peremeloszlást” (=az „összesen”-eket) – ez most itt df = 2. Nézzük meg a táblázatot (585. oldal) ! A szabadságfok = 2 sorban a legnagyobb szám 9,21 – és ott p = 1% ! WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika χ2-próba számítása Mit jelent ez? Értelmezés: Azt, hogy ilyen nagy próbastatisztikát (χ2 = 10,16) csak 1%-nál is kisebb valószínűséggel kaphatnánk véletlenül. Vagyis: Következtetés: Nyugodtan elvethetjük azt a null-hipotézist, hogy a fiúk és a lányok tanulmányi eredménye közötti eltérés oka pusztán a véletlen mintavétel. A fiúk és a lányok eredménye tényleg különbözik egymástól. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika ÖSSZEFOGLALÁS WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Miről szólt ez a kurzus? Megszámlálható és megmérhető dolgok adatainak kezeléséről : - hogyan tudjuk leírni őket; - hogyan tudunk jellemzőik alapján következtetéseket levonni; - hogyan tudunk közöttük kapcsolatokat megállapítani; - hogyan tudunk olyanokat megismerni, amelyekhez nem férünk hozzá; - hogyan tudunk megbizonyosodni arról, hogy következtetéseink nem a véletlen művei. WJLF Pedagógia BA Csákó M.: Társadalomstatisztika

Csákó M.: Társadalomstatisztika Miről szólt ez a kurzus? Leírás: hisztogram, átlag, szórás Következtetések normálgörbével Kapcsolatok megállapítása: varianciaelemzéssel, korreláció- és regressziószámítással Az alapsokaság paramétereinek becslése mintavétellel A valószínűségszámítás alkalmazása a standard hiba kiszámítására és a minta véletlen ingadozásának ellenőrzésére (dobozmodellel) WJLF Pedagógia BA Csákó M.: Társadalomstatisztika