Leíró statisztika Becslés Konzultáció 2014. október 28. Leíró statisztika Becslés
Példa Az alábbi táblázat a BME MBA képzésére a 2003/04-es tanévben járó 100 hallgató havi bruttó jövedelmét (BrB, [eFT/hó]), a vállalatnál jelenleg betöltött pozícióját (Poz.), nemét (Nem) és életkorát (Élk., [év]) tartalmazza. Készítse el az alábbi adatbázis részletes leíró statisztikai elemzését! Készítsen gyakorisági táblázatot, és ennek alapján gyakorisági és kumulált gyakorisági hisztogramot! Számítsa ki a legfontosabb középérték-, ingadozás- és alakmutatókat!
Ssz. BrB Poz. Nem Élk. 1 65 Beoszt. Nő 25 26 230 33 51 350 Felső Férfi 76 500 2 46 27 240 31 52 45 77 510 3 70 35 28 250 53 29 78 520 Közép 39 4 80 44 36 54 48 79 550 5 30 34 55 355 38 6 90 32 56 370 81 575 7 100 57 82 600 8 103 58 375 83 9 104 255 59 380 84 625 10 110 24 260 60 390 85 650 11 120 275 61 400 86 700 12 42 37 278 62 87 13 145 280 63 88 707 40 14 150 300 64 89 720 15 164 730 16 182 41 320 66 50 91 790 17 195 67 425 92 800 18 200 43 330 68 450 93 810 19 69 94 20 331 95 835 21 210 340 71 451 96 850 22 47 72 97 900 23 220 73 98 222 49 342 74 99 1000 225 75 1100
Osztályok számának meghatározása osztályhatárok fi gi fi’ gi’ 65 215 22 0,22 365 33 0,33 55 0,55 515 77 0,77 665 8 0,08 85 0,85 815 9 0,09 94 0,94 965 4 0,04 98 0,98 1115 2 0,02 100 1,00 Összesen:
Egy kicsit „gyakorlatiasabb” osztályba sorolással: Legyen h0 = 110 Egy kicsit „gyakorlatiasabb” osztályba sorolással: Legyen h0 = 110 k0 = 10 osztályhatárok fi gi fi’ gi’ 65 175 15 0,15 285 23 0,23 38 0,38 395 22 0,22 60 0,6 505 16 0,16 76 0,76 615 7 0,07 83 0,83 725 6 0,06 89 0,89 835 5 0,05 94 0,94 945 4 0,04 98 0,98 1055 1 0,01 99 0,99 1165 100 1,00 Összesen:
Tapasztalati sűrűségfüggvény
Tapasztalati eloszlásfüggvény Kumulált relatív gyakoriság Osztályközepek
Rangsor 50. és 51. adatának számtani átlaga: 350 eFt Medián Ssz. BrB Poz. Nem Élk. 1 65 Beoszt. Nő 25 26 230 33 51 350 Felső Férfi 76 500 2 46 27 240 31 52 45 77 510 3 70 35 28 250 53 29 78 520 Közép 39 4 80 44 36 54 48 79 550 5 30 34 55 355 38 6 90 32 56 370 81 575 7 100 57 82 600 8 103 58 375 83 9 104 255 59 380 84 625 10 110 24 260 60 390 85 650 11 120 275 61 400 86 700 12 42 37 278 62 87 13 145 280 63 88 707 40 14 150 300 64 89 720 15 164 730 16 182 41 320 66 50 91 790 17 195 67 425 92 800 18 200 43 330 68 450 93 810 19 69 94 20 331 95 835 21 210 340 71 451 96 850 22 47 72 97 900 23 220 73 98 222 49 342 74 99 1000 225 75 1100 Rangsor 50. és 51. adatának számtani átlaga: 350 eFt
Medián osztályhatárok fi fi’ gi gi’ 65 175 15 0,15 285 23 38 0,23 0,38 395 22 60 0,22 0,6 505 16 76 0,16 0,76 615 7 83 0,07 0,83 725 6 89 0,06 0,89 835 5 94 0,05 0,94 945 4 98 0,04 0,98 1055 1 99 0,01 0,99 1165 100 1,00 Összesen:
Módusz osztályhatárok fi fi’ gi gi’ 65 175 15 0,15 285 23 38 0,23 0,38 395 22 60 0,22 0,6 505 16 76 0,16 0,76 615 7 83 0,07 0,83 725 6 89 0,06 0,89 835 5 94 0,05 0,94 945 4 98 0,04 0,98 1055 1 99 0,01 0,99 1165 100 1,00 Összesen:
Számtani átlag Ssz. BrB Poz. Nem Élk. 1 65 Beoszt. Nő 25 26 230 33 51 350 Felső Férfi 76 500 2 46 27 240 31 52 45 77 510 3 70 35 28 250 53 29 78 520 Közép 39 4 80 44 36 54 48 79 550 5 30 34 55 355 38 6 90 32 56 370 81 575 7 100 57 82 600 8 103 58 375 83 9 104 255 59 380 84 625 10 110 24 260 60 390 85 650 11 120 275 61 400 86 700 12 42 37 278 62 87 13 145 280 63 88 707 40 14 150 300 64 89 720 15 164 730 16 182 41 320 66 50 91 790 17 195 67 425 92 800 18 200 43 330 68 450 93 810 19 69 94 20 331 95 835 21 210 340 71 451 96 850 22 47 72 97 900 23 220 73 98 222 49 342 74 99 1000 225 75 1100
Számtani átlag osztályhatárok osztályközép fi fi’ gi gi’ 65 175 120 15 0,15 285 230 23 38 0,23 0,38 395 340 22 60 0,22 0,6 505 450 16 76 0,16 0,76 615 560 7 83 0,07 0,83 725 670 6 89 0,06 0,89 835 780 5 94 0,05 0,94 945 890 4 98 0,04 0,98 1055 1000 1 99 0,01 0,99 1165 1110 100 1,00 Összesen:
Kvantilisek Ssz. BrB Poz. Nem Élk. 1 65 Beoszt. Nő 25 26 230 33 51 350 Felső Férfi 76 500 2 46 27 240 31 52 45 77 510 3 70 35 28 250 53 29 78 520 Közép 39 4 80 44 36 54 48 79 550 5 30 34 55 355 38 6 90 32 56 370 81 575 7 100 57 82 600 8 103 58 375 83 9 104 255 59 380 84 625 10 110 24 260 60 390 85 650 11 120 275 61 400 86 700 12 42 37 278 62 87 13 145 280 63 88 707 40 14 150 300 64 89 720 15 164 730 16 182 41 320 66 50 91 790 17 195 67 425 92 800 18 200 43 330 68 450 93 810 19 69 94 20 331 95 835 21 210 340 71 451 96 850 22 47 72 97 900 23 220 73 98 222 49 342 74 99 1000 225 75 1100
Interkvartilis terjedelem Interdecilis terjedelem
Szórás Ssz. BrB Poz. Nem Élk. 1 65 Beoszt. Nő 25 26 230 33 51 350 Felső Férfi 76 500 2 46 27 240 31 52 45 77 510 3 70 35 28 250 53 29 78 520 Közép 39 4 80 44 36 54 48 79 550 5 30 34 55 355 38 6 90 32 56 370 81 575 7 100 57 82 600 8 103 58 375 83 9 104 255 59 380 84 625 10 110 24 260 60 390 85 650 11 120 275 61 400 86 700 12 42 37 278 62 87 13 145 280 63 88 707 40 14 150 300 64 89 720 15 164 730 16 182 41 320 66 50 91 790 17 195 67 425 92 800 18 200 43 330 68 450 93 810 19 69 94 20 331 95 835 21 210 340 71 451 96 850 22 47 72 97 900 23 220 73 98 222 49 342 74 99 1000 225 75 1100
Szórás Osztályhatárok Osztályközép fi fiYi* di di2 fi·di2 65 175 120 15 1800 -272,8 74419,84 1116298 285 230 23 5290 -162,8 26503,84 609588,3 395 340 22 7480 -52,8 2787,84 61332,48 505 450 16 7200 57,2 3271,84 52349,44 615 560 7 3920 167,2 27955,84 195690,9 725 670 6 4020 277,2 76839,84 461039 835 780 5 3900 387,2 149923,8 749619,2 945 890 4 3560 497,2 247207,8 988831,4 1055 1000 1 607,2 368691,8 1165 1110 717,2 514375,8 100 39280 5117816
Relatív szórás Aszimmetria Lapultság, csúcsosság Mérsékelt bal oldali aszimmetria (jobbra elnyúló eloszlás). Lapultság, csúcsosság Mivel 0,2034<0,263, csúcsosabb, mint a normál eloszlás.
Reklamációk száma (reklamáció naponta) Példa Egy internetszolgáltató vállalkozásnál 280 napon keresztül vizsgálták az ügyfelek napi reklamációinak számát. A megfigyelések eredményiből az alábbi gyakorisági eloszlást készítették. Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági sorból az 5. osztályhoz tartozó értéket! Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat! Mekkora a napi reklamációk átlagos száma? Mekkora a napi reklamációk tipikus értéke? Mekkora a medián értéke? Mekkora az átlagtól vett eltérések négyzetes átlaga (szórás)? Mekkora a relatív szórás? Reklamációk száma (reklamáció naponta) Napok száma 31 1 45 2 65 3 77 4 32 5 21 6 9
Reklamációk száma (reklamáció naponta) Készítsen az adatokból gyakorisági táblázatot és értelmezze minden gyakorisági sorból az 5. osztályhoz tartozó értéket! A megfigyelések során 32 napon volt a napi reklamációk száma 4. 250 napon volt a napi reklamációk száma 4, vagy annál kevesebb. Az esetek 11,4%-ban volt napi 4 reklamáció. Az esetek 89,3%-ban volt a napi reklamációk száma 4, vagy annál kevesebb. Reklamációk száma (reklamáció naponta) Napok száma 31 0.111 1 45 76 0.161 0.271 2 65 141 0.232 0.504 3 77 218 0.275 0.779 4 32 250 0.114 0.893 5 21 271 0.075 0.968 6 9 280 0.032
Reklamációk száma (reklamáció naponta) Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat! Gyakoriság: Relatív gyakoriság: Kumulált relatív gyakoriság: Reklamációk száma (reklamáció naponta) Napok száma 31 0.111 1 45 76 0.161 0.271 2 65 141 0.232 0.504 3 77 218 0.275 0.779 4 32 250 0.114 0.893 5 21 271 0.075 0.968 6 9 280 0.032
Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat!
Ábrázolja a gyakorisági sort és a kumulált relatív gyakoriságokat! 1,000 0,968 0,893 0,779 0,504 0,271 0,111 1 2 3 4 5 6 Napi reklamációk száma
Mekkora a napi reklamációk átlagos száma?
Reklamációk száma (reklamáció naponta) Mekkora a napi reklamációk tipikus értéke? A napi reklamációk tipikus értéke a módusz. A módusz értéke 3. Azért tipikus, mert ez a leggyakoribb érték. Reklamációk száma (reklamáció naponta) Napok száma 31 0.111 1 45 76 0.161 0.271 2 65 141 0.232 0.504 3 77 218 0.275 0.779 4 32 250 0.114 0.893 5 21 271 0.075 0.968 6 9 280 0.032
Reklamációk száma (reklamáció naponta) Mekkora a medián értéke? Páros számú adat esetén a sorba rendezett adatok között a két középső átlaga a medián. Esetünkben a 140. és a 141. adat a növekvő sorrendbe rendezett adatok között a két középső. E két adat értéke rendre a 2 és a 2. Ezért a medián értéke 2. Miért nem ezzel számoltunk? Reklamációk száma (reklamáció naponta) Napok száma 31 0.111 1 45 76 0.161 0.271 2 65 141 0.232 0.504 3 77 218 0.275 0.779 4 32 250 0.114 0.893 5 21 271 0.075 0.968 6 9 280 0.032
Reklamációk száma (reklamáció naponta) Mekkora az átlagtól vett eltérések négyzetes átlaga (szórás)? Mekkora a relatív szórás? Reklamációk száma (reklamáció naponta) Napok száma 31 0.111 1 45 76 0.161 0.271 2 65 141 0.232 0.504 3 77 218 0.275 0.779 4 32 250 0.114 0.893 5 21 271 0.075 0.968 6 9 280 0.032
Becslés A zh-n számonkérésre kerül: Két sokaság várható értéke közötti különbség becslése Független minta Ismert sokasági szórások Ismeretlen sokasági szórások Páros minta Két sokasági arány közötti különbség becslése Minta-elemszámok meghatározása adott pontosság mellett
Két várható érték különbségének becslése – független minták Ismertek a sokasági varianciák (σ12 és σ22) Feltétel: az alapsokaságok normális eloszlásúak, így a várható értékek különbsége is normális eloszlású. Feladat: becslése Ennek torzítatlan becslése: Szórásnégyzete: normális eloszlású Kvantitatív módszerek
Két várható érték különbségének becslése – független minták NEM ismertek a sokasági varianciák (σ12 és σ22) Feltételezzük, hogy az alapsokaságok normális eloszlásúak, és a két szórásnégyzet megegyezik (lásd F-próba!). Így kombinált becslést készítünk a közös szórásnégyzetre: A mintaátlagok különbségének szórásnégyzete: Így a becsült standard hiba: Az ismeretlen sokasági szórásnégyzet torzítatlan becslőfüggvénye Kvantitatív módszerek
Két várható érték különbségének becslése – páros minták A két vizsgált ismérv normális eloszlású és sztochasztikus kapcsolatban áll egymással. Ismeretlen sokasági szórás, és nem is feltétlen egyeznek. A sokasági varianciák közötti összefüggés: becslőfüggvénye továbbra is d̅. n1=n2=n, így d̅ varianciája: Kvantitatív módszerek
Két várható érték különbségének becslése – páros minták Intervallumbecslést kívánunk adni a Kvantitatív módszerek
Két sokasági arány különbségének becslése Két sokaságban egy adott tulajdonsággal rendelkező egyedek arányát kívánjuk összehasonlítani. Elég nagy minták esetén a mintabeli arányok különbsége (p1-p2) normális eloszlású: A minta akkor elég nagy, ha a intervallumok nem tartalmazzák sem a 0-t sem az 1-et Kvantitatív módszerek
Mintaszám meghatározása Sokasági arány becslésénél: Két várható érték különbsége: Két sokasági arány különbsége: Kvantitatív módszerek
Példa - Feladatgyűjtemény Egy élelmiszergyárban – többek között – 1kg-os darabos gyümölcskonzerveket csomagolnak automata töltőgéppel. Korábbi felmérések szerint a töltősúly normális eloszlása feltételezhető. A napi termelés ellenőrzésére az első műszakban vettek egy 100 elemű FAE mintát, amelynek töltősúly szerinti megoszlása: Egy másik műszakban vettek egy 200 elemű mintát, ahol az átlagos töltősúly 1002,5 grammra adódott, a minta alapján számolt szórás 7,6 grammra adódott. Doboz töltősúlya (g) Darab 980-990 6 990-1000 23 1000-1010 47 1010-1020 22 1020-1030 2 Összesen 100 Kvantitatív módszerek
Kvantitatív módszerek Példa 95%-os megbízhatósággal készítsünk becslést a két műszak várható töltősúlyainak különbségére! Mekkora mintára van szükség, ha az előző becslés pontosságát 99%-os megbízhatósági szinten kívánjuk garantálni? A második műszakban az 1000 gramm feletti töltések aránya 52%-os. Készítsünk 95%-os megbízhatósággal becslést a két műszak 1000 gramm feletti töltései arányának különbségére! Mekkora mintára van szükségünk ha az előző becslésnél a hibát harmadára kívánjuk csökkenteni? Kvantitatív módszerek
Kvantitatív módszerek 95%-os megbízhatósággal készítsünk becslést a két műszak várható töltősúlyainak különbségére! A sokasági szórások nem ismertek, de mindkét műszakban a minta elemszáma > 30, így használhatjuk az alábbi képletet: Doboz töltősúlya (g) Darab 980-990 6 990-1000 23 1000-1010 47 1010-1020 22 1020-1030 2 Összesen 100 Kvantitatív módszerek
Kvantitatív módszerek A két műszakban töltött konzervek várható töltősúlya közötti különbség -0,409gramm és 3,609 gramm között van 95%-os megbízhatósággal. Mekkora mintára van szükség, ha az előző becslés pontosságát 99%-os megbízhatósági szinten kívánjuk garantálni? 221 elemű mintára lenne szükség mindkét műszakból. Kvantitatív módszerek
Kvantitatív módszerek A második műszakban az 1000 gramm feletti töltések aránya 52%-os. Készítsünk 95%-os megbízhatósággal becslést a két műszak 1000 gramm feletti töltései arányának különbségére! Doboz töltősúlya (g) Darab 980-990 6 990-1000 23 1000-1010 47 1010-1020 22 1020-1030 2 Összesen 100 Kvantitatív módszerek
Kvantitatív módszerek α=5%, α/2=2,5%=0,025 A minták alapján a két műszakban az 1000 gramm felett töltött konzervek arányának különbsége 7,73% és 30,27% között van. Mekkora mintára van szükségünk, ha az előző becslésnél a hibát harmadára kívánjuk csökkenteni (de ugyanezen a szignifikancia szinten)? Δúj=0,037567 Közel 1240 elemű mintára lenne szükség mindkét műszakból. Kvantitatív módszerek
Példa - Feladatgyűjtemény 7 alkalmazás indításának időszükségletét hasonlították össze egy felső és egy középkategóriás okostelefonon. Az eredmények az alábbi táblázatban láthatóak: Adjon 95%-os konfidencia-intervallumot a két okostelefonon az alkalmazások megnyitásához szükséges idők közötti különbségre! (Tegyük fel, hogy az eloszlások normálisak!) Megoldás: két várható érték különbségének becslése – páros minta Az alkalmazás indításához szükséges idő [s] Alkalmazás Középkategóriás telefon Felsőkategóriás telefon 1. 5,6 4,5 2. 12,3 10,4 3. 20,6 23,4 4. 11,4 10 5. 13,4 12 6. 24,3 27,5 7. 4,2 3 Kvantitatív módszerek
Az alkalmazás indításához szükséges idő [s] di Alkalmazás Az alkalmazás indításához szükséges idő [s] di Alkalmazás Középkategóriás telefon Felsőkategóriás telefon 1. 5,6 4,5 1,1 2. 12,3 10,4 1,9 3. 20,6 23,4 -2,8 4. 11,4 10 1,4 5. 13,4 12 6. 24,3 27,5 -3,2 7. 4,2 3 1,2 Átlag 13,114 12,971 Kvantitatív módszerek
Kvantitatív módszerek DF=6 tα/2=2,447 95%-os megbízhatósággal a két típusú okostelefonon az alkalmazások megnyitásához szükséges várható idők közötti különbség -1,495 és 1,781 sec között van. Kvantitatív módszerek
Példa - Feladatgyűjtemény Két autósiskolában vizsgálták, hogy a tanulók hány gyakorlati óra után tesznek sikeres vizsgát. Az adatokat a következő tábla mutatja: Feltételezve a mintavételi eloszlás normalitását, adjon 95%-os becslést az autósiskolákban a sikeres vizsga letételéhez szükséges gyakorlati órák számának különbségére! Ahhoz, hogy az intervallum sugarát felére csökkentsük, mekkora minta-elemszámra van szükség? Megoldás: két sokaság várható értékének különbségére vonatkozó becslés, nem ismertek az alapsokasági szórások, csak a minta korrigált tapasztalati szórása. Feltétel: az alapsokasági szórások egyezősége (F-próba) Aladár iskolája Balázs iskolája Mintaszám 44 62 Átlagos óraszám 28 24 Korrigált tapasztalati szórás 6,2 5,4 Kvantitatív módszerek
Kvantitatív módszerek A nullhipotézist elfogadjuk, feltételezhető az alapsokasági szórások egyezése. Az ismeretlen sokasági szórásnégyzet kombinált becslése: Kvantitatív módszerek
Kvantitatív módszerek 95%-os megbízhatósággal az Aladár iskolájában tanulók óraszáma várhatóan 1,7626-6,2374 órával több, mint a Balázs iskolájában tanulók óraszáma Ahhoz, hogy az intervallum sugarát felére csökkentsük, mekkora minta-elemszámra van szükség? Δúj=1,1187 Kvantitatív módszerek