Gazdaságstatisztika LEÍRÓ STATISZTIKA II. 3. előadás 2013. szeptember 18.
Adatok csoportosítása, osztályozása A mennyiségi sorok grafikus ábrázolásának alapját a gyakorisági táblázat készítése jelenti. Osztályba sorolás (folytonos adatok és nagyszámú diszkrét megfigyelés esetén); gyakoriságok (fi) megállapítása; relatív gyakoriságok (gi) megállapítása összegzett (kumulált) gyakoriságok (fi’), illetve összegzett relatív gyakoriságok (gi’) megállapítása; gyakorisági táblázat készítése (fi , gi , fi’ , gi’ adataiból); gyakorisági (relatív gyakorisági), illetve összegzett gyakorisági (relatív gyakorisági) hisztogramok (folytonos adatok esetén a poligon és az ogiva) felvétele (tapasztalati eloszlások elkészítése); grafikus ábrázolás
Kumulált relatív gyakoriság Példa – kevés számú diszkrét adat (24 óra alatti gépleállások Leállások száma Gyakoriság (fi) Relatív gyakoriság (gi) Kumulált gyakoriság (fi’) Kumulált relatív gyakoriság (gi’) 3 0,125 (12,5%) 1 5 0,208 (20,8%) 8 0,333 (33,3%) 2 13 0,541 (54,1%) 4 0,168 (16,8%) 17 0,709 (70,9%) 20 0,834 (83,4%) 0,083 (8,3%) 22 0,917 (91,7%) 6 24 1,000 (100%) összesen
Példa – kevés számú diszkrét adat Adatok ábrázolása: PÁLCIKA DIAGRAM gyakoriságok Relatív Leállások száma 5 4 3 2 1 0,2 0,16 0,12 0,08 0,04 6
Kumulált relatív gyakoriságok Példa – kevés számú diszkrét adat Kumulált relatív gyakoriság ábrázolása: Kumulált relatív gyakoriságok Leállások száma 1 2 3 4 5 6 0,5
Példa – folytonos adat (Bux index) osztály Osztály-köz fi fi’ gi [%] gi’ [%] Alsó határ Felső 1. -20% -15% -17,50% 2 2,02% 2. -10% -12,50% 9 11 9,09% 11,11% 3. -5% -7,50% 20 20,20% 4. 0% -2,50% 23 43 23,23% 43,43% 5. 5% 2,50% 32 75 32,32% 75,76% 6. 10% 7,50% 15 90 15,15% 90,91% 7. 15% 12,50% 8 98 8,08% 98,99% 8. 20% 17,50% 1 99 1,01% 100,00% összesen
Példa – nagy számú folytonos adat GYAKORISÁGI HISZTOGRAM (tapasztalati sűrűségfüggvény) Gyakoriság vonaldiagramja
Példa – nagy számú folytonos adat Gyakorisági görbe
Példa – nagy számú folytonos adat Ogiva KUMULÁLT RELATÍV GYAKORISÁG VONALDIAGRAMJA (tapasztalati eloszlásfüggvény)
Tapasztalati eloszlások jellegzetességei Középérték-mutatók: helyzeti és számított Ingadozásmutatók: abszolút és relatív Alakmutatók Középértékek Helyzeti Számított Módusz Medián Számtani átlag Mértani átlag Harmonikus átlag Négyzetes átlag Középérték elvárások: Közepes helyzetűek Tipikusak Egyértelműen meghatározhatóak Lehetőleg könnyen értelmezhetőek
Medián Helyzeti középérték – valódi középérték, a rangsor közepén található: az az érték, amelynél az előforduló értékek fele kisebb, fele pedig nagyobb Páratlan számú adatnál a középső Páros számú adatnál a két középső érték számtani átlaga Mindig meghatározható Érzéketlen a szélsőértékekre, és nem függ a többi ismérvértéktől sem Sok egyforma ismérvérték esetén azonban nem tanácsos használni ha 1 0 6 17 23 13 3 2 19 1 0 6 17 23 13 3 2 0 1 2 3 6 13 17 19 23 0 1 2 3 6 13 17 23 4,5
Medián – diszkrét példa Leállások száma Gyakoriság (fi) Relatív gyakoriság (gi) Kumulált gyakoriság (fi’) Kumulált relatív gyakoriság (gi’) 3 0,125 (12,5%) 1 5 0,208 (20,8%) 8 0,333 (33,3%) 2 13 0,541 (54,1%) 4 0,168 (16,8%) 17 0,709 (70,9%) 20 0,834 (83,4%) 0,083 (8,3%) 22 0,917 (91,7%) 6 24 1,000 (100%) összesen Páros számú adat esetén a rangsor két középső számának átlaga: a 12. és 13. adat értéke is 2, így a medián értéke 2
Medián – folytonos példa -15,778% -10,216% -4,881% -2,950% -0,414% 1,152% 2,533% 4,021% 6,182% 10,053% -15,731% -7,927% -4,857% -2,902% -0,402% 1,320% 2,808% 4,223% 6,280% 10,292% -13,671% -7,188% -4,360% -2,616% -0,057% 1,698% 2,883% 4,480% 6,368% 10,699% -12,454% -6,569% -3,817% -2,173% 0,111% 1,836% 2,963% 4,667% 6,599% 10,947% -12,233% -6,192% -3,696% -2,072% 0,196% 1,946% 3,112% 4,917% 7,427% 11,520% -11,464% -6,113% -3,634% -1,857% 0,222% 1,999% 3,185% 5,203% 7,997% 12,038% -11,369% -6,110% -3,433% -1,713% 0,385% 2,072% 3,276% 5,398% 8,200% 13,104% -11,159% -5,564% -3,304% -1,247% 0,606% 2,119% 3,343% 5,447% 8,234% 14,878% -11,116% -5,170% -3,210% -0,669% 0,764% 2,161% 3,616% 5,612% 8,298% 15,066% -10,735% -5,098% -2,963% -0,505% 1,132% 2,372% 3,986% 5,956% 8,558% Páratlan számú adat esetén a rangsor középső tagja: ez a rangsor 50. tagja (ennél 49 kisebb és 49 nagyobb érték fordul elő)
Medián becslése A mediánt tartalmazó osztály bal végpontja. me annak a legelső osztályköznek a sorszáma, amelyre igaz, hogy No. osztály Osztály-köz fi fi’ gi [%] gi’ [%] Alsó határ Felső 1. -20% -15% -17,50% 2 2,02% 2. -10% -12,50% 9 11 9,09% 11,11% 3. -5% -7,50% 20 20,20% 4. 0% -2,50% 23 43 23,23% 43,43% 5. 5% 2,50% 32 75 32,32% 75,76% 6. 10% 7,50% 15 90 15,15% 90,91% 7. 15% 12,50% 8 98 8,08% 98,99% 8. 20% 17,50% 1 99 1,01% 100,00% összesen A mediánt tartalmazó osztály hossza.
Módusz Helyzeti középérték – tipikus Diszkrét ismérv esetén a leggyakrabban előforduló ismérvérték Folytonos ismérv esetén pedig a gyakorisági görbe maximumhelye Nem mindig határozható meg egyértelműen, nem mindig létezik Érzéketlen a szélsőértékekre, nem függ a többi ismérvértéktől sem Becslése bizonytalan Nyers módusz
Módusz – diszkrét példa Leállások száma Gyakoriság (fi) Relatív gyakoriság (gi) Kumulált gyakoriság (fi’) Kumulált relatív gyakoriság (gi’) 3 0,125 (12,5%) 1 5 0,208 (20,8%) 8 0,333 (33,3%) 2 13 0,541 (54,1%) 4 0,168 (16,8%) 17 0,709 (70,9%) 20 0,834 (83,4%) 0,083 (8,3%) 22 0,917 (91,7%) 6 24 1,000 (100%) összesen A gyakorisági sorban egynél több kiugró gyakoriság fordul elő. Nem határozható meg egyértelműen, célszerű más középérték mutatót is számítani.
Módusz – folytonos példa Folytonos esetben a legnagyobb gyakoriságú osztály tartalmazza.
Módusz becslése mo a legnagyobb gyakoriságú osztály(ok) sorszáma A móduszt tartalmazó osztály bal végpontja. No. osztály Osztály-köz fi fi’ gi [%] gi’ [%] Alsó határ Felső 1. -20% -15% -17,50% 2 2,02% 2. -10% -12,50% 9 11 9,09% 11,11% 3. -5% -7,50% 20 20,20% 4. 0% -2,50% 23 43 23,23% 43,43% 5. 5% 2,50% 32 75 32,32% 75,76% 6. 10% 7,50% 15 90 15,15% 90,91% 7. 15% 12,50% 8 98 8,08% 98,99% 8. 20% 17,50% 1 99 1,01% 100,00% összesen A móduszt tartalmazó osztály hossza.
Számtani átlag Az a szám, amellyel az átlagolandó számértékeket helyettesítve azok összege változatlan marad Leggyakrabban használt középérték Meghatározható gyakorisági sorból is a gyakoriságokkal súlyozva Számított középérték-mutató Bármely alapadathalmazból egyértelműen meghatározható Minden alapadatot felhasznál Érzékeny a szélsőértékekre Nyesett átlag min. ,ha
Számtani átlag –diszkrét példa Leállások száma óránként Előfordulások gyakorisága (fi) Relatív gyakoriság (gi) 3 0,125 1 5 0,208 2 4 0,168 0,083 6 összesen 24 1,000
Számtani átlag – folytonos példa -15,778% -10,216% -4,881% -2,950% -0,414% 1,152% 2,533% 4,021% 6,182% 10,053% -15,731% -7,927% -4,857% -2,902% -0,402% 1,320% 2,808% 4,223% 6,280% 10,292% -13,671% -7,188% -4,360% -2,616% -0,057% 1,698% 2,883% 4,480% 6,368% 10,699% -12,454% -6,569% -3,817% -2,173% 0,111% 1,836% 2,963% 4,667% 6,599% 10,947% -12,233% -6,192% -3,696% -2,072% 0,196% 1,946% 3,112% 4,917% 7,427% 11,520% -11,464% -6,113% -3,634% -1,857% 0,222% 1,999% 3,185% 5,203% 7,997% 12,038% -11,369% -6,110% -3,433% -1,713% 0,385% 2,072% 3,276% 5,398% 8,200% 13,104% -11,159% -5,564% -3,304% -1,247% 0,606% 2,119% 3,343% 5,447% 8,234% 14,878% -11,116% -5,170% -3,210% -0,669% 0,764% 2,161% 3,616% 5,612% 8,298% 15,066% -10,735% -5,098% -2,963% -0,505% 1,132% 2,372% 3,986% 5,956% 8,558%
Számtani átlag – folytonos példa osztály Osztály-köz fi fi’ gi [%] gi’ [%] Alsó határ Felső 1. -20% -15% -17,50% 2 2,02% 2. -10% -12,50% 9 11 9,09% 11,11% 3. -5% -7,50% 20 20,20% 4. 0% -2,50% 23 43 23,23% 43,43% 5. 5% 2,50% 32 75 32,32% 75,76% 6. 10% 7,50% 15 90 15,15% 90,91% 7. 15% 12,50% 8 98 8,08% 98,99% 8. 20% 17,50% 1 99 1,01% 100,00% összesen
Harmonikus átlag Mértani átlag A harmonikus átlag az a szám, amellyel az átlagolandó értékeket helyettesítve azok reciprokainak összege változatlan marad. Mértani átlag A mértani átlag az a szám, amellyel az átlagolandó értékeket helyettesítve azok szorzata változatlan marad.
Választás a középértékek között Négyzetes átlag Az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad Tipikus alkalmazási területe a szórásszámítás Választás a középértékek között
Választás a középértékek között Módusz, medián, számtani átlag? Melyiket használjuk? Egyértelműen meghatározható-e? Az összes rendelkezésre álló adattól függ-e vagy sem? Mennyire érzékeny a szélsőségesen nagy vagy kicsi értékekre? Mekkora és milyen módon értelmezhető hibával képes helyettesíteni az alapadatokat?
Választás a középértékek között Medián Egyértelműen meghatározható, mindig létezik Ha sok az egyforma ismérvérték, akkor nem tanácsos használni Nem függ sem az összes értéktől, sem a szélsőséges értékektől Módusz Nem mindig határozható meg egyértelműen, nem is mindig létezik Becslése bizonytalan (függ az osztályok kialakításától) Számtani átlag Bármely alapadathalmazból egyértelműen meghatározható, minden alapadatot felhasznál, mindig létezik Érzékeny a szélsőséges értékekre nyesett átlag Nem feltétlen tipikus érték
Kvantilisek Eddig egyenlő osztályköz-hosszúságú gyakorisági sorokat képeztünk, amelyeknek eltért a relatív gyakorisága. A kvantilisek olyan „osztópontok”, amelynek segítségével a növekvő sorrendbe állított adataink egyenlő gyakoriságú osztályokra bonthatóak Jelölése: Xi/k i-edik k-ad rendű kvantilis: az a szám, amelynél az összes előforduló ismérvérték i/k-ad része kisebb , (1-i/k)-ad része pedig nagyobb (i=1,..,k-1 és k>=2) A rangsor si/k. tagja Értéke 2013 ősz Gazdaságstatisztika
Lehetséges kvantilisek A legfontosabb kvantilisek k Elnevezés Általános jelölés i lehetséges értéke Lehetséges kvantilisek 2 Medián - 1 Me 4 Kvartilis Qi 1,2,3 Q1, Q2, Q3 5 Kvintilis Ki 1,2,3,4, K1, K2, K3, K4 10 Decilis Di 1,2,…,9 D1, D2, … D9 100 Percentilis Pi 1,2,…,99 P1, P2, …,P99
Kvantilisek meghatározása – folytonos példa 1. -15,78% 21. -4,88% 41. -0,41% 61. 2,53% 81. 6,18% 2. -15,73% 22. -4,86% 42. -0,40% 62. 2,81% 82. 6,28% 3. -13,67% 23. -4,36% 43. -0,06% 63. 2,88% 83. 6,37% 4. -12,45% 24. -3,82% 44. 0,11% 64. 2,96% 84. 6,60% 5. -12,23% 25. -3,70% 45. 0,20% 65. 3,11% 85. 7,43% 6. -11,46% 26. -3,63% 46. 0,22% 66. 3,19% 86. 8,00% 7. -11,37% 27. -3,43% 47. 0,39% 67. 3,28% 87. 8,20% 8. -11,16% 28. -3,30% 48. 0,61% 68. 3,34% 88. 8,23% 9. -11,12% 29. -3,21% 49. 0,76% 69. 3,62% 89. 8,30% 10. -10,74% 30. -2,96% 50. 1,13% 70. 3,99% 90. 8,56% 11. -10,22% 31. -2,95% 51. 1,15% 71. 4,02% 91. 10,05% 12. -7,93% 32. -2,90% 52. 1,32% 72. 4,22% 92. 10,29% 13. -7,19% 33. -2,62% 53. 1,70% 73. 4,48% 93. 10,70% 14. -6,57% 34. -2,17% 54. 1,84% 74. 4,67% 94. 10,95% 15. -6,19% 35. -2,07% 55. 1,95% 75. 4,92% 95. 11,52% 16. -6,11% 36. -1,86% 56. 2,00% 76. 5,20% 96. 12,04% 17. 37. -1,71% 57. 2,07% 77. 5,40% 97. 13,10% 18. -5,56% 38. -1,25% 58. 2,12% 78. 5,45% 98. 14,88% 19. -5,17% 39. -0,67% 59. 2,16% 79. 5,61% 99. 15,07% 20. -5,10% 40. -0,51% 60. 2,37% 80. 5,96%
Ingadozásmutatók Osztályozásuk: terjedelem átlagos abszolút különbség Kitüntetett értéktől vett eltérés vagy egymástól vett eltérés Abszolút vagy relatív terjedelem átlagos abszolút különbség átlagos abszolút eltérés szórás relatív szórás
Terjedelemmutatók 1. -15,78% 21. -4,88% 41. -0,41% 61. 2,53% 81. 6,18% 2. -15,73% 22. -4,86% 42. -0,40% 62. 2,81% 82. 6,28% 3. -13,67% 23. -4,36% 43. -0,06% 63. 2,88% 83. 6,37% 4. -12,45% 24. -3,82% 44. 0,11% 64. 2,96% 84. 6,60% 5. -12,23% 25. -3,70% 45. 0,20% 65. 3,11% 85. 7,43% 6. -11,46% 26. -3,63% 46. 0,22% 66. 3,19% 86. 8,00% 7. -11,37% 27. -3,43% 47. 0,39% 67. 3,28% 87. 8,20% 8. -11,16% 28. -3,30% 48. 0,61% 68. 3,34% 88. 8,23% 9. -11,12% 29. -3,21% 49. 0,76% 69. 3,62% 89. 8,30% 10. -10,74% 30. -2,96% 50. 1,13% 70. 3,99% 90. 8,56% 11. -10,22% 31. -2,95% 51. 1,15% 71. 4,02% 91. 10,05% 12. -7,93% 32. -2,90% 52. 1,32% 72. 4,22% 92. 10,29% 13. -7,19% 33. -2,62% 53. 1,70% 73. 4,48% 93. 10,70% 14. -6,57% 34. -2,17% 54. 1,84% 74. 4,67% 94. 10,95% 15. -6,19% 35. -2,07% 55. 1,95% 75. 4,92% 95. 11,52% 16. -6,11% 36. -1,86% 56. 2,00% 76. 5,20% 96. 12,04% 17. 37. -1,71% 57. 2,07% 77. 5,40% 97. 13,10% 18. -5,56% 38. -1,25% 58. 2,12% 78. 5,45% 98. 14,88% 19. -5,17% 39. -0,67% 59. 2,16% 79. 5,61% 99. 15,07% 20. -5,10% 40. -0,51% 60. 2,37% 80. 5,96%
Átlagos abszolút különbség (G) Az átlagos abszolút különbség a minden lehetséges módon párba állított ismérvértékek különbségeinek abszolút értékéből számított számtani átlag. Azt mutatja meg, hogy az X ismérv értékei átlagosan mennyire különböznek egymástól. Felhasználási területe: koncentrációelemzés 45 52 76 87 92 7 31 42 47 24 35 40 11 16 5 Az 5 hallgató zh-n elért pontja átlagosan 25,8 ponttal tér el egymástól.
Átlagos abszolút eltérés (Δ) Az átlagos abszolút eltérés az egyes ismérvértékek és a számtani átlag különbségeinek abszolút értékeiből számított számtani átlag. Súlyozott formula: leállások száma óránként az előfordulások gyakorisága 3 1 5 2 4 6 összesen 24 A gépleállások átlagosan 1,503-al térnek el az átlagtól.
Átlagos abszolút eltérés (Δ) No. osztály Osztály-köz fi fi’ gi [%] gi’ [%] Alsó határ Felső 1. -20% -15% -17,50% 2 2,02% 2. -10% -12,50% 9 11 9,09% 11,11% 3. -5% -7,50% 20 20,20% 4. 0% -2,50% 23 43 23,23% 43,43% 5. 5% 2,50% 32 75 32,32% 75,76% 6. 10% 7,50% 15 90 15,15% 90,91% 7. 15% 12,50% 8 98 8,08% 98,99% 8. 20% 17,50% 1 99 1,01% 100,00% összesen Az egyes hozamadatok átlagosan 6,213%-kal térnek el az átlagtól.
Tapasztalati szórás abszolút érték helyett négyzetre emelés és gyökvonás A szórás az egyes Xi ismérvértékek átlagtól vett di eltéréseinek négyzetes átlaga. Azt mutatja, hogy az egyes értékek átlagosan mennyire térnek el a számtani átlagtól. Olyan átlagos hibaként is felfogható, amit akkor követünk el, ha minden adatot a számtani átlaggal helyettesítünk. Csak akkor 0, ha minden ismérvérték egyenlő. Érzékeny a kiugró értékekre.
Korrigált tapasztalati szórás A szórás torzítatlan becsléssel a becslés a szóban forgó paraméterérték körül ingadozzék. a becslés (az illető statisztika) várható értéke éppen a megfelelő paraméterérték legyen. a korrigált tapasztalati szórásnégyzet várható értéke az elméleti varianciával egyenlő, a tapasztalati szórásnégyzet az elméleti variancia torzított becslése
Tapasztalati szórás leállások száma óránként az előfordulások gyakorisága 3 1 5 2 4 6 összesen 24 Az óránkénti leállások száma 1,779 db-bal tér el az átlagtól.
Tapasztalati szórás Az egyes hozamadatok átlagosan 6,77%-kal, 1. -15,78% 21. -4,88% 41. -0,41% 61. 2,53% 81. 6,18% 2. -15,73% 22. -4,86% 42. -0,40% 62. 2,81% 82. 6,28% 3. -13,67% 23. -4,36% 43. -0,06% 63. 2,88% 83. 6,37% 4. -12,45% 24. -3,82% 44. 0,11% 64. 2,96% 84. 6,60% 5. -12,23% 25. -3,70% 45. 0,20% 65. 3,11% 85. 7,43% 6. -11,46% 26. -3,63% 46. 0,22% 66. 3,19% 86. 8,00% 7. -11,37% 27. -3,43% 47. 0,39% 67. 3,28% 87. 8,20% 8. -11,16% 28. -3,30% 48. 0,61% 68. 3,34% 88. 8,23% 9. -11,12% 29. -3,21% 49. 0,76% 69. 3,62% 89. 8,30% 10. -10,74% 30. -2,96% 50. 1,13% 70. 3,99% 90. 8,56% 11. -10,22% 31. -2,95% 51. 1,15% 71. 4,02% 91. 10,05% 12. -7,93% 32. -2,90% 52. 1,32% 72. 4,22% 92. 10,29% 13. -7,19% 33. -2,62% 53. 1,70% 73. 4,48% 93. 10,70% 14. -6,57% 34. -2,17% 54. 1,84% 74. 4,67% 94. 10,95% 15. -6,19% 35. -2,07% 55. 1,95% 75. 4,92% 95. 11,52% 16. -6,11% 36. -1,86% 56. 2,00% 76. 5,20% 96. 12,04% 17. 37. -1,71% 57. 2,07% 77. 5,40% 97. 13,10% 18. -5,56% 38. -1,25% 58. 2,12% 78. 5,45% 98. 14,88% 19. -5,17% 39. -0,67% 59. 2,16% 79. 5,61% 99. 15,07% 20. -5,10% 40. -0,51% 60. 2,37% 80. 5,96% Az egyes hozamadatok átlagosan 6,77%-kal, illetve 6,806%-kal térnek el az átlagtól.
Tapasztalati szórás No. osztály Osztály-köz fi fi’ gi [%] gi’ [%] Alsó határ Felső 1. -20% -15% -17,50% 2 2,02% 2. -10% -12,50% 9 11 9,09% 11,11% 3. -5% -7,50% 20 20,20% 4. 0% -2,50% 23 43 23,23% 43,43% 5. 5% 2,50% 32 75 32,32% 75,76% 6. 10% 7,50% 15 90 15,15% 90,91% 7. 15% 12,50% 8 98 8,08% 98,99% 8. 20% 17,50% 1 99 1,01% 100,00% összesen
Relatív szórás Különböző mértékegységű sorozatok szóródásának összehasonlítására pozitív értékű ismérvekre! az ismérvértékek átlagtól vett átlagos relatív eltérése Nincs mértékegysége! Minél kisebb az értéke, a számtani átlag annál jobb középérték leállások száma óránként az előfordulások gyakorisága 3 1 5 2 4 6 összesen 24
Alakmutatók A gyakorisági eloszlás milyen mértékben tér el az ún. normális eloszlástól Eltérés lehet: Bal ill. jobb oldali aszimmetria Csúcsosság vagy lapultság
Pearson-féle mutatószám Negatív P esetén jobboldali az aszimmetria (átlag<medián). Csúcsossági mutató Normális eloszlás esetén értéke 0,263. Minél laposabb, annál nagyobb K értéke.