Általános statisztika I.
Felvezető kérdések Hétköznapi ember szerint mivel foglalkozik a statisztika? Hol találkozhatunk statisztikával? Miért fontos a statisztika?
Felvezető gondolatok „Az adat az új olaj” „Az adathalmaz változtassa meg a gondolkodásmódodat!” Hogyan lehet az adatot életre kelteni?
Célok Becslések Előrejelzések Klasszifikáció Szegmentálás Leírás - következtetés
Segédanyagok Jegyzet Képletgyűjtemény Coospace Internetes segédanyagok: http://www2.eco.u-szeged.hu/stat/
Elérhetőség Email: kovacs.peter@eco.u-szeged.hu
Számonkérés Gyakorlat: 2 zh+4 kis dolgozat Előadás ütemezés: ld. Coospace Összevont zh, javító zh: 1. vizsgahét Gyak. UV: 2. vizsgahét Előadás Írásbeli vizsga
Bevezetés, tippek Ea-gyak kapcsolata Statisztika-más tárgyak kapcsolata Informatika és statisztika Hogyan tanulj? Interaktív órák, kérdezz, ha valami nem világos! Dia, előadásanyagok≠tananyag Dia ~ kisiskolás foglalkoztató füzet (kiegészíted, felhasználod)
Célok Statisztikai jártasság fejlesztése Konkrét probléma esetén Ismerd fel a statisztika alkalmazhatóságát Tudd milyen statisztikai eszközt használhatsz, illetve ennek hol nézhetsz utána A kapott eredményeket helyesen tudd értelmezni, felhasználni
Témakörök 1. félév bevezető félév 2. félév Alapfogalmak Leíró statisztika Összehasonlító statisztika Idősorok vizsgálata 2. félév Mintavétel, induktív statisztika Kapcsolatvizsgálat, Magyarázó modellek
Alapfogalmak
Mi a statisztika? A statisztika tömegesen előforduló jelenségek számszerű leírásával foglalkozó gyakorlati tevékenység és tudományos módszertan. Gyakorlati tevékenység: információk gyűjtése, feldolgozása, közzététele. Tudományos módszertan általános statisztika: statisztikai fogalmak, módszerek ismerete. szakstatisztikák: speciális ismeretek információ gyűjtés, feldolgozás módszertani ismeretei. Statisztika és a többi tudományterület kapcsolata: „Se veled, se nélküled”
Mit szeretnénk? (ki, miért, hogyan? Adatokat információkat gyűjteni valamiről, valakikről Mire van szükségünk? Kiket kérdezzünk meg, figyeljünk meg? Hogyan gyűjtsünk adatokat? Mire vonatkozóan gyűjtsünk adatokat? A begyűjtött adatokat rendszerezni kell Mit szeretnénk vizsgálni? Ez miből látható? Hogyan rendszerezzünk? Mi az ami informatív? Közzététel Ki a célcsoport? Mit szeretnénk megmutatni? Előzetes tervezés szükséges a vizsgálati kérdésnek megfelelően!
A statisztikai munka fázisai Tervezés Mi a statisztikai feladat? Mit mérünk? Ki a célcsoport? Hogyan szerzünk adatokat? Kiket? Mivel? Adatfelvétel Adatátvétel? Megfigyelés? Teljes körű? Részleges? (reprezentatív?) Elemi adatok ellenőrzése, feldolgozása Elemzés Tájékoztatás, visszacsatolás A statisztikai munka fázisai Kiindulópont: igény, vizsgálati kérdés
Sokaságok A megfigyelt egységek, egyedek összességét statisztikai sokaságnak nevezzük.
Sokaságok nyilvántartása: regiszterek Egy adott sokaságba tartozó azonosítható egyedek rendszerezett listája, az egyedek főbb paramétereivel. Pl. Népesség-nyilvántartás Gazdasági szervezetek regisztere Kiskereskedelmi regiszter Gépjármű-nyilvántartás Föld-nyilvántartás
Ismérvek Az egyedek tulajdonságait ismérveknek nevezzük. Ismérvek típusai: területi ismérv: az egyedek térbeli jellemzői. időbeli ismérv: az egyedek időbeli jellemzői. mennyiségi ismérvek: az egyedek számszerű, mérhető jellemzői. minőségi ismérv:az egyedek számszerűen nem mérhető jellemzői.
Ismérvek értékkészlete Ismérvváltozatok: ismérvek lehetséges kimenetelei (értékkészlet) többféle lehet csoportosítható Például: Nem: férfi, nő testtömeg 1,2,3,…,50,….kg -10; 11-20; 21-30, …
Ismérvek mérési szintje Nominális Ordinális Intervallumskála Arányskála Ismérvváltozatok csak megkülönbözethetőek Ismérvváltozatok megkülönbözethetőek és rendezhetőek Különbségképzés értelmezhető Különbségképzés és hányados-képzés is értelmezhető A mérési szint fogja meghatározni, hogy milyen eljárással vizsgálhatunk egy-egy változót!
Mi a statisztikai adat? (Bo Sundgren ) (db,sum,átlag, stb.) Műveletek Statisztikai adat: egy sokaság számszerű jellemzője
Statisztikai adattábla (row data)
Statisztikai adatok közlésekor Meg kell adni a megfigyelés egység és adott sokaságának megnevezését a mért tulajdonságának, ismérvének megnevezését annak értékét valamilyen mértékegységben A vonatkozási időpontot vagy időszakot.
A statisztikai adatokkal szemben három követelményt támasztunk. Pontosság Gyorsaság Gazdaságosság Nem mintavételi hibák
Néhány főbb statisztikai adatforrás KSH EUROSTAT OECD Worldbank Minisztériumok, MNB
Adatok összehasonlításának lehetőségei Különbségképzés Mértékegységtartó Hányados-képzés: indexszám (viszonyszám) Azonos mértékegységű adatoknál: % Különböző mértékegységű adatoknál új egység: (Kg/fő; ezer Ft/óra) Probléma: Százalék vagy százalékpont? Példa
Statisztikai adatok közlése és ábrázolása Cél: Információtömörítés, adatok, mutatószámok tömör megjelenítése Alapja: Ismérvek Eszköz: Statisztikai táblák (statisztikai adatok valamilyen felsorolása) Táblázatok (speciális eset: statisztikai sor) Grafikus ábrák
Fontosság Tor Norretranders modellje:
Történeti kitekintés
Adatvizualizáció (1) Vizualizáció: olyan eljárás, amelyek képek, diagramok, animációk készítésével üzeneteket közvetít. Adatvizualizáció: adatok képi, grafikus megjelenítése. Segít az adatok felfedezésében, döntéshozatalban. Információ vizualizáció: absztrakt adatok (interaktív) vizuális reprezentációja a megismerés elősegítésére. Speciális területe: vizuálanalitika
Adatvizualizáció (2) Érzékelés „optimalizálása” (pld. Színek, ikonok) Új adatforrások Új eszközök, hatékony megjelenítés?
Táblázatok készítése ismérvek alapján Lajstrom vagy a statisztikai sokaságot alkotó egyedek csoportosítását végezzük el. Követelmények 1. Az osztályozás teljes legyen. 2. Az osztályozás átfedés mentes legyen. 3. Homogenitás
Magyarország fontosabb adatai Népességszám (ezer fő) 2016. január 1. 9 798 Fogyasztóiár-index (infláció) előző év azonos időszaka=100,0%) 2016. év 100,4 Munkanélküliségi ráta 2016, % 5,1 GDP (előző év =100,0%) 2016 102,0 Példák lajstrom Magyarország fontosabb adatai Forrás:http://www.ksh.hu; letöltve: 2017.09.04.
Áruszállítás a forgalom jellege szerint 2000-ben Osztályozás Példák Áruszállítás a forgalom jellege szerint 2000-ben Forrás: Magyar Statisztikai Zsebkönyv 2001. 282. o. Megnevezés Szállított áruk tömege, ezer tonna Vasút 48 994 Közút 142 390 Vízi 2 433 Légi 22 Csővezetékes 22 351 Összesen 216 190
Statisztikai táblák készítésének formai követelményei Cím Oszlopok, sorok feliratai, mértékegységek Összesen Forrás Megjegyzések Kérdés Kategóriák sorrendje?
Fizetési kategória, ezer Ft Példák Egy termelő vállalat munkavállalói létszáma 2008. júniusában fizetési kategóriák szerint Fizetési kategória, ezer Ft Létszám, fő – 50 20 50,1 – 80 85 80,1 – 120 24 120,1 – 200 8 200,1 – 3 Összesen 140 Forrás: fiktív adatok
Speciális sor: idősor Idősorok esetében valamilyen időbeli ismérv alapján kerülnek rendezésre, felsorolásra a sokaság egyedei. Az idősoroknak két fajtája van. állapotidősor, tartamidősor.
Vállalkozások száma, db Idősor Állapotidősor Külföldi érdekeltségű vállalkozások számának alakulása (2002-2006) Forrás: portal.ksh.hu Tartamidősor A kukoricatermelés alakulása Magyarországon (2001-2006) Forrás:portal.ksh.hu Év Termelés, ezer tonna 2001 7858 2002 6121 2003 4532 2004 8332 2005 9050 2006 8282 Összesen 44175 Év Vállalkozások száma, db 2002 26796 2003 26793 2004 26475 2005 26019 2006 25800
A vásárlás gyakorisága hetente vagy gyakrabban Példák A pezsgővásárlás gyakorisága lakóhely szerinti bontásban egy piackutatás adatai alapján (2009), fő Lakóhely A vásárlás gyakorisága Összesen hetente vagy gyakrabban havonta évente néhányszor ritkábban Budapest 25 32 106 17 180 Város 20 28 140 12 200 Község 15 79 14 120 57 75 325 43 500 Forrás: fiktív adatok
Statisztikai ábrák Pontdiagram Vonaldiagram Síkdiagramok: oszlop diagram, hisztogram osztott oszlop diagram kör diagram Térbeli diagramok Piktogramok Kartogramok „Újabb diagramok”
Problémák - Elvárások (1) sok adatot kell kis területen megjeleníteni az adatot életre kell kelteni szakszerű, de érthető legyen az ábrázolás megfelelő ábratípus nincs felesleges információ Megfelelő dizájn Adattörténet Felhasználó mit ért meg? Big data mi információ, mi nem?
Problémák - Elvárások (2) Az ábrának áttekinthetőnek célorientáltnak és homogénnek egyszerűnek, könnyen értelmezhetőnek, rekonstruálhatónak optikailag semlegesnek kell lennie.
Elvárások - trendek Mobil, új platformok Interaktivitás Real time Story teller Integráció 3D Kognitív ismeretek Geoadatok
Nappali tagozat átlagos feltöltöttsége felsőoktatási intézményekben Forrás: saját szerkesztés
A 18-49 éves korcsoport megoszlása a 19. 00-22 A 18-49 éves korcsoport megoszlása a 19.00-22.59 között nézett TV csatorna szerint 2008.12.29-2010.08.09) Forrás: R-time
Forrás: saját szerkesztés
Radar
Oszlop
Jelentkezők és felvettek száma országosan a gazdaságtudományok képzési terület alapszakjain (2010) Forrás: saját szerkesztés
Szalag (sáv)
Kör
Piktogram Egy hizlalda sertésállománya (2011.09.01) 1 egység=1000 sertés Forrás: fiktív
Kartogram Magyarország hő térképe (2010.09.02. 14:00) °C Forrás: OMSZ
Forrás: Eurostat
Statisztikai ábrák formai követelményei Cím Mértékegység Felirat Arányosság Egységek
Érdekességek Vizualizáció szerepe Infograf Művészet: http://www.chrisjordan.com/gallery/rtn/#cig-butts
Hálózatok ábrázolása
Mosaic plot John Hartigan, Beat Kleiner: Mosaics for contingency tables. In: Computer Science and Statistics: Proceedings of the 13th Symposium on the Interface. 1981, S. 268– 273.
Tableplots Unwin kutatócsoport (2006) Tannekes et al. Visulizing and Inspecting Large datasets with tableplots Jornal of Data science 11(2013) 43-58
A világ félelem térképe
Gapminder World http://www.gapminder.org/world/
Regional Statistics Illustrated http://ec. europa
Hivatalos statisztika (1)
Hivatalos statisztika (3)
Hivatalos statisztika (4)
Hibás Ábrázolások
Proportional Perceive
Source: http://www.datapine.com/blog/misleading-statistics-and-data/
Pie charts (1) Source: https://en.wikipedia.org/wiki/Misleading_graph In the misleading pie chart, Item C appears to be at least as large as Item A, whereas in actuality, it is less than half as large. Source: https://en.wikipedia.org/wiki/Misleading_graph
pICTOGRAMS Source: https://en.wikipedia.org/wiki/Misleading_graph When using pictograms in bar graphs, they should not be scaled uniformly, as this creates a perceptually misleading comparison.[12] The area of the pictogram is interpreted instead of only its height or width.[13] This causes the scaling to make the difference appear to be squared.[13] In the improperly scaled pictogram bar graph, the image for B is actually 9 times as large as A. Source: https://en.wikipedia.org/wiki/Misleading_graph
Wordcloud A greedy algorithm is an algorithmic paradigm that follows the problem solving heuristic of making the locally optimal choice at each stage with the hope of finding a global optimum. Illusion preception Source : https://www.visioncritical.com/wp-content/uploads/2012/08/2-the-pros-and-cons-of-word-clouds-as-visualizations.png Source: Steele & Noah: Beautiful Visualization, O Reilly, 2010 Source : https://s-media-cache-ak0.pinimg.com/236x/a7/51/c2/a751c24af03099e6e0c43a28fb23ccaa.jpg