Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Big data a hivatalos statisztikában kihívások és lehetőségek Mag Kornélia 2014. február 25.

Hasonló előadás


Az előadások a következő témára: "Big data a hivatalos statisztikában kihívások és lehetőségek Mag Kornélia 2014. február 25."— Előadás másolata:

1 Big data a hivatalos statisztikában kihívások és lehetőségek Mag Kornélia február 25.

2 Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it- glossary/big-data/)http://www.gartner.com/it- glossary/big-data/ Más definíciók: •„...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” •„…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapú formokból, PDF-ekből, ekből és egyéb formátumú dokumentumokból származik” (IBM) 2

3 Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: •Adminisztratív (forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) •Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. •Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. •Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. •Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) •Vélemény, pl. hozzászólások a közösségi médiában, stb. 3

4 Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás) Közösségi háló (ember által létrehozott információ) – ’People to people’ típusú adat Közösségi hálók: Facebook, Twitter, Tumblr stb Blogok, hozzászólások Személyes dokumentumok Képek: Instagram, Flickr, Picasa stb Videók: Youtube stb Internetes keresések Mobil adattartalom: szöveges üzenetek Felhasználó által generált térképek Hagyományos üzleti rendszerek (folyamat által közvetített adatok) – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok Kereskedelmi tranzakciók Bank-/készletnyilvántartás E-kereskedelem Bankkártya/hitelkártya 4

5 Miért foglalkozik a hivatalos statisztika a big datával? Új kihívások előtt a hivatalos statisztika •Csökkenő válaszadási készség •Csökkenő erőforrások •Új adatigények •Gyorsabb adatközlési elvárások •Jó minőségű adatok VERSENY! 5

6 Miért foglalkozik a hivatalos statisztika big datával? – mi a válasz? Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika 1.Az infokommunikációs technológiák legújabb fejlesztései a gazdasági és a társadalomi folyamatok egyre növekvőbb mértékű digitalizálódását eredményezte mely új lehetőségeket nyit meg a statisztikák előállításában. 2.A big data hatékony statisztikai célú felhasználása számos kihívás elé állítja az Európai statisztikai Rendszert. 3.Egyre növekszik az igény a jó minőségű, költséghatékony módon előállított, időszerű statisztikák iránt, ugyanakkor az egyre csökkenő válaszadási hajlandóságra új megoldásokat kell kidolgozni. 4.A hivatalos statisztikák tervezésekor a különböző lehetséges adatforrásokat, így a Big Data-t is, a lehető legnagyobb mértékben be kell vonni. 5.A big data egyik legfőbb jellegzetessége, hogy nem kötődik országhatárokhoz, így egyedülálló lehetőséget biztosít mind európai mind pedig globális szinten az együttműködésre. Számos európai kezdeményezés kapcsolódik a big data-hoz, beleértve az európai Bizottság Európai adat értéklánc stratégiájának kidolgozására vonatkozó törekvését, az EU adatvédelmének megújítását és a Horizon 2020 programot. 6.A es Európai Statisztikai Munkaprogram egyik célkitűzése az európai statisztikák új előállítási módjainak a megvalósítása, valamint célul tűzte ki a hatékonyság és minőség növelését, az időszerűség javítását. 6

7 Hogyan használhatjuk a big data-t a hivatalos statisztikában? •Elsődleges adatforrást helyettesítő adatforrásként •Adatforrások kiegészítésére •Modell alapú becslések magyarázó változóiként •Adatok validálására 7

8 Legfontosabb kihívások A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. •Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) •Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) •Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség- haszon elemzések) •Menedzsment kérdések •Módszertani megoldások •Technológiai megoldások 8

9 Módszertani kihívások •Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) •Hogyan tudjuk feldolgozni az adatokat? •Adat-összekapcsolási problémák (~n 2 összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) •Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) •Adathiányok, outlierek kezlése 9

10 IT kihívások •Adatok fogadása? •Adatok tárolása: kell tárolni a beérkezett adatokat? •Feldolgozás sebessége? •Feldolgozás módja? 10

11 Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) •Hagyományos tárolási megoldások nem működnek •A mikro adatokat tárolunk vagy aggregátumot? •A minőség napról napra változhat •Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat •A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni •Nem statisztikusokra hanem adattudósokra van szükség •Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk 11

12 Hollandia 1. – Közösségi oldalak felhasználhatósága •Twitter, Facebook, YouTube, LinkedIn, blogok, stb. •közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata •Statisztikai célú felhasználási lehetőségek: 1.Adminisztratív terhek mérése: ilyen tartalmú szövegek keresése 12

13 Hollandia 1. - folytatás 2. Érzelmek mérése: •2010. június augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) •A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal 13

14 Hollandia 2.: Nemzeti adattárház a forgalmi adatokról •24 különböző útfenntartó hatóság adatait használja Road authorities •Több mint 6000 km hosszú úthálózatra vonatkozóan gyűjt adatokat Percenként több, mint 24 ezer adatot gyűjtenek be és dolgoznak fel az utak forgalmára vonatkozóan és 75 másodpercen belül közzéteszik. Fő céljuk: dugók elkerülése, utak biztonságosabbá tétele •Autósávonkénti forgalmi adatok •Autósávonkénti utazási idő •Gépjármű kategóriánkénti utazási idő 14

15 Hollandia 2. folytatás A sebességre, autók számára, és utazási időre percenként átlagosan 460 ezer adatot gyűjtenek be és dolgoznak fel, valamint a hozzájuk tartozó meta adatokat (hely, idő, gépjármú hossza, stb.) Szállítás statisztikai adatok becslése CBS tapasztalatai: 1 napnyi adatmennyiség feldolgozása alapján – 3 hónapig tartott 15

16 Észtország: Mobil telefonok helymeghatározási adatai Statisztikai felhasználás: •napi ingázási adatok •napközbeni népesség meghatározása •Turizmus adatok becslése 16

17 További példák… 17

18 MIT: Billion price projekt Fogyasztói árindex becslése online áradatokból 18

19 Hogyan tovább…? •UNECE: projekt indult a big data statisztikai alkalmazására (KSH tag) •Módszertani megalapozás •Konkrét adatkörön tesztelés •Szabad-forráskódú IT megoldás kidolgozása, tesztelése •Eurostat: Task Force jött létre •Árstatisztika és IKT felhasználás területén konkrét tesztelések •KSH: Big data koncepció: projektek indítása (2014-) •Alapfogalmak lefektetése •Helyzetfemérés (költség-haszon elemzés) 19

20 Legfontosabb referenciák a hivatalos statisztika területén •UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId= )http://www1.unece.org/stat/platform/pages/viewpage.action?pageId= •UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data)http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data •UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#)http://www1.unece.org/stat/platform/display/msis/Big+Data# •DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/)http://www.cbs-events.nl/dgins2013/programme/presentations/ •ISI conference 2013: Session IPS106: Big data •Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014)http://cros-portal.eu/content/big-data-event-2014 •UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project)http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project •……. 20


Letölteni ppt "Big data a hivatalos statisztikában kihívások és lehetőségek Mag Kornélia 2014. február 25."

Hasonló előadás


Google Hirdetések