Big data a hivatalos statisztikában kihívások és lehetőségek Mag Kornélia 2014. február 25.
Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it-glossary/big-data/) Más definíciók: „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapú formokból, PDF-ekből, e-mailekből és egyéb formátumú dokumentumokból származik” (IBM)
Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: Adminisztratív (forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) Vélemény, pl. hozzászólások a közösségi médiában, stb.
Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás) Közösségi háló (ember által létrehozott információ) – ’People to people’ típusú adat 1100. Közösségi hálók: Facebook, Twitter, Tumblr stb. 1200. Blogok, hozzászólások 1300. Személyes dokumentumok 1400. Képek: Instagram, Flickr, Picasa stb. 1500. Videók: Youtube stb. 1600. Internetes keresések 1700. Mobil adattartalom: szöveges üzenetek 1800. Felhasználó által generált térképek 1900. E-Mail Hagyományos üzleti rendszerek (folyamat által közvetített adatok) – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok 2110. Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok 2210. Kereskedelmi tranzakciók 2220. Bank-/készletnyilvántartás 2230. E-kereskedelem 2240. Bankkártya/hitelkártya
Miért foglalkozik a hivatalos statisztika a big datával? Új kihívások előtt a hivatalos statisztika Csökkenő válaszadási készség Csökkenő erőforrások Új adatigények Gyorsabb adatközlési elvárások Jó minőségű adatok VERSENY!
Miért foglalkozik a hivatalos statisztika big datával? – mi a válasz? Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika Az infokommunikációs technológiák legújabb fejlesztései a gazdasági és a társadalomi folyamatok egyre növekvőbb mértékű digitalizálódását eredményezte mely új lehetőségeket nyit meg a statisztikák előállításában. A big data hatékony statisztikai célú felhasználása számos kihívás elé állítja az Európai statisztikai Rendszert. Egyre növekszik az igény a jó minőségű, költséghatékony módon előállított, időszerű statisztikák iránt, ugyanakkor az egyre csökkenő válaszadási hajlandóságra új megoldásokat kell kidolgozni. A hivatalos statisztikák tervezésekor a különböző lehetséges adatforrásokat, így a Big Data-t is, a lehető legnagyobb mértékben be kell vonni. A big data egyik legfőbb jellegzetessége, hogy nem kötődik országhatárokhoz, így egyedülálló lehetőséget biztosít mind európai mind pedig globális szinten az együttműködésre. Számos európai kezdeményezés kapcsolódik a big data-hoz, beleértve az európai Bizottság Európai adat értéklánc stratégiájának kidolgozására vonatkozó törekvését, az EU adatvédelmének megújítását és a Horizon 2020 programot. A 2013-2017-es Európai Statisztikai Munkaprogram egyik célkitűzése az európai statisztikák új előállítási módjainak a megvalósítása, valamint célul tűzte ki a hatékonyság és minőség növelését, az időszerűség javítását.
Hogyan használhatjuk a big data-t a hivatalos statisztikában? Elsődleges adatforrást helyettesítő adatforrásként Adatforrások kiegészítésére Modell alapú becslések magyarázó változóiként Adatok validálására
Legfontosabb kihívások A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség-haszon elemzések) Menedzsment kérdések Módszertani megoldások Technológiai megoldások
Módszertani kihívások Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) Hogyan tudjuk feldolgozni az adatokat? Adat-összekapcsolási problémák (~n2 összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) Adathiányok, outlierek kezlése
IT kihívások Adatok fogadása? Adatok tárolása: kell tárolni a beérkezett adatokat? Feldolgozás sebessége? Feldolgozás módja?
Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) Hagyományos tárolási megoldások nem működnek A mikro adatokat tárolunk vagy aggregátumot? A minőség napról napra változhat Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni Nem statisztikusokra hanem adattudósokra van szükség Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk
Hollandia 1. – Közösségi oldalak felhasználhatósága Twitter, Facebook, YouTube, LinkedIn, blogok, stb. közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata Statisztikai célú felhasználási lehetőségek: Adminisztratív terhek mérése: ilyen tartalmú szövegek keresése
Hollandia 1. - folytatás 2. Érzelmek mérése: 2010. június- 2012. augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal
Hollandia 2.: Nemzeti adattárház a forgalmi adatokról 24 különböző útfenntartó hatóság adatait használja Road authorities Több mint 6000 km hosszú úthálózatra vonatkozóan gyűjt adatokat Percenként több, mint 24 ezer adatot gyűjtenek be és dolgoznak fel az utak forgalmára vonatkozóan és 75 másodpercen belül közzéteszik. Fő céljuk: dugók elkerülése, utak biztonságosabbá tétele Autósávonkénti forgalmi adatok Autósávonkénti utazási idő Gépjármű kategóriánkénti utazási idő
Hollandia 2. folytatás A sebességre, autók számára, és utazási időre percenként átlagosan 460 ezer adatot gyűjtenek be és dolgoznak fel, valamint a hozzájuk tartozó meta adatokat (hely, idő, gépjármú hossza, stb.) Szállítás statisztikai adatok becslése CBS tapasztalatai: 1 napnyi adatmennyiség feldolgozása alapján – 3 hónapig tartott
Észtország: Mobil telefonok helymeghatározási adatai Statisztikai felhasználás: napi ingázási adatok napközbeni népesség meghatározása Turizmus adatok becslése
További példák…
MIT: Billion price projekt Fogyasztói árindex becslése online áradatokból http://bpp.mit.edu/usa/ http://www.pricestats.com/us-series
Hogyan tovább…? UNECE: projekt indult a big data statisztikai alkalmazására (KSH tag) Módszertani megalapozás Konkrét adatkörön tesztelés Szabad-forráskódú IT megoldás kidolgozása, tesztelése Eurostat: Task Force jött létre Árstatisztika és IKT felhasználás területén konkrét tesztelések KSH: Big data koncepció: projektek indítása (2014-) Alapfogalmak lefektetése Helyzetfemérés (költség-haszon elemzés)
Legfontosabb referenciák a hivatalos statisztika területén UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170622) UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data) UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#) DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/) ISI conference 2013: Session IPS106: Big data Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014) UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project) …….