Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?
Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it-glossary/big-data/) Más definíciók: „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapú formokból, PDF-ekből, e-mailekből és egyéb formátumú dokumentumokból származik” (IBM)
Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: Adminisztratív (forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) Vélemény, pl. hozzászólások a közösségi médiában, stb.
Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás) Közösségi háló (ember által létrehozott információ) – ’People to people’ típusú adat 1100. Közösségi hálók: Facebook, Twitter, Tumblr stb. 1200. Blogok, hozzászólások 1300. Személyes dokumentumok 1400. Képek: Instagram, Flickr, Picasa stb. 1500. Videók: Youtube stb. 1600. Internetes keresések 1700. Mobil adattartalom: szöveges üzenetek 1800. Felhasználó által generált térképek 1900. E-Mail Hagyományos üzleti rendszerek (folyamat által közvetített adatok) – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok 2110. Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok 2210. Kereskedelmi tranzakciók 2220. Bank-/készletnyilvántartás 2230. E-kereskedelem 2240. Bankkártya/hitelkártya
Legfontosabb kihívások A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség-haszon elemzések) Menedzsment kérdések Módszertani megoldások Technológiai megoldások
Módszertani kihívások Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) Hogyan tudjuk feldolgozni az adatokat? Adat-összekapcsolási problémák (~n2 összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) Adathiányok, outlierek kezlése
IT kihívások Adatok fogadása? Adatok tárolása: kell tárolni a beérkezett adatokat? Feldolgozás sebessége? Feldolgozás módja?
Miért foglalkozik a hivatalos statisztika a big datával? Új kihívások előtt a hivatalos statisztika Csökkenő válaszadási készség Csökkenő erőforrások Új adatigények Gyorsabb adatközlési elvárások Jó minőségű adatok
Hogyan használhatjuk a big data-t a hivatalos statisztikában? Elsődleges adatforrást helyettesítő adatforrásként Adatforrások kiegészítésére Modell alapú becslések magyarázó változóiként Adatok validálására
Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) Hagyományos tárolási megoldások nem működnek A mikro adatokat tárolunk vagy aggregátumot? A minőség napról napra változhat Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni Nem statisztikusokra hanem adattudósokra van szükség Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk
A hivatalos statisztika válaszai Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika, 2013 Európai Statisztikai Rendszer: Big data cselekvési terv és ütemterv, 2014 (hosszútávú és rövidtávú ütemezés) UNECE projektek (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+in+Official+Statistics) ENSZ főtitkár Adatforradalom munkacsoport Számos nemzeti példa
Nemzetközi példák Észtország - telefonos helyadatokkal ingázási szokások/migráció vizsgálata Ausztrália – műholdas képek mezőgazdasági statisztikákhoz Hollandia – fogyasztói bizalom Eurostat – fogyasztói árindex vizsgálata internetes árakból Olaszország - vállalati IKT Új-Zéland – rövid távú népességmozgás természeti katasztrófa ideje alatt és után Google trendek, keresések: járvány terjedése, munkanélküliség Észtország: Határátlépés: tartós vagy csak „néhány órás”. Esetleg dolgozni, bevásárolni jár át/ nyaralás/kivándorlás Geomarketing Közlekedésszervezés, közlekedésoptimalizálás Lefedettségi problémák, nincs mindenkinek mobilja Valakinél több készülék is van. Ausztrália: Képelemző algoritmus segítségével lehet meghatározni a területi földhasználati jellemzőket. -> megbecsüljék a bizonyos típusú termések arányát. Hollandia: 70% használ egy vagy több közösségi médiát. Twittert elemezték, mert ez a legnépszerűbb. A válaszadói hajlandóság egyre csökken, ezért az önként megosztott véleményeket elemzik. Szövegek tartalma erősen összefügg a fogyasztói bizalommal és a gazdasági helyzettel. Olaszország – információs és kommunikációs eszközök a vállalatoknál, web scraping, szövegbányászat eszközeivel, internet mint adatforrás, A vállalkozások weblapjait ismerjük és azok tartalmát elemzi. (gépi tanulással pl megvizsgálja, hogy van-e e-kereskedelem…) kiegészítő információként felhasnálják az ő köteleező adatgyűjtésükhöz Új-Zéland: 2010, 2011-es földrengésre koncentrál. Azt vizsgálja, hogy a népesség hogyan mozgott az egyes régiókon belül és azok között. Google inkább csak érdekességnek, kevésbé hasznos egy nemzeti statisztikai hivatal számára. keresés: az emberek rákeresnek a tünetekre, gyógyszerre, ezzel nyomon lehet követni
Közösségi oldalak felhasználhatósága – jólét mérése Twitter, Facebook, YouTube, LinkedIn, blogok, stb. közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata 2010. június- 2012. augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal
Mobil telefonok helymeghatározási adatai Statisztikai felhasználás: napi ingázási adatok napközbeni népesség meghatározása Turizmus adatok becslése
MIT: Billion price projekt Fogyasztói árindex becslése online áradatokból http://bpp.mit.edu/usa/ http://www.pricestats.com/us-series
KSH gyakorlat Kamera adatok használata: a turizmus statisztika területén a nem schengeni határokon belépő külföldiek és a kilépő magyarok becslési módszerében használt Online pénztárgép adatok: kiskereskedelmi forgalom becslése További elképzelések-kísérletek: webscraping Online árak munkaerőpiac
Legfontosabb referenciák a hivatalos statisztika területén UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170622) UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data) UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#) DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/) ISI conference 2013: Session IPS106: Big data Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014) UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project) UN Data Revolution (http://www.undatarevolution.org/) …….
Köszönöm a figyelmet!