Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?

Hasonló előadás


Az előadások a következő témára: "Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?"— Előadás másolata:

1 Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?

2 2

3 Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it- glossary/big-data/)http://www.gartner.com/it- glossary/big-data/ Más definíciók: „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapú formokból, PDF-ekből, ekből és egyéb formátumú dokumentumokból származik” (IBM) 3

4 Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: Adminisztratív (forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) Vélemény, pl. hozzászólások a közösségi médiában, stb. 4

5 Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás) Közösségi háló (ember által létrehozott információ) – ’People to people’ típusú adat Közösségi hálók: Facebook, Twitter, Tumblr stb Blogok, hozzászólások Személyes dokumentumok Képek: Instagram, Flickr, Picasa stb Videók: Youtube stb Internetes keresések Mobil adattartalom: szöveges üzenetek Felhasználó által generált térképek Hagyományos üzleti rendszerek (folyamat által közvetített adatok) – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok Kereskedelmi tranzakciók Bank-/készletnyilvántartás E-kereskedelem Bankkártya/hitelkártya 5

6 Legfontosabb kihívások A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség- haszon elemzések) Menedzsment kérdések Módszertani megoldások Technológiai megoldások 6

7 Módszertani kihívások Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) Hogyan tudjuk feldolgozni az adatokat? Adat-összekapcsolási problémák (~n 2 összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) Adathiányok, outlierek kezlése 7

8 IT kihívások Adatok fogadása? Adatok tárolása: kell tárolni a beérkezett adatokat? Feldolgozás sebessége? Feldolgozás módja? 8

9 Miért foglalkozik a hivatalos statisztika a big datával? Új kihívások előtt a hivatalos statisztika Csökkenő válaszadási készség Csökkenő erőforrások Új adatigények Gyorsabb adatközlési elvárások Jó minőségű adatok 9

10 Hogyan használhatjuk a big data-t a hivatalos statisztikában? Elsődleges adatforrást helyettesítő adatforrásként Adatforrások kiegészítésére Modell alapú becslések magyarázó változóiként Adatok validálására 10

11 Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) Hagyományos tárolási megoldások nem működnek A mikro adatokat tárolunk vagy aggregátumot? A minőség napról napra változhat Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni Nem statisztikusokra hanem adattudósokra van szükség Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk 11

12 A hivatalos statisztika válaszai Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika, 2013 Európai Statisztikai Rendszer: Big data cselekvési terv és ütemterv, 2014 (hosszútávú és rövidtávú ütemezés) UNECE projektek (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+in+Official+St atistics)http://www1.unece.org/stat/platform/display/bigdata/Big+Data+in+Official+St atistics ENSZ főtitkár Adatforradalom munkacsoport Számos nemzeti példa 12

13 Nemzetközi példák Észtország - telefonos helyadatokkal ingázási szokások/migráció vizsgálata Ausztrália – műholdas képek mezőgazdasági statisztikákhoz Hollandia – fogyasztói bizalom Eurostat – fogyasztói árindex vizsgálata internetes árakból Olaszország - vállalati IKT Új-Zéland – rövid távú népességmozgás természeti katasztrófa ideje alatt és után Google trendek, keresések: járvány terjedése, munkanélküliség 13

14 Közösségi oldalak felhasználhatósága – jólét mérése Twitter, Facebook, YouTube, LinkedIn, blogok, stb. közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata június augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal 14

15 Mobil telefonok helymeghatározási adatai Statisztikai felhasználás: napi ingázási adatok napközbeni népesség meghatározása Turizmus adatok becslése 15

16 MIT: Billion price projekt Fogyasztói árindex becslése online áradatokból 16

17 KSH gyakorlat Kamera adatok használata: a turizmus statisztika területén a nem schengeni határokon belépő külföldiek és a kilépő magyarok becslési módszerében használt Online pénztárgép adatok: kiskereskedelmi forgalom becslése További elképzelések-kísérletek: webscraping Online árak munkaerőpiac 17

18 Legfontosabb referenciák a hivatalos statisztika területén UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId= )http://www1.unece.org/stat/platform/pages/viewpage.action?pageId= UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data)http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#)http://www1.unece.org/stat/platform/display/msis/Big+Data# DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/)http://www.cbs-events.nl/dgins2013/programme/presentations/ ISI conference 2013: Session IPS106: Big data Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014)http://cros-portal.eu/content/big-data-event-2014 UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project)http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project UN Data Revolution (http://www.undatarevolution.org/) ……. 18

19 Köszönöm a figyelmet! 19


Letölteni ppt "Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?"

Hasonló előadás


Google Hirdetések