Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában
Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?
3
Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” ( Más definíciók: „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapú formokból, PDF-ekből, ekből és egyéb formátumú dokumentumokból származik” (IBM)
4
Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: Adminisztratív (forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) Vélemény, pl. hozzászólások a közösségi médiában, stb.
5
Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás)
Közösségi háló (ember által létrehozott információ) – ’People to people’ típusú adat 1100. Közösségi hálók: Facebook, Twitter, Tumblr stb. 1200. Blogok, hozzászólások 1300. Személyes dokumentumok 1400. Képek: Instagram, Flickr, Picasa stb. 1500. Videók: Youtube stb. 1600. Internetes keresések 1700. Mobil adattartalom: szöveges üzenetek 1800. Felhasználó által generált térképek Hagyományos üzleti rendszerek (folyamat által közvetített adatok) – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok 2110. Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok 2210. Kereskedelmi tranzakciók 2220. Bank-/készletnyilvántartás 2230. E-kereskedelem 2240. Bankkártya/hitelkártya
6
Legfontosabb kihívások
A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség-haszon elemzések) Menedzsment kérdések Módszertani megoldások Technológiai megoldások
7
Módszertani kihívások
Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) Hogyan tudjuk feldolgozni az adatokat? Adat-összekapcsolási problémák (~n2 összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) Adathiányok, outlierek kezlése
8
IT kihívások Adatok fogadása?
Adatok tárolása: kell tárolni a beérkezett adatokat? Feldolgozás sebessége? Feldolgozás módja?
9
Miért foglalkozik a hivatalos statisztika a big datával?
Új kihívások előtt a hivatalos statisztika Csökkenő válaszadási készség Csökkenő erőforrások Új adatigények Gyorsabb adatközlési elvárások Jó minőségű adatok
10
Hogyan használhatjuk a big data-t a hivatalos statisztikában?
Elsődleges adatforrást helyettesítő adatforrásként Adatforrások kiegészítésére Modell alapú becslések magyarázó változóiként Adatok validálására
11
Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) Hagyományos tárolási megoldások nem működnek A mikro adatokat tárolunk vagy aggregátumot? A minőség napról napra változhat Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni Nem statisztikusokra hanem adattudósokra van szükség Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk
12
A hivatalos statisztika válaszai
Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika, 2013 Európai Statisztikai Rendszer: Big data cselekvési terv és ütemterv, 2014 (hosszútávú és rövidtávú ütemezés) UNECE projektek ( ENSZ főtitkár Adatforradalom munkacsoport Számos nemzeti példa
13
Nemzetközi példák Észtország - telefonos helyadatokkal ingázási szokások/migráció vizsgálata Ausztrália – műholdas képek mezőgazdasági statisztikákhoz Hollandia – fogyasztói bizalom Eurostat – fogyasztói árindex vizsgálata internetes árakból Olaszország - vállalati IKT Új-Zéland – rövid távú népességmozgás természeti katasztrófa ideje alatt és után Google trendek, keresések: járvány terjedése, munkanélküliség Észtország: Határátlépés: tartós vagy csak „néhány órás”. Esetleg dolgozni, bevásárolni jár át/ nyaralás/kivándorlás Geomarketing Közlekedésszervezés, közlekedésoptimalizálás Lefedettségi problémák, nincs mindenkinek mobilja Valakinél több készülék is van. Ausztrália: Képelemző algoritmus segítségével lehet meghatározni a területi földhasználati jellemzőket. -> megbecsüljék a bizonyos típusú termések arányát. Hollandia: 70% használ egy vagy több közösségi médiát. Twittert elemezték, mert ez a legnépszerűbb. A válaszadói hajlandóság egyre csökken, ezért az önként megosztott véleményeket elemzik. Szövegek tartalma erősen összefügg a fogyasztói bizalommal és a gazdasági helyzettel. Olaszország – információs és kommunikációs eszközök a vállalatoknál, web scraping, szövegbányászat eszközeivel, internet mint adatforrás, A vállalkozások weblapjait ismerjük és azok tartalmát elemzi. (gépi tanulással pl megvizsgálja, hogy van-e e-kereskedelem…) kiegészítő információként felhasnálják az ő köteleező adatgyűjtésükhöz Új-Zéland: 2010, 2011-es földrengésre koncentrál. Azt vizsgálja, hogy a népesség hogyan mozgott az egyes régiókon belül és azok között. Google inkább csak érdekességnek, kevésbé hasznos egy nemzeti statisztikai hivatal számára. keresés: az emberek rákeresnek a tünetekre, gyógyszerre, ezzel nyomon lehet követni
14
Közösségi oldalak felhasználhatósága – jólét mérése
Twitter, Facebook, YouTube, LinkedIn, blogok, stb. közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata 2010. június augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal
15
Mobil telefonok helymeghatározási adatai
Statisztikai felhasználás: napi ingázási adatok napközbeni népesség meghatározása Turizmus adatok becslése
16
MIT: Billion price projekt
Fogyasztói árindex becslése online áradatokból
17
KSH gyakorlat Kamera adatok használata:
a turizmus statisztika területén a nem schengeni határokon belépő külföldiek és a kilépő magyarok becslési módszerében használt Online pénztárgép adatok: kiskereskedelmi forgalom becslése További elképzelések-kísérletek: webscraping Online árak munkaerőpiac
18
Legfontosabb referenciák a hivatalos statisztika területén
UNECE: What does Big Data mean for Official Statistics? ( UNECE: Big Data classification ( UNECE Big Data honlap: ( DGINS 2013: Big Data workshop ( ISI conference 2013: Session IPS106: Big data Eurostat Big data event: ( UNECE HLG project on Big Data ( UN Data Revolution ( …….
19
Köszönöm a figyelmet!
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.