Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Mag Kornélia A Magyar Tudomány Ünnepe 2014

Hasonló előadás


Az előadások a következő témára: "Mag Kornélia A Magyar Tudomány Ünnepe 2014"— Előadás másolata:

1 Big data bevezető, áttekintő előadás Big data a hivatalos statisztikában
Mag Kornélia A Magyar Tudomány Ünnepe 2014 BIG DATA – Forradalmasítja a mindennapjainkat?

2

3 Mi az a big data? A big data olyan adatforrásokat jelent, amelyek általánosságban a következőképpen írhatók le: nagy mennyiségű, nagy sebességű és nagy változatosságot mutató adatok, melyek költséghatékony módon, innovatív formában segítik a folyamatokba való jobb beketintésést és a döntéshozatalt.” (http://www.gartner.com/it-glossary/big-data/) Más definíciók: „...nem más, mint technológiai innovációk segítségével (internet és mobil számítástechnika), pénzügyi tranzakciók és fogyasztói interakciók eredményeképpen, a cégek által generált hatalmas információmennyiség „ (Bughin, J., és társai)” „…különböző földrajzi helyen elhelyezett adatbázisokból kinyerhető strukturált és strukturálatlan adat, amely webalapú formokból, PDF-ekből, ekből és egyéb formátumú dokumentumokból származik” (IBM)

4 Big data típusai Általánosságban az alábbi csoportosítási szempontokat határozhatjuk meg: Adminisztratív (forrásuk lehet valamely állami vagy egyéb adminisztratív forrás) pl.: elektronikus egészségügyi nyilvántartások, kórházi látogatások, biztosítási nyilvántartások, banki adatok, stb.) Kereskedelmi vagy tranzakciós: (két entitás közötti tranzakcióból származnak), pl.: bankkártya tranzakciók, online tranzakciók (beleértve a mobilkészülékről), stb. Szenzoros, pl. műholdképek, forgalomfigyelők, időjárás figyelők, stb. Nyomkövető eszközök, pl. útvonal/követési adatok mobiltelefonoktól, GPS, stb. Viselkedési, pl. online keresések (termékek, szolgáltatások vagy egyéb más jellegű információk), honlap látogatottság (online page view, stb.) Vélemény, pl. hozzászólások a közösségi médiában, stb.

5 Big data osztályozása (ENSZ ideiglenes munkacsoport szerinti besorolás)
Közösségi háló (ember által létrehozott információ)  – ’People to people’ típusú adat 1100. Közösségi hálók: Facebook, Twitter, Tumblr stb. 1200. Blogok, hozzászólások 1300. Személyes dokumentumok 1400. Képek: Instagram, Flickr, Picasa stb. 1500. Videók: Youtube stb. 1600. Internetes keresések 1700. Mobil adattartalom: szöveges üzenetek 1800. Felhasználó által generált térképek Hagyományos üzleti rendszerek (folyamat által közvetített adatok)  – ’People to Machine’ típusú adat 21. Közhivatalok által szolgáltatott adatok 2110. Orvosi/egészségügyi nyilvántartások 22. Kereskedelem által létrehozott adatok 2210. Kereskedelmi tranzakciók 2220. Bank-/készletnyilvántartás 2230. E-kereskedelem 2240. Bankkártya/hitelkártya

6 Legfontosabb kihívások
A big data statisztikai célú hasznosítása szempontjából a következő területeken szükséges a kihívásokra egységes választ, megoldást találni. Jogszabályi környezet (mihez, hogyan lehet hozzáférni?) Adatvédelmi kérdések (bizalmasság, magán jelleg kezelése) Költségvetési kérdések (adatforrás költségei, IT, humán erőforrás – költség-haszon elemzések) Menedzsment kérdések Módszertani megoldások Technológiai megoldások

7 Módszertani kihívások
Hogyan lehet értékelni a statisztikai célra való alkalmasságot? (minőség, lefedettség, területi dimenzió, pontosság, statisztikai fogalmaknak való megfelelőség…) Hogyan tudjuk feldolgozni az adatokat? Adat-összekapcsolási problémák (~n2 összehasonlítás: nagyon nagy n esetén hogyan oldható meg?) Adattisztítás: editálás, konzisztencia vizsgálat..(előzetes szabályok vs. adat mintázat alapján történő editálás) Adathiányok, outlierek kezlése

8 IT kihívások Adatok fogadása?
Adatok tárolása: kell tárolni a beérkezett adatokat? Feldolgozás sebessége? Feldolgozás módja?

9 Miért foglalkozik a hivatalos statisztika a big datával?
Új kihívások előtt a hivatalos statisztika Csökkenő válaszadási készség Csökkenő erőforrások Új adatigények Gyorsabb adatközlési elvárások Jó minőségű adatok

10 Hogyan használhatjuk a big data-t a hivatalos statisztikában?
Elsődleges adatforrást helyettesítő adatforrásként Adatforrások kiegészítésére Modell alapú becslések magyarázó változóiként Adatok validálására

11 Paradigmaváltás „Mindent el kell felejteni a statisztikai adatfeldolgozásról, amit eddig tudtunk!” – Holland Statisztikai Hivatal (CBS) Hagyományos tárolási megoldások nem működnek A mikro adatokat tárolunk vagy aggregátumot? A minőség napról napra változhat Olyan algoritmusokat kell kidolgozni, amik tudják kezelni a különböző adathiányokat, hibákat A hagyományos statisztikai szoftverek, adatbázis struktúrák nem képesek kezelni Nem statisztikusokra hanem adattudósokra van szükség Csak akkor tudjuk, hogy működik-e, használható-e, ha kipróbáltuk

12 A hivatalos statisztika válaszai
Európai Statisztikai Rendszer - Scheveningen Memorandum: Big data és a hivatalos statisztika, 2013 Európai Statisztikai Rendszer: Big data cselekvési terv és ütemterv, 2014 (hosszútávú és rövidtávú ütemezés) UNECE projektek (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+in+Official+Statistics) ENSZ főtitkár Adatforradalom munkacsoport Számos nemzeti példa

13 Nemzetközi példák Észtország - telefonos helyadatokkal ingázási szokások/migráció vizsgálata Ausztrália – műholdas képek mezőgazdasági statisztikákhoz Hollandia – fogyasztói bizalom Eurostat – fogyasztói árindex vizsgálata internetes árakból Olaszország - vállalati IKT Új-Zéland – rövid távú népességmozgás természeti katasztrófa ideje alatt és után Google trendek, keresések: járvány terjedése, munkanélküliség Észtország: Határátlépés: tartós vagy csak „néhány órás”. Esetleg dolgozni, bevásárolni jár át/ nyaralás/kivándorlás Geomarketing Közlekedésszervezés, közlekedésoptimalizálás Lefedettségi problémák, nincs mindenkinek mobilja Valakinél több készülék is van. Ausztrália: Képelemző algoritmus segítségével lehet meghatározni a területi földhasználati jellemzőket. -> megbecsüljék a bizonyos típusú termések arányát. Hollandia: 70% használ egy vagy több közösségi médiát. Twittert elemezték, mert ez a legnépszerűbb. A válaszadói hajlandóság egyre csökken, ezért az önként megosztott véleményeket elemzik. Szövegek tartalma erősen összefügg a fogyasztói bizalommal és a gazdasági helyzettel. Olaszország – információs és kommunikációs eszközök a vállalatoknál, web scraping, szövegbányászat eszközeivel, internet mint adatforrás, A vállalkozások weblapjait ismerjük és azok tartalmát elemzi. (gépi tanulással pl megvizsgálja, hogy van-e e-kereskedelem…) kiegészítő információként felhasnálják az ő köteleező adatgyűjtésükhöz Új-Zéland: 2010, 2011-es földrengésre koncentrál. Azt vizsgálja, hogy a népesség hogyan mozgott az egyes régiókon belül és azok között. Google inkább csak érdekességnek, kevésbé hasznos egy nemzeti statisztikai hivatal számára. keresés: az emberek rákeresnek a tünetekre, gyógyszerre, ezzel nyomon lehet követni

14 Közösségi oldalak felhasználhatósága – jólét mérése
Twitter, Facebook, YouTube, LinkedIn, blogok, stb. közösségi oldalak monitorozása: aktivitás, szövegek tartalmának a monitorozása, kulcsszavak vizsgálata 2010. június augusztus közötti időszakban elküldött 675 millió üzenet szövegét elemezték (leginkább Twitter, Facebook) A havi aggregált adatokat összevetették a vásárlói bizalomra vonatkozó adatokkal

15 Mobil telefonok helymeghatározási adatai
Statisztikai felhasználás: napi ingázási adatok napközbeni népesség meghatározása Turizmus adatok becslése

16 MIT: Billion price projekt
Fogyasztói árindex becslése online áradatokból

17 KSH gyakorlat Kamera adatok használata:
a turizmus statisztika területén a nem schengeni határokon belépő külföldiek és a kilépő magyarok becslési módszerében használt Online pénztárgép adatok: kiskereskedelmi forgalom becslése További elképzelések-kísérletek: webscraping Online árak munkaerőpiac

18 Legfontosabb referenciák a hivatalos statisztika területén
UNECE: What does Big Data mean for Official Statistics? (http://www1.unece.org/stat/platform/pages/viewpage.action?pageId= ) UNECE: Big Data classification (http://www1.unece.org/stat/platform/display/msis/Classification+of+Types+of+Big+Data) UNECE Big Data honlap: (http://www1.unece.org/stat/platform/display/msis/Big+Data#) DGINS 2013: Big Data workshop (http://www.cbs-events.nl/dgins2013/programme/presentations/) ISI conference 2013: Session IPS106: Big data Eurostat Big data event: (http://cros-portal.eu/content/big-data-event-2014) UNECE HLG project on Big Data (http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Project) UN Data Revolution (http://www.undatarevolution.org/) …….

19 Köszönöm a figyelmet!


Letölteni ppt "Mag Kornélia A Magyar Tudomány Ünnepe 2014"

Hasonló előadás


Google Hirdetések