Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium benczur@sztaki.mta.hu http://datamining.sztaki.hu Big Data @ SZTAKI 2014. Február 18.
Big Data: volume, velocity, variety “big data” is when the size of the data itself becomes part of the problem “big data” is data that becomes large enough that it cannot be processed using conventional methods Google sorts 1PB in 33 minutes (07-09-2011) Amazon S3 store contains 499B objects (19-07-2011) New Relic: 20B+ application metrics/day (18-07-2011) Walmart monitors 100M entities in real time (12-09-2011) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011
Big Data: volume, velocity, variety media pricing fraud detection transportation Online reputation Proprietary hardware news curation Matlab Revolution Focused Services speed SPSS R SAS Proprietary code SciPy Mahout real time KDB scale Netezza Vertica Big Analytics Esper velocity HBase Greenplum Fast Data MapR InfoBright Progress Hadoop MySql batch volume MBs PBs
Big Data: volume, velocity, variety Virtual Web Observatory Mobility Social Media Stratosphere streaming apps Web analytics Focused Services speed GraphLab Stratosphere analytics apps real time Storm scale Big Analytics SAP HANA velocity Stratosphere Fast Data BUbiNG crawler MemoryBot batch batch volume MBs PBs
Virtuális Web Obszervatórium
Virtuális Web Obszervatórium TREC Web gyűjtemény (2012) 2 Mrd angol nyelvű HTML
Virtuális Web Obszervatórium Web Crawl, Internet Memory Foundation, Paris/Amsterdam
Virtuális Web Obszervatórium 1.2 Mrd Tweet
Virtuális Web Obszervatórium Angol Wikipedia letölthető adata 170 havi pillanatkép 2013 májusig
Virtuális Web Obszervatórium Nagy általános ontológia Wikipedia, DBPedia és egyéb források Max Planck Saarbrücken
Gráfvizualizáció YAGO entitások kapcsolatok
Steve Jobs tag cloud időben
Saját hardver infrastruktúra
Ajánló rendszerek - mátrixfaktorizáció Felhasználói értékelés mátrix (R) pl. 1M x 10,000 Termék (pl. film) 1-5 „csillaggal” Kitöltöttség 1% alatt Feladat: a hiányzó értékelések megbecsülése Kiértékelés Teszt adat (pl. jövőbeli értékelés) Hibamérték RMSE (Root Mean Squared Error) Leggyakrabban alkalmazott Nagy büntetés a nagy tévedésekre MAE (Mean Absolute Error) Mátrixfaktorizáció (regularizált)
R P 1 4 3 1,1 -0,4 1,2 -0,5 1,2 -0,3 1,1 -0,2 4 4 1,2 0,9 1,2 0,9 1,1 0,8 0,5 -0,3 0,4 -0,2 0,4 -0,4 0,5 -0,1 4 2 4 1,5 1,3 1,4 0,9 0,8 -1,1 -1,3 -1,2 -0.1 0,0 0,1 0.5 0.6 Q 0,0 -0,1 -0,2 0,5 0,4 -0,2 -0,4 -0,3 1,6 1,6 1,5 0,3 0,2 Forrás: Tikk Domonkos, Gravity 15
Forrás: Tikk Domonkos, Gravity
R P 1 4 3.3 3 2.4 1,4 1,1 -0.5 3.5 4 4 1.5 0,9 1,9 2,5 -0,3 4 4.9 2 1.1 4 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity 17
Smart City – mobilitási adatok Mobilitási adatok többcélú elemzése Mobil szolgáltatás minősége Személyre szabott profilépítés térben és időben Felhasználó és helyszín modellek építése és előrejelzés Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés Intelligens város alkalmazások Többtényezős optimalizáció (ár, idő – elektromos autók!) Tömegközlekedés Katasztrófahelyzetek, nagy rendezvények biztosítása Metropolisz adatmennyisége Tárolásra nincs idő (volume) Azonnali reakció (velocity) Mozgás, események, tartalomfogyasztás, közösség (variety)
Mobilitás adatfolyam kísérlet (Orange D4D)
Mobilitás adatfolyam osztott feldolgozása Felhasználói és torony alapú modellek memóriában és perzisztencia rétegben
Big Data kutatások kapcsolódásai „Lendület” group Jövő Internet FET, FuturICT Felhő EIT ICTLabs Virtuális Web Obszervatórium Mobilitás, smart city Neuro-Kognitív labor Ajánló rendszerek Tudományos publikációk Közösségi hálózatok SZTAKI kísérleti felhő Wigner, MTA, … Elosztott technológia keretrendszerek
Összefoglalás Big Data feladatok jellemzői Adat „más célból” gyűlik Nincs mintavételezés – statisztikai szignifikancia? Adatgazdagítás helyett a hiányzó adatokat átugró módszerek Alkalmazási területek Web, közösségi média, virtuális Web obszervatórium Ajánló rendszerek, vásárlói szokások Mobilitás, közlekedés, intelligens város Szoftver infrastruktúra Stratosphere (TU Berlin, EIT ICTLabs) GraphLab (CMU, HUJI – LAWA projekt) SAP HANA
A Big Data nem csodafegyver! NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.
Köszönöm a figyelmet! Big Data @ SZTAKI 2014. Február 18.