Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport

Hasonló előadás


Az előadások a következő témára: "Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport"— Előadás másolata:

1 Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport
MTA SZTAKI, Informatika Laboratórium Big SZTAKI 2014. Február 18.

2 Big Data: volume, velocity, variety
“big data” is when the size of the data itself becomes part of the problem “big data” is data that becomes large enough that it cannot be processed using conventional methods Google sorts 1PB in 33 minutes ( ) Amazon S3 store contains 499B objects ( ) New Relic: 20B+ application metrics/day ( ) Walmart monitors 100M entities in real time ( ) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT Info day in Luxembourg on 26 September 2011

3 Big Data: volume, velocity, variety
media pricing fraud detection transportation Online reputation Proprietary hardware news curation Matlab Revolution Focused Services speed SPSS R SAS Proprietary code SciPy Mahout real time KDB scale Netezza Vertica Big Analytics Esper velocity HBase Greenplum Fast Data MapR InfoBright Progress Hadoop MySql batch volume MBs PBs

4 Big Data: volume, velocity, variety
Virtual Web Observatory Mobility Social Media Stratosphere streaming apps Web analytics Focused Services speed GraphLab Stratosphere analytics apps real time Storm scale Big Analytics SAP HANA velocity Stratosphere Fast Data BUbiNG crawler MemoryBot batch batch volume MBs PBs

5 Virtuális Web Obszervatórium

6 Virtuális Web Obszervatórium
TREC Web gyűjtemény (2012) 2 Mrd angol nyelvű HTML

7 Virtuális Web Obszervatórium
Web Crawl, Internet Memory Foundation, Paris/Amsterdam

8 Virtuális Web Obszervatórium
1.2 Mrd Tweet

9 Virtuális Web Obszervatórium
Angol Wikipedia letölthető adata 170 havi pillanatkép 2013 májusig

10 Virtuális Web Obszervatórium
Nagy általános ontológia Wikipedia, DBPedia és egyéb források Max Planck Saarbrücken

11 Gráfvizualizáció YAGO entitások kapcsolatok

12 Steve Jobs tag cloud időben

13 Saját hardver infrastruktúra

14 Ajánló rendszerek - mátrixfaktorizáció
Felhasználói értékelés mátrix (R) pl. 1M x 10,000 Termék (pl. film) 1-5 „csillaggal” Kitöltöttség 1% alatt Feladat: a hiányzó értékelések megbecsülése Kiértékelés Teszt adat (pl. jövőbeli értékelés) Hibamérték RMSE (Root Mean Squared Error) Leggyakrabban alkalmazott Nagy büntetés a nagy tévedésekre MAE (Mean Absolute Error) Mátrixfaktorizáció (regularizált)

15 R P 1 4 3 1, ,4 1, ,5 1, ,3 1, ,2 4 4 1, ,9 1, ,9 1, ,8 0, ,3 0, ,2 0, ,4 0, ,1 4 2 4 1,5 1,3 1,4 0,9 0,8 -1,1 -1,3 -1,2 -0.1 0,0 0,1 0.5 0.6 Q 0,0 -0,1 -0,2 0,5 0,4 -0,2 -0,4 -0,3 1,6 1,6 1,5 0,3 0,2 Forrás: Tikk Domonkos, Gravity 15

16 Forrás: Tikk Domonkos, Gravity

17 R P 1 4 3.3 3 2.4 1, ,1 -0.5 3.5 4 4 1.5 0, ,9 2, ,3 4 4.9 2 1.1 4 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity 17

18 Smart City – mobilitási adatok
Mobilitási adatok többcélú elemzése Mobil szolgáltatás minősége Személyre szabott profilépítés térben és időben Felhasználó és helyszín modellek építése és előrejelzés Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés Intelligens város alkalmazások Többtényezős optimalizáció (ár, idő – elektromos autók!) Tömegközlekedés Katasztrófahelyzetek, nagy rendezvények biztosítása Metropolisz adatmennyisége Tárolásra nincs idő (volume) Azonnali reakció (velocity) Mozgás, események, tartalomfogyasztás, közösség (variety)

19 Mobilitás adatfolyam kísérlet (Orange D4D)

20 Mobilitás adatfolyam osztott feldolgozása
Felhasználói és torony alapú modellek memóriában és perzisztencia rétegben

21 Big Data kutatások kapcsolódásai
„Lendület” group Jövő Internet FET, FuturICT Felhő EIT ICTLabs Virtuális Web Obszervatórium Mobilitás, smart city Neuro-Kognitív labor Ajánló rendszerek Tudományos publikációk Közösségi hálózatok SZTAKI kísérleti felhő Wigner, MTA, … Elosztott technológia keretrendszerek

22 Összefoglalás Big Data feladatok jellemzői Adat „más célból” gyűlik
Nincs mintavételezés – statisztikai szignifikancia? Adatgazdagítás helyett a hiányzó adatokat átugró módszerek Alkalmazási területek Web, közösségi média, virtuális Web obszervatórium Ajánló rendszerek, vásárlói szokások Mobilitás, közlekedés, intelligens város Szoftver infrastruktúra Stratosphere (TU Berlin, EIT ICTLabs) GraphLab (CMU, HUJI – LAWA projekt) SAP HANA

23 A Big Data nem csodafegyver!
NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.

24 Köszönöm a figyelmet! Big SZTAKI 2014. Február 18.


Letölteni ppt "Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport"

Hasonló előadás


Google Hirdetések