Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András

Hasonló előadás


Az előadások a következő témára: "Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András"— Előadás másolata:

1 Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András Február 18. Big SZTAKI

2 Big Data: volume, velocity, variety • “big data” is when the size of the data itself becomes part of the problem • “big data” is data that becomes large enough that it cannot be processed using conventional methods • Google sorts 1PB in 33 minutes ( ) • Amazon S3 store contains 499B objects ( ) • New Relic: 20B+ application metrics/day ( ) • Walmart monitors 100M entities in real time ( ) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT Info day in Luxembourg on 26 September 2011

3 Fast Data Big Analytics Focused Services Big Data: volume, velocity, variety

4 Fast Data Big Analytics Focused Services Big Data: volume, velocity, variety

5 Virtuális Web Obszervatórium

6 • TREC Web gyűjtemény (2012) • 2 Mrd angol nyelvű HTML Virtuális Web Obszervatórium

7 • Web Crawl, Internet Memory Foundation, Paris/Amsterdam Virtuális Web Obszervatórium

8 • 1.2 Mrd Tweet Virtuális Web Obszervatórium

9 • Angol Wikipedia letölthető adata • 170 havi pillanatkép 2013 májusig Virtuális Web Obszervatórium

10 • Nagy általános ontológia • Wikipedia, DBPedia és egyéb források • Max Planck Saarbrücken Virtuális Web Obszervatórium

11 Gráfvizualizáció • YAGO entitások • kapcsolatok

12 Steve Jobs tag cloud időben

13 Saját hardver infrastruktúra

14 Ajánló rendszerek - mátrixfaktorizáció • Felhasználói értékelés mátrix (R) pl. 1M x 10,000 o Termék (pl. film) 1-5 „csillaggal” o Kitöltöttség 1% alatt • Feladat: a hiányzó értékelések megbecsülése • Kiértékelés o Teszt adat (pl. jövőbeli értékelés) o Hibamérték • RMSE (Root Mean Squared Error) o Leggyakrabban alkalmazott o Nagy büntetés a nagy tévedésekre • MAE (Mean Absolute Error) • Mátrixfaktorizáció (regularizált)

15 ,4 -0,2 0,8 0,5 -1,3 -0,41, ,3 1,2 -0,51,1 -0,4 1,2 0,9 0,4 -0,4 1,2 -0,3 1,3 -0,1 0,9 0,4 1,1 -0,2 1,5 0,0 1,1 0,8 -1,2 -0,3 1,2 0,9 1,6 0,11,5 0,0 0,5 -0,3 -1,1 -0,2 0,4 -0,20,5 -0, ,2 P Q R Forrás: Tikk Domonkos, Gravity

16

17 ,5 -1,0 2,1 0,8 1,0 1,61, ,0 1,4 1,1 0,9 1,9 2,5 -0,3 P Q R Forrás: Tikk Domonkos, Gravity

18 Smart City – mobilitási adatok • Mobilitási adatok többcélú elemzése o Mobil szolgáltatás minősége o Személyre szabott profilépítés térben és időben • Felhasználó és helyszín modellek építése és előrejelzés o Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés • Intelligens város alkalmazások o Többtényezős optimalizáció (ár, idő – elektromos autók!) o Tömegközlekedés o Katasztrófahelyzetek, nagy rendezvények biztosítása • Metropolisz adatmennyisége o Tárolásra nincs idő (volume) o Azonnali reakció (velocity) o Mozgás, események, tartalomfogyasztás, közösség (variety)

19 Mobilitás adatfolyam kísérlet (Orange D4D)

20 Mobilitás adatfolyam osztott feldolgozása Felhasználói és torony alapú modellek memóriában és perzisztencia rétegben

21 Big Data kutatások kapcsolódásai Jövő InternetFET, FuturICT FelhőEIT ICTLabs Big Data „Lendület” group Ajánló rendszerek Tudományos publikációk Közösségi hálózatok Virtuális Web Obszervatórium Mobilitás, smart city Neuro-Kognitív labor Elosztott technológia keretrendszerek SZTAKI kísérleti felhő Wigner, MTA, …

22 Összefoglalás Big Data feladatok jellemzői • Adat „más célból” gyűlik • Nincs mintavételezés – statisztikai szignifikancia? • Adatgazdagítás helyett a hiányzó adatokat átugró módszerek Alkalmazási területek • Web, közösségi média, virtuális Web obszervatórium • Ajánló rendszerek, vásárlói szokások • Mobilitás, közlekedés, intelligens város Szoftver infrastruktúra • Stratosphere (TU Berlin, EIT ICTLabs) • GraphLab (CMU, HUJI – LAWA projekt) • SAP HANA

23 A Big Data nem csodafegyver! NoSQL By Perry Hoekstra Technical Consultant Technical Consultant Perficient, Inc. Perficient, Inc.

24 Köszönöm a figyelmet! Február 18.Big SZTAKI


Letölteni ppt "Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium Benczúr András"

Hasonló előadás


Google Hirdetések