Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport

Slides:



Advertisements
Hasonló előadás
Fehér Péter PhD Edutus Főiskola Budapest
Advertisements

Windows Virtualizáció
Első tapasztalatok az NIIFI-nél üzemelő infrastruktúra cloud szolgáltatással kapcsolatban Stefán Péter NIIFI RICOMNET Miskolc.
Smart Country: szolgáltatások közös adatokon november 4 Szabó Róbert BME Távközlési és Médiainformatikai Tanszék.
Projekt általános bemutatása
Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting július 2. Tikk Domonkos Gravity Research.
Jövő Internet technológiák és alkalmazások kutatása Magyarországon A Magyar Tudomány Hónapja Jövő Internet technológiák és alkalmazások kutatása Magyarországon.
A Jövő Internet Nemzeti Kutatási Program bemutatása Dr. Bakonyi Péter és Dr. Sallai Gyula Jövő Internet Kutatáskoordinációs Központ Budapesti Műszaki és.
Copyright © 2012, Oracle and/or its affiliates. All rights reserved. 1.
Néhány fontos terület a Kreatív Ipar fejlődéséhez
Jövő hálózati megoldások – Future Internet
Nyitott laborok GlobálisLabor? TeleLab?
Pályázati adatok: Projekt címe: „ A pedagógiai módszertani reformot támogató informatikai infrastruktúra fejlesztése Békéscsaba iskoláiban” Azonosító:
Modern technológiák az energiagazdálkodásban - Okos hálózatok, okos mérés Haddad Richárd Energetikai Szakkollégium Budapest március 24.
1 European Urban Knowledge Network EURÓPAI VÁROSI TUDÁSHÁLÓZAT Magyar Regionális Tudományi Társaság IV. Vándorgyűlés Szeged, október Szokolay.
Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.
Önkormányzati informatika ASP alapokon
Közösségi média és a könyvtár Trendek Közösségi média és a könyvtárak Trendek
A PPM érettségi modell (Maturity Model) dimenziói
Big Data Sidló Csaba / Benczúr András
Mylogo is member of Erste Group (this is optional: please cancel completely from the Master, if not needed or just cancel this info) E RSTE B ANK „Olaj.
A Jövő Internet Nemzeti Kutatási Program – JINKA 1.3 Dr. Sallai Gyula Jövő Internet Kutatáskoordinációs Központ Budapesti Műszaki és Gazdaságtudományi.
Virtuális Obszervatórium Korszerű adatbázisok 2014.
[ Internet marketing Logfile elemzés Készítették: Fejős András
A technológia szerepe a pedagógiai értékelés fejlesztésében
Kiss Attila: Korszerű adatbázisok Adatbázis kutatási eredmények a TÁMOP támogatásával Június 7. Visegrád.
Korszerű adatbázisok 1. előadás Bevezetés 1. előadás.
szakmérnök hallgatók számára
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Bringa - tekerj, hogy haladj Bringa - tekerj, hogy haladj Motiváció Máshol hogy csinálják? szeptember dr. Német Béla, tudományos munkatárs.
Méréstechnika és Információs Rendszerek Tanszék
A SHIWA projekt – Munkafolyamat gráfok és különböző grid köztesrétegek együttműködésének problémái és megoldásai e-Science Café Budapest, Óbudai.
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Adatbányászat és WEB2 Németh Bottyán Web2.0 Symposium.
A Jövő Internet Nemzeti Technológiai Platform workshop-ja Az Aarlborg-i Future Internet Assembly üzenetei Dr. Sallai Gyula Budapesti Műszaki és Gazdaságtudományi.
A Dublin-i Future Internet Assembly üzenetei Sallai Gyula, Vilmos András Jövő Internet Kutatáskoordinációs Központ Budapest, június 4.
A Jövő Internet alkalmazásai Sidló Csaba, Benczúr András {sidlo, MTA SZTAKI Informatika Kutató Laboratórium Adatbányászat és Webes.
Jövő Internet technológiák és alkalmazások kutatása Magyarországon Ács Sándor, OE-NIK Budapest,
Éves Konferencia- Annual Report Irányító Bizottság: Elnök: D. Terdik György DE IK dékán Tagok: Dr. Kardon Béla EMMI Dr. Sallai Gyula BME, FIRCC Nagy Miklós.
World Wide Web Magyarországon Kovács László MTA SZTAKI Elosztott Rendszerek Osztály dsd.sztaki.hu.
A térinformatika lehetőségei a közlekedésszervezésben Barsi Árpád BME Fotogrammetria és Térinformatika Tanszék.
Econet.hu Nyrt év jelentősebb eseményei I i alaptőke-emelés Est Média Group Kft. 70%-ának megszerzése /Pesti Est, Est.
Levéltárak kapcsolódása az elektronikus levéltárhoz A levéltári technológiai központok, a központi e-levéltári és e-irattári szolgáltatások Dr. Kenyeres.
INNOAXIS IPA HUSRB/0901/2.1.3 APPLICATION ID: HU-SRB/0901/213/028 PROJECT TITLE: The borderline as an axis of innovation LEAD BENEFICIARY: Centre for Regional.
Adatbányászati módszerek ajánló rendszerekben
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS 5.4 Szolgáltatói Keretrendszerek Prof. Dr. Gyimóthy Tibor,
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
A StoreWizard webáruház bemutatása
EGEE-II INFSO-RI Enabling Grids for E-sciencE A HunGrid infrastruktúra és alkalmazásfejlesztő környezete Gergely Sipos
A tudomány tudománya Kampis György ELTE TTK Tudományfilozófia Tanszék 12/7/12"FuturICT" TÁMOP ick-off meeting, SZTE.
„EGYNEK MINDEN NEHÉZ, SOKNAK SEMMI SEM LEHETETLEN” /Gróf Széchenyi István/ MSZ EN ISO energia menedzsment alapú évente 300 iskola zöldáram ESCO.
OKOSTELEFON KÖZÉPRÉTEG, VALÓS IDEJŰ TELJESEN ELOSZTOTT ADATFELDOLGOZÁS
Online szolgáltatások. Szoftver felépítése A „Felhő” bemutatása Ún. Hosting szolgáltatások – pontosan mit is jelentenek? Előnyök Témakörök © SKIDATA
Miért jó nekünk kutatóknak a felhő?
Jövő Internet fejlesztések és alkalmazások
A tudomány tudománya alprojekt Kampis György egy.tan., ELTE Az infokommunikációs technológiák társadalmi hatásai november 13. Balatonfüred.
MAVE Budapest, május 24. INCLUSIVE – project bemutatása E-learning „A távolságot, mint üveg golyót, megkapod..” /József Attila - Altató/ Wenhard.
1 AZ IKTA-2000 projektjeinek szakmai bemutatója IKTA-144/2000 projekt november 28.
Magyar CIVINET harmadik találkozója Debrecen, Gertheis Antal, Városkutatás Kft. / Magyar CIVINET Titkárság.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Okostelefon felhő Prof. Dr. Gyimóthy Tibor Szegedi Tudományegyetem.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Összefoglalás M. Kozlovszky MTA SZTAKI
Felhő authentikáció demonstráció Gergely Márk MTA SZTAKI Laboratory of Parallel and Distributed Systems
A Jövő Ergonómiai Mérőeszköze
Okos Jövő Fórum 2015 Smart Future Fórum 2015 Győr A Széchenyi István Egyetem és az Okos Jövő Innovációs Klaszter közös rendezvénye.
A Műegyetem szerepvállalása a hazai e-mobilitás K+F-ben Dr. Jakab László - BME Villamosmérnöki és Informatikai Kar Dr. Varga István – BME Közlekedésmérnöki.
FELHŐ ALAPÚ INFORMATIKAI RENDSZEREK VS. LEXIKÁLIS ISMERETEK Networkshop 2016 Konferencia Debrecen Antal Péter, Eszterházy Károly Főiskola,
Magyar CIVINET negyedik találkozója Kaposvár,
Autonóm járművek a jövő intelligens városaiban
Új lendülettel az európai kutatóegyetemek élvonalába
This is the first level bullet for notes 12 point Arial Regular
Előadás másolata:

Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport MTA SZTAKI, Informatika Laboratórium benczur@sztaki.mta.hu http://datamining.sztaki.hu Big Data @ SZTAKI 2014. Február 18.

Big Data: volume, velocity, variety “big data” is when the size of the data itself becomes part of the problem “big data” is data that becomes large enough that it cannot be processed using conventional methods Google sorts 1PB in 33 minutes (07-09-2011) Amazon S3 store contains 499B objects (19-07-2011) New Relic: 20B+ application metrics/day (18-07-2011) Walmart monitors 100M entities in real time (12-09-2011) Forrás: The Emerging Big Data slide from the Intelligent Information Management DG INFSO/E2 Objective ICT-2011.4.4 Info day in Luxembourg on 26 September 2011

Big Data: volume, velocity, variety media pricing fraud detection transportation Online reputation Proprietary hardware news curation Matlab Revolution Focused Services speed SPSS R SAS Proprietary code SciPy Mahout real time KDB scale Netezza Vertica Big Analytics Esper velocity HBase Greenplum Fast Data MapR InfoBright Progress Hadoop MySql batch volume MBs PBs

Big Data: volume, velocity, variety Virtual Web Observatory Mobility Social Media Stratosphere streaming apps Web analytics Focused Services speed GraphLab Stratosphere analytics apps real time Storm scale Big Analytics SAP HANA velocity Stratosphere Fast Data BUbiNG crawler MemoryBot batch batch volume MBs PBs

Virtuális Web Obszervatórium

Virtuális Web Obszervatórium TREC Web gyűjtemény (2012) 2 Mrd angol nyelvű HTML

Virtuális Web Obszervatórium Web Crawl, Internet Memory Foundation, Paris/Amsterdam

Virtuális Web Obszervatórium 1.2 Mrd Tweet

Virtuális Web Obszervatórium Angol Wikipedia letölthető adata 170 havi pillanatkép 2013 májusig

Virtuális Web Obszervatórium Nagy általános ontológia Wikipedia, DBPedia és egyéb források Max Planck Saarbrücken

Gráfvizualizáció YAGO entitások kapcsolatok

Steve Jobs tag cloud időben

Saját hardver infrastruktúra

Ajánló rendszerek - mátrixfaktorizáció Felhasználói értékelés mátrix (R) pl. 1M x 10,000 Termék (pl. film) 1-5 „csillaggal” Kitöltöttség 1% alatt Feladat: a hiányzó értékelések megbecsülése Kiértékelés Teszt adat (pl. jövőbeli értékelés) Hibamérték RMSE (Root Mean Squared Error) Leggyakrabban alkalmazott Nagy büntetés a nagy tévedésekre MAE (Mean Absolute Error) Mátrixfaktorizáció (regularizált)

R P 1 4 3 1,1 -0,4 1,2 -0,5 1,2 -0,3 1,1 -0,2 4 4 1,2 0,9 1,2 0,9 1,1 0,8 0,5 -0,3 0,4 -0,2 0,4 -0,4 0,5 -0,1 4 2 4 1,5 1,3 1,4 0,9 0,8 -1,1 -1,3 -1,2 -0.1 0,0 0,1 0.5 0.6 Q 0,0 -0,1 -0,2 0,5 0,4 -0,2 -0,4 -0,3 1,6 1,6 1,5 0,3 0,2 Forrás: Tikk Domonkos, Gravity 15

Forrás: Tikk Domonkos, Gravity

R P 1 4 3.3 3 2.4 1,4 1,1 -0.5 3.5 4 4 1.5 0,9 1,9 2,5 -0,3 4 4.9 2 1.1 4 1,5 2,1 1,0 0.7 1.6 Q -1,0 0,8 1,6 1,8 0,0 Forrás: Tikk Domonkos, Gravity 17

Smart City – mobilitási adatok Mobilitási adatok többcélú elemzése Mobil szolgáltatás minősége Személyre szabott profilépítés térben és időben Felhasználó és helyszín modellek építése és előrejelzés Helyszín, útvonal predikció, valós idejű közlekedési előrejelzés Intelligens város alkalmazások Többtényezős optimalizáció (ár, idő – elektromos autók!) Tömegközlekedés Katasztrófahelyzetek, nagy rendezvények biztosítása Metropolisz adatmennyisége Tárolásra nincs idő (volume) Azonnali reakció (velocity) Mozgás, események, tartalomfogyasztás, közösség (variety)

Mobilitás adatfolyam kísérlet (Orange D4D)

Mobilitás adatfolyam osztott feldolgozása Felhasználói és torony alapú modellek memóriában és perzisztencia rétegben

Big Data kutatások kapcsolódásai „Lendület” group Jövő Internet FET, FuturICT Felhő EIT ICTLabs Virtuális Web Obszervatórium Mobilitás, smart city Neuro-Kognitív labor Ajánló rendszerek Tudományos publikációk Közösségi hálózatok SZTAKI kísérleti felhő Wigner, MTA, … Elosztott technológia keretrendszerek

Összefoglalás Big Data feladatok jellemzői Adat „más célból” gyűlik Nincs mintavételezés – statisztikai szignifikancia? Adatgazdagítás helyett a hiányzó adatokat átugró módszerek Alkalmazási területek Web, közösségi média, virtuális Web obszervatórium Ajánló rendszerek, vásárlói szokások Mobilitás, közlekedés, intelligens város Szoftver infrastruktúra Stratosphere (TU Berlin, EIT ICTLabs) GraphLab (CMU, HUJI – LAWA projekt) SAP HANA

A Big Data nem csodafegyver! NoSQL By Perry Hoekstra Technical Consultant Perficient, Inc.

Köszönöm a figyelmet! Big Data @ SZTAKI 2014. Február 18.