Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék ‚Big Data’ elemzési módszerek 2013.09.09.

Slides:



Advertisements
Hasonló előadás
Első tapasztalatok az NIIFI-nél üzemelő infrastruktúra cloud szolgáltatással kapcsolatban Stefán Péter NIIFI RICOMNET Miskolc.
Advertisements

Adatbázis gyakorlat 1. Szerző: Varga Zsuzsanna ELTE-IK (2004) Budapest
Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport
Statisztikák. Foursquare • 2014 Januári adatok forrás: foursquare.com/about • Több mint 45 millió felhasználó • Több mint 5 milliárd check-in • Több mint.
Jövő hálózati megoldások – Future Internet
Big Data Sidló Csaba / Benczúr András
IT-DEV-CON – IT-DEV-CON Kollár László Fejlesztési platform üzletág igazgató - Microsoft.
Ekler Péter Budapesti Műszaki és Gazdaságtudományi Egyetem
Halászat a globális adatóceánban – de mit tehetünk vele?
2 Forrás: The Standish Group International, Extreme Chaos, The Standish Group International, Inc., 2000.
Hogyan működik az elektronikus nyelv
Szárnyas Gábor október 11.
„Leíró” statisztika: alapfogalmak
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Virtuális Obszervatórium Korszerű adatbázisok 2014.
Virtualizáció Korszerű Adatbázisok Ferenci László
Számítógépes nyelvészeti alkalmazások Farkas Richárd szept 7.
Virtuális méréstechnika
Kincses Zoltán, Mingesz Róbert, Vadai Gergely
Mérés és adatgyűjtés laboratóriumi gyakorlat Makan Gergely, Mingesz Róbert, Nagy Tamás 2. óra szeptember 9., 10. v
1 Hálózati Operációs Rendszerek gyakorlat Bevezető Előadó: Bilicki Vilmos
Implementing Demeter: A Resource Management Tool used by Morgan Stanley’s Farm Engineering Team (In English) Maczika Száva Jenő MASRAAI.ELTE Programtervező.
TT Kovács Sándorné.
XML támogatás adatbázis-kezelő rendszerekben
Hibrid felhő Privát-, publikus és hoster felhők összekapcsolása
Anyagadatbank c. tárgy gyakorlat Féléves tematika Adatbázis alapfogalmak, rendszerek Adatmodellek, adatbázis tervezés Adatbázis műveletek.
Web Application for Resource Planning
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Budapest, június 28. Ontológia kezelő modul tervezése szöveges információt kezelő informatikai rendszer számára Förhécz András BME Méréstechnika.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Jövő Internet technológiák és alkalmazások kutatása Magyarországon Ács Sándor, OE-NIK Budapest,
Regional Office for Europe and Central Asia FAO Információs Hálózatok Hatékony tudásmegosztással a gazdák és partnereik érdekében az Európai Térségben.
MIKROELEKTRONIKA, VIEEA306
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS 5.4 Szolgáltatói Keretrendszerek Prof. Dr. Gyimóthy Tibor,
Fontos információk.
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alkalmazás és megjelenítés virtualizáció Micskei Zoltán.
A Microsoft Üzleti Intelligencia megoldása és platformja
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
„The Bottleneck” a sebesség megszabó lépés a humán demográfia izgalmas következményei Dr. Fleit Ernő Vízi Közmű és Környezetmérnöki Tanszék
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Ismerkedjünk tovább a számítógéppel
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
1 AZ IKTA-2000 projektjeinek szakmai bemutatója IKTA-144/2000 projekt november 28.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Okostelefon felhő Prof. Dr. Gyimóthy Tibor Szegedi Tudományegyetem.
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2009 I. félév Követlemények.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Összefoglalás M. Kozlovszky MTA SZTAKI
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Piramis klaszter rendszer
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2012 I. félév Követelmények.
‚Big Data’ elemzési módszerek
Káldos János Országos Széchényi Könyvtár Magyar Elektronikus Könyvtár.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2013 I. félév Követelmények.
PÁRHUZAMOS ARCHITEKTÚRÁK – 13 INFORMÁCIÓFELDOLGOZÓ HÁLÓZATOK TUDÁS ALAPÚ MODELLEZÉSE Németh Gábor.
Gráfadatbázisok Rácz Gábor.
Bevezetés Adatbázisok használata. Mi is az adatbázis? Az adatbázisok ma már az élet számos területén alapvető fontossággal bírnak (Google, Amazon, Flickr,
Ha(doop) akkor adatok... Hadoop és Node.JS adatfeltöltő (BME – NYME) Szalai László, Major Kálmán TÁMOP 4.1.1/C-12/1/KONV
AZURE RÉGIÓK Szoftver szolgáltatás SaaS Platform szolgáltatás PaaS Infrastruktúra szolgáltatás IaaS.
European Distance and E-Learning Network
Adatvédelmi kihívások a modern információ- technológiában
„Big Data” elemzési módszerek
„Big Data” elemzési módszerek
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék ‚Big Data’ elemzési módszerek

A félévről  Előadók o dr. Pataricza András o Dr. Horváth Gábor o Kocsis Imre (op. felelős)   IB418, ( ) 2006  1 ZH (~félév közepén)  Kötelező házi feladat o Részletek: TBA

Google Trends: „Big Data”  Ez is egy Big Data feladat

Definíció [1]  Adatkészletek, melyek mérete nagyobb, mint amit  regisztrálni,  tárolni,  kezelni és  elemezni tudunk  a „tipikus” (adatbáziskezelő) szoftverekkel.

Hol van ennyi adat?  Időben/populáción ismétlődő megfigyelések o Web logok o Telekommunikációs hálózatok o Kis(?)kereskedelem o Tudományos kísérletek (LHC, neurológia, genomika, …) o Elosztott szenzorhálózatok (pl. „smart metering”) o Járművek fedélzeti szenzorai o Számítógépes infrastruktúrák o …  Gráfok, hálózatok o Közösségi szolgáltatások

Hol van ennyi adat?  Modern repülőgépek: ~10 TB/hajtómű/fél óra  Facebook: 2.5 milliárd „like” egy nap  Kollégiumi hálózat: pár GB-nyi Netflow rekord egy csendes hétvégén

Tárolási kapacitás a világon [1]

Számítási kapacitás a világon [1]

Nagyvállalatok által tárolt adatok [1]

Néhány alkalmazási minta  Létező szenzor-instrumentáció kiaknázása  ‚IT for IT’: loganalízis, diagnosztika, hibaelőrejelzés, kapacitásmenedzsment, …  Közösségi média elemzése o Pl. PeerIndex  Csalásfelderítés (fraud detection) o ‚Ki vesz jegygyűrűt hajnal 4-kor?’ o N.B. ritka események; az algoritmika részben újszerű

Virtual Desktop Infrastructure: kapacitástervezés ~2 dozen VM/host ~20 ESX metrics/VM (CPU, memory, net) ~2 dozen VM/host ~20 ESX metrics/VM (CPU, memory, net) ~1 dozen host/cluster ~50 ESX metrics/host ~1 dozen host/cluster ~50 ESX metrics/host Cluster: ~70 metrics (derived by aggregation)

Példa: kapacitástervezés

Alternatív definíció: Big Data jellemzők [2]  ‚Volume’: igen nagy mennyiségű adat  ‚Variety’: nagyszámú forrás és/vagy nemstrukturált/részben strukturált adatok  ‚Velocity’: a ‚Return on Data’ (ROD) a lassú feldolgozással csökken o Főleg ‚streaming’ problémáknál o Ellentéte: ‚at rest’ Big Data problémák  ‚Veracity’: nagymennyiségű zaj o Pl. Twitter ‚spam’

RDBMS?  ‚Big Data’ problémáknál általában létezik természetes (részleges) rendezési szempont o Természetes: a nemtriviális analízisek ebben a sorrendben működnek o Pl. idő (idősor-analízisek)  Relációs modell: sorok sorrendje anatéma  Következmény: véletlenszerű hozzáférés diszkről  Az „optimális” hozzáférési mintához képest lassú

Normalizált séma: lassíthat! [3]

Nagyvállalati adattárházak?  Jellemzően igen komoly ETL  „Válaszidő”-követelmények o Régi adatok aggregálása/törlése/archiválása  Strukturálatlan adatok nem jellemzőek  Drágák…  Nem lehet későbbi analízisre „leborítani” az adatokat

Analízis eszközök?  Példa: R  Kulcsrakész függvények mediántól a neurális hálókig  De: csak memóriában tárolt adattípusok, nem hatékony memóriakezelés

Vizualizáció?  A klasszikus megoldások erősen támaszkodnak létező tárolási és analízis-megoldásokra  Jellemzően statisztikai leképezések o Önmagában Big Data problémára vezethető vissza  Feltáró adatanalízis (EDA): GPU támogatás?

Elosztott számítástechnika  Big Data: a ma alkalmazott stratégia COTS elosztott rendszerek alkalmazása o Kivételek vannak; lásd IBM Netezza  8 db nyolcmagos gép jóval olcsóbb, mint egy 64 magos  Modern hálózati technológiák: o Memóriánál lassabb o Helyi diszk áteresztőképességénél/válaszidejénél nem feltétlenül!  A tárolás és a feldolgozás is elosztott

Felhő számítástechnika A „számítási felhők” egy modell, amely lehetővé teszi a hálózaton keresztül való, kényelmes és széles körű hozzáférést konfigurálható számítási erőforrások egy megosztott halmazához.

Amazon Web Services

Alapvető kérdések  Elosztott platformon párhuzamosítás szükséges  Hatékony feldolgozáshoz továbbra is referenciális lokalitás kell  Bár a feldolgozás „közel vihető az adathoz”, az adatterítés logikája befolyásolja a teljesítményt o Pl. csak egy csomópont dolgozik

Big Data == Hadoop?  Google MapReduce és GFS  Apache Hadoop  Nyílt forráskódú, Java alapú keretrendszer  Hadoop Distributed File System (HDFS)  MapReduce programozási paradigma  Ráépülő/kiegészítő projektek: Cassandra, Chukwa, Hbase, Hive, Mahout, Pig, ZooKeeper…

HDFS ~Klasszikus állományrendszer Nagy (64MB) blokkok, szétterítve és replikálva ~Klasszikus állományrendszer Nagy (64MB) blokkok, szétterítve és replikálva

Hadoop

MapReduce [6]

MapReduce: szavak számolása szövegben [7]

MapReduce, mint párhuzamosítási minta  Számos probléma jól megfogalmazható MapReduce szemléletben o Mátrix-mátrix és mátrix-vektor szorzás o Relációalgebra o Korreláció o …  Ezekről később beszélünk

Hadoop ökoszisztéma: egyszerűsített áttekintés

Big Data =/= Hadoop (ökoszisztéma)  Adatfolyamok! o Hadoop: batch & ‚at rest’

Big Data =/= Hadoop (ökoszisztéma)  Elemző eszközök kiterjesztései o ‚File backed’ o Adatbázis-integrált o Vitatható, hogy ‚igazi’ Big Data-e  Célhardver o IBM Netezza  Gráfproblémák kezelése o Nem csak paraméterbecslés és tulajdonságvizsgálat; mintaillesztés is

Lehetőségek [1]

Források  [1] Manyika, J., Chui, M., Brown, B., & Bughin, J. (2011). Big data: The next frontier for innovation, competition, and productivity. Retrieved from  [2] Zikopoulous, P., Deroos, D., Parasuraman, K., Deutsch, T., Corrigan, D., & Giles, J. (2013). Harness the Power of Big Data. McGraw-Hill. Retrieved from  [3] Jacobs, A. (2009). The pathologies of big data. Communications of the ACM, 52(8), 36. doi: /  [4]  [5] Borkar, V., Carey, M. J., & Li, C. (2012). Inside “Big Data management.” In Proceedings of the 15th International Conference on Extending Database Technology - EDBT ’12 (pp. 3–14). New York, New York, USA: ACM Press. doi: /  [6] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi: /CBO  [7]