„Big Data” elemzési módszerek

Slides:



Advertisements
Hasonló előadás
HADOOP Korszerű Adatbázisok Elérés, Belépés Elérés: eszakigrid109.inf.elte.hu Belépés: felhasználó/jelszó: neptun-kód Manager oldalak:
Advertisements

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R és MapReduce „Big Data” elemzési módszerek Kocsis Imre.
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
‚Big Data’ elemzési módszerek
A kártyanyomtatás fortélyai Csákvári Krisztián Kártya és címke gyártás
TÖMÖRÍTÉS. Fogalma A tömörítés egy olyan eljárás, amelynek segítségével egy fájlból egy kisebb fájl állítható elő. A tömörítési arány függ a fájl típusától,
Ha(doop) akkor adatok... Hadoop és Node.JS adatfeltöltő (BME – NYME) Szalai László, Major Kálmán TÁMOP 4.1.1/C-12/1/KONV
1 Számítógép Hálózatok A hálózatok kialakulása, alapfogalmak Készítette: Csökmei István Péter ( CsIP ) Szegedi Tudományegyetem Természettudományi Kar levelező.
Követelményelemzés – követelményspecifikáció A szoftverfejlesztés kapcsán az elemzés speciálisan egy kezdeti szakaszt jelöl, amelynek alapvető feladata.
FELHŐ (CLOUD) Tokár Dániel NK.: C9F5B3. MIRŐL IS LESZ SZÓ?  Mi is az a felhő?  Előnyök / Hátrányok  Biztonság  Néhány nagyobb szolgáltató  Összegzés.
GPU párhuzamosítási lehetőségek az agyi aktivitás forráslokalizáció probléma megoldásában Juhász Zoltán Pannon Egyetem, Veszprém
E-learning modellek osztályozása
Nagyméretű állományok küldése
vizuális megismerés – vizuális „nyelv” vizuális kultúra
Operációs rendszerek.
„Bank a felhőben, avagy a bárányfelhők hallgatnak”
Becslés gyakorlat november 3.
A helyzet jó, de nem teljesen reménytelen. A háztartás pénze és ideje.
Végeselemes modellezés matematikai alapjai
T.R. Adatbázis-kezelés - Alapfogalmak Adatbázis:
Algoritmusok és Adatszerkezetek I.
Észrevettük? Tetszett? Hatott ránk?
Konfliktusok az iskolában
Szoftver vizualizáció
Tájékoztató a évi OSAP teljesüléséről
Animációk.
VÁRATLAN MŰSZAKI ESEMÉNYEK
A digitális nemzedék Lélekszerda.
Projektmunka Földrajzolok
Adatbázis-kezelés (PL/SQL)
dr. Jeney László egyetemi adjunktus Európa regionális földrajza
☺ Programozási környezetek Validátorok Fazekas Judit PTI 2010.
VB ADATTÍPUSOK.
A közfoglalkoztatás gyakorlati tapasztalatai
Business Mathematics
A márkázás Marketing gyakorlat 6..
Grosz imre f. doc. Kombinációs hálózatok /43 kép
Körmendi Dániel MAS Meeting Scheduler.
Rendszerfejlesztés gyakorlat
AZ OKOSHÁZAK BEMUTATÁSA
STRUKTURÁLT SERVEZETEK: funkció, teljesítmény és megbízhatóság
Rendszerfejlesztés gyakorlat
C++ Standard Template Library
Kalickás forgórészű aszinkronmotor csillag-delta indítása
Tömeges adattárolás kérdései
Adatbányászati szemelvények MapReduce környezetben
A ragadozás hatása a zsákmányállatok populációdinamikájára
Csomagoló Üzemi optimalizáló és Szimulációs rendszer
Környezeti Kontrolling
TÁMOP A pályaorientáció rendszerének tartalmi és módszertani fejlesztése – Regionális workshop Zétényi Ákos.
Oracle Adatbázisok kezelése c#-ban
Stratégiai emberierőforrás-fejlesztés
Számítógépes Hálózatok
Megfigyelés és kísérlet
A Lineáris Keresés Buktatói
1.5. A diszkrét logaritmus probléma
A szállítási probléma.
I. HELYZETFELMÉRÉSI SZINT FOLYAMATA 3. FEJLESZTÉSI FÁZIS 10. előadás
JAVA programozási nyelv NetBeans fejlesztőkörnyezetben I/13. évfolyam
Családi vállalkozások
Mintaillesztés Knuth-Morris-Pratt (KMP) algoritmus
6. Kritikai áttekintés és Vezetői összefoglaló
Bevezetés Tematika Számonkérés Irodalom
MÉLY NEURONHÁLÓK A tananyag az EFOP
Mesterséges intelligencia
Adatforgalom és lokális adattárolás PWA-k esetében
LIA Alapítványi Ált. Isk. és Szki. Piliscsabai Tagintézménye
Algoritmusok.
Előadás másolata:

„Big Data” elemzési módszerek RHadoop (rmr2) „Big Data” elemzési módszerek Kocsis Imre ikocsis@mit.bme.hu 2015. 10. 07.

Egy/A Big Data probléma „At rest Big Data” Nincs update „Mindent” elemzünk Elosztott tárolás „Computation to data” „Not true, but a very, very good lie!” (T. Pratchett, Nightwatch)

MapReduce

RHadoop = Hadoop + R

RHadoop github.com/RevolutionAnalytics/RHadoop/ „The most mature […] project for R and Hadoop is RHadoop.” (O’Reilly, R In a Nutshell, 2012) rmr(2): mapreduce rhdfs: HDFS állománykezelés rhbase, plyrmr

Local backend Helyi állományrendszer Szekvenciális végrehajtás Debug! rmr.options(backend="local") Helyi állományrendszer Szekvenciális végrehajtás Debug! Input/output itt is állományrendszer

Szószámlálás

rmr: mapreduce

MapReduce: a teljes kép Mapper: általában a chunkok egymás után következő darabkák: a random accesst elkerülendő hagyjuk, hogy szekvenciálisan olvassuk fel az adatokat Reducer: sehol nem garantált, hogy ő adott kulcsokat kap majd meg, emiatt semmilyen sorrendezést nem feltételezhetünk A köztes kulcs-érték párok sehol nincsenek perzisztensen eltárolva, az output viszont igen Forrás: [1], p 30

Input/output format text json csv native (R sorosítás) sequence.typedbytes (Hadoop) pig.hive hbase

Előnyök Map és Reduce: R-ben + a vezérlés is: kényelem Csomagok! MR algoritmus-prototipizálás + a vezérlés is: kényelem Hadoop Job: egy függvényhívás! Pl. iteratív MapReduce teljesen R-ben Map és Reduce: ~a hívó környezetben

Hogyan lehet ilyenem? Local backend, sandbox VM-ek Cloudera, Hortonworks Saját Hadoop klaszter  Amazon Elastic MapReduce (EMR) Bérelhető Hadoop klaszter Erősen javasolt kipróbálni Saját felhő megoldás

Hátrányok? Nehézkes debug +1 hangolási réteg MAHOUT-klón Sok Hadoop funkc. Kevés példa