Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 3 Kiknek ajánjuk a hadoopot? “... to create building blocks for programmers who just happen to have lots of data to store, lots of data to analyze, or lots of machines to coordinate, and who don’t have the time, the skill, or the inclination to become distributed systems experts to build the infrastructure to handle it.” Tom White Hadoop: The Definitive Guide

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 4 Hadoop történelem 2004 – Google publikálja a MapReduce technikát 2006 – Apache projekt lett Yahoo! támogatással További támogatók:

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 5 Miért használjunk elosztott rendszert? Feladat: Olvassunk fel 1TB adatot egy merevlemezről. Mennyi idő szükséges ehhez? Ez 4 óra lenne.

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 6 Miért használjunk elosztott rendszert?

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 7 HDFS Splits HDFS = Hadoop Distributed Filesystem A HDFS-be tölött adat blokkokra lesz szétvágva tipikus blokk méretek: –UNIX = 4KB –HDFS = 128MB

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 8 HDFS Replikálás Minden adatblokk replikálva lesz több gépre Így adatvesztés nélkül tudunk dolgozni node kiesés esetén

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 9 Architektúra Master-Slave architektúra DFS Master “Namenode” –Kezeli a fájlrendszert –Karbantartja a fájlnév és hozzátartozó blokkok kapcsolatát –Kezeli a blokk lefoglalást / replikálást –Kezeli a hozzáférést a fájlrendszerhez DFS Slaves “Datanodes” kezelik a blokk tárolást –Tárolják az adatblokkokat –Kliensek hozzáférnek a blokkokhoz közvetlenül a datanode-ról –Rendszeresen küld blokk információkat a namenode-nak –Periódikusan ellenőrzi a blokkok sértetlenségét.

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 10 Hadoop architecture

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 11 Named node Csak 1 (aktív) Name Node lehet Kezeli a fájlrendszert és a hozzátartozó metaadatokat

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 12 Data Node Tipikusan több adat node létezik Kezelik az adatblokkokat és a kliens lekérdezéseket Adatok replikálva – hiba tolerancia miatt

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 13 Job Tracker Pontosan 1 Job tracker létezik a klaszterenként Fogadja a kliens feladatokat Vezényli és monitorozza a MapReduce jobokat.

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 14 Task Tracker Tipikusan több task tracker létezik MapReduce folyamatok futásáért felelős Blokkokat olvas az adat node-okról

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 15 Hadoop alapelvek A kódot mozgassuk az adatokhoz Ne kelljen foglalkozni szinkronizálással, hiba toleranciával A nehéz munkát ő végzi, tudunk koncentrálni az adat feldolgozásra

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 16 MapReduce Paradigma: –A problémát bontsuk kisebb feladatokra,oldjuk meg párhuzamosan,összegezzük az eredményt Map: –Alakítsuk a bementi adatokat (kulcs, érték) párokra Reduce: –Alakítsuk az adott kulcshoz tartozó adatokat a kimeneti formára

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 17 MapReduce példa

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 18 Map Java

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 19 Reduce Java

Köszönöm a figyelmet!

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?

Hasonló előadás

Az előadások a következő témára: "Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?

Hasonló előadás

Az előadások a következő témára: "Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés