Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?

Hasonló előadás


Az előadások a következő témára: "Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?"— Előadás másolata:

1

2 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?

3 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 3 Kiknek ajánjuk a hadoopot? “... to create building blocks for programmers who just happen to have lots of data to store, lots of data to analyze, or lots of machines to coordinate, and who don’t have the time, the skill, or the inclination to become distributed systems experts to build the infrastructure to handle it.” Tom White Hadoop: The Definitive Guide

4 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 4 Hadoop történelem 2004 – Google publikálja a MapReduce technikát 2006 – Apache projekt lett Yahoo! támogatással További támogatók:

5 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 5 Miért használjunk elosztott rendszert? Feladat: Olvassunk fel 1TB adatot egy merevlemezről. Mennyi idő szükséges ehhez? Ez 4 óra lenne.

6 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 6 Miért használjunk elosztott rendszert?

7 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 7 HDFS Splits HDFS = Hadoop Distributed Filesystem A HDFS-be tölött adat blokkokra lesz szétvágva tipikus blokk méretek: –UNIX = 4KB –HDFS = 128MB

8 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 8 HDFS Replikálás Minden adatblokk replikálva lesz több gépre Így adatvesztés nélkül tudunk dolgozni node kiesés esetén

9 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 9 Architektúra Master-Slave architektúra DFS Master “Namenode” –Kezeli a fájlrendszert –Karbantartja a fájlnév és hozzátartozó blokkok kapcsolatát –Kezeli a blokk lefoglalást / replikálást –Kezeli a hozzáférést a fájlrendszerhez DFS Slaves “Datanodes” kezelik a blokk tárolást –Tárolják az adatblokkokat –Kliensek hozzáférnek a blokkokhoz közvetlenül a datanode-ról –Rendszeresen küld blokk információkat a namenode-nak –Periódikusan ellenőrzi a blokkok sértetlenségét.

10 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 10 Hadoop architecture

11 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 11 Named node Csak 1 (aktív) Name Node lehet Kezeli a fájlrendszert és a hozzátartozó metaadatokat

12 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 12 Data Node Tipikusan több adat node létezik Kezelik az adatblokkokat és a kliens lekérdezéseket Adatok replikálva – hiba tolerancia miatt

13 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 13 Job Tracker Pontosan 1 Job tracker létezik a klaszterenként Fogadja a kliens feladatokat Vezényli és monitorozza a MapReduce jobokat.

14 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 14 Task Tracker Tipikusan több task tracker létezik MapReduce folyamatok futásáért felelős Blokkokat olvas az adat node-okról

15 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 15 Hadoop alapelvek A kódot mozgassuk az adatokhoz Ne kelljen foglalkozni szinkronizálással, hiba toleranciával A nehéz munkát ő végzi, tudunk koncentrálni az adat feldolgozásra

16 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 16 MapReduce Paradigma: –A problémát bontsuk kisebb feladatokra,oldjuk meg párhuzamosan,összegezzük az eredményt Map: –Alakítsuk a bementi adatokat (kulcs, érték) párokra Reduce: –Alakítsuk az adott kulcshoz tartozó adatokat a kimeneti formára

17 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 17 MapReduce példa

18 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 18 Map Java

19 Gombos GergőKorszerű Adatbázis 2012/13 tavasz 19 Reduce Java

20 Köszönöm a figyelmet!


Letölteni ppt "Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?"