Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaPál Szabó Megváltozta több, mint 9 éve
2
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
3
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 3 Kiknek ajánjuk a hadoopot? “... to create building blocks for programmers who just happen to have lots of data to store, lots of data to analyze, or lots of machines to coordinate, and who don’t have the time, the skill, or the inclination to become distributed systems experts to build the infrastructure to handle it.” Tom White Hadoop: The Definitive Guide
4
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 4 Hadoop történelem 2004 – Google publikálja a MapReduce technikát 2006 – Apache projekt lett Yahoo! támogatással További támogatók:
5
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 5 Miért használjunk elosztott rendszert? Feladat: Olvassunk fel 1TB adatot egy merevlemezről. Mennyi idő szükséges ehhez? Ez 4 óra lenne.
6
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 6 Miért használjunk elosztott rendszert?
7
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 7 HDFS Splits HDFS = Hadoop Distributed Filesystem A HDFS-be tölött adat blokkokra lesz szétvágva tipikus blokk méretek: –UNIX = 4KB –HDFS = 128MB
8
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 8 HDFS Replikálás Minden adatblokk replikálva lesz több gépre Így adatvesztés nélkül tudunk dolgozni node kiesés esetén
9
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 9 Architektúra Master-Slave architektúra DFS Master “Namenode” –Kezeli a fájlrendszert –Karbantartja a fájlnév és hozzátartozó blokkok kapcsolatát –Kezeli a blokk lefoglalást / replikálást –Kezeli a hozzáférést a fájlrendszerhez DFS Slaves “Datanodes” kezelik a blokk tárolást –Tárolják az adatblokkokat –Kliensek hozzáférnek a blokkokhoz közvetlenül a datanode-ról –Rendszeresen küld blokk információkat a namenode-nak –Periódikusan ellenőrzi a blokkok sértetlenségét.
10
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 10 Hadoop architecture
11
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 11 Named node Csak 1 (aktív) Name Node lehet Kezeli a fájlrendszert és a hozzátartozó metaadatokat
12
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 12 Data Node Tipikusan több adat node létezik Kezelik az adatblokkokat és a kliens lekérdezéseket Adatok replikálva – hiba tolerancia miatt
13
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 13 Job Tracker Pontosan 1 Job tracker létezik a klaszterenként Fogadja a kliens feladatokat Vezényli és monitorozza a MapReduce jobokat.
14
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 14 Task Tracker Tipikusan több task tracker létezik MapReduce folyamatok futásáért felelős Blokkokat olvas az adat node-okról
15
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 15 Hadoop alapelvek A kódot mozgassuk az adatokhoz Ne kelljen foglalkozni szinkronizálással, hiba toleranciával A nehéz munkát ő végzi, tudunk koncentrálni az adat feldolgozásra
16
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 16 MapReduce Paradigma: –A problémát bontsuk kisebb feladatokra,oldjuk meg párhuzamosan,összegezzük az eredményt Map: –Alakítsuk a bementi adatokat (kulcs, érték) párokra Reduce: –Alakítsuk az adott kulcshoz tartozó adatokat a kimeneti formára
17
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 17 MapReduce példa
18
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 18 Map Java
19
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 19 Reduce Java
20
Köszönöm a figyelmet!
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.