Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Big Data Korszerű adatbázisok 2014
2
Big Data „Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.” Wikipédia Gombos Gergő Korszerű Adatbázisok 2014
3
1981 Gombos Gergő Korszerű Adatbázisok 2014
4
Gombos Gergő Korszerű Adatbázisok 2014
5
Gombos Gergő Korszerű Adatbázisok 2014
6
Big Data célja „A vast quantity of UNSTRUCTURED data, which we now have the ability to process in REAL-TIME.” A day in big data Gombos Gergő Korszerű Adatbázisok 2014
7
„Big Daták” Okostelefon GPS és Internetkapcsolattal Szenzorok
4,6 milliárd mobil 1-2 milliárd rendelkezik internetkapcsolattal Szenzorok Nasa klímaadatok: 32 petabyte Nagy hadron ütköztető (LHC): 150 millió szenzor 40 millió/s mérés 0,001%-át használják Gombos Gergő Korszerű Adatbázisok 2014
8
„Big Daták” Sloan Digital Sky Survey Közösségi hálózatok
Csillagászati adatok 200 GB / éjszakánként 140 terrabyte adat Közösségi hálózatok Facebook 1,06 milliárd felhasználó naponta 30 milliárd elem megosztása naponta Twitter 175 millió tweet naponta 465 millió felhasználó Gombos Gergő Korszerű Adatbázisok 2014
9
Milyen „big” a Big Data? 2.7 Zetabyte méretű
2020-ra 50x több adat mint ma 2012-ben az adatok 90%-a 2 év alatt „termelődött” 2 nap alatt több információt generálunk mint 2003 óta összesen Gombos Gergő Korszerű Adatbázisok 2014
10
Big Data használata Californiai egyetem és a L.A.P.D.
Bűnözés jóslás (A különvélemény nem csak sci-fi) Google influenza terjedés Amerikai választások Város tervezés, dugó elkerülés MIT mobilok alapján vizsgálják a felhasználókat és utazási szokásaikat Gombos Gergő Korszerű Adatbázisok 2014
11
Kihívások Gombos Gergő Korszerű Adatbázisok 2014
12
http://www. ibmbigdatahub
Gombos Gergő Korszerű Adatbázisok 2014
13
Túl sok az adat Gombos Gergő Korszerű Adatbázisok 2014
14
Twitter Gombos Gergő Korszerű Adatbázisok 2014
15
Twitter Max. 140 karakter hosszú üzenet Geo információk Retweet
Korábbi tweet tweetelése Sample API Valós tweetek 1%-a Gombos Gergő Korszerű Adatbázisok 2014
16
Twitter üzenetek elemzése
Marketing Vásárlói visszajelzés Kampány elemzés Vélemények elemzése tweet alapján Gombos Gergő Korszerű Adatbázisok 2014
17
Twitter üzenetek elemzése
Befolyásos ember keresés Gombos Gergő Korszerű Adatbázisok 2014
18
Twitter üzenetek elemzése
Hír terjedése Gombos Gergő Korszerű Adatbázisok 2014
19
Twitter faster than earthquakes
Gombos Gergő Korszerű Adatbázisok 2014
20
Twitter adatok Gombos Gergő Korszerű Adatbázisok 2014
21
Twitter adatok Gombos Gergő Korszerű Adatbázisok 2014
22
Hadoop
23
Kiknek jó a hadoop? “... to create building blocks for programmers who just happen to have lots of data to store, lots of data to analyze, or lots of machines to coordinate, and who don’t have the time, the skill, or the inclination to become distributed systems experts to build the infrastructure to handle it.” Tom White Hadoop: The Definitive Guide Gombos Gergő Korszerű Adatbázisok 2014
24
Kik haszálják? Gombos Gergő Korszerű Adatbázisok 2014
25
Hadoop történelem 2004 – Google publikálja a MapReduce technikát
2006 – Apache projekt lett Yahoo! támogatással További támogatók: Gombos Gergő Korszerű Adatbázisok 2014
26
Verziók 20 February, 2014: Release 2.3.0 available
11 December, 2013: Release available 15 October, 2013: Release available 23 September, 2013: Release beta available 25 August, 2013: Release beta available 23 August, 2013: Release alpha available 1 Aug, 2013: Release (stable) available 8 July, 2013: Release available 6 June, 2013: Release alpha available 5 June, 2013: Release available 13 May, 2013: Release available 25 April, 2013: Release alpha available 18 April, 2013: Release available 15 February, 2013: Release available 14 February, 2013: Release alpha available Gombos Gergő Korszerű Adatbázisok 2014
27
Hadoop alprojektek Ambari (Hadoop menedzser)
Avro (adat formátumok támogatása) Cassandra (adatbázis) Chukwa (monitorozó) Hama (analizáló eszköz) Hbase (adatbázis) Hive (SQL szerű nyelv) Mahout (gépi tanulás csomag) Pig (lekérdező nyelv) Spark (gyors, általánosított motor elemzésekhez) ZooKeeper (koordinátor) Gombos Gergő Korszerű Adatbázisok 2014
28
Miért elosztva? Feladat: Olvassunk fel 1TB adatot egy merevlemezről. Mennyi idő szükséges ehhez? Ez 4 óra lenne. Gombos Gergő Korszerű Adatbázisok 2014
29
approximately 3800 nodes Gombos Gergő Korszerű Adatbázisok 2014
30
HDFS HDFS = Hadoop Distributed Filesystem Gombos Gergő
Korszerű Adatbázisok 2014
31
HDFS HDFS Split Block 1 Block 2 Block 3 Gombos Gergő
Korszerű Adatbázisok 2014
32
HDFS HDFS replikálás Block 1 Block 1 Block 2 Block 3 Block 2 Block 3
Gombos Gergő Korszerű Adatbázisok 2014
33
Architecktúra Master-Slave architektúra DFS Master “Namenode”
Kezeli a fájlrendszert Karbantartja a fájlnév és hozzátartozó blokkok kapcsolatát Kezeli a blokk lefoglalást / replikálást Kezeli a hozzáférést a fájlrendszerhez DFS Slaves “Datanodes” kezelik a blokk tárolást Tárolják az adatblokkokat Kliensek hozzáférnek a blokkokhoz közvetlenül a datanode-ról Rendszeresen küld blokk információkat a namenode-nak Periódikusan ellenőrzi a blokkok sértetlenségét. Gombos Gergő Korszerű Adatbázisok 2014
34
Architektúra (1.2.1) Gombos Gergő Korszerű Adatbázisok 2014
35
Architektúra (2.2) Gombos Gergő Korszerű Adatbázisok 2014
36
Hadoop alapelvek A kódot mozgassuk az adatokhoz
Ne kelljen foglalkozni szinkronizálással, hiba toleranciával A nehéz munkát ő végzi, tudunk koncentrálni az adat feldolgozásra Gombos Gergő Korszerű Adatbázisok 2014
37
Hadoop előnyök Hibás futás automatikusna újra futtatja
Több node számolja ugyanazt, így a lassúság nem okoz gondot Nagy adatoknál a map ott fut ahol az adat van, ha lehetséges Gombos Gergő Korszerű Adatbázisok 2014
38
MapReduce Paradigma: Map: Reduce:
A problémát bontsuk kisebb feladatokra,oldjuk meg párhuzamosan,összegezzük az eredményt Map: Alakítsuk a bementi adatokat (kulcs, érték) párokra Reduce: Alakítsuk az adott kulcshoz tartozó adatokat a kimeneti formára Gombos Gergő Korszerű Adatbázisok 2014
39
Példa Gombos Gergő Korszerű Adatbázisok 2014
40
További lehetőségek Partitioners Combiners Compression Counters
Map kulcsok hashalésének felüldefiniálása Combiners Map kimenetének redukálása Compression Output tömörítése Counters Folyamatjelzők Zero Reduces Csak a map fut, nincs sort és shuffle Gombos Gergő Korszerű Adatbázisok 2014
41
Map public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } Gombos Gergő Korszerű Adatbázisok 2014
42
Reduce public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context cont) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); Gombos Gergő Korszerű Adatbázisok 2014
43
Elérés Elérés: Belépés: Manager oldalak: monet.inf.elte.hu
felhasználó/jelszó: ami eddig Manager oldalak: Gombos Gergő Korszerű Adatbázisok 2014
44
Parancsok Listázás Kiírja egy fájl tartalmát Betöltés
hadoop fs –ls Kiírja egy fájl tartalmát hadoop fs –cat Betöltés hadoop fs –put Könyvtár létrehozás hadoop fs –mkdir Könyvtár törlése rekurzívan hadoop fs -rmr Gombos Gergő Korszerű Adatbázisok 2014
45
Hadoop streaming hadoop jar /home/hadoop/hadoop-1.2.1/contrib/streaming/ hadoop-streaming jar -mapper "cut -d' ' -f 1" -reducer "uniq" -input /user/ggombos/adatok.txt -output out_adatok -numReduceTasks 1 Gombos Gergő Korszerű Adatbázisok 2014
46
Eclipse plugin Letölteni a szükséges jar-okat
hadoop-eclipse-plugin jar hadoop-core jar Plugin bemásolása az eclipse/plugin mappába Elindítjuk az eclipset Nézet átállítása Map/Reduce-ra New Hadoop location beállítása Gombos Gergő Korszerű Adatbázisok 2014
47
Hadoop location map/reduce master: dfs master:
host: monet.inf.elte.hu port: 10814 dfs master: use M/R Master host OK port: 8020 User name: neptun azonosito Gombos Gergő Korszerű Adatbázisok 2014
48
Segítség A generált kódban lecseréljük a sorokat erre: conf.setInputFormat(TextInputFormat.class); conf.setOutputFormat(TextOutputFormat.class); FileInputFormat.setInputPaths(conf, new Path("In")); FileOutputFormat.setOutputPath(conf, new Path("Out")); Létező fmappák törlése: FileSystem fs = FileSystem.get(conf); if (fs.exists(new Path(“Outer”))) fs.delete(new Path(“Outer”),true); Gombos Gergő Korszerű Adatbázisok 2014
49
Futtatás Export -> normal JAR Felmásoljuk monet-re
Hadoop jar jar_name.jar Gombos Gergő Korszerű Adatbázisok 2014
50
Köszönöm a figyelmet!
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.