Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Big Data Korszerű adatbázisok 2014. Big Data • „Big data is the term for a collection of data sets so large and complex that it becomes difficult to process.

Hasonló előadás


Az előadások a következő témára: "Big Data Korszerű adatbázisok 2014. Big Data • „Big data is the term for a collection of data sets so large and complex that it becomes difficult to process."— Előadás másolata:

1 Big Data Korszerű adatbázisok 2014

2 Big Data • „Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.” Wikipédia Gombos GergőKorszerű Adatbázisok 20142

3 1981 Gombos GergőKorszerű Adatbázisok 20143

4 Gombos GergőKorszerű Adatbázisok 20144

5 Gombos GergőKorszerű Adatbázisok 20145

6 Big Data célja • „A vast quantity of UNSTRUCTURED data, which we now have the ability to process in REAL-TIME.” – A day in big data Gombos GergőKorszerű Adatbázisok 20146

7 „Big Daták” • Okostelefon GPS és Internetkapcsolattal – 4,6 milliárd mobil – 1-2 milliárd rendelkezik internetkapcsolattal • Szenzorok – Nasa klímaadatok: 32 petabyte – Nagy hadron ütköztető (LHC): • 150 millió szenzor • 40 millió/s mérés • 0,001%-át használják Gombos GergőKorszerű Adatbázisok 20147

8 „Big Daták” • Sloan Digital Sky Survey – Csillagászati adatok – 200 GB / éjszakánként – 140 terrabyte adat • Közösségi hálózatok – Facebook • 1,06 milliárd felhasználó naponta • 30 milliárd elem megosztása naponta – Twitter • 175 millió tweet naponta • 465 millió felhasználó Gombos GergőKorszerű Adatbázisok 20148

9 Milyen „big” a Big Data? • 2.7 Zetabyte méretű • 2020-ra 50x több adat mint ma • 2012-ben az adatok 90%-a 2 év alatt „termelődött” • 2 nap alatt több információt generálunk mint 2003 óta összesen Gombos GergőKorszerű Adatbázisok 20149

10 Big Data használata • Californiai egyetem és a L.A.P.D. – Bűnözés jóslás • (A különvélemény nem csak sci-fi) • Google influenza terjedés • Amerikai választások – https://election.twitter.com/ • Város tervezés, dugó elkerülés – MIT mobilok alapján vizsgálják a felhasználókat és utazási szokásaikat Gombos GergőKorszerű Adatbázisok

11 Kihívások Gombos GergőKorszerű Adatbázisok

12 Gombos GergőKorszerű Adatbázisok

13 Túl sok az adat Gombos GergőKorszerű Adatbázisok

14 Twitter Gombos GergőKorszerű Adatbázisok

15 Twitter • Max. 140 karakter hosszú üzenet • Geo információk • Retweet – Korábbi tweet tweetelése • Sample API – Valós tweetek 1%-a Gombos GergőKorszerű Adatbázisok

16 Twitter üzenetek elemzése • Marketing – Vásárlói visszajelzés • Kampány elemzés – Vélemények elemzése tweet alapján • Gombos GergőKorszerű Adatbázisok

17 Twitter üzenetek elemzése • Befolyásos ember keresés Gombos GergőKorszerű Adatbázisok

18 Twitter üzenetek elemzése • Hír terjedése Gombos GergőKorszerű Adatbázisok

19 Twitter faster than earthquakes Gombos GergőKorszerű Adatbázisok

20 Twitter adatok statistics-behind-Twitter.jpg Gombos GergőKorszerű Adatbázisok

21 Twitter adatok Gombos GergőKorszerű Adatbázisok

22 Hadoop

23 Kiknek jó a hadoop? “... to create building blocks for programmers who just happen to have lots of data to store, lots of data to analyze, or lots of machines to coordinate, and who don’t have the time, the skill, or the inclination to become distributed systems experts to build the infrastructure to handle it.” Tom White Hadoop: The Definitive Guide Gombos GergőKorszerű Adatbázisok

24 Kik haszálják? Gombos GergőKorszerű Adatbázisok

25 Hadoop történelem • 2004 – Google publikálja a MapReduce technikát • 2006 – Apache projekt lett Yahoo! támogatással • További támogatók: Gombos GergőKorszerű Adatbázisok

26 Verziók • 20 February, 2014: Release available • 11 December, 2013: Release available • 15 October, 2013: Release available • 23 September, 2013: Release beta available • 25 August, 2013: Release beta available • 23 August, 2013: Release alpha available • 1 Aug, 2013: Release (stable) available • 8 July, 2013: Release available • 6 June, 2013: Release alpha available • 5 June, 2013: Release available • 13 May, 2013: Release available • 25 April, 2013: Release alpha available • 18 April, 2013: Release available • 15 February, 2013: Release available • 14 February, 2013: Release alpha available Gombos GergőKorszerű Adatbázisok

27 Hadoop alprojektek • Ambari(Hadoop menedzser) • Avro(adat formátumok támogatása) • Cassandra(adatbázis) • Chukwa(monitorozó) • Hama(analizáló eszköz) • Hbase(adatbázis) • Hive(SQL szerű nyelv) • Mahout(gépi tanulás csomag) • Pig(lekérdező nyelv) • Spark(gyors, általánosított motor elemzésekhez) • ZooKeeper(koordinátor) Gombos GergőKorszerű Adatbázisok

28 Miért elosztva? • Feladat: Olvassunk fel 1TB adatot egy merevlemezről. Mennyi idő szükséges ehhez? • Ez 4 óra lenne. Gombos GergőKorszerű Adatbázisok

29 approximately 3800 nodes Gombos GergőKorszerű Adatbázisok

30 HDFS • HDFS = Hadoop Distributed Filesystem Gombos GergőKorszerű Adatbázisok

31 HDFS • HDFS Split Gombos GergőKorszerű Adatbázisok Block 1 Block 2 Block 3

32 HDFS • HDFS replikálás Gombos GergőKorszerű Adatbázisok Block 1 Block 2 Block 3 Block 1 Block 2 Block 3

33 Architecktúra • Master-Slave architektúra • DFS Master “Namenode” – Kezeli a fájlrendszert – Karbantartja a fájlnév és hozzátartozó blokkok kapcsolatát – Kezeli a blokk lefoglalást / replikálást – Kezeli a hozzáférést a fájlrendszerhez • DFS Slaves “Datanodes” kezelik a blokk tárolást – Tárolják az adatblokkokat – Kliensek hozzáférnek a blokkokhoz közvetlenül a datanode-ról – Rendszeresen küld blokk információkat a namenode-nak – Periódikusan ellenőrzi a blokkok sértetlenségét. Gombos GergőKorszerű Adatbázisok

34 Architektúra (1.2.1) Gombos GergőKorszerű Adatbázisok

35 Architektúra (2.2) Gombos GergőKorszerű Adatbázisok

36 Hadoop alapelvek • A kódot mozgassuk az adatokhoz • Ne kelljen foglalkozni szinkronizálással, hiba toleranciával • A nehéz munkát ő végzi, tudunk koncentrálni az adat feldolgozásra Gombos GergőKorszerű Adatbázisok

37 Hadoop előnyök • Hibás futás automatikusna újra futtatja • Több node számolja ugyanazt, így a lassúság nem okoz gondot • Nagy adatoknál a map ott fut ahol az adat van, ha lehetséges Gombos GergőKorszerű Adatbázisok

38 MapReduce • Paradigma: – A problémát bontsuk kisebb feladatokra,oldjuk meg párhuzamosan,összegezzük az eredményt • Map: – Alakítsuk a bementi adatokat (kulcs, érték) párokra • Reduce: – Alakítsuk az adott kulcshoz tartozó adatokat a kimeneti formára Gombos GergőKorszerű Adatbázisok

39 Példa Gombos GergőKorszerű Adatbázisok

40 További lehetőségek • Partitioners – Map kulcsok hashalésének felüldefiniálása • Combiners – Map kimenetének redukálása • Compression – Output tömörítése • Counters – Folyamatjelzők • Zero Reduces – Csak a map fut, nincs sort és shuffle Gombos GergőKorszerű Adatbázisok

41 Map public static class Map extends Mapper { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } Gombos GergőKorszerű Adatbázisok

42 Reduce public static class Reduce extends Reducer { public void reduce(Text key, Iterable values, Context cont) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } Gombos GergőKorszerű Adatbázisok

43 Elérés • Elérés: – monet.inf.elte.hu • Belépés: – felhasználó/jelszó: ami eddig • Manager oldalak: – – Gombos GergőKorszerű Adatbázisok

44 Parancsok • Listázás – hadoop fs –ls • Kiírja egy fájl tartalmát – hadoop fs –cat • Betöltés – hadoop fs –put • Könyvtár létrehozás – hadoop fs –mkdir • Könyvtár törlése rekurzívan – hadoop fs -rmr Gombos GergőKorszerű Adatbázisok

45 Hadoop streaming hadoop jar /home/hadoop/hadoop-1.2.1/contrib/streaming/ hadoop-streaming jar -mapper "cut -d' ' -f 1" -reducer "uniq" -input /user/ggombos/adatok.txt -output out_adatok - numReduceTasks 1 Gombos GergőKorszerű Adatbázisok

46 Eclipse plugin 1.Letölteni a szükséges jar-okat a.http://oktnb16.inf.elte.hu/ggombos/korszeru/ b.hadoop-eclipse-plugin jar c.hadoop-core jar 2.Plugin bemásolása az eclipse/plugin mappába 3.Elindítjuk az eclipset 4.Nézet átállítása Map/Reduce-ra 5.New Hadoop location beállítása Gombos GergőKorszerű Adatbázisok

47 Hadoop location • map/reduce master: – host: monet.inf.elte.hu – port: • dfs master: – use M/R Master host OK – host: monet.inf.elte.hu – port: 8020 • User name: neptun azonosito Gombos GergőKorszerű Adatbázisok

48 Segítség A generált kódban lecseréljük a sorokat erre: conf.setInputFormat(TextInputFormat.class); conf.setOutputFormat(TextOutputFormat.class); FileInputFormat.setInputPaths(conf, new Path("In")); FileOutputFormat.setOutputPath(conf, new Path("Out")); Létező fmappák törlése: FileSystem fs = FileSystem.get(conf); if (fs.exists(new Path(“Outer”))) fs.delete(new Path(“Outer”),true); Gombos GergőKorszerű Adatbázisok

49 Futtatás • Export -> normal JAR • Felmásoljuk monet-re • Hadoop jar jar_name.jar Gombos GergőKorszerű Adatbázisok

50 Köszönöm a figyelmet!


Letölteni ppt "Big Data Korszerű adatbázisok 2014. Big Data • „Big data is the term for a collection of data sets so large and complex that it becomes difficult to process."