HADOOP Korszerű Adatbázisok 2013. Elérés, Belépés Elérés: eszakigrid109.inf.elte.hu Belépés: felhasználó/jelszó: neptun-kód Manager oldalak:

Slides:



Advertisements
Hasonló előadás
© Kozsik Tamás Különböző nyelvekhez igazítás Internationalization - i18n.
Advertisements

Big Data Korszerű adatbázisok 2014.
4. alkalom – Hálózat Kezelés
Felhasználói felületek és üzleti logika Bollobás Dávid ASP.NET
2012. tavaszi félév Vitéz Gergely. A diasor ismerete nem helyettesíti a tankönyvet, és a példatárat. A diasor ismerete szükséges, de nem elégséges feltétele.
1 Informatikai Szakképzési Portál Adatbázis kezelés DCL – Adatvezérlő nyelv.
Java Technológia Standard Edition
Adatbányászati technikák (VISZM185)
Virtuális Obszervatórium Korszerű adatbázisok 2014.
Hadoop Gyakorlat 1 Korszerű adatbázisok Parancsok Listázás – hadoop fs –ls Kiírja egy fájl tartalmát – hadoop fs –cat Betöltés – hadoop fs –put.
LINUX/UNIX PARANCSOK.
RMI = Remote Method Invocation
Csala Péter ANDN #4. 2 Tartalom  C# - ban előre definiált típusok  Változók  Változókkal műveletek  Elágazás  Ciklus.
Bevezetés a Java programozásba
Bevezetés a Java programozásba
Fájlkezelés, IO Kivételkezelés Belső osztályok
Osztályok Garbage collection.  általában minden osztálynak vannak adattagjai és/vagy metódusai ◦ adattagok megadása:  [láthatóság] [static] [final]
Abstract osztályok és interface-ek Beolvasás és kiíratás 7. gyakorlat.
Triggerek II. ADATBÁZIS ALAPÚ RENDSZEREK.  Az Oracle kifinomult módon támogatja a sorszámozások generálását  Szekvencia: olyan adatbázis-objektum, amely.
Követelmények Bevezetés a Javába Első java program írása Dokumentációk
Tömbök ismétlés Osztályok Java-ban Garbage collection
C# tagfüggvények.
C# tagfüggvények.
Csomagok.
Hadoop Gyakorlat 2 Korszerű adatbázisok Parancsok Listázás – hadoop fs –ls Kiírja egy fájl tartalmát – hadoop fs –cat Betöltés – hadoop fs –put.
Kivételkezelés.
PHP III. Fájlok, űrlapok.
PHP VII Sütik, munkamenetek. Sütik Mi az a süti? A süti (cookie) állapotot tárol a felhasználó böngészőjében. Pl. ha egy oldalon beállítható, hogy milyen.
Szoftvertechnológia alapjai Java előadások Förhécz András, doktorandusz tárgy honlap:
1 Szoftvertechnológia alapjai Java előadások Förhécz András, doktorandusz tárgy honlap:
Adatbázis adminisztrátori ismeretek
2012. tavaszi félév Vitéz Gergely. A diasor ismerete nem helyettesíti a tankönyvet, és a példatárat. A diasor ismerete szükséges, de nem elégséges feltétele.
Felhasználók és jogosultságok
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Web: Magasszintű Programozási Nyelvek I. Eszterházy.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Programozási Nyelvek II. Eszterházy Károly Főiskola Számítástudományi tsz.
1 Hernyák Zoltán Web: Magasszintű Programozási Nyelvek I. Eszterházy.
1 AAO folytatás ++ Csink László. 2 Rekurzív bináris keresés (rendezett tömbben) public static int binker(int[] tomb, int value, int low, int high) public.
Készítette: Lipp Marcell
Programozás4 Készítette: Rummel Szabolcs
1Szegedi Tudományegyetem Természettudományi és Informatikai KarAntal Gábor Programozás I. 1. gyakorlat.
Java programozási nyelv Filekezelés
Komoróczy Tamás 1 Java programozási nyelv A nyelv alapjai.
Java programozási nyelv Adatbekérés konzolról
Generics Krizsán Zoltán. Bemutató A.NET 2.0 verziótól. A.NET 2.0 verziótól. Típusparaméter Típusparaméter Más nyelvben ez a template (sablon). Más nyelvben.
Programozás III KOLLEKCIÓK.
Egyenesvonalú (lineáris) adatszerkezetek
Programozás III KOLLEKCIÓK.
Power Lutár Patrícia Pellek Krisztián.  -ltLess than  -leLess than or equal to  -gtGreater than  -geGreater than or equal to  -eqEqual to  -neNot.
Számítógépes Grafika 4. gyakorlat Programtervező informatikus (esti)‏ 2009/2010 őszi félév.
Vizualizáció és képszintézis Sugárkövetés (Dart + GLSL) Szécsi László.
1Szegedi Tudományegyetem Természettudományi és Informatikai KarAntal Gábor Programozás I. 1. gyakorlat.
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
1Szegedi Tudományegyetem Természettudományi és Informatikai KarAntal Gábor Programozás I. 1. gyakorlat.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
Gráfadatbázisok Rácz Gábor.
Hadoop Gyakorlat 1 Korszerű adatbázisok.
1Szegedi Tudományegyetem Természettudományi és Informatikai KarAntal Gábor Programozás I. 6. gyakorlat.
TÁMOP /1-2F JAVA programozási nyelv NetBeans fejlesztőkörnyezetben I/13. évfolyam Osztályok, objektumok definiálása és alkalmazása. Saját.
Triggerek gyakorlás.
„Big Data” elemzési módszerek
Fejlett Webes Technológiák II.
JAVA programozási nyelv NetBeans fejlesztőkörnyezetben I/13. évfolyam
B M Java Programozás 9. Gy: Java alapok IT A N Adatkezelő 5.rész
B M Java Programozás 1. Gy: Java alapok IT A N Ismétlés ++
JAVA programozási nyelv NetBeans fejlesztőkörnyezetben I/13. évfolyam
Függvénysablonok használata
Előadás másolata:

HADOOP Korszerű Adatbázisok 2013

Elérés, Belépés Elérés: eszakigrid109.inf.elte.hu Belépés: felhasználó/jelszó: neptun-kód Manager oldalak:

Emlékeztető Map: Alakítsuk a bementi adatokat (kulcs, érték) párokra Reduce: Alakítsuk az adott kulcshoz tartozó adatokat a kimeneti formára

HADOOP folyamat

HDFS parancsok Listázás hadoop fs –ls Kiírja egy fájl tartalmát hadoop fs –cat Betöltés hadoop fs –put Könyvtár létrehozás hadoop fs –mkdir Könyvtár törlése rekurzívan hadoop fs -rmr

Adathalmaz tweet_dec24 December 24-i tweetek tweet_id, user_id, lat, lon, lang, created_at, text mentioned user_id, mentioned_user_id interval from, to

Fordítás, futtatás, eredmény Fordítás forditas.sh javac -classpath /home/hadoop/hadoop-1.0.4/hadoop-core jar -d classes/ *.java jar -cvf hadoopRun.jar -C classes/. Futtatás run.sh hadoop jar hadoopRun.jar korszeru.empty_mapred /user/hadoop/korszeru/input/dec24_tweet.txt feladatOUT1 Eredmény hadoop fs –cat feladatOUTX/* (X=1..10)

WordCount példa Map public static class Map extends Mapper { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); }

WordCount példa Reduce public static class Reduce extends Reducer { public void reduce(Text key, Iterable values, Context cont) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); }

WordCount példa Main public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = new Job(conf, "ggombos_wordcount"); job.setJarByClass(WordCount.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); //job.setMapOutputKeyClass(Text.class); //job.setMapOutputValueClass(Text.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.waitForCompletion(true); }

Feladat1 (Számolás) Hány tweet volt az egyes nyelveken?

Feladat1 (Számolás) Map (kulcs, érték): (nyelv, 1)//pl: (‘en’,1) Reducer összeadja az értékeket (nyelv, szum)//pl: (‘en’, 5)

Feladat2 (Legyűjtés) Full inverted index (a szó melyik tweetben, hányadik helyen található)

Feladat2 (Legyűjtés) Map (kulcs, érték): (szó, ‘(tweet_id, sorszam)’) pl: (‘hello’, ‘( ,15)’) Reduce összegzi a szavakhoz tartozó információkat pl: (‘hello’, ‘( ,15), ( ,11) ’)

Feladat3 (Szűrés) Keressük meg a XMAS szót tartalmazó tweeteket

Feladat3 (Szűrés) Map (kulcs,érték): (‘XMAS’, tweet_szoveg) Reducer sorszámozva kiírja a szovegeket (sorszám, tweet_szoveg)

Feladat4 (Elosztott számolás) Számoljuk meg a négyzetszámokat között

Feladat4 (Elosztott számolás) Map (kulcs, érték): Összegzi a négyzetszámokat az adott intervallumba (‘szum’, db) //Math.sqrt(i) % 1.0 == 0.0 Reducer: Összegzi a részsorozatok (‘szum’, db)

Feladat5 (Rendezés) Rendezzük a 9-10 óra közötti tweeteket időrendbe

Feladat5 (Rendezés) Map (kulcs, érték): (idő, szöveg) adott intervallumon belül SimpleDateFormat formatter = new SimpleDateFormat("MM/dd/yyyy HH:mm:ss"); dateStr = formatter.parse(date); dateStr.after(formatter.parse("12/24/ :09:00")) dateStr.before(formatter.parse("12/24/ :10:00")) Reducer: Összegzi az egyes tweeteket, ami ugyanabba az időpontban vannak (idő, tweetek valamivel elválasztva)

Feladat6 (Gráf feldolgozás) Ki-kit említett? Kimenő, bemenő élek egy adott user-re

Feladat6 (Gráf feldolgozás) Map(kulcs, érték): (user,”>,”+mentioned) (mentioned,”<,”+user) Reducer: Összegyűjti a bejövő/kimenő éleket (id, bejövő idk „|” kimenő idk)

Feladat7 (Csoportosítás) User-ek mely szavakat használják leggyakrabban (ditinctelve a user szavai)

Feladat7 (Csoportosítás) I. Job1 Map(kulcs, érték): („szó,user”,1) Reducer: összegezzük, max szavat kiírjuk minden user-ra (szó, user) Job2 Map(kulcs, érték): (szó, 1) Reducer: (szó, sum)

Feladat7 (Csoportosítás) II. Map(kulcs, érték): (user, szó) Reducer: Init H = HashMap Reduce H2-ba gyűjtjük a szavakat Összeszámoljuk H-ba belerakjuk, az egyes szavakhoz a sum értéket. CleanUp foreach (H.key, H.value)

Feladat8 (Korreláció keresés) Melyik szó melyik szóval áll gyakran együtt

Feladat9 (MaxKer) Keressük meg a legtöbbet tweetelt személyt (2job)

Feladat10 (lánc keresés) Említési lánc (mentioned)