Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,

Slides:



Advertisements
Hasonló előadás
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Advertisements

Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
A szolgáltatásai Gödöny Péter ELTE IK Pataky István Inf. Szki.
Interaktív táblák használata Interaktív tananyagok Web 2
1 Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar VET Villamos Művek és Környezet Csoport Budapest Egry József.
Ecological assessment of the Szamos/Somes River to determine its influance on the ecological state of the Tisza River Dr. Csipkés József Felső-Tisza-vidéki.
LRendezés minimális elem kiválasztással Alkalmazott Informatikai Tanszék MŰSZAKI INFORMATIKA dr.Dudás László 19./0. lAz algoritmus működése lRávezető feladat.
SQL Server 2005 Reporting Services a gyakorlatban
Az Internet elemei és hozzáférési technológiái Az Internet architektúrája.
FOTOGRAMMETRIA és TÉRINFORMATIKA TANSZÉK
Feladatok együttműködésének ellenőrzése
Függvények BMEEPAGA301 Építész informatika 1
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
HADOOP Korszerű Adatbázisok Elérés, Belépés Elérés: eszakigrid109.inf.elte.hu Belépés: felhasználó/jelszó: neptun-kód Manager oldalak:
Böngészők Internet Explorer Mozilla Firefox
Zajok és fluktuációk fizikai rendszerekben
„High – tech networking” – szakmai konferencia informatikusoknak, szeptember 24., Debrecen, Kölcsey Központ,
Kliensoldali Programozás
Informatikai Nyílt Nap Mi a térinformatika? Angol elnevezés: Geographic Information Systems (GIS) Röviden: Digitális térképek összekapcsolása adatokhoz.
Hadoop Gyakorlat 2 Korszerű adatbázisok Parancsok Listázás – hadoop fs –ls Kiírja egy fájl tartalmát – hadoop fs –cat Betöltés – hadoop fs –put.
Az ASP.NET programozási modell Ez az előadó neve beosztása vállalata.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R és MapReduce „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék ‚Big Data’ elemzési módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Szemantikus keresők.
Vida Andrea SZTE Egyetemi Könyvtár
Meglévő ASP.NET 2.0 alkalmazás kiegészítése AJAX-szal
Silverlight Ajax Network Bridge Orbán Csaba Epam Systems Kft
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke IC layout tervek tesztelése.
MIKROELEKTRONIKA, VIEEA306
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke Mikroelektronika Laboratórium Tájékoztató
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA306 A bipoláris tranzisztor.
Többváltozós adatelemzés
BelAmI2 projekt beszámoló Vida Rolland - BME március 1.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Van rá energiánk? Do we have enough energy? 1.School trip 2.Light pollution 3.In our school.
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Illés Zoltán ELTE Informatikai Kar
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő.
Élményszerű tanulás tabletekkel
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék P2P protokollok és autonóm számítástechnika: szemelvények.
1 AZ IKTA-2000 projektjeinek szakmai bemutatója IKTA-144/2000 projekt november 28.
Nemzetközi: IT History Society _ Amerika Computer History Museum (California)
Project 4: Visual motion based Human-Computer Interface Jaksa Zsombor Németh József Ungi Tamás Utasi Tamás.
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2009 I. félév Követlemények.
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2012 I. félév Követelmények.
‚Big Data’ elemzési módszerek
TÁMOP B.2-13/ Szakmai szolgáltató és kutatást támogató regionális hálózatok a pedagógusképzésért az Észak-Alföldi régióban SZÖVEGKOMPETENCIA-FEJLESZTÉS.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2013 I. félév Követelmények.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2011 I. félév Követelmények.
Hadoop Gyakorlat 1 Korszerű adatbázisok.
Ismétlés. "Man - a being in search of meaning." Plato Searching in an Unsorted Database.
3D képek a fotóidból Tövissy Judit.
Ha(doop) akkor adatok... Hadoop és Node.JS adatfeltöltő (BME – NYME) Szalai László, Major Kálmán TÁMOP 4.1.1/C-12/1/KONV
Internet-alapú információcsere és adatvalidáció bibliográfiai adatbázisok között Internet-based information exchange and content validation between bibliographic.
2004 május 27. GÉPÉSZET Komplex rendszerek szimulációja LabVIEW-ban Lipovszki György Budapesti Műszaki Egyetem Mechatronika, Optika és Gépészeti.
International Olympiad in Informatics
Párhuzamos primitívek
„Big Data” elemzési módszerek
„Big Data” elemzési módszerek
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre, Salánki Ágnes Ikocsis,

Vertikális és horizontális skálázás Ábra forrása: horizontal-hardware-scaling/

„Summation form”-ban felírható problémák [9]  Locally Weighted Linear Regression  Naive Bayes  Gaussian Discriminative Analysis  k-means  Logistic regression  Neural network  Principal Component Analysis  Independent Component Analysis  Expectation Maximization  Support Vector Machine

Alapséma

Wordcount - R Map output: kulcs-érték párok Reduce input: kulcs, érték lista

MapReduce: a keretrendszer feladatai [1]  „What” és „how” szétválasztása  Job: „kód” o Mapper, reducer, (partitioner, combiner) o Egy kijelölt csomópontnak adjuk ki („JobTracker”)  Ütemezés (scheduling) o „task”-okra szétválasztás; pl bemeneti (k,v) párok blokkja o task-ok csomóponthoz rendelése o Szükség lehet várakozási sorra is o „stragglers”  spekulatív végrehajtás map és reduce is a leglassabb task-tól függ Kulcselolszlás miatt reduce esetén nem mindenképp megoldás

MapReduce: a keretrendszer feladatai [1]  Adat és kód kolokáció o „kódot visszük az adathoz”  Szinkronizáció o Map és Reduce között o „shuffle and sort” (nagy, elosztott GROUP BY key)  Hibakezelés!

MapReduce: a teljes kép Forrás: [1], p 30

Partíciók és Kombinálás  Legegszerűbb part.: hash(kulcs) mod #reducer o f: kulcs  reducer  Kombinálás: lokális aggregálás o „mini-reducer” o Hálózati kommunikáció redukálása o Általánosságban nem „csereszabatos” a reducer-rel o Word countnál?

PageRank

 Keresés a weben: találatok sorrendezése? o „spam farm”, „term spam”, „spider traps”, …  „random surfer” modell o látogatás valószínűsége o d csillapító paraméter  Egy oldal PageRank-je magas, ha o sok oldal linkeli vagy o Magas PageRank-ű oldalak linkelik

PageRank

Tranzíciós mátrix

PageRank számítása

„teleportálás”: „spider traps” és „dead ends”

MapReduce?

MapReduce mátrix-vektor szorzás  Ha a vektor nem fér el a memóriában: „csíkozás” (striping)

PageRank k 2 mapperrel

Általánosítás: a GIM-V primitív

Hivatkozások  [1] Lin, J., & Dyer, C. (2010). Data-Intensive Text Processing with MapReduce. Synthesis Lectures on Human Language Technologies, 3(1), 1–177. doi: /S00274ED1V01Y201006HLT007  [2] hadoop-with-rhadoops-rmr-packagehttp:// hadoop-with-rhadoops-rmr-package  [3]  [4]  [5]  [6] howto/ howto/  [7] the-cloudera-quickstart-vm/ the-cloudera-quickstart-vm/  [8] Iványi, A. "Informatikai algoritmusok." ELTE Eötvös Kiadó, Budapest (2004).  [9] Chu, C. T., Kim, S. K., Lin, Y. A., Yu, Y., Bradski, G. R., Ng, A. Y., & Olukotun, K. (2006). Map-reduce for machine learning on multicore. In B. Schölkopf, J. Platt, & T. Hofmann (Eds.), Advances in Neural Information Processing Systems 19: Proceedings of the 2006 Conference (pp. 281–288). MIT Press.