Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.

Slides:



Advertisements
Hasonló előadás
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Advertisements

Statisztikák. Foursquare • 2014 Januári adatok forrás: foursquare.com/about • Több mint 45 millió felhasználó • Több mint 5 milliárd check-in • Több mint.
Big Data Sidló Csaba / Benczúr András
2010. május 6. Kertész Károly http/ 1 Emissziómérések-1 Mérési terv.
1 Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar VET Villamos Művek és Környezet Csoport Budapest Egry József.
LINQ to DataSet Kereskényi Róbert
HTML5 alapú fejlesztő és futtató környezet megvalósítása
Diszkrét idejű bemenet kimenet modellek
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke A programozás alapjai 1. (VIEEA100) 9. előadás.
„Leíró” statisztika: alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke 1. zárthelyi megoldásai október 18.
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
SQL – DQL (Data Query Language ) adat lekérdezések
Virtuális Obszervatórium Korszerű adatbázisok 2014.
VFP programozása report készítése menü készítése dinamikus elemek
Nézettáblák létrehozása, módosítása és törlése
Számítástudomány alapjai
XML támogatás adatbázis-kezelő rendszerekben
Lab BME TMIT Sztochasztikus hálózat számítás (Stochastic network calculus) Bíró József, Ph.D. BME Távközlési és Médiainformatikai Tanszék 2007.
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
OAIS. Megőrzés feladatai Viability –Meg kell őrizni a bitfüzér változatlanságát és olvashatóságát a tároló eszközön Rendbebility –Meg kell őrizni a bitfüzér.
A Creative Commons és a könyvtárak Drótos László Magyar Elektronikus Könyvtár Drótos László Magyar Elektronikus Könyvtár.
Nyílt könyvtári gyűjtemények az Interneten Szabványos metaadatok: átjárhatóság Tapolcai Ágnes MEK Osztály.
Webes Információs Rendszerek fejlesztése
Jogszabálytárak, jogi adatbázisok Groma Sarolt1 Jogszabálytárak, jogi adatbázisok KODIFIKÁTOR SZAKJOGÁSZKÉPZÉS október 12. III. ELŐADÓ.
Budapesti Műszaki Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Szolgáltatásbiztos számítástechnika = hibatűrés, információbiztonság Pataricza.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R és MapReduce „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék ‚Big Data’ elemzési módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Virág András MSDN Kompetencia Központ Budapesti Műszaki és Gazdaságtudományi Egyetem Automatizálási és Alkalmazott Informatikai Tanszék.
Kereskényi Róbert MSDN Kompetencia Központ Budapesti Műszaki és Gazdaságtudományi Egyetem Automatizálási és Alkalmazott Informatikai.
XML fejlesztések TSQL fejlesztések Tábla paraméter SQLCLR fejlesztések 8k limit feloldása Több paraméteres UDA-ek Ordered UDF-ek Entity Framework ADO.NET.
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
Topológiák Hálózati eszközök
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke Mikroelektronika Laboratórium Tájékoztató
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Adatbázis-kezelés 3-4. Adatok lekérdezése utasítás általános formája SELECT [ALL/DISTINCT] {*/, …, } FROM [ ], …, [ ] [WHERE GROUP BY, …, HAVING ORDER.
„The Bottleneck” a sebesség megszabó lépés a humán demográfia izgalmas következményei Dr. Fleit Ernő Vízi Közmű és Környezetmérnöki Tanszék
Szabályozási Rendszerek 2014/2015, őszi szemeszter Előadás Automatizálási tanszék.
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.
PPKE ITK 2009/10 tanév 8. félév (tavaszi) Távközlő rendszerek forgalmi elemzése Tájékoztatás
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Szoftver projektek Agilis
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke Zárthelyi előkészítés október 10.
2010. május 6. Kertész Károly http/ 1 Emissziómérések-1 Mérési terv.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
1 AZ IKTA-2000 projektjeinek szakmai bemutatója IKTA-144/2000 projekt november 28.
Menetrend optimalizálása genetikus algoritmussal
Gombos GergőKorszerű Adatbázis 2012/13 tavasz 2 Kik használják?
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
‚Big Data’ elemzési módszerek
Gráfadatbázisok Rácz Gábor.
Virul az ISO szabványcsalád
„Tisztább kép” – együttműködési program Az új szintetikus drogok feltérképezéséért 2 nd European Workshop – ’Breaking the Drug Cycle’ project Budapest,
Ha(doop) akkor adatok... Hadoop és Node.JS adatfeltöltő (BME – NYME) Szalai László, Major Kálmán TÁMOP 4.1.1/C-12/1/KONV
HÁZI FELADAT. Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott”
Felhasználói viselkedés-elemzés – visszaélések felderítése informatikai eszközökkel Dr. Krasznay Csaba Nemzeti Közszolgálati Egyetem Információbiztonsági.
Triggerek gyakorlás.
Naplóelemzés Log Parserrel
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Adatvédelmi kihívások a modern információ- technológiában
XDSL hálózatok tervezése 9. Előadás
Miklós Kóbor Department of Geophysics & Space Sciences,
„Big Data” elemzési módszerek
„Big Data” elemzési módszerek
Az IBM SPSS Statistics programrendszer
What’s new in Java 2019 Tömösvári Imre
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre

Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatások  Hálózati forgalom  Tőzsdei adatok  …

Stream processing (vs „at rest” Big Data)

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”

Typically sliding window approches  Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?

Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz

IBM InfoSphere Streams Forrás: [2], p 76

Eszközök (néhány!)  LinkedIn Samza  Storm  IBM InfoSphere Streams  Amazon Kinesis  … Ábra forrása: [3] + kapcsolódó projektek

MINTAALKALMAZÁS

USA polgári légiközlekedés késési adatai

Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application

Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper

Workload Baseline workload Start of stress End of stress

CPU utilization

Process latency Relationship with guest resource usage?

Process latency Correlation: 0.890

ALKALMAZÁSI MINTÁK

Alkalmazás-osztályok Forrás: [2], p 80

Tervezési minták: filter Forrás: [2], 3.2 alfejezet

Tervezési minták: outliers

Tervezési minták: parallel

Tervezési minták: supplemental data

Tervezési minták: consolidation

Tervezési minták: merge

R INTEGRÁCIÓ

IBM InfoSphere Streams: R-project Toolkit  RScript operátor az SPL-ben Forrás: [4]

ALGORITMIKAI SZEMELVÉNYEK

Folyam-algoritmikai szemelvények  A számítási modellt láttuk  Fő korlát: adott tár + WCET, „be nem látott” adat  Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok  Részletes tárgyalás: [1] 4. fejezete

Kitérő: hash-függvények

Hash-függvények: jellemző követelmények  Alkalmazási területenként eltérőek! o Kriptográfia  indexelés adattároláshoz  Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értelmezési tartomány o Folytonosság o Irreverzibilitás („egyirányú” függvény) 

Mintavételezés  Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk  Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem  Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás  Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján

Bloom filterek

Szűrés: Bloom filterek

Bloom filterek: néhány tétel

„Count-Distinct”: a Flajolet-Martin algoritmus

Momentumok

Az Alon-Matias-Szegedy algoritmus

Hivatkozások  [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi: /CBO  [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September tml tml  [3] community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/ community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/  [4] streamsrtoolkit/ streamsrtoolkit/