Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaGyula Borbély Megváltozta több, mint 9 éve
1
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre ikocsis@mit.bme.hu 2014.11.12.
2
Adatfolyam-források Szenzor-adatok o 1 millió szenzor x 10/s x 4B Képek o Szatelitek: n TB/nap Internetes szolgáltatások Hálózati forgalom Tőzsdei adatok …
3
Stream processing (vs „at rest” Big Data)
4
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency
5
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements
6
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”
7
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”
8
Typically sliding window approches Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?
9
Feldolgozás: időkorlát! Diszk nem használható Megengedett memóriaigény: korlátos Elemenkénti számítási igény: korlátos Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz
10
IBM InfoSphere Streams Forrás: [2], p 76
11
Eszközök (néhány!) LinkedIn Samza Storm IBM InfoSphere Streams Amazon Kinesis … Ábra forrása: [3] + kapcsolódó projektek
12
MINTAALKALMAZÁS
13
USA polgári légiközlekedés késési adatai
14
Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application
15
Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper
16
Workload Baseline workload Start of stress End of stress
17
CPU utilization
18
Process latency Relationship with guest resource usage?
19
Process latency Correlation: 0.890
20
ALKALMAZÁSI MINTÁK
21
Alkalmazás-osztályok Forrás: [2], p 80
22
Tervezési minták: filter Forrás: [2], 3.2 alfejezet
23
Tervezési minták: outliers
24
Tervezési minták: parallel
25
Tervezési minták: supplemental data
26
Tervezési minták: consolidation
27
Tervezési minták: merge
28
R INTEGRÁCIÓ
29
IBM InfoSphere Streams: R-project Toolkit RScript operátor az SPL-ben Forrás: [4]
30
ALGORITMIKAI SZEMELVÉNYEK
31
Folyam-algoritmikai szemelvények A számítási modellt láttuk Fő korlát: adott tár + WCET, „be nem látott” adat Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok Részletes tárgyalás: [1] 4. fejezete
32
Kitérő: hash-függvények http://en.wikipedia.org/wiki/Hash_function
33
Hash-függvények: jellemző követelmények Alkalmazási területenként eltérőek! o Kriptográfia indexelés adattároláshoz Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értelmezési tartomány o Folytonosság o Irreverzibilitás („egyirányú” függvény) http://en.wikipedia.org/wiki/List_of_hash_functions http://en.wikipedia.org/wiki/List_of_hash_functions
34
Mintavételezés Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján
35
Bloom filterek http://en.wikipedia.org/wiki/Bloom_filter
36
Szűrés: Bloom filterek
38
Bloom filterek: néhány tétel
39
„Count-Distinct”: a Flajolet-Martin algoritmus
40
Momentumok
41
Az Alon-Matias-Szegedy algoritmus
45
Hivatkozások [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/CBO9781139058452 [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September 2010. http://www.redbooks.ibm.com/abstracts/sg247865.h tml http://www.redbooks.ibm.com/abstracts/sg247865.h tml [3] http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/ [4] http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.