Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre ikocsis@mit.bme.hu 2014.11.12.

2 Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatások  Hálózati forgalom  Tőzsdei adatok  …

3 Stream processing (vs „at rest” Big Data)

4 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency

5 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements

6 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”

7 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”

8 Typically sliding window approches  Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?

9 Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz

10 IBM InfoSphere Streams Forrás: [2], p 76

11 Eszközök (néhány!)  LinkedIn Samza  Storm  IBM InfoSphere Streams  Amazon Kinesis  … Ábra forrása: [3] + kapcsolódó projektek

12 MINTAALKALMAZÁS

13 USA polgári légiközlekedés késési adatai

14 Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application

15 Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper

16 Workload Baseline workload Start of stress End of stress

17 CPU utilization

18 Process latency Relationship with guest resource usage?

19 Process latency Correlation: 0.890

20 ALKALMAZÁSI MINTÁK

21 Alkalmazás-osztályok Forrás: [2], p 80

22 Tervezési minták: filter Forrás: [2], 3.2 alfejezet

23 Tervezési minták: outliers

24 Tervezési minták: parallel

25 Tervezési minták: supplemental data

26 Tervezési minták: consolidation

27 Tervezési minták: merge

28 R INTEGRÁCIÓ

29 IBM InfoSphere Streams: R-project Toolkit  RScript operátor az SPL-ben Forrás: [4]

30 ALGORITMIKAI SZEMELVÉNYEK

31 Folyam-algoritmikai szemelvények  A számítási modellt láttuk  Fő korlát: adott tár + WCET, „be nem látott” adat  Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok  Részletes tárgyalás: [1] 4. fejezete

32 Kitérő: hash-függvények http://en.wikipedia.org/wiki/Hash_function

33 Hash-függvények: jellemző követelmények  Alkalmazási területenként eltérőek! o Kriptográfia  indexelés adattároláshoz  Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értelmezési tartomány o Folytonosság o Irreverzibilitás („egyirányú” függvény)  http://en.wikipedia.org/wiki/List_of_hash_functions http://en.wikipedia.org/wiki/List_of_hash_functions

34 Mintavételezés  Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk  Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem  Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás  Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján

35 Bloom filterek http://en.wikipedia.org/wiki/Bloom_filter

36 Szűrés: Bloom filterek

37

38 Bloom filterek: néhány tétel

39 „Count-Distinct”: a Flajolet-Martin algoritmus

40 Momentumok

41 Az Alon-Matias-Szegedy algoritmus

42

43

44

45 Hivatkozások  [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/CBO9781139058452  [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September 2010. http://www.redbooks.ibm.com/abstracts/sg247865.h tml http://www.redbooks.ibm.com/abstracts/sg247865.h tml  [3] http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/  [4] http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre."

Hasonló előadás


Google Hirdetések