Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre

2 Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatások  Hálózati forgalom  Tőzsdei adatok  …

3 Stream processing (vs „at rest” Big Data)

4 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency

5 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements

6 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”

7 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”

8 Typically sliding window approches  Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?

9 Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz

10 IBM InfoSphere Streams Forrás: [2], p 76

11 Eszközök (néhány!)  LinkedIn Samza  Storm  IBM InfoSphere Streams  Amazon Kinesis  … Ábra forrása: [3] + kapcsolódó projektek

12 MINTAALKALMAZÁS

13 USA polgári légiközlekedés késési adatai

14 Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application

15 Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper

16 Workload Baseline workload Start of stress End of stress

17 CPU utilization

18 Process latency Relationship with guest resource usage?

19 Process latency Correlation: 0.890

20 ALKALMAZÁSI MINTÁK

21 Alkalmazás-osztályok Forrás: [2], p 80

22 Tervezési minták: filter Forrás: [2], 3.2 alfejezet

23 Tervezési minták: outliers

24 Tervezési minták: parallel

25 Tervezési minták: supplemental data

26 Tervezési minták: consolidation

27 Tervezési minták: merge

28 R INTEGRÁCIÓ

29 IBM InfoSphere Streams: R-project Toolkit  RScript operátor az SPL-ben Forrás: [4]

30 ALGORITMIKAI SZEMELVÉNYEK

31 Folyam-algoritmikai szemelvények  A számítási modellt láttuk  Fő korlát: adott tár + WCET, „be nem látott” adat  Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok  Részletes tárgyalás: [1] 4. fejezete

32 Kitérő: hash-függvények

33 Hash-függvények: jellemző követelmények  Alkalmazási területenként eltérőek! o Kriptográfia  indexelés adattároláshoz  Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értelmezési tartomány o Folytonosság o Irreverzibilitás („egyirányú” függvény) 

34 Mintavételezés  Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk  Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem  Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás  Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján

35 Bloom filterek

36 Szűrés: Bloom filterek

37

38 Bloom filterek: néhány tétel

39 „Count-Distinct”: a Flajolet-Martin algoritmus

40 Momentumok

41 Az Alon-Matias-Szegedy algoritmus

42

43

44

45 Hivatkozások  [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi: /CBO  [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September tml tml  [3] community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/  [4] streamsrtoolkit/http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre."

Hasonló előadás


Google Hirdetések