Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaOttó Balázs Megváltozta több, mint 8 éve
1
HÁZI FELADAT
2
Házi Feladat 3 fős csapatok o Javasolt: legyen benne > másodéves informatikus Feladatválasztás listából o Eseti elbírálással: “hozott” feladat o Kiírások: honlap o Jelentkezés: form Teljesítés o Konzulens minden HF-hez; 2 db konzultációt biztosítunk o 11. héten előzetes specifikáció és feladatpontosítás leadása o 5 perces bemutató-előadás az utolsó héten o PDF/HTML dokumentáció és leadása o Forráskódok, szkriptek leadása (reprodukálhatóság)
3
Házi Feladat A tipikus házi feladat Kaggle adatkészlet, de nem kaggle feladat Expedia szállásfoglalá s http://www.k aggle.com/c/e xpedia- personalized- sort/data 1 GB térkép alapú vizualizáció kidolgozása a foglalások cél szerinti elemzésére (src,dest) "áramlásokkal" (változó vastagságú nyilak) annotált térkép alapú vizualizáció kidolgozása térkép alapú vizualizáció kidolgozása, hogy az egyes országok lakói mennyit költenek (átlagosan és összesen) utazásra EDA: gyermekek számának hatása az úthosszra
4
Házi Feladat 3 főre ezek a kreditszámnak megfelelő feladatok Javasolt megközelítés o “number crunching”: választott technológia o Vizualizáció/EDA (as applicable): R Néhány kakukktojás (pl. klaszterezés)
5
Házi Feladat Opciók: megközelítés és technológia o MapReduce RHadoop (local backend), Cloudera QuickStart VM + RHadoop, Rhadoop on Amazon EMR, Amazon EMR, IBM BlueMix Hadoop, akármelyik Hadoop-as-a-Service o Streaming (if applicable) IBM BlueMix Streaming Analytics, Amazon Kinesis, … o Spark itt is van “local backend” unsupported! o SQL Eseti jelleggel, pl. HAWQ vagy IBM BlueMix dashDB A lényeg: nem kötjük meg a kezeteket BlueMix hozzáférés folyamatban
6
ZH 12. héten, az óra időpontjában “Ellenőrző kérdések” ezen a héten
7
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre ikocsis@mit.bme.hu 2015.11.04.
8
Adatfolyam-források Szenzor-adatok o 1 millió szenzor x 10/s x 4B Képek o Szatelitek: n TB/nap Internetes szolgáltatások Hálózati forgalom Tőzsdei adatok …
9
Stream processing (vs „at rest” Big Data)
10
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency
11
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements
12
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”
13
Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”
14
Typically sliding window approches Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?
15
Feldolgozás: időkorlát! Diszk nem használható Megengedett memóriaigény: korlátos Elemenkénti számítási igény: korlátos Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz
16
IBM InfoSphere Streams Forrás: [2], p 76
17
Eszközök (néhány!) LinkedIn Samza Storm IBM InfoSphere Streams Amazon Kinesis … Ábra forrása: [3] + kapcsolódó projektek
18
MINTAALKALMAZÁS
19
USA polgári légiközlekedés késési adatai
20
Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application
21
Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper
22
Workload Baseline workload Start of stress End of stress
23
CPU utilization
24
Process latency Relationship with guest resource usage?
25
Process latency Correlation: 0.890
26
ALKALMAZÁSI MINTÁK
27
Alkalmazás-osztályok Forrás: [2], p 80
28
Tervezési minták: filter Forrás: [2], 3.2 alfejezet
29
Tervezési minták: outliers
30
Tervezési minták: parallel
31
Tervezési minták: supplemental data
32
Tervezési minták: consolidation
33
Tervezési minták: merge
34
R INTEGRÁCIÓ
35
IBM InfoSphere Streams: R-project Toolkit RScript operátor az SPL-ben Forrás: [4]
36
ALGORITMIKAI SZEMELVÉNYEK
37
Folyam-algoritmikai szemelvények A számítási modellt láttuk Fő korlát: adott tár + WCET, „be nem látott” adat Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok Részletes tárgyalás: [1] 4. fejezete
38
Kitérő: hash-függvények http://en.wikipedia.org/wiki/Hash_function
39
Hash-függvények: jellemző követelmények Alkalmazási területenként eltérőek! o Kriptográfia indexelés adattároláshoz Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értékkészlet o Folytonosság o Irreverzibilitás („egyirányú” függvény) http://en.wikipedia.org/wiki/List_of_hash_functions http://en.wikipedia.org/wiki/List_of_hash_functions
40
Mintavételezés Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján
41
Bloom filterek http://en.wikipedia.org/wiki/Bloom_filter
42
Szűrés: Bloom filterek
44
Bloom filterek: néhány tétel
45
„Count-Distinct”: a Flajolet-Martin algoritmus
47
Momentumok
48
Az Alon-Matias-Szegedy algoritmus
52
Hivatkozások [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi:10.1017/CBO9781139058452 [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September 2010. http://www.redbooks.ibm.com/abstracts/sg247865.h tml http://www.redbooks.ibm.com/abstracts/sg247865.h tml [3] http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/ [4] http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.