Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

HÁZI FELADAT. Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott”

Hasonló előadás


Az előadások a következő témára: "HÁZI FELADAT. Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott”"— Előadás másolata:

1 HÁZI FELADAT

2 Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott” feladat o Kiírások: honlap o Jelentkezés: form  Teljesítés o Konzulens minden HF-hez; 2 db konzultációt biztosítunk o 11. héten előzetes specifikáció és feladatpontosítás leadása o 5 perces bemutató-előadás az utolsó héten o PDF/HTML dokumentáció és leadása o Forráskódok, szkriptek leadása (reprodukálhatóság)

3 Házi Feladat  A tipikus házi feladat  Kaggle adatkészlet, de nem kaggle feladat Expedia szállásfoglalá s aggle.com/c/e xpedia- personalized- sort/data 1 GB térkép alapú vizualizáció kidolgozása a foglalások cél szerinti elemzésére (src,dest) "áramlásokkal" (változó vastagságú nyilak) annotált térkép alapú vizualizáció kidolgozása térkép alapú vizualizáció kidolgozása, hogy az egyes országok lakói mennyit költenek (átlagosan és összesen) utazásra EDA: gyermekek számának hatása az úthosszra

4 Házi Feladat  3 főre ezek a kreditszámnak megfelelő feladatok  Javasolt megközelítés o “number crunching”: választott technológia o Vizualizáció/EDA (as applicable): R  Néhány kakukktojás (pl. klaszterezés)

5 Házi Feladat  Opciók: megközelítés és technológia o MapReduce RHadoop (local backend), Cloudera QuickStart VM + RHadoop, Rhadoop on Amazon EMR, Amazon EMR, IBM BlueMix Hadoop, akármelyik Hadoop-as-a-Service o Streaming (if applicable) IBM BlueMix Streaming Analytics, Amazon Kinesis, … o Spark itt is van “local backend” unsupported! o SQL Eseti jelleggel, pl. HAWQ vagy IBM BlueMix dashDB  A lényeg: nem kötjük meg a kezeteket  BlueMix hozzáférés folyamatban

6 ZH  12. héten, az óra időpontjában  “Ellenőrző kérdések” ezen a héten

7 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre

8 Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatások  Hálózati forgalom  Tőzsdei adatok  …

9 Stream processing (vs „at rest” Big Data)

10 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency

11 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements

12 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”

13 Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”

14 Typically sliding window approches  Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?

15 Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz

16 IBM InfoSphere Streams Forrás: [2], p 76

17 Eszközök (néhány!)  LinkedIn Samza  Storm  IBM InfoSphere Streams  Amazon Kinesis  … Ábra forrása: [3] + kapcsolódó projektek

18 MINTAALKALMAZÁS

19 USA polgári légiközlekedés késési adatai

20 Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application

21 Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper

22 Workload Baseline workload Start of stress End of stress

23 CPU utilization

24 Process latency Relationship with guest resource usage?

25 Process latency Correlation: 0.890

26 ALKALMAZÁSI MINTÁK

27 Alkalmazás-osztályok Forrás: [2], p 80

28 Tervezési minták: filter Forrás: [2], 3.2 alfejezet

29 Tervezési minták: outliers

30 Tervezési minták: parallel

31 Tervezési minták: supplemental data

32 Tervezési minták: consolidation

33 Tervezési minták: merge

34 R INTEGRÁCIÓ

35 IBM InfoSphere Streams: R-project Toolkit  RScript operátor az SPL-ben Forrás: [4]

36 ALGORITMIKAI SZEMELVÉNYEK

37 Folyam-algoritmikai szemelvények  A számítási modellt láttuk  Fő korlát: adott tár + WCET, „be nem látott” adat  Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok  Részletes tárgyalás: [1] 4. fejezete

38 Kitérő: hash-függvények

39 Hash-függvények: jellemző követelmények  Alkalmazási területenként eltérőek! o Kriptográfia  indexelés adattároláshoz  Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értékkészlet o Folytonosság o Irreverzibilitás („egyirányú” függvény) 

40 Mintavételezés  Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk  Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem  Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás  Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján

41 Bloom filterek

42 Szűrés: Bloom filterek

43

44 Bloom filterek: néhány tétel

45 „Count-Distinct”: a Flajolet-Martin algoritmus

46

47 Momentumok

48 Az Alon-Matias-Szegedy algoritmus

49

50

51

52 Hivatkozások  [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi: /CBO  [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September tml tml  [3] community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/http://hortonworks.com/blog/hdp-2-0- community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/  [4] streamsrtoolkit/http://www.ibm.com/developerworks/library/bd- streamsrtoolkit/


Letölteni ppt "HÁZI FELADAT. Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott”"

Hasonló előadás


Google Hirdetések