HÁZI FELADAT. Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott”

Slides:



Advertisements
Hasonló előadás
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Advertisements

Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Belváros-Lipótváros Polgármesteri Hivatal egységes szerkezetű rendezési terveinek publikálása, karbantartása ASP szolgáltatás keretében Cselovszki Zoltán.
Tárolórendszer kialakításának szempontjai a megőrzési, feldolgozási és szolgáltatási feladatokhoz A Nemzeti Audiovizuális Archívum tárolórendszerének megvalósítási.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Adatbázis alapú rendszerek 1. Gyakorlat Követelmények / SQL.
Big Data Sidló Csaba / Benczúr András
LINQ to DataSet Kereskényi Róbert
HTML5 alapú fejlesztő és futtató környezet megvalósítása
SQL Server 2005 Reporting Services a gyakorlatban
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke A programozás alapjai 1. (VIEEA100) 9. előadás.
„Leíró” statisztika: alapfogalmak
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
Virtuális Obszervatórium Korszerű adatbázisok 2014.
kötelező program, SZÁMONKÉRÉSEK
Érettségi feladatok megoldása LINQ-kel
Programozási technológia 1
Szoftvertechnológia Bevezetés.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
XML támogatás adatbázis-kezelő rendszerekben
Lab BME TMIT Sztochasztikus hálózat számítás (Stochastic network calculus) Bíró József, Ph.D. BME Távközlési és Médiainformatikai Tanszék 2007.
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
Webes Információs Rendszerek fejlesztése
Hálózati Bombermen Belicza András Konzulens: Rajacsics Tamás BME-AAIT.
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Budapesti Műszaki Egyetem Méréstechnika és Információs Rendszerek Tanszék 1 Szolgáltatásbiztos számítástechnika = hibatűrés, információbiztonság Pataricza.
A hiba-előjel alapú FxLMS algoritmus analízise Orosz György Konzulensek: Péceli Gábor, Sujbert László Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika.
Intelligens felderítő robotok Készítette: Györke Péter Intelligens rendszerek MSC szakirány Konzulens: Kovács Dániel László Méréstechnika és Információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R és MapReduce „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék ‚Big Data’ elemzési módszerek
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
2012. tavaszi félév Vitéz Gergely. A diasor ismerete nem helyettesíti a tankönyvet, és a példatárat. A diasor ismerete szükséges, de nem elégséges feltétele.
XML fejlesztések TSQL fejlesztések Tábla paraméter SQLCLR fejlesztések 8k limit feloldása Több paraméteres UDA-ek Ordered UDF-ek Entity Framework ADO.NET.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
Adatbázis-kezelés 3-4. Adatok lekérdezése utasítás általános formája SELECT [ALL/DISTINCT] {*/, …, } FROM [ ], …, [ ] [WHERE GROUP BY, …, HAVING ORDER.
Szabályozási Rendszerek 2014/2015, őszi szemeszter Előadás Automatizálási tanszék.
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék P2P protokollok és autonóm számítástechnika: szemelvények.
1 AZ IKTA-2000 projektjeinek szakmai bemutatója IKTA-144/2000 projekt november 28.
Menetrend optimalizálása genetikus algoritmussal
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
‚Big Data’ elemzési módszerek
Gráfadatbázisok Rácz Gábor.
Számítógépes Grafika 5. gyakorlat Programtervező informatikus (esti)‏ 2009/2010 őszi félév.
Követelmények Szoftver- környezet SQL ismétlés ADATBÁZIS ALAPÚ RENDSZEREK.
Virul az ISO szabványcsalád
„Tisztább kép” – együttműködési program Az új szintetikus drogok feltérképezéséért 2 nd European Workshop – ’Breaking the Drug Cycle’ project Budapest,
Manhertz Gábor; Raj Levente Tanársegéd; Tanszéki mérnök Budapesti Műszaki és Gazdaságtudományi Egyetem Mechatronika, Optika és Gépészeti Informatika Tanszék.
Ha(doop) akkor adatok... Hadoop és Node.JS adatfeltöltő (BME – NYME) Szalai László, Major Kálmán TÁMOP 4.1.1/C-12/1/KONV
Microsoft alapú VIR megoldás az egyetemeken Lénárt Marcell.
Internet-alapú információcsere és adatvalidáció bibliográfiai adatbázisok között Internet-based information exchange and content validation between bibliographic.
Triggerek gyakorlás.
Naplóelemzés Log Parserrel
OVIDIUS Info-Service Co Ltd.
Adatvédelmi kihívások a modern információ- technológiában
OVIDIUS Info-Service Co Ltd.
XDSL hálózatok tervezése 9. Előadás
„Big Data” elemzési módszerek
OVIDIUS Info-Service Co Ltd.
Tudományos adatok keresése, avagy a Data Citation Index bemutatása
„Big Data” elemzési módszerek
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
GEGES JÓZSEF Ph.D. OVIDIUS Info-Service Co Ltd.
OVIDIUS Info-Service Co Ltd.
Az internet minőségi információ halmazainak feltárásáról
What’s new in Java 2019 Tömösvári Imre
Előadás másolata:

HÁZI FELADAT

Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott” feladat o Kiírások: honlap o Jelentkezés: form  Teljesítés o Konzulens minden HF-hez; 2 db konzultációt biztosítunk o 11. héten előzetes specifikáció és feladatpontosítás leadása o 5 perces bemutató-előadás az utolsó héten o PDF/HTML dokumentáció és leadása o Forráskódok, szkriptek leadása (reprodukálhatóság)

Házi Feladat  A tipikus házi feladat  Kaggle adatkészlet, de nem kaggle feladat Expedia szállásfoglalá s aggle.com/c/e xpedia- personalized- sort/data 1 GB térkép alapú vizualizáció kidolgozása a foglalások cél szerinti elemzésére (src,dest) "áramlásokkal" (változó vastagságú nyilak) annotált térkép alapú vizualizáció kidolgozása térkép alapú vizualizáció kidolgozása, hogy az egyes országok lakói mennyit költenek (átlagosan és összesen) utazásra EDA: gyermekek számának hatása az úthosszra

Házi Feladat  3 főre ezek a kreditszámnak megfelelő feladatok  Javasolt megközelítés o “number crunching”: választott technológia o Vizualizáció/EDA (as applicable): R  Néhány kakukktojás (pl. klaszterezés)

Házi Feladat  Opciók: megközelítés és technológia o MapReduce RHadoop (local backend), Cloudera QuickStart VM + RHadoop, Rhadoop on Amazon EMR, Amazon EMR, IBM BlueMix Hadoop, akármelyik Hadoop-as-a-Service o Streaming (if applicable) IBM BlueMix Streaming Analytics, Amazon Kinesis, … o Spark itt is van “local backend” unsupported! o SQL Eseti jelleggel, pl. HAWQ vagy IBM BlueMix dashDB  A lényeg: nem kötjük meg a kezeteket  BlueMix hozzáférés folyamatban

ZH  12. héten, az óra időpontjában  “Ellenőrző kérdések” ezen a héten

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre

Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatások  Hálózati forgalom  Tőzsdei adatok  …

Stream processing (vs „at rest” Big Data)

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?”

Stream processing 1.Many sources 2.With unknown sampling frequency 1.Many sources 2.With unknown sampling frequency Resource requirements Once per stream: „Local maximum?” About stream at all times: „Report each new maximum”

Typically sliding window approches  Autocorrelation methods o Where do we differ from the predicted value? o Where does the autocorrelation model change?

Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o n-esenkénti (tuple) feldolgozási logika o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok o WCET-menedzsment: skálázási logikán keresztül Illetve lehet heurisztika/mintavétel-hangolás is, de az nehéz

IBM InfoSphere Streams Forrás: [2], p 76

Eszközök (néhány!)  LinkedIn Samza  Storm  IBM InfoSphere Streams  Amazon Kinesis  … Ábra forrása: [3] + kapcsolódó projektek

MINTAALKALMAZÁS

USA polgári légiközlekedés késési adatai

Experimental environment Host 1 Host 2 Workstation OS_contr OS_compute nimbus OS_network CollectD replay superv 2 superv 1 Application

Application topology Redis spout Gatherer 1 Gatherer 2 Aggregator Timer spout Sweeper

Workload Baseline workload Start of stress End of stress

CPU utilization

Process latency Relationship with guest resource usage?

Process latency Correlation: 0.890

ALKALMAZÁSI MINTÁK

Alkalmazás-osztályok Forrás: [2], p 80

Tervezési minták: filter Forrás: [2], 3.2 alfejezet

Tervezési minták: outliers

Tervezési minták: parallel

Tervezési minták: supplemental data

Tervezési minták: consolidation

Tervezési minták: merge

R INTEGRÁCIÓ

IBM InfoSphere Streams: R-project Toolkit  RScript operátor az SPL-ben Forrás: [4]

ALGORITMIKAI SZEMELVÉNYEK

Folyam-algoritmikai szemelvények  A számítási modellt láttuk  Fő korlát: adott tár + WCET, „be nem látott” adat  Néhány tipikus probléma o Mintavételezett kulcstér, kulcsok minden értéke o „Elég jó” halmazba tartozás-szűrés kicsi leíróval o „Count distinct” korlátos tárral o Momentumok  Részletes tárgyalás: [1] 4. fejezete

Kitérő: hash-függvények

Hash-függvények: jellemző követelmények  Alkalmazási területenként eltérőek! o Kriptográfia  indexelés adattároláshoz  Néhány tipikus követelmény o Determinizmus o Uniformitás o Meghatározott értékkészlet o Folytonosság o Irreverzibilitás („egyirányú” függvény) 

Mintavételezés  Modell: o n komponensű elemek o ezek egy része key (pl. user,query,time) o a kulcsok felett mintavételezünk  Probléma o Egy kulcsnak vagy minden értéke megjelenjen, vagy egy sem  Megoldás o a/b méretű mintához a (kulcstér)méretű folyamon a kulcsot b vödörbe hasheljük o A hash-függvény valójában „konzisztens random-generátor”: a < b esetén tárolunk o Nem véges minta – kisebb módosítás  Példa: „a felhasználók mekkora része ismétel meg lekérdezéseket” a felhasználók 1/10 mintáján

Bloom filterek

Szűrés: Bloom filterek

Bloom filterek: néhány tétel

„Count-Distinct”: a Flajolet-Martin algoritmus

Momentumok

Az Alon-Matias-Szegedy algoritmus

Hivatkozások  [1] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi: /CBO  [2] International Technical Support Organization. IBM InfoSphere Streams: Harnessing Data in Motion. September tml tml  [3] community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/ community-preview-and-launch-of-hortonworks- certification-program-for-apache-hadoop-yarn/  [4] streamsrtoolkit/ streamsrtoolkit/