Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.

Slides:



Advertisements
Hasonló előadás
Kreitl Péter Gemini-IT Magyarország Kft.
Advertisements

Első tapasztalatok az NIIFI-nél üzemelő infrastruktúra cloud szolgáltatással kapcsolatban Stefán Péter NIIFI RICOMNET Miskolc.
SZOFTVER MINT SZOLGÁLTATÁS: ÜZLETI HATÉKONYSÁG A FELHŐBEN Nagy Levente Üzletágvezető Microsoft Office.
Tudásmenedzsment és a Web 2.0
Big Data analytics Benczúr András „Big Data – Lendület” kutatócsoport
Jövő Internet technológiák és alkalmazások kutatása Magyarországon A Magyar Tudomány Hónapja Jövő Internet technológiák és alkalmazások kutatása Magyarországon.
A Jövő Internet Nemzeti Kutatási Program bemutatása Dr. Bakonyi Péter és Dr. Sallai Gyula Jövő Internet Kutatáskoordinációs Központ Budapesti Műszaki és.
Copyright © 2012, Oracle and/or its affiliates. All rights reserved. 1.
Web2 a mobilon: mégis, kinek az érdeke? Méhes Krisztián Neo-Play Entertainment Kft.
Új online technológiák: lehetőségek és kihívások Kerese István Fejlesztési platform üzletág igazgató Microsoft Magyarország
Jövő hálózati megoldások – Future Internet
2003. november INFOtrend 2003 Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály Nyelvi technológiákkal az információs.
A kábeltelevízió jövője,
Tisztelt Hölgyeim és Uraim! Budapest, Előadó: Dr. Mihalik József
Big Data Sidló Csaba / Benczúr András
Microsoft Üzleti Megoldások Konferencia Naprakész Microsoft technológiák banki környezetben Bessenyei László Magyar Külkereskedelmi Bank Rt.
I. Informatikai alapismeretek Dabas, november 18.
IVSZ IT piaci felmérés, 2006 Sajtótájékoztató december 6.
Ekler Péter Budapesti Műszaki és Gazdaságtudományi Egyetem
A Jövő Internet Nemzeti Kutatási Program – JINKA 1.3 Dr. Sallai Gyula Jövő Internet Kutatáskoordinációs Központ Budapesti Műszaki és Gazdaságtudományi.
Adatbányászat a kontrollingban
E - Learning Információtechnológiai támogatás a nyitott- és távoktatásban.
50 éves a szegedi informatika
Trendek a szoftveriparban: e-business és e-development Csontos Péter IQSOFT Rational e-development szakmai nap 2000 február 16.
Virtuális Obszervatórium Korszerű adatbázisok 2014.
Kalmár László  Informatikai Tanszékcsoport, Főépület 2000-nél több informatikus hallgató.
A tárgyak internetén használatos kommunikációs technológiák Előadó: Balla Tamás I. éves PhD hallgató Témavezető: Dr. Terdik György április
Korszerű adatbázisok 1. előadás Bevezetés 1. előadás.
Webbányászat (web mining) Mártonffy A: Kutakodom, tehát vagyok cikke nyomán.
Önkiszolgáló üzleti intelligencia az SQL Server 2012-ben
Microsoft CRM online Strén András
Adatbázisrendszerek jövője
Az informatika szerepe a XXI.század múzeumaiban
Bánkeszi Katalin A számítógép és az Internet hatása az olvasáskultúrára (konferencia) Változó olvasói igények – változó könyvtáros világ.
Elektronikus Kormányzati Gerinchálózat (EKG) – a Központi Elektronikus Szolgáltató Rendszer alapinfrastruktúrája
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
IWiW – második hullám Simó György T-Online Magyarország Zrt, vezérigazgató.
A Jövő Internet Nemzeti Technológiai Platform workshop-ja Az Aarlborg-i Future Internet Assembly üzenetei Dr. Sallai Gyula Budapesti Műszaki és Gazdaságtudományi.
A Dublin-i Future Internet Assembly üzenetei Sallai Gyula, Vilmos András Jövő Internet Kutatáskoordinációs Központ Budapest, június 4.
A Jövő Internet alkalmazásai Sidló Csaba, Benczúr András {sidlo, MTA SZTAKI Informatika Kutató Laboratórium Adatbányászat és Webes.
1 C | © 2010 Cisco | EMC | VMware. All rights reserved. Úton a cloud computing (felhő modell) felé Slamovits Tibor, EMC üzletág-vezető, kormányzat.
Mátrai Balázs vidékfejlesztési szakértő Magyarországi LEADER Központ
Nagy teherbírású rendszerüzemeltetés a felhőben. Miről lesz szó? Cloud áttekintő Terheléstípusok és kezelésük CDN Loadbalancing Nézzük a gyakorlatban.
A Microsoft Üzleti Intelligencia megoldása és platformja
Eszköz és identitás kezelés Korlátlan fájl szerver kapacitás Másodlagos adatközpont Korlátlanul skálázódó infrastruktúra Biztonságos DMZ Hibrid adat-
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Okostelefon köztesréteg Dr. Bilicki Vilmos Szegedi Tudományegyetem.
Hálózati biztonág Szabályozások VPN Virtual Private Network  Virtuális magán-hálózatok  A megbízhatóság kiterjesztése a fizikai zónán kivülre.
Miért jó nekünk kutatóknak a felhő?
4/7/2017 StorSimple: A felhő-integrált tároló Windows Server 2012 R2 konferencia © 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows,
Felhő PC demonstráció Gergely Márk MTA SZTAKI Laboratory of Parallel and Distributed Systems
Jövő Internet fejlesztések és alkalmazások
Ingyenes,Multi funkcionális tűzfal szoftver
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
UNIVERSITY OF SZEGED D epartment of Software Engineering UNIVERSITAS SCIENTIARUM SZEGEDIENSIS Okostelefon felhő Prof. Dr. Gyimóthy Tibor Szegedi Tudományegyetem.
A könyvtár, mint az információs társadalom stratégiai tényezője Dr. Tóvári Judit
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Összefoglalás M. Kozlovszky MTA SZTAKI
Advanced Next gEneration Mobile Open NEtwork ANEMONE Promóciós Nyílt Nap Nyitó előadás 2008 április 22. Dr. Imre Sándor
ifin811/ea1 C Programozás: Hardver alapok áttekintése
AZURE RÉGIÓK Szoftver szolgáltatás SaaS Platform szolgáltatás PaaS Infrastruktúra szolgáltatás IaaS.
Felhasználói viselkedés-elemzés – visszaélések felderítése informatikai eszközökkel Dr. Krasznay Csaba Nemzeti Közszolgálati Egyetem Információbiztonsági.
A Műegyetem szerepvállalása a hazai e-mobilitás K+F-ben Dr. Jakab László - BME Villamosmérnöki és Informatikai Kar Dr. Varga István – BME Közlekedésmérnöki.
DIGITALIZÁCIÓ A NAGYVÁLLALATBAN
Tapasztalatok Openstack környezet éles üzemeltetésével
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
<Fejléc - Előadás címe>
Információtechnológiák és tudásbázis az Agrof-MM Leonardo+ projektben M=Mountain; M=Mediterranean
dr. Geges József Ovidius Co. Ltd.
Jövő Internet Nemzeti Technológiai Platform Záróülés
Business Intelligence (Üzleti Intelligencia)
This is the first level bullet for notes 12 point Arial Regular
Előadás másolata:

Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.

Nagy adatok Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek

Benczúr András Nagy Adatok IVSZ – Jövő Internet Extrém méretű adatok, „big data” •Web (100G oldal, 1-10 KB, Internet Achívum 200TB /2 hó) Web Retrieval, Spam & Quality Challenges 1-25 Tbytes, ált. adathordozó áron LAWA FP7: Web adatok felhő tesztbeden •Emberi gének (3 milliárd bázispár) •ZINC kereskedelemben elérhető 2M potenciális gyógyszermolekula, ligand.info >1M térszerkezet •Közlekedés, parkolás SmartSantander: 12,000 actuators, sensors and tags •Szenzorok: energia-gazdálkodás, üzemek, mezőgazdaság

Benczúr András Nagy Adatok IVSZ – Jövő Internet Extrém adatméretek: korlátok •Hardware képessége 18 havonta duplázódik •Adatmennyiség még gyorsabban növekszik •Külső tár elérési sebessége sokkal lassabban nő •Elosztott környezet architekturálisan még nehéz maradt

Benczúr András Nagy Adatok IVSZ – Jövő Internet Pl és 2003 között megharmincszorozódott a teljesítmény … Extrém adatméretek: korlátok Folytatás már sokkal nehezebb: many-core

Benczúr András Nagy Adatok IVSZ – Jövő Internet Google Teoma AllTheWeb AltaVista Inktomi de 1997 és 2003 között megharmincszorozódott az adatmennyiség is  legtöbb feladat jelentősen lassult  Extrém adatméretek: korlátok

Benczúr András Nagy Adatok IVSZ – Jövő Internet Az alapkutatás feladatai Sub-linear speed-up Linear speed-up (ideal) Number of CPUs Number of transactions/second 1000/Sec 5 CPUs 2000/Sec 10 CPUs 16 CPUs 1600/Sec  Cost  Security  Integrity control more difficult  Lack of standards  Lack of experience  Complexity of management and control  Increased storage requirements  Increased training cost 1 MB szekvenciális olvasás… •RAM 250,000 ns •hálózat 10,000,000 ns •diszk 30,000,000 ns M CPU M M M M MEMORY CPU Connolly, Begg: Database systems: a practical approach to design, implementation, and management], International computer science series, Pearson Education, 2005

Benczúr András Nagy Adatok IVSZ – Jövő Internet Hardver ára: esettanulmányok •Hanzo Archives (UK): Amazon EC2 cloud + S3 •Internet Memory Foundation: 50 low-end szerver •SZTAKI: 25TByte weboldal indexelés •Sok fejlesztés – open source eszközök még nem kiforrottak •50, ma már asztali kategóriájú gépen 1 hét •Teljes hardver ár kb $15,000; Amazon ár $1000

Eloszott adattárházak NoSQL BigTable MapReduce

Benczúr András Nagy Adatok IVSZ – Jövő Internet Tapasztalat: GB/nap 3-60 millió esemény Adattárház igény: IT-log Aggregált adatok: adattárház teljesítményprobléma, folyamat-optimalizálás rosszindulatú támadás, visszaélés-felderítés ? Hagyományos megoldások: kudarc

Benczúr András Nagy Adatok IVSZ – Jövő Internet Megvalósítás: új technológiai lehetőségek Gartner 2011 előrejelzés, trend No. 5: Next Generation Analytics - „significant changes to existing operational and business intelligence infrastructure”

Média •Közösségi •Multi- •Személyre szabott

Benczúr András Nagy Adatok IVSZ – Jövő Internet •Platform konvergencia (Web, PC, mobil, TV) információ ÉS szórakozás •Hangsúly a közösségi tartalmon (blog, Wikipedia, kép és video megosztás) •Elmozdulás a kereséstől az ajánlás felé (nincs query, profil alapú, személyre szabott) •Elmozdulás szövegtől a multimédia felé •Glokalizáció (nyelv, geo helyszín) •Felhő, „big data” •Spam; rosszindulatú, önző résztvevők Web 2.0, …?

Benczúr András Nagy Adatok IVSZ – Jövő Internet Egy tipikus szolgáltatás RSS Web 2.0 •Kis képernyő •Gépelés nélkül, profil alapú ajánlás •Blog, hírek, média, … client software Ajánló motor

Benczúr András Nagy Adatok IVSZ – Jövő Internet Tartalom, kapcsolatok, vírusmarketing

További alkalmazások Intelligens város, környezet Energiahatékonyság

Benczúr András Nagy Adatok IVSZ – Jövő Internet Szenzorok városokban, épületekben

Benczúr András Nagy Adatok IVSZ – Jövő Internet Szenzorok a mezőgazdaságban

Benczúr András Nagy Adatok IVSZ – Jövő Internet GPS trajektória, fizikai & virtuális valóság

Benczúr András Nagy Adatok IVSZ – Jövő Internet Nagy adatok: Összefoglalás •Több diszciplína: •Adatméretek: architektúrák, algoritmusok •Adatbázis-kezelés: korlátok, új kihívások •Statisztika, intelligencia hálózati környezetben  Az adatbányászat célkitűzései 15 éve •Széles körben, felhő alapon elérhető •Adatok •Elemzési infrastruktúrák

Benczúr András Nagy Adatok IVSZ – Jövő Internet Benczúr András Informatika Labor vezető Sidló Csaba Elosztott adattárházak, üzleti intelligencia Fekete Zsolt Elosztott adatbányászat, mesterséges intelligencia Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő 6 végzett diákunk Google, Yahoo-nál

Benczúr András Nagy Adatok IVSZ – Jövő Internet • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű logok elemzése, riasztás •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport

Köszönöm a figyelmet! Benczúr András datamining.sztaki.hu/