Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaLászló Jónás Megváltozta több, mint 10 éve
1
Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.
2
Nagy adatok Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek
3
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Extrém méretű adatok, „big data” •Web (100G oldal, 1-10 KB, Internet Achívum 200TB /2 hó) Web Retrieval, Spam & Quality Challenges 1-25 Tbytes, ált. adathordozó áron LAWA FP7: Web adatok felhő tesztbeden •Emberi gének (3 milliárd bázispár) •ZINC kereskedelemben elérhető 2M potenciális gyógyszermolekula, ligand.info >1M térszerkezet •Közlekedés, parkolás SmartSantander: 12,000 actuators, sensors and tags •Szenzorok: energia-gazdálkodás, üzemek, mezőgazdaság
4
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Extrém adatméretek: korlátok •Hardware képessége 18 havonta duplázódik •Adatmennyiség még gyorsabban növekszik •Külső tár elérési sebessége sokkal lassabban nő •Elosztott környezet architekturálisan még nehéz maradt
5
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Pl. 1997 és 2003 között megharmincszorozódott a teljesítmény … Extrém adatméretek: korlátok Folytatás már sokkal nehezebb: many-core
6
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Google Teoma AllTheWeb AltaVista Inktomi de 1997 és 2003 között megharmincszorozódott az adatmennyiség is legtöbb feladat jelentősen lassult Extrém adatméretek: korlátok
7
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Az alapkutatás feladatai Sub-linear speed-up Linear speed-up (ideal) Number of CPUs Number of transactions/second 1000/Sec 5 CPUs 2000/Sec 10 CPUs 16 CPUs 1600/Sec Cost Security Integrity control more difficult Lack of standards Lack of experience Complexity of management and control Increased storage requirements Increased training cost 1 MB szekvenciális olvasás… •RAM 250,000 ns •hálózat 10,000,000 ns •diszk 30,000,000 ns M CPU M M M M MEMORY CPU Connolly, Begg: Database systems: a practical approach to design, implementation, and management], International computer science series, Pearson Education, 2005
8
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Hardver ára: esettanulmányok •Hanzo Archives (UK): Amazon EC2 cloud + S3 •Internet Memory Foundation: 50 low-end szerver •SZTAKI: 25TByte weboldal indexelés •Sok fejlesztés – open source eszközök még nem kiforrottak •50, ma már asztali kategóriájú gépen 1 hét •Teljes hardver ár kb $15,000; Amazon ár $1000
9
Eloszott adattárházak NoSQL BigTable MapReduce
10
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Tapasztalat: 30-115 GB/nap 3-60 millió esemény Adattárház igény: IT-log Aggregált adatok: adattárház teljesítményprobléma, folyamat-optimalizálás rosszindulatú támadás, visszaélés-felderítés ? Hagyományos megoldások: kudarc
11
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Megvalósítás: új technológiai lehetőségek Gartner 2011 előrejelzés, trend No. 5: Next Generation Analytics - „significant changes to existing operational and business intelligence infrastructure”
12
Média •Közösségi •Multi- •Személyre szabott
13
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. •Platform konvergencia (Web, PC, mobil, TV) információ ÉS szórakozás •Hangsúly a közösségi tartalmon (blog, Wikipedia, kép és video megosztás) •Elmozdulás a kereséstől az ajánlás felé (nincs query, profil alapú, személyre szabott) •Elmozdulás szövegtől a multimédia felé •Glokalizáció (nyelv, geo helyszín) •Felhő, „big data” •Spam; rosszindulatú, önző résztvevők Web 2.0, …?
15
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Egy tipikus szolgáltatás RSS Web 2.0 •Kis képernyő •Gépelés nélkül, profil alapú ajánlás •Blog, hírek, média, … client software Ajánló motor
16
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Tartalom, kapcsolatok, vírusmarketing
17
További alkalmazások Intelligens város, környezet Energiahatékonyság http://www.smartsantander.eu/images/IoT_Comic_Book.pdf
18
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Szenzorok városokban, épületekben
19
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Szenzorok a mezőgazdaságban
20
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. GPS trajektória, fizikai & virtuális valóság
21
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Nagy adatok: Összefoglalás •Több diszciplína: •Adatméretek: architektúrák, algoritmusok •Adatbázis-kezelés: korlátok, új kihívások •Statisztika, intelligencia hálózati környezetben Az adatbányászat célkitűzései 15 éve •Széles körben, felhő alapon elérhető •Adatok •Elemzési infrastruktúrák
22
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. Benczúr András Informatika Labor vezető Sidló Csaba Elosztott adattárházak, üzleti intelligencia Fekete Zsolt Elosztott adatbányászat, mesterséges intelligencia Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő 6 végzett diákunk Google, Yahoo-nál
23
Benczúr András Nagy Adatok IVSZ – Jövő Internet 2011.11.04. • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű logok elemzése, riasztás •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport
24
Köszönöm a figyelmet! Benczúr András datamining.sztaki.hu/ benczur@sztaki.hu
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.