Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.
Nagy adatok Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek
Benczúr András Nagy Adatok IVSZ – Jövő Internet Extrém méretű adatok, „big data” •Web (100G oldal, 1-10 KB, Internet Achívum 200TB /2 hó) Web Retrieval, Spam & Quality Challenges 1-25 Tbytes, ált. adathordozó áron LAWA FP7: Web adatok felhő tesztbeden •Emberi gének (3 milliárd bázispár) •ZINC kereskedelemben elérhető 2M potenciális gyógyszermolekula, ligand.info >1M térszerkezet •Közlekedés, parkolás SmartSantander: 12,000 actuators, sensors and tags •Szenzorok: energia-gazdálkodás, üzemek, mezőgazdaság
Benczúr András Nagy Adatok IVSZ – Jövő Internet Extrém adatméretek: korlátok •Hardware képessége 18 havonta duplázódik •Adatmennyiség még gyorsabban növekszik •Külső tár elérési sebessége sokkal lassabban nő •Elosztott környezet architekturálisan még nehéz maradt
Benczúr András Nagy Adatok IVSZ – Jövő Internet Pl és 2003 között megharmincszorozódott a teljesítmény … Extrém adatméretek: korlátok Folytatás már sokkal nehezebb: many-core
Benczúr András Nagy Adatok IVSZ – Jövő Internet Google Teoma AllTheWeb AltaVista Inktomi de 1997 és 2003 között megharmincszorozódott az adatmennyiség is legtöbb feladat jelentősen lassult Extrém adatméretek: korlátok
Benczúr András Nagy Adatok IVSZ – Jövő Internet Az alapkutatás feladatai Sub-linear speed-up Linear speed-up (ideal) Number of CPUs Number of transactions/second 1000/Sec 5 CPUs 2000/Sec 10 CPUs 16 CPUs 1600/Sec Cost Security Integrity control more difficult Lack of standards Lack of experience Complexity of management and control Increased storage requirements Increased training cost 1 MB szekvenciális olvasás… •RAM 250,000 ns •hálózat 10,000,000 ns •diszk 30,000,000 ns M CPU M M M M MEMORY CPU Connolly, Begg: Database systems: a practical approach to design, implementation, and management], International computer science series, Pearson Education, 2005
Benczúr András Nagy Adatok IVSZ – Jövő Internet Hardver ára: esettanulmányok •Hanzo Archives (UK): Amazon EC2 cloud + S3 •Internet Memory Foundation: 50 low-end szerver •SZTAKI: 25TByte weboldal indexelés •Sok fejlesztés – open source eszközök még nem kiforrottak •50, ma már asztali kategóriájú gépen 1 hét •Teljes hardver ár kb $15,000; Amazon ár $1000
Eloszott adattárházak NoSQL BigTable MapReduce
Benczúr András Nagy Adatok IVSZ – Jövő Internet Tapasztalat: GB/nap 3-60 millió esemény Adattárház igény: IT-log Aggregált adatok: adattárház teljesítményprobléma, folyamat-optimalizálás rosszindulatú támadás, visszaélés-felderítés ? Hagyományos megoldások: kudarc
Benczúr András Nagy Adatok IVSZ – Jövő Internet Megvalósítás: új technológiai lehetőségek Gartner 2011 előrejelzés, trend No. 5: Next Generation Analytics - „significant changes to existing operational and business intelligence infrastructure”
Média •Közösségi •Multi- •Személyre szabott
Benczúr András Nagy Adatok IVSZ – Jövő Internet •Platform konvergencia (Web, PC, mobil, TV) információ ÉS szórakozás •Hangsúly a közösségi tartalmon (blog, Wikipedia, kép és video megosztás) •Elmozdulás a kereséstől az ajánlás felé (nincs query, profil alapú, személyre szabott) •Elmozdulás szövegtől a multimédia felé •Glokalizáció (nyelv, geo helyszín) •Felhő, „big data” •Spam; rosszindulatú, önző résztvevők Web 2.0, …?
Benczúr András Nagy Adatok IVSZ – Jövő Internet Egy tipikus szolgáltatás RSS Web 2.0 •Kis képernyő •Gépelés nélkül, profil alapú ajánlás •Blog, hírek, média, … client software Ajánló motor
Benczúr András Nagy Adatok IVSZ – Jövő Internet Tartalom, kapcsolatok, vírusmarketing
További alkalmazások Intelligens város, környezet Energiahatékonyság
Benczúr András Nagy Adatok IVSZ – Jövő Internet Szenzorok városokban, épületekben
Benczúr András Nagy Adatok IVSZ – Jövő Internet Szenzorok a mezőgazdaságban
Benczúr András Nagy Adatok IVSZ – Jövő Internet GPS trajektória, fizikai & virtuális valóság
Benczúr András Nagy Adatok IVSZ – Jövő Internet Nagy adatok: Összefoglalás •Több diszciplína: •Adatméretek: architektúrák, algoritmusok •Adatbázis-kezelés: korlátok, új kihívások •Statisztika, intelligencia hálózati környezetben Az adatbányászat célkitűzései 15 éve •Széles körben, felhő alapon elérhető •Adatok •Elemzési infrastruktúrák
Benczúr András Nagy Adatok IVSZ – Jövő Internet Benczúr András Informatika Labor vezető Sidló Csaba Elosztott adattárházak, üzleti intelligencia Fekete Zsolt Elosztott adatbányászat, mesterséges intelligencia Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő 6 végzett diákunk Google, Yahoo-nál
Benczúr András Nagy Adatok IVSZ – Jövő Internet • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű logok elemzése, riasztás •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport
Köszönöm a figyelmet! Benczúr András datamining.sztaki.hu/