Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.

Hasonló előadás


Az előadások a következő témára: "Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4."— Előadás másolata:

1 Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4.

2 Nagy adatok Nagy adatok elérhető közelségben Hardver korlátok, lehetőségek

3 Benczúr András Nagy Adatok IVSZ – Jövő Internet Extrém méretű adatok, „big data” •Web (100G oldal, 1-10 KB, Internet Achívum 200TB /2 hó) Web Retrieval, Spam & Quality Challenges 1-25 Tbytes, ált. adathordozó áron LAWA FP7: Web adatok felhő tesztbeden •Emberi gének (3 milliárd bázispár) •ZINC kereskedelemben elérhető 2M potenciális gyógyszermolekula, ligand.info >1M térszerkezet •Közlekedés, parkolás SmartSantander: 12,000 actuators, sensors and tags •Szenzorok: energia-gazdálkodás, üzemek, mezőgazdaság

4 Benczúr András Nagy Adatok IVSZ – Jövő Internet Extrém adatméretek: korlátok •Hardware képessége 18 havonta duplázódik •Adatmennyiség még gyorsabban növekszik •Külső tár elérési sebessége sokkal lassabban nő •Elosztott környezet architekturálisan még nehéz maradt

5 Benczúr András Nagy Adatok IVSZ – Jövő Internet Pl és 2003 között megharmincszorozódott a teljesítmény … Extrém adatméretek: korlátok Folytatás már sokkal nehezebb: many-core

6 Benczúr András Nagy Adatok IVSZ – Jövő Internet Google Teoma AllTheWeb AltaVista Inktomi de 1997 és 2003 között megharmincszorozódott az adatmennyiség is  legtöbb feladat jelentősen lassult  Extrém adatméretek: korlátok

7 Benczúr András Nagy Adatok IVSZ – Jövő Internet Az alapkutatás feladatai Sub-linear speed-up Linear speed-up (ideal) Number of CPUs Number of transactions/second 1000/Sec 5 CPUs 2000/Sec 10 CPUs 16 CPUs 1600/Sec  Cost  Security  Integrity control more difficult  Lack of standards  Lack of experience  Complexity of management and control  Increased storage requirements  Increased training cost 1 MB szekvenciális olvasás… •RAM 250,000 ns •hálózat 10,000,000 ns •diszk 30,000,000 ns M CPU M M M M MEMORY CPU Connolly, Begg: Database systems: a practical approach to design, implementation, and management], International computer science series, Pearson Education, 2005

8 Benczúr András Nagy Adatok IVSZ – Jövő Internet Hardver ára: esettanulmányok •Hanzo Archives (UK): Amazon EC2 cloud + S3 •Internet Memory Foundation: 50 low-end szerver •SZTAKI: 25TByte weboldal indexelés •Sok fejlesztés – open source eszközök még nem kiforrottak •50, ma már asztali kategóriájú gépen 1 hét •Teljes hardver ár kb $15,000; Amazon ár $1000

9 Eloszott adattárházak NoSQL BigTable MapReduce

10 Benczúr András Nagy Adatok IVSZ – Jövő Internet Tapasztalat: GB/nap 3-60 millió esemény Adattárház igény: IT-log Aggregált adatok: adattárház teljesítményprobléma, folyamat-optimalizálás rosszindulatú támadás, visszaélés-felderítés ? Hagyományos megoldások: kudarc

11 Benczúr András Nagy Adatok IVSZ – Jövő Internet Megvalósítás: új technológiai lehetőségek Gartner 2011 előrejelzés, trend No. 5: Next Generation Analytics - „significant changes to existing operational and business intelligence infrastructure”

12 Média •Közösségi •Multi- •Személyre szabott

13 Benczúr András Nagy Adatok IVSZ – Jövő Internet •Platform konvergencia (Web, PC, mobil, TV) információ ÉS szórakozás •Hangsúly a közösségi tartalmon (blog, Wikipedia, kép és video megosztás) •Elmozdulás a kereséstől az ajánlás felé (nincs query, profil alapú, személyre szabott) •Elmozdulás szövegtől a multimédia felé •Glokalizáció (nyelv, geo helyszín) •Felhő, „big data” •Spam; rosszindulatú, önző résztvevők Web 2.0, …?

14

15 Benczúr András Nagy Adatok IVSZ – Jövő Internet Egy tipikus szolgáltatás RSS Web 2.0 •Kis képernyő •Gépelés nélkül, profil alapú ajánlás •Blog, hírek, média, … client software Ajánló motor

16 Benczúr András Nagy Adatok IVSZ – Jövő Internet Tartalom, kapcsolatok, vírusmarketing

17 További alkalmazások Intelligens város, környezet Energiahatékonyság

18 Benczúr András Nagy Adatok IVSZ – Jövő Internet Szenzorok városokban, épületekben

19 Benczúr András Nagy Adatok IVSZ – Jövő Internet Szenzorok a mezőgazdaságban

20 Benczúr András Nagy Adatok IVSZ – Jövő Internet GPS trajektória, fizikai & virtuális valóság

21 Benczúr András Nagy Adatok IVSZ – Jövő Internet Nagy adatok: Összefoglalás •Több diszciplína: •Adatméretek: architektúrák, algoritmusok •Adatbázis-kezelés: korlátok, új kihívások •Statisztika, intelligencia hálózati környezetben  Az adatbányászat célkitűzései 15 éve •Széles körben, felhő alapon elérhető •Adatok •Elemzési infrastruktúrák

22 Benczúr András Nagy Adatok IVSZ – Jövő Internet Benczúr András Informatika Labor vezető Sidló Csaba Elosztott adattárházak, üzleti intelligencia Fekete Zsolt Elosztott adatbányászat, mesterséges intelligencia Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő 6 végzett diákunk Google, Yahoo-nál

23 Benczúr András Nagy Adatok IVSZ – Jövő Internet • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű logok elemzése, riasztás •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport

24 Köszönöm a figyelmet! Benczúr András datamining.sztaki.hu/


Letölteni ppt "Nagy adatok – mindenkinek Benczúr András MTA SZTAKI Informatika Kutató Laboratórium IVSZ – Jövő Internet Workshop2011. November 4."

Hasonló előadás


Google Hirdetések