Big Data Sidló Csaba / Benczúr András MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat és Keresés Csoport sidlo@sztaki.mta.hu http://dms.sztaki.hu 2013. június 4.
SZTAKI ILAB és Big Data http://dms.sztaki.hu Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok Benczúr András, 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj kutatás – fejlesztés, teljes innovációs lánc kb. 30-40 tag, kutatók, fejlesztők, hallgatók 60+ gép, 170+ mag, 600+ TB tároló Big Data Üzleti Intelligencia Csoport partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János projektek valódi „big data” feladatokkal logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés smart city, mobilitás, „internet of things” http://bigdatabi.sztaki.hu
„Big Data” adatok és kapcsolódó feladatok big data volume velocity variety big data adatok és kapcsolódó feladatok adatok 3 (vagy 4, 5) V-je: volume (mennyiség – sok), velocity (sebesség – gyorsan jön és megy), variety (változatosság – sokféle forrás, típus) + veracity (megbízhatóság – változó adatminőség), + value (érték – feldolgozással értéknövekedés), + variability (változékonyság – változó tartalom) “big data is when the size of the data itself becomes part of the problem” “big data is data that becomes large enough that it cannot be processed using conventional methods”
sok százezer PetaByte méretű adatbázis Wired magazin, 2013 május: 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga tera peta exa zetta) sok százezer PetaByte méretű adatbázis business email each year Google index Youtube upload each year Facebook upload each year forrás: http://www.wired.com/magazine/2013/04/bigdata/
rétegek: adatelérés, analitika, alkalmazások nagy a tülekedés, sok szereplő SQL vs. NoSQL vs. NewSQL kötegelt vs. streaming (real time) feldolgozás … szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.: minden megkapható, mindent megígérnek forrás, 2013.02: http://www.slideshare.net/mjft01/big-data-big-deal-a-big-data-101-presentation forrás, 2012.06: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/
Néhány kiemelt kutatási téma új elméleti és számítási modellek: mi jön a bevált Hadoop / MapReduce után? egyszerűség, gyorsaság vs. komplex műveletek skálázható adat-management felhőkön storage rendszerek: adat lokalitás elrejtése pl. több adat center lokális számításokkal Amazon S3-on keresés és adatbányászat Internet of Things, mobilitás adatok
Néhány kiemelt kutatási téma 2. big data vizualizáció
Tranzakciós, log adat feldolgozás log, Internet of Things: sok helyen előforduló probléma biztonság / feladat optimalizáció gyűjteni: viszonylag könnyű feldolgozni: nehéz analitika: egyes területeken sok kiforrott megoldás (pl. webanalitika) de sok speciális igény, feladat adatintenzív feladatok kép: http://www.google.com/analytics/
Media stream, szociális hálók, azonosságok kép szegmentáció (képkereséshez) számításintenzív feladatok entity resolution - azonosságfeloldás
Mobilitás, telekom, szélerőmű szenzor telekom adatok: CDR, OSS (operational support system) analitika: mozgás előrejelzés „smart city”: intelligens parkolás, forgalomirányítás stb. „internet of things” szélerőművek: szenzor adat adatfolyam számítás és adatintenzív feladatok http://www.d4d.orange.com
Virtual Web Observatory: FIRE testbed számítás és adatintenzív feladatok Hanzo Archives (UK): Amazon EC2 cloud + S3 Internet Memory Foundation: low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. http://kopi.sztaki.hu plágiumkereső saját kódok – open source eszközök még nem elég kiforrottak 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz hardware kb. $15,000; Amazon ár kb. $1000 lenne Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész
Webes trendek kinyerése / „opinion mining” magyar blogok; gyorsan reagálnak igény: valósidejű; deep Web? előfordulási gyakoriságok (pl. Google Trends) témák fontos kifejezések szófelhője 2011.12.30. 2012.02.28.
http://dms.sztaki.hu
Big data trendek – szubjektív válogatás innovációs görbe: early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn) early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) real time, streaming (adatfolyam) feldolgozás: hatalmas igény flash memória, SSD vs. hagyományos tároló-tömbök in memory vs. batch processing pl. SAP Hana és Oracle Exadata X3 vs. Hadoop statisztika + informatika + üzlet „data science” (“the sexiest job in the 21st century”, Harward Business Review) kép:http://en.wikipedia.org/wiki/Diffusion_of_innovations