Big Data Sidló Csaba / Benczúr András

Big Data Sidló Csaba / Benczúr András
MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat és Keresés Csoport 2013. június 4.

SZTAKI ILAB és Big Data Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok Benczúr András, 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj kutatás – fejlesztés, teljes innovációs lánc kb tag, kutatók, fejlesztők, hallgatók 60+ gép, 170+ mag, 600+ TB tároló Big Data Üzleti Intelligencia Csoport partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János projektek valódi „big data” feladatokkal logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés smart city, mobilitás, „internet of things”

„Big Data” adatok és kapcsolódó feladatok big data
volume velocity variety big data adatok és kapcsolódó feladatok adatok 3 (vagy 4, 5) V-je: volume (mennyiség – sok), velocity (sebesség – gyorsan jön és megy), variety (változatosság – sokféle forrás, típus) + veracity (megbízhatóság – változó adatminőség), + value (érték – feldolgozással értéknövekedés), + variability (változékonyság – változó tartalom) “big data is when the size of the data itself becomes part of the problem” “big data is data that becomes large enough that it cannot be processed using conventional methods”

sok százezer PetaByte méretű adatbázis
Wired magazin, 2013 május: 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga  tera  peta  exa  zetta) sok százezer PetaByte méretű adatbázis business each year Google index Youtube upload each year Facebook upload each year forrás:

rétegek: adatelérés, analitika, alkalmazások
nagy a tülekedés, sok szereplő SQL vs. NoSQL vs. NewSQL kötegelt vs. streaming (real time) feldolgozás … szolgáltatások, eszközök, eszköz-kombinációk, full stack-ek, SaS, open source stb.: minden megkapható, mindent megígérnek forrás, : forrás, :

Néhány kiemelt kutatási téma
új elméleti és számítási modellek: mi jön a bevált Hadoop / MapReduce után? egyszerűség, gyorsaság vs. komplex műveletek skálázható adat-management felhőkön storage rendszerek: adat lokalitás elrejtése pl. több adat center lokális számításokkal Amazon S3-on keresés és adatbányászat Internet of Things, mobilitás adatok

Néhány kiemelt kutatási téma 2.
big data vizualizáció

Tranzakciós, log adat feldolgozás
log, Internet of Things: sok helyen előforduló probléma biztonság / feladat optimalizáció gyűjteni: viszonylag könnyű feldolgozni: nehéz analitika: egyes területeken sok kiforrott megoldás (pl. webanalitika) de sok speciális igény, feladat adatintenzív feladatok kép:

Media stream, szociális hálók, azonosságok
kép szegmentáció (képkereséshez) számításintenzív feladatok entity resolution - azonosságfeloldás

Mobilitás, telekom, szélerőmű szenzor
telekom adatok: CDR, OSS (operational support system)  analitika: mozgás előrejelzés „smart city”: intelligens parkolás, forgalomirányítás stb. „internet of things” szélerőművek: szenzor adat adatfolyam számítás és adatintenzív feladatok

Virtual Web Observatory: FIRE testbed
számítás és adatintenzív feladatok Hanzo Archives (UK): Amazon EC2 cloud + S3 Internet Memory Foundation: low-end szerverekkel PB-ok feldolgozása SZTAKI Web adat, pl. plágiumkereső saját kódok – open source eszközök még nem elég kiforrottak 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz hardware kb. $15,000; Amazon ár kb. $1000 lenne Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész

Webes trendek kinyerése / „opinion mining”
magyar blogok; gyorsan reagálnak igény: valósidejű; deep Web? előfordulási gyakoriságok (pl. Google Trends) témák  fontos kifejezések szófelhője

Big data trendek – szubjektív válogatás
innovációs görbe: early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn)  early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) real time, streaming (adatfolyam) feldolgozás: hatalmas igény flash memória, SSD vs. hagyományos tároló-tömbök in memory vs. batch processing pl. SAP Hana és Oracle Exadata X3 vs. Hadoop statisztika + informatika + üzlet  „data science” (“the sexiest job in the 21st century”, Harward Business Review) kép:

Big Data Sidló Csaba / Benczúr András

Hasonló előadás

Az előadások a következő témára: "Big Data Sidló Csaba / Benczúr András"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Big Data Sidló Csaba / Benczúr András

Hasonló előadás

Az előadások a következő témára: "Big Data Sidló Csaba / Benczúr András"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés