Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Big Data Sidló Csaba / Benczúr András MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat.

Hasonló előadás


Az előadások a következő témára: "Big Data Sidló Csaba / Benczúr András MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat."— Előadás másolata:

1 Big Data Sidló Csaba / Benczúr András MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat és Keresés Csoport június 4.

2 SZTAKI ILAB és Big Data • Keresés és Adatbányászat, Üzleti Intelligencia és Adattárházak csoportok o Benczúr András, 2012 „Big Data” MTA Lendület Fiatal Kutatói Díj o kutatás – fejlesztés, teljes innovációs lánc o kb tag, kutatók, fejlesztők, hallgatók o 60+ gép, 170+ mag, 600+ TB tároló • Big Data Üzleti Intelligencia Csoport o partner: Mérnöki és Üzleti Intelligencia Laboratórium, Dr. Viharos Zsolt János • projektek valódi „big data” feladatokkal o logelemzés, webanalitika, webes keresés, spam detektálás, ajánlórendszerek, csalásfelderítés o smart city, mobilitás, „internet of things”

3 „Big Data” • adatok és kapcsolódó feladatok • adatok 3 (vagy 4, 5) V-je: o volume (mennyiség – sok), o velocity (sebesség – gyorsan jön és megy), o variety (változatosság – sokféle forrás, típus) o + veracity (megbízhatóság – változó adatminőség), + value (érték – feldolgozással értéknövekedés), + variability (változékonyság – változó tartalom) • “big data is when the size of the data itself becomes part of the problem” • “big data is data that becomes large enough that it cannot be processed using conventional methods” volume velocity variety big data

4 Wired magazin, 2013 május: • 2012-ben 2.8 ZettaByte információ keletkezett (vagy duplikálódott) (giga  tera  peta  exa  zetta) • sok százezer PetaByte méretű adatbázis forrás: business each year Google index Facebook upload each year Youtube upload each year

5 forrás, : forrás, : • rétegek: adatelérés, analitika, alkalmazások • nagy a tülekedés, sok szereplő • SQL vs. NoSQL vs. NewSQL • kötegelt vs. streaming (real time) feldolgozás • … • szolgáltatások, eszközök, eszköz- kombinációk, full stack-ek, SaS, open source stb.: minden megkapható, mindent megígérnek

6 Néhány kiemelt kutatási téma • új elméleti és számítási modellek: o mi jön a bevált Hadoop / MapReduce után? o egyszerűség, gyorsaság vs. komplex műveletek • skálázható adat-management felhőkön o storage rendszerek: adat lokalitás elrejtése o pl. több adat center lokális számításokkal Amazon S3-on • keresés és adatbányászat o Internet of Things, mobilitás adatok

7 Néhány kiemelt kutatási téma 2. • big data vizualizáció

8 Tranzakciós, log adat feldolgozás • log, Internet of Things: o sok helyen előforduló probléma biztonság / feladat optimalizáció o gyűjteni: viszonylag könnyű feldolgozni: nehéz • analitika: o egyes területeken sok kiforrott megoldás (pl. webanalitika) o de sok speciális igény, feladat adatintenzív feladatok kép:

9 Media stream, szociális hálók, azonosságok számításintenzív feladatok kép szegmentáció (képkereséshez) entity resolution - azonosságfeloldás

10 Mobilitás, telekom, szélerőmű szenzor • telekom adatok: CDR, OSS (operational support system)  analitika: mozgás előrejelzés • „smart city”: intelligens parkolás, forgalomirányítás stb. • „internet of things” • szélerőművek: szenzor adat adatfolyam számítás és adatintenzív feladatok

11 Virtual Web Observatory: FIRE testbed • Hanzo Archives (UK): o Amazon EC2 cloud + S3 • Internet Memory Foundation: o low-end szerverekkel PB-ok feldolgozása • SZTAKI Web adat, pl. plágiumkeresőhttp://kopi.sztaki.hu o saját kódok – open source eszközök még nem elég kiforrottak o 50 régi szerver (mostani desktopoknál gyengébbek): 1 hét 3TB tömörített adathoz o hardware kb. $15,000; Amazon ár kb. $1000 lenne o Web osztályozás: spam oldalak; verseny: ClueWeb, 25TB, 0.5 milliárd oldal – kis rész számítás és adatintenzív feladatok

12 Webes trendek kinyerése / „opinion mining” • magyar blogok; gyorsan reagálnak • igény: valósidejű; deep Web? • előfordulási gyakoriságok (pl. Google Trends) témák  fontos kifejezések szófelhője

13

14 Big data trendek – szubjektív válogatás • innovációs görbe: o early adopters / post-innovators: Web 2.0 (pl. Google, Facebook, Twitter, LinkedIn) o  early majority (pl. pénzügyi szolgáltatók, gyógyszergyártók, kiskereskedelem stb.) • real time, streaming (adatfolyam) feldolgozás: hatalmas igény • flash memória, SSD vs. hagyományos tároló-tömbök • in memory vs. batch processing o pl. SAP Hana és Oracle Exadata X3 vs. Hadoop • statisztika + informatika + üzlet  „data science” (“the sexiest job in the 21st century”, Harward Business Review) kép:


Letölteni ppt "Big Data Sidló Csaba / Benczúr András MTA Számítástechnikai és Automatizálási Kutatóintézet Üzleti Intelligencia és Adattárházak Csoport / Adatbányászat."

Hasonló előadás


Google Hirdetések