Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Összetett kísérleti tervek és kiértékelésük
Gazdaságelemzési és Statisztikai Tanszék
Ekler Péter Budapesti Műszaki és Gazdaságtudományi Egyetem
Számold meg a fekete pontokat!
Számítástechnika Levelezőknek
Vizuális adatanalízis
© Gács Iván (BME) 1 Szennyezőanyagok légköri terjedése A terjedés időbeli folyamatai BME Energetikai Gépek és Rendszerek Tanszék.
Elemzés.
RDF és SPARQL. Felhasznált anyagok Marcelo Arenas, Claudio Gutierrez, Jorge Peréz: RDF and SPARQL: Database Foundations (bemutató) Claudio Gutierrez,
ANY u WHERE u : seq(MININT..MAXINT) & size(u) = size(s) & #f.(f : 1..size(s) >->> 1..size(s) & !j.(j : 1..size(s) => s(f(j)) = u(j))) & !i.(i : 1..size(s)-1.
Civil Biztonság- és Védelemtudományi Tanszék A BIZTONSÁG ÉS VÉDELEM KULTÚRÁJA Dr. Szilágyi Tivadar egyetemi tanár GTK3185BAN.
SPSS bevezetés.
Vállalati pénzügyek Nemzetgazdasági információk, adatok gyűjtése.
A szabályozások hatásának vizualizációja a publikus fórumok statisztikai elemzésének segítségével MKT Vándorgyűlés Szeged, október 1.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
STATISZTIKA II. 3. Előadás Dr. Balogh Péter egyetemi adjunktus Gazdaságelemzési és Statisztikai Tanszék.
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Statisztika a szociológiában
MEGÚJULÓ ENERGIAFORRÁSOK BIOMASSZA
Statisztika.
„ IKT-val támogatott új tanulási környezetek szerepe az oktatásban” „ IKT-val támogatott új tanulási környezetek szerepe az oktatásban ” augusztus.
Pókerágens fejlesztése játékelméleti alapokon
Tervkészítés PDDL alapon Konzulens: Kovács Dániel László Intelligens rendszerek tanszék Budapest Műszaki és Gazdaságtudományi.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Meglévő ASP.NET 2.0 alkalmazás kiegészítése AJAX-szal
Kereskényi Róbert MSDN Kompetencia Központ Budapesti Műszaki és Gazdaságtudományi Egyetem Automatizálási és Alkalmazott Informatikai.
MIKROELEKTRONIKA, VIEEA306
MIKROELEKTRONIKA, VIEEA306
MIKROELEKTRONIKA, VIEEA306
MIKROELEKTRONIKA, VIEEA306
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA306 MOS áramkörök: CMOS áramkörök,
MIKROELEKTRONIKA, VIEEA306
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke Mikroelektronika Laboratórium Tájékoztató
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA306 A bipoláris tranzisztor.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA306 Integrált áramkörök: áttekintés,
MIKROELEKTRONIKA, VIEEA306
Alapsokaság (populáció)
Lineáris regresszió.
Adatleírás.
Valós idejű adaptív útvonalkeresés
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alkalmazás és megjelenítés virtualizáció Micskei Zoltán.
A Microsoft Üzleti Intelligencia megoldása és platformja
Webprogramozó tanfolyam
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA306 A pn átmenet működése: Sztatikus.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Nyomkövetés alapú hibadetektálás Autonóm és Hibatűrő Inf.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke Zárthelyi előkészítés október 10.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
Nemzetközi: IT History Society _ Amerika Computer History Museum (California)
Menetrend optimalizálása genetikus algoritmussal
Informatika tanítása ea.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2009 I. félév Követlemények.
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2012 I. félév Követelmények.
Budapesti Műszaki és Gazdaságtudományi Egyetem Elektronikus Eszközök Tanszéke MIKROELEKTRONIKA, VIEEA /2013 I. félév Követelmények.
Számítógépes Grafika 5. gyakorlat Programtervező informatikus (esti)‏ 2009/2010 őszi félév.
Internet-alapú információcsere és adatvalidáció bibliográfiai adatbázisok között Internet-based information exchange and content validation between bibliographic.
BME VEGYÉSZMÉRNÖKI ÉS BIOMÉRNÖKI KAR
Statisztikai folyamatszabályozás
Nagyméretű adathalmazok vizualizációja
„Big Data” elemzési módszerek
Velünk élő középkor Forrás:
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek Kocsis Imre

Bin-summarize-smooth  A képernyő pixelszáma erősen véges  Az előfeldogozást „le kell csatolni” a megjelenítésről  Lehetővé teszi a o Párhuzamosítást o Out-of-memory adatok megjelenítését  A fontosabb 1d és 2d statisztikai eszközök  Mai óra: o „H.Wickham: Bin-summarize-smooth: A framework for visualizing large data” o A cikk módszereinek példa-implementációját adó ‚bigvis’ R-csomag

„Condense”

„Bin”  Több dimenzióra:  Dimenziónként 10 bin-nel?  Monoton minimális tökéletes hash  Ritka adatok: jobb lenne a „kicsi” szélesség… o Nehéz probléma; o Inkább simítás o Algoritmika: lásd a cikkben

„Summarise”  Összefoglaló statisztikák típusai: o Disztributív: egyetlen köztestár, eredmények kombinálhatóak. o Algebrai: Disztributív statisztikák fix száma kell hozzá Várhatóérték: count + sum Szórás: count + sum + sum of squares o Holisztikus: bemenettel növekvő köztestár kell  Disztributív és algebrai: o Triviális párhuzamosítás o Hierarchikus vizualizáció  Holisztikus statisztikák sokszor közelíthetőek

„Flight data”  ASA Data Expo ’09 o data.html data.html o Csak a 2008-as adatkészlet első 500k sora… o Változók:  Bigvis és MapReduce felvezetés

Előkészületek

Válasszunk egy változót…

Binning; simítás

Simítás Ábra forrása: [1]

Simítás  x i : bin közepe  y i : statisztika értéke o Eddig „count” volt  w i : a bin elemszáma  „Simított” érték: átlag | lokális regresszió | loess…  … a w i * k i -val súlyozott mintákon

Simítás

Másik változó

Két változó?  Az egyik bin, a másik statisztika alapja o mean, median, std. dev.  Mindkettő bin alapja, statisztika: „count”

Két változó

Bizonytalanság: CLT, bootstrap

„Hámozás”

… illetve kézivezérlés

Vizualizáció

 (2,1)-d plot: heatmap/tile plot, contour plot  (n,m)-d plot: o „small multiples” (faceting) o Interakció Ábra forrása: [1]

Hivatkozások  [1] H. Wickham: Bin-summarize-smooth: A framework for visualizing large data. (A cikk az IEEE Transactions on Visualization and Computer Graphics folyóiratban fog megjelenni.)  [2] Bigvis-t bemutató meetup oldala: 042/ 042/