Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek Kocsis Imre

2 Bin-summarize-smooth  A képernyő pixelszáma erősen véges  Az előfeldogozást „le kell csatolni” a megjelenítésről  Lehetővé teszi a o Párhuzamosítást o Out-of-memory adatok megjelenítését  A fontosabb 1d és 2d statisztikai eszközök  Mai óra: o „H.Wickham: Bin-summarize-smooth: A framework for visualizing large data” o A cikk módszereinek példa-implementációját adó ‚bigvis’ R-csomag

3 „Condense”

4 „Bin”  Több dimenzióra:  Dimenziónként 10 bin-nel?  Monoton minimális tökéletes hash  Ritka adatok: jobb lenne a „kicsi” szélesség… o Nehéz probléma; o Inkább simítás o Algoritmika: lásd a cikkben

5 „Summarise”  Összefoglaló statisztikák típusai: o Disztributív: egyetlen köztestár, eredmények kombinálhatóak. o Algebrai: Disztributív statisztikák fix száma kell hozzá Várhatóérték: count + sum Szórás: count + sum + sum of squares o Holisztikus: bemenettel növekvő köztestár kell  Disztributív és algebrai: o Triviális párhuzamosítás o Hierarchikus vizualizáció  Holisztikus statisztikák sokszor közelíthetőek

6 „Flight data”  ASA Data Expo ’09 o data.html data.html o Csak a 2008-as adatkészlet első 500k sora… o Változók:  Bigvis és MapReduce felvezetés

7 Előkészületek

8

9 Válasszunk egy változót…

10

11 Binning; simítás

12

13 Simítás Ábra forrása: [1]

14 Simítás  x i : bin közepe  y i : statisztika értéke o Eddig „count” volt  w i : a bin elemszáma  „Simított” érték: átlag | lokális regresszió | loess…  … a w i * k i -val súlyozott mintákon

15 Simítás

16 Másik változó

17 Két változó?  Az egyik bin, a másik statisztika alapja o mean, median, std. dev.  Mindkettő bin alapja, statisztika: „count”

18 Két változó

19 Bizonytalanság: CLT, bootstrap

20

21 „Hámozás”

22 … illetve kézivezérlés

23 Vizualizáció

24  (2,1)-d plot: heatmap/tile plot, contour plot  (n,m)-d plot: o „small multiples” (faceting) o Interakció Ábra forrása: [1]

25 Hivatkozások  [1] H. Wickham: Bin-summarize-smooth: A framework for visualizing large data. (A cikk az IEEE Transactions on Visualization and Computer Graphics folyóiratban fog megjelenni.)  [2] Bigvis-t bemutató meetup oldala: 042/ 042/


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek."

Hasonló előadás


Google Hirdetések