Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaZsuzsanna Patakiné Megváltozta több, mint 10 éve
1
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek Kocsis Imre ikocsis@mit.bme.hu 2013.10.09.
2
Bin-summarize-smooth A képernyő pixelszáma erősen véges Az előfeldogozást „le kell csatolni” a megjelenítésről Lehetővé teszi a o Párhuzamosítást o Out-of-memory adatok megjelenítését A fontosabb 1d és 2d statisztikai eszközök Mai óra: o „H.Wickham: Bin-summarize-smooth: A framework for visualizing large data” o A cikk módszereinek példa-implementációját adó ‚bigvis’ R-csomag
3
„Condense”
4
„Bin” Több dimenzióra: Dimenziónként 10 bin-nel? Monoton minimális tökéletes hash Ritka adatok: jobb lenne a „kicsi” szélesség… o Nehéz probléma; o Inkább simítás o Algoritmika: lásd a cikkben
5
„Summarise” Összefoglaló statisztikák típusai: o Disztributív: egyetlen köztestár, eredmények kombinálhatóak. o Algebrai: Disztributív statisztikák fix száma kell hozzá Várhatóérték: count + sum Szórás: count + sum + sum of squares o Holisztikus: bemenettel növekvő köztestár kell Disztributív és algebrai: o Triviális párhuzamosítás o Hierarchikus vizualizáció Holisztikus statisztikák sokszor közelíthetőek
6
„Flight data” ASA Data Expo ’09 o http://stat-computing.org/dataexpo/2009/the- data.html http://stat-computing.org/dataexpo/2009/the- data.html o Csak a 2008-as adatkészlet első 500k sora… o Változók: http://www.transtats.bts.gov/Fields.asp?Table_ID=236 http://www.transtats.bts.gov/Fields.asp?Table_ID=236 Bigvis és MapReduce felvezetés
7
Előkészületek
9
Válasszunk egy változót…
11
Binning; simítás
13
Simítás Ábra forrása: [1]
14
Simítás x i : bin közepe y i : statisztika értéke o Eddig „count” volt w i : a bin elemszáma „Simított” érték: átlag | lokális regresszió | loess… … a w i * k i -val súlyozott mintákon
15
Simítás
16
Másik változó
17
Két változó? Az egyik bin, a másik statisztika alapja o mean, median, std. dev. Mindkettő bin alapja, statisztika: „count”
18
Két változó
19
Bizonytalanság: CLT, bootstrap
20
…
21
„Hámozás”
22
… illetve kézivezérlés
23
Vizualizáció
24
(2,1)-d plot: heatmap/tile plot, contour plot (n,m)-d plot: o „small multiples” (faceting) o Interakció Ábra forrása: [1]
25
Hivatkozások [1] H. Wickham: Bin-summarize-smooth: A framework for visualizing large data. http://vita.had.co.nz/papers/bigvis.pdf (A cikk az IEEE Transactions on Visualization and Computer Graphics folyóiratban fog megjelenni.) http://vita.had.co.nz/papers/bigvis.pdf [2] Bigvis-t bemutató meetup oldala: http://www.meetup.com/nyhackr/events/112271 042/ http://www.meetup.com/nyhackr/events/112271 042/
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.