Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens rendszerfelügyelet (VIMIA370)

2 Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

3 Mire lesz ez az egész jó nekünk? Adatgyűjtés („folyamatos”) Pillanatnyi állapot tárolása Megjelenítés ( ( ( ) ) ) Riasztás Historikus adattárolás Beavatkozás

4 Megnézem… Mit kezdünk az adatokkal? Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell készülnünk Milyen erőforrásból nincs elég?

5 Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)

6 Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

7 Esettanulmány: cloud benchmarking Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

8 Esettanulmány: cloud benchmarking 44 608 rekord manuálisan?

9 Lehetséges elemzési megközelítések 1. Leíró statisztika

10 Lehetséges elemzési megközelítések 1.Leíró statisztika 2.Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

11 Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

12 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

13 Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

14 Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  Pl. Mondrian, iplots (R) Many Eyes, Tableau

15 Prezentáció vs. felderítés

16 Adatmennyiség?

17 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

18 Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

19 Hogyan érdemes az adatokat szervezni? Tidy data  Minden változó egy-egy oszlop  Minden megfigyelés egy-egy sor  Minden megfigyelési egység egy-egy tábla Wickham, Hadley. "Tidy Data" Journal of Statistical Software, Volume 59, Issue 10 (2014) URL: https://www.jstatsoft.org/article/view/v059i10https://www.jstatsoft.org/article/view/v059i10 „Messy” data

20 Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Esettanulmány: változók fajtái Start.time Country Location IP Client.type DC RT, RPT, RTT Esettanulmány: változók fajtái Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

21 Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

22 Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

23 Kategorikus változók  Nominális (nem értelmezhető a rendezés)  Ordinális (rendezett) o szintek között hierarchia Ordinális Nominális Változók Numerikus Kategorikus

24 Esettanulmány: változók típusai Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – kategorikus, nominális – numerikus, folytonos

25 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

26 1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

27 Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

28 Hisztogram Megjelenített dimenziók száma: 1 Értékkészlet intervallumokra bontása (bin) Ábrázolt összefüggés: Folytonos változó intervallumainak számossága Adategység: Oszlop – magassága: intervallum számossága Tervezői döntés: Oszlopszélesség/kezdőpont?

29 Hisztogram: Oszlopszélesség hatása Oszlopszélesség: 0,1 Oszlopszélesség: 0,005

30  {1, 2, 3} ábrázolása 1,5 oszlopszélességgel Hisztogram: Kezdőpont hatása 0 12 3 0 12 3 1 2 2 1 Kezdőpont: 0 Kezdőpont: 1

31 Hisztogramról leolvasható információ  Néha elég tudni, o Hol van az adatok „közepe”? o Mennyire „szórtak” az adatok? o Vannak-e kilógó értékek?

32 Egyszerű statisztikai jellemzés  Hol van az adatok „közepe”?

33 Egyszerű statisztikai jellemzés  Mennyire „szórtak” az adatok?

34 Egyszerű statisztikai jellemzés  Vannak-e kilógóak?

35 Kitérő: Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5 3 45 6 10 20 átlag módusz medián

36 Kitérő: Robusztus mérőszámok  Példa: alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms median mean +1 pont: 20 s (= 20 000 ms) Új medián: 3.02 ms Új átlag: 22.9 ms! Robusztus  Nem rob.

37 Kitérő: Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5  A „terjedelem” jellemzése? 3 45 6 10 20 átlag módusz medián

38 Kitérő: Egy kis leíró statisztika

39 Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei 5 fontos érték + kilógók Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q3 + 1.5IQR Q1 – 1.5IQR

40 Doboz diagram: fontos percentilisek? Q3 Medián Q1 Max. Min.

41 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

42 Numerikus kategóriánként

43 2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

44 Pont – pont diagram (scatterplot)

45 Overplotting megoldások 1: jitter

46

47 Overplotting megoldások 2: átlátszóság

48 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

49 Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

50

51 Ábra forrása: [4], [5] Egyenes arányosság az RT és az RTT között

52 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

53 Adatkötés

54 Lekérdezések

55 Színezés/átlátszóság

56 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

57 Mit látunk az adatokból?

58  Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

59 Oszlopdiagram (bar chart)  Bemenő változó: kliens típus  Kérdés: melyik klienssel mennyit mértünk?

60 Oszlopdiagram (bar chart)  Bemenő változó: mérési helyek  Kérdés: milyen helyekről mértünk? Mennyit?

61 Hisztogram

62 Doboz diagram (boxplot)

63 Mozaik diagram (mosaic plot)

64 Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

65 További információ  I. Kocsis, „Vizuális analízis”. Intelligens adatelemzés, Typotex, 2014. http://docs.inf.mit.bme.hu/remo- jegyzet/felderito-adatelemzes-konyvfejezet.pdf http://docs.inf.mit.bme.hu/remo- jegyzet/felderito-adatelemzes-konyvfejezet.pdf  H. Hartmann, „Statistics for Engineers”, acm queue, 14:1, 2006. http://queue.acm.org/detail.cfm?id=2903468 http://queue.acm.org/detail.cfm?id=2903468

66 Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1-16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http://junkcharts.typepad.com/http://junkcharts.typepad.com/ [9] Yau, Nathan: FlowingData blog, URL: http://flowingdata.com/http://flowingdata.com/


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens."

Hasonló előadás


Google Hirdetések