Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens rendszerfelügyelet (VIMIA370)

2 Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

3 Mire lesz ez az egész jó nekünk? Adatgyűjtés („folyamatos”) Pillanatnyi állapot tárolása Megjelenítés ( ( ( ) ) ) Riasztás Historikus adattárolás Beavatkozás

4 Megnézem… Mit kezdünk az adatokkal? Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell készülnünk Milyen erőforrásból nincs elég?

5 Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)

6 Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

7 Esettanulmány: cloud benchmarking Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

8 Esettanulmány: cloud benchmarking 44 608 rekord manuálisan?

9 Lehetséges elemzési megközelítések 1. Leíró statisztika

10 Lehetséges elemzési megközelítések 1.Leíró statisztika 2.Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

11 Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

12 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

13 Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

14 Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  Pl. Mondrian, iplots (R) Many Eyes, Tableau

15 Prezentáció vs. felderítés

16 Adatmennyiség?

17 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

18 Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

19 Hogyan érdemes az adatokat szervezni? Tidy data  Minden változó egy-egy oszlop  Minden megfigyelés egy-egy sor  Minden megfigyelési egység egy-egy tábla Wickham, Hadley. "Tidy Data" Journal of Statistical Software, Volume 59, Issue 10 (2014) URL: https://www.jstatsoft.org/article/view/v059i10https://www.jstatsoft.org/article/view/v059i10 „Messy” data

20 Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Esettanulmány: változók fajtái Start.time Country Location IP Client.type DC RT, RPT, RTT Esettanulmány: változók fajtái Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

21 Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

22 Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

23 Kategorikus változók  Nominális (nem értelmezhető a rendezés)  Ordinális (rendezett) o szintek között hierarchia Ordinális Nominális Változók Numerikus Kategorikus

24 Esettanulmány: változók típusai Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – kategorikus, nominális – numerikus, folytonos

25 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

26 1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

27 Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

28 Hisztogram Megjelenített dimenziók száma: 1 Értékkészlet intervallumokra bontása (bin) Ábrázolt összefüggés: Folytonos változó intervallumainak számossága Adategység: Oszlop – magassága: intervallum számossága Tervezői döntés: Oszlopszélesség/kezdőpont?

29 Hisztogram: Oszlopszélesség hatása Oszlopszélesség: 0,1 Oszlopszélesség: 0,005

30  {1, 2, 3} ábrázolása 1,5 oszlopszélességgel Hisztogram: Kezdőpont hatása 0 12 3 0 12 3 1 2 2 1 Kezdőpont: 0 Kezdőpont: 1

31 Hisztogramról leolvasható információ  Néha elég tudni, o Hol van az adatok „közepe”? o Mennyire „szórtak” az adatok? o Vannak-e kilógó értékek?

32 Egyszerű statisztikai jellemzés  Hol van az adatok „közepe”?

33 Egyszerű statisztikai jellemzés  Mennyire „szórtak” az adatok?

34 Egyszerű statisztikai jellemzés  Vannak-e kilógóak?

35 Kitérő: Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5 3 45 6 10 20 átlag módusz medián

36 Kitérő: Robusztus mérőszámok  Példa: alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms median mean +1 pont: 20 s (= 20 000 ms) Új medián: 3.02 ms Új átlag: 22.9 ms! Robusztus  Nem rob.

37 Kitérő: Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ 7.125 Medián: 5 Módusz: 4 és 5  A „terjedelem” jellemzése? 3 45 6 10 20 átlag módusz medián

38 Kitérő: Egy kis leíró statisztika

39 Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei 5 fontos érték + kilógók Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q3 + 1.5IQR Q1 – 1.5IQR

40 Doboz diagram: fontos percentilisek? Q3 Medián Q1 Max. Min.

41 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

42 Numerikus kategóriánként

43 2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

44 Pont – pont diagram (scatterplot)

45 Overplotting megoldások 1: jitter

46

47 Overplotting megoldások 2: átlátszóság

48 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

49 Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

50

51 Ábra forrása: [4], [5] Egyenes arányosság az RT és az RTT között

52 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

53 Adatkötés

54 Lekérdezések

55 Színezés/átlátszóság

56 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

57 Mit látunk az adatokból?

58  Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

59 Oszlopdiagram (bar chart)  Bemenő változó: kliens típus  Kérdés: melyik klienssel mennyit mértünk?

60 Oszlopdiagram (bar chart)  Bemenő változó: mérési helyek  Kérdés: milyen helyekről mértünk? Mennyit?

61 Hisztogram

62 Doboz diagram (boxplot)

63 Mozaik diagram (mosaic plot)

64 Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

65 További információ  I. Kocsis, „Vizuális analízis”. Intelligens adatelemzés, Typotex, 2014. http://docs.inf.mit.bme.hu/remo- jegyzet/felderito-adatelemzes-konyvfejezet.pdf http://docs.inf.mit.bme.hu/remo- jegyzet/felderito-adatelemzes-konyvfejezet.pdf  H. Hartmann, „Statistics for Engineers”, acm queue, 14:1, 2006. http://queue.acm.org/detail.cfm?id=2903468 http://queue.acm.org/detail.cfm?id=2903468

66 Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1-16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http://junkcharts.typepad.com/http://junkcharts.typepad.com/ [9] Yau, Nathan: FlowingData blog, URL: http://flowingdata.com/http://flowingdata.com/


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens."
Google Hirdetések