Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet (VIMIA370)

2 Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

3 Mire lesz ez az egész jó nekünk? Adatgyűjtés („folyamatos”) Pillanatnyi állapot tárolása Megjelenítés ( ( ( ) ) ) Riasztás Historikus adattárolás Beavatkozás

4 Megnézem… Kézben tartott rendszer Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell készülnünk Milyen erőforrásból nincs elég?

5 Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)

6 Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

7 Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

8 Esettanulmány: cloud benchmarking rekord manuálisan?

9 Elemzési megközelítés 1: leíró statisztika

10 Elemzési megközelítés 2: felderítő adatanalízis  Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

11 Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

12 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

13 Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

14 Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  ~ matematikatörténet  Pl. Mondrian, iplots (R) Many Eyes, Tableau

15 Prezentáció vs. felderítés

16 Adatmennyiség?

17 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

18 VÁLTOZÓK

19 Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

20 Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

21 Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

22 Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

23 Kategorikus változók  Szokásos kategorikus (regular)  Rendezett o szintek között hierarchia Rendezett Szokásos kategorikus Változók Numerikus Kategorikus

24 Típusok Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – szokásos kategorikus – numerikus, folytonos

25 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

26 ALAPVETŐ DIAGRAMTÍPUSOK

27 1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

28 Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

29 Oszlopdiagram (bar chart)  Bemenő változó: kliens típus  Kérdés: melyik klienssel mennyit mértünk?

30 Oszlopdiagram (bar chart)  Bemenő változó: mérési helyek  Kérdés: milyen helyekről mértünk? Mennyit?

31 Hisztogram Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Oszlopszélesség/kezdőpont? Fontos percentilisek?

32 Hisztogram  Oszlopszélesség

33 Hisztogram  Kezdőpont: {1, 2, 3} ábrázolása?

34 Hisztogram

35  Fontos percentilisek? o Néha elég tudni, Hol van az adatok „közepe”? Mennyire „szórtak” az adatok? Vannak-e kilógó értékek?

36 Egyszerű statisztikai jellemzés  Hol van az adatok „közepe”?

37 Egyszerű statisztikai jellemzés  Mennyire „szórtak” az adatok?

38 Egyszerű statisztikai jellemzés  Vannak-e kilógóak?

39 Egy kis leíró statisztika…

40  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ Medián: 5 Módusz: 4 és átlag módusz medián

41 Robusztus mérőszámok  Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms Response time Resp. t. median Resp. t. mean 1 pont: 20 s Új medián: sort(resp. times)[501] = 3.02 ms Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! Robusztus  Nem rob.

42 Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ Medián: 5 Módusz: 4 és 5  A „terjedelem” jellemzése? átlag módusz medián

43 Egy kis leíró statisztika

44 Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei 5 fontos érték + kilógók Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q IQR Q1 – 1.5IQR

45 Hisztogram: fontos percentilisek? Q3 Medián Q1 Max. Min.

46 Doboz diagram (boxplot)

47 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

48 Numerikus kategóriánként

49 2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

50 Pont – pont diagram (scatterplot)

51 Overplotting megoldások 1: jitter

52

53 Overplotting megoldások 2: átlátszóság

54 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

55 Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

56 Mozaik diagram (mosaic plot)

57

58 Ábra forrása: [4], [5] Egyenes arányosság az RT és az RTT között

59 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

60 FUNKCIONALITÁS

61 Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás a matematikában  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha még tengelyfeliratok sem: egyedül az elemző kell hogy megértse  ~ matematikatörténet

62 Adatkötés

63 Lekérdezések

64 Színezés/átlátszóság

65 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

66  Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

67 Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

68 Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

69 Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems (2013) [8] Funk, Kaiser: Junk Charts blog, URL: [9] Yau, Nathan: FlowingData blog, URL:


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet."

Hasonló előadás


Google Hirdetések