Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens rendszerfelügyelet (VIMIA370)

2 Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

3 Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

4 Elemzési megközelítés 1: leíró statisztika

5 Elemzési megközelítés 2: felderítő adatanalízis  Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

6 Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

7 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

8 Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

9 Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  ~ matematikatörténet  Pl. Mondrian, iplots (R) Many Eyes, Tableau

10 Prezentáció vs. felderítés

11 Adatmennyiség?

12 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

13 ALAPFOGALMAK

14 Adatelemzés Adat Modell Többletinformáció

15 Modell  Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o …

16 Modell  Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o …

17 Adatelemzés Adat Modell Többletinformáció

18 Adat Széles Hosszú  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell

19 Adat  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell o Csak metaadat o Pl. e-mail, audio anyagok o Transzformáció strukturáltba?

20 Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

21 Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

22 Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

23 Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

24 Kategorikus változók  Szokásos kategorikus (regular)  Rendezett o szintek között hierarchia Rendezett Szokásos kategorikus Változók Numerikus Kategorikus

25 Típusok Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – szokásos kategorikus – numerikus, folytonos

26 Adatelemzés Adat Modell Többletinformáció

27

28 Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

29 Adatelemzés Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek

30 Adatelemzés  Pl. eloszláselemzés

31 Adatelemzés  Pl. lineáris regresszió

32 Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

33 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

34 ALAPVETŐ DIAGRAMTÍPUSOK

35 1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

36 Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

37 Hisztogram Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Oszlopszélesség/kezdőpont? Fontos percentilisek?

38 Egy kis leíró statisztika…

39 Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei Általában 5 fontos érték Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q3 + 1.5IQR Q1 – 1.5IQR

40 Hisztogram: fontos percentilisek? Q3 Medián Q1 Max. Min.

41 Robusztus mérőszámok  Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms Response time Resp. t. median Resp. t. mean 1 pont: 20 s Új medián: sort(resp. times)[501] = 3.02 ms Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! Robusztus  Nem rob.

42 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

43 Numerikus kategóriánként

44 2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

45 Pont – pont diagram (scatterplot)

46 Overplotting megoldások 1: jitter

47

48 Overplotting megoldások 2: átlátszóság

49 2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

50 Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

51

52 Az új autókban a tömeg kisebb… …és a fogyasztás is Ábra forrása: [4], [5]

53 Gráfok Rgraphviz

54 Beeswarm beeswarm

55 Korrelogram corrgram

56 Treemap treemap

57 Tableplot tabplot

58 Tableplot tabplot

59 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

60 FUNKCIONALITÁS

61 Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás a matematikában  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha még tengelyfeliratok sem: egyedül az elemző kell hogy megértse  ~ matematikatörténet

62 Adatkötés

63 Lekérdezések

64 Színezés/átlátszóság

65 Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

66  Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

67  Abalakozás  Eredménykiértékelés  Konzol Datacamp

68 Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

69 Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, 2011. [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems. 1-16. (2013) [8] Funk, Kaiser: Junk Charts blog, URL: http://junkcharts.typepad.com/http://junkcharts.typepad.com/ [9] Yau, Nathan: FlowingData blog, URL: http://flowingdata.com/http://flowingdata.com/


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens."

Hasonló előadás


Google Hirdetések