Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet.

Slides:



Advertisements
Hasonló előadás
A hatásos prezentáció jellemzői
Advertisements

Petrovics Petra Doktorandusz
Jövő Internet technológiák és alkalmazások kutatása Magyarországon A Magyar Tudomány Hónapja Jövő Internet technológiák és alkalmazások kutatása Magyarországon.
Magyarországi cloud computing megoldások, belépési területek a hazai kis- és közepes méretű vállalatok számára Riba István.
Intelligens rendszerfelügyelet (BME VIMIA370)
Adatbányászat a kontrollingban
Gazdaságelemzési és Statisztikai Tanszék
Vizuális adatanalízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
„Leíró” statisztika: alapfogalmak
Grafikus ábrázolási módszerek
Statisztika Érettségi feladatok
5. előadás.
Mérnöki objektumok leírása és elemzése virtuális terekben c. tantárgy Budapesti Műszaki Főiskola Neumann János Informatikai Kar Intelligens Mérnöki Rendszerek.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
Nem-paraméteres eljárások, több csoport összehasonlítása
Objektum Vezérelt Szoftverek Analízise Ferenc Rudolf és Beszédes Árpád Szegedi Tudományegyetem FrontEndART.
Hibrid felhő Privát-, publikus és hoster felhők összekapcsolása
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Copyright © 2012, SAS Institute Inc. All rights reserved. STATISZTIKA ÉS VIZUALIZÁCIÓ - ÚJ LEHETŐSÉGEK A STATISZTIKAI ADATOK MEGJELENÍTÉSÉRE ÉS FELTÁRÁSÁRA.
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Statisztika.
Intelligens felderítő robotok Készítette: Györke Péter Intelligens rendszerek MSC szakirány Konzulens: Kovács Dániel László Méréstechnika és Információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Intelligens rendszerfelügyelet (BME VIMIA370)
Kvantitatív módszerek
Táblázatkezelés.
MIKROELEKTRONIKA, VIEEA306
Többváltozós adatelemzés
Adatleírás.
APEX BMF, II. félév.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
Paleobiológiai módszerek és modellek 4. hét
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alkalmazás és megjelenítés virtualizáció Micskei Zoltán.
A Microsoft Üzleti Intelligencia megoldása és platformja
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens.
1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Intelligens rendszerfelügyelet (BME VIMIA370)
Szoftver születik Eötvös Konferencia Köllő Hanna.
Vargha András KRE és ELTE, Pszichológiai Intézet
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis Autonóm és hibatűrő információs rendszerek.
Valószínűségszámítás II.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
 A matematikai statisztika a természet és társadalom tömeges jelenségeit tanulmányozza.  Azokat a jelenségeket, amelyek egyszerre nagyszámú azonos tipusú.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R3-COP és R5-COP projekt: Környezetfüggő viselkedés tesztelése.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
IT adatok vizuális elemzése
Internet-alapú információcsere és adatvalidáció bibliográfiai adatbázisok között Internet-based information exchange and content validation between bibliographic.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
„R” helyett „Q”? – Új lehetőségek a faktoranalízis alkalmazásában
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Szóródási mérőszámok, alakmutatók, helyzetmutatók
Kvantitatív módszerek MBA és Számvitel mesterszak
Egyéb grafikus ábrázolási módszerek: grafikon és radardiagram
„Big Data” elemzési módszerek
Képek jelentés-elemei
5. előadás.
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Területi egyenlőtlenségek grafikus ábrázolása: Lorenz-görbe
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet (VIMIA370)

Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

Elemzési megközelítés 1: leíró statisztika

Elemzési megközelítés 2: felderítő adatanalízis  Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  ~ matematikatörténet  Pl. Mondrian, iplots (R) Many Eyes, Tableau

Prezentáció vs. felderítés

Adatmennyiség?

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

VÁLTOZÓK

Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

Kategorikus változók  Szokásos kategorikus (regular)  Rendezett o szintek között hierarchia Rendezett Szokásos kategorikus Változók Numerikus Kategorikus

Típusok Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – szokásos kategorikus – numerikus, folytonos

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

ALAPVETŐ DIAGRAMTÍPUSOK

1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

Hisztogram Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Oszlopszélesség/kezdőpont? Fontos percentilisek?

Egy kis leíró statisztika…

Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei Általában 5 fontos érték Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q IQR Q1 – 1.5IQR

Hisztogram: fontos percentilisek? Q3 Medián Q1 Max. Min.

Robusztus mérőszámok  Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms Response time Resp. t. median Resp. t. mean 1 pont: 20 s Új medián: sort(resp. times)[501] = 3.02 ms Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! Robusztus  Nem rob.

2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

Numerikus kategóriánként

2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

Pont – pont diagram (scatterplot)

Overplotting megoldások 1: jitter

Overplotting megoldások 2: átlátszóság

2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

Az új autókban a tömeg kisebb… … de a fogyasztás nagyobb Ábra forrása: [4], [5]

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

FUNKCIONALITÁS

Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás a matematikában  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha még tengelyfeliratok sem: egyedül az elemző kell hogy megértse  ~ matematikatörténet

Adatkötés

Lekérdezések

Színezés/átlátszóság

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

 Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems (2013) [8] Funk, Kaiser: Junk Charts blog, URL: [9] Yau, Nathan: FlowingData blog, URL: