Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.

Slides:



Advertisements
Hasonló előadás
Petrovics Petra Doktorandusz
Advertisements

SPC/SQC valósidejű rendszerekben 2000 November /Magyar Batch Fórum 1 Hi-Spec Solutions SPC/SQC in Real Time Systems (Statisztikai és minőségi szabályzás.
Intelligens rendszerfelügyelet (BME VIMIA370)
A statisztika alapjai - Bevezetés az SPSS-be -
Gazdaságelemzési és Statisztikai Tanszék
Vizuális adatanalízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
„Leíró” statisztika: alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet.
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Mérési pontosság (hőmérő)
Gazdaságelemzési és Statisztikai Tanszék
Microsoft Excel 2010 Gyakoriság.
Grafikus ábrázolás.
5. előadás.
SPSS bevezetés.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
Nem-paraméteres eljárások, több csoport összehasonlítása
Matematikai alapok és valószínűségszámítás
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Statisztika.
Készítette: Gergó Márton Konzulens: Engedy István 2009/2010 tavasz.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Kvantitatív módszerek
Táblázatkezelés.
Statisztikai módszerek a pedagógiai kutatásban
Többváltozós adatelemzés
Adatleírás.
Web Architecture. Development of Computing Architectures Monolithic mainframe programming Client Server Real Client Server Web Programming.
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
Paleobiológiai módszerek és modellek 4. hét
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
A Microsoft Üzleti Intelligencia megoldása és platformja
Statisztikai alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens.
Vargha András KRE és ELTE, Pszichológiai Intézet
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis Autonóm és hibatűrő információs rendszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
Alapfogalmak, adatforrások, szűrés
Adattár alapú Vezetői Információs Rendszer (AVIR) Fejérvári Bence március 26.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R3-COP és R5-COP projekt: Környezetfüggő viselkedés tesztelése.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
A számítógépes elemzés alapjai
IT adatok vizuális elemzése
Internet-alapú információcsere és adatvalidáció bibliográfiai adatbázisok között Internet-based information exchange and content validation between bibliographic.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
„R” helyett „Q”? – Új lehetőségek a faktoranalízis alkalmazásában
A számítógépes elemzés alapjai
Szóródási mérőszámok, alakmutatók, helyzetmutatók
Kvantitatív módszerek MBA és Számvitel mesterszak
„Big Data” elemzési módszerek
Az Európai Unió tagországainak, a csatlakozásra váró országoknak
5. előadás.
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Területi egyenlőtlenségek grafikus ábrázolása: Lorenz-görbe
Megfigyelés és kísérlet
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Kísérleti és megfigyelési eredmények metaelemzése
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens rendszerfelügyelet (VIMIA370)

Mire lesz ez az egész jó nekünk? HW OS App OS App IT szolgáltatások LDAP Virtualizáció / Cloud réteg FürtLog … Konfig. kezelés Monitorozás Esemény- kezelés Orchestration („intelligencia”) erőforrások elfedése és igénylése, … platform szintű szolgáltatások Címtár, hibatűrés, mentés, naplók… Deployment, detek- tálás, bevatkozás… skálázás, hibakezelés, autonóm rendszer… Központi felügyelet

Mire lesz ez az egész jó nekünk? Adatgyűjtés („folyamatos”) Pillanatnyi állapot tárolása Megjelenítés ( ( ( ) ) ) Riasztás Historikus adattárolás Beavatkozás

Megnézem… Mit kezdünk az adatokkal? Következő hónapban kétszer akkora terhelésre számítunk Erre előre fel kell készülnünk Milyen erőforrásból nincs elég?

Lehetséges használati esetek Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés Adatelemzés (szakértői)

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

Esettanulmány: cloud benchmarking rekord manuálisan?

Lehetséges elemzési megközelítések 1. Leíró statisztika

Lehetséges elemzési megközelítések 1.Leíró statisztika 2.Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  Pl. Mondrian, iplots (R) Many Eyes, Tableau

Prezentáció vs. felderítés

Adatmennyiség?

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

Hogyan érdemes az adatokat szervezni? Tidy data  Minden változó egy-egy oszlop  Minden megfigyelés egy-egy sor  Minden megfigyelési egység egy-egy tábla Wickham, Hadley. "Tidy Data" Journal of Statistical Software, Volume 59, Issue 10 (2014) URL: „Messy” data

Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Esettanulmány: változók fajtái Start.time Country Location IP Client.type DC RT, RPT, RTT Esettanulmány: változók fajtái Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

Kategorikus változók  Nominális (nem értelmezhető a rendezés)  Ordinális (rendezett) o szintek között hierarchia Ordinális Nominális Változók Numerikus Kategorikus

Esettanulmány: változók típusai Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – kategorikus, nominális – numerikus, folytonos

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

Hisztogram Megjelenített dimenziók száma: 1 Értékkészlet intervallumokra bontása (bin) Ábrázolt összefüggés: Folytonos változó intervallumainak számossága Adategység: Oszlop – magassága: intervallum számossága Tervezői döntés: Oszlopszélesség/kezdőpont?

Hisztogram: Oszlopszélesség hatása Oszlopszélesség: 0,1 Oszlopszélesség: 0,005

 {1, 2, 3} ábrázolása 1,5 oszlopszélességgel Hisztogram: Kezdőpont hatása Kezdőpont: 0 Kezdőpont: 1

Hisztogramról leolvasható információ  Néha elég tudni, o Hol van az adatok „közepe”? o Mennyire „szórtak” az adatok? o Vannak-e kilógó értékek?

Egyszerű statisztikai jellemzés  Hol van az adatok „közepe”?

Egyszerű statisztikai jellemzés  Mennyire „szórtak” az adatok?

Egyszerű statisztikai jellemzés  Vannak-e kilógóak?

Kitérő: Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ Medián: 5 Módusz: 4 és átlag módusz medián

Kitérő: Robusztus mérőszámok  Példa: alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms median mean +1 pont: 20 s (= ms) Új medián: 3.02 ms Új átlag: 22.9 ms! Robusztus  Nem rob.

Kitérő: Egy kis leíró statisztika…  A „központ” jellemzése o Átlag, medián, módusz o {3, 4, 4, 5, 5, 6, 10, 20} Átlag: ~ Medián: 5 Módusz: 4 és 5  A „terjedelem” jellemzése? átlag módusz medián

Kitérő: Egy kis leíró statisztika

Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei 5 fontos érték + kilógók Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q IQR Q1 – 1.5IQR

Doboz diagram: fontos percentilisek? Q3 Medián Q1 Max. Min.

2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

Numerikus kategóriánként

2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

Pont – pont diagram (scatterplot)

Overplotting megoldások 1: jitter

Overplotting megoldások 2: átlátszóság

2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

Ábra forrása: [4], [5] Egyenes arányosság az RT és az RTT között

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

Adatkötés

Lekérdezések

Színezés/átlátszóság

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

Mit látunk az adatokból?

 Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

Oszlopdiagram (bar chart)  Bemenő változó: kliens típus  Kérdés: melyik klienssel mennyit mértünk?

Oszlopdiagram (bar chart)  Bemenő változó: mérési helyek  Kérdés: milyen helyekről mértünk? Mennyit?

Hisztogram

Doboz diagram (boxplot)

Mozaik diagram (mosaic plot)

Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

További információ  I. Kocsis, „Vizuális analízis”. Intelligens adatelemzés, Typotex, jegyzet/felderito-adatelemzes-konyvfejezet.pdf jegyzet/felderito-adatelemzes-konyvfejezet.pdf  H. Hartmann, „Statistics for Engineers”, acm queue, 14:1,

Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems (2013) [8] Funk, Kaiser: Junk Charts blog, URL: [9] Yau, Nathan: FlowingData blog, URL: