Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

Petrovics Petra Doktorandusz
Gazdaságelemzési és Statisztikai Tanszék
Vizuális adatanalízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
„Leíró” statisztika: alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet.
Szoftverfejlesztés és szolgáltatás kiszervezés Folyamatjavítási mérföldkövek a világon és Magyaroszágon Bevezető gondolatok Dr. Biró Miklós.
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Statisztika Érettségi feladatok
5. előadás.
A virtuális technológia alapjai Dr. Horv á th L á szl ó Budapesti Műszaki Főiskola Neumann János Informatikai Kar, Intelligens Mérnöki Rendszerek.
Mérnöki objektumok leírása és elemzése virtuális terekben c. tantárgy Budapesti Műszaki Főiskola Neumann János Informatikai Kar Intelligens Mérnöki Rendszerek.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
WEB Technológiák ISAPI ME Általános Informatikai Tsz. dr. Kovács László.
Nem-paraméteres eljárások, több csoport összehasonlítása
Objektum Vezérelt Szoftverek Analízise Ferenc Rudolf és Beszédes Árpád Szegedi Tudományegyetem FrontEndART.
Gazdaság- és Társadalomtudományi Kar Regionális Gazdaságtani és Vidékfejlesztési Intézet A LEADER PROGRAM MINT HELYI PARTNERSÉG KÉRDÉSEI MAGYARORSZÁGON.
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Statisztika a szociológiában
Matematikai statisztika Készítették: Miskoltzy Judit Sántha Szabina Szabó Brigitta Tóth Szabolcs Török Tamás Marketing Msc I. évf., I. félév, levelező.
Biostatisztika, MS Excel
Statisztika.
Intelligens felderítő robotok Készítette: Györke Péter Intelligens rendszerek MSC szakirány Konzulens: Kovács Dániel László Méréstechnika és Információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Többváltozós adatelemzés
Adatleírás.
Paleobiológiai módszerek és modellek 7. Hét TÖBBVÁLTOZÓS ADATELEMZÉS
Paleobiológiai módszerek és modellek 4. hét
Hibaterjedés-analízis
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 1. Autonóm és hibatűrő információs.
A Microsoft Üzleti Intelligencia megoldása és platformja
1. MATEMATIKA ELŐADÁS Halmazok, Függvények.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Szoftver születik Eötvös Konferencia Köllő Hanna.
Vargha András KRE és ELTE, Pszichológiai Intézet
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis Autonóm és hibatűrő információs rendszerek.
Valószínűségszámítás II.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
Menetrend optimalizálása genetikus algoritmussal
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R3-COP és R5-COP projekt: Környezetfüggő viselkedés tesztelése.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
BIOLÓGUS INFORMATIKA 2008 – 2009 (1. évfolyam/1.félév) 6.
Adatbázisszintű adatmodellek
IT adatok vizuális elemzése
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
Pedagógiai hozzáadott érték „Őrült beszéd, de van benne rendszer” Nahalka István
„R” helyett „Q”? – Új lehetőségek a faktoranalízis alkalmazásában
A könyvtári integrált rendszerek statisztikai moduljának használata
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Szóródási mérőszámok, alakmutatók, helyzetmutatók
Adatelemzési gyakorlatok
Egyéb grafikus ábrázolási módszerek: grafikon és radardiagram
„Big Data” elemzési módszerek
Bevezetés a kvantitatív kutatásba
Az Európai Unió tagországainak, a csatlakozásra váró országoknak
Képek jelentés-elemei
5. előadás.
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Területi egyenlőtlenségek grafikus ábrázolása: Lorenz-görbe
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
This is the first level bullet for notes 12 point Arial Regular
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens rendszerfelügyelet (VIMIA370)

Esettanulmány: cloud benchmarking Ábra forrása: [6], [7]

Esettanulmány: cloud benchmarking Web Service Dependability Assessment Tool Ábra forrása: [8] Request Processing Time Round Trip Time Response Time

Elemzési megközelítés 1: leíró statisztika

Elemzési megközelítés 2: felderítő adatanalízis  Exploratory Data Analysis (EDA) o statisztikai tradíció, o mely koncepcionális o és számítási eszközökkel segíti o minták felismerését és ezen keresztül o hipotézisek felállítását és finomítását. [1] és [2] alapján

Exploratory Data Analysis  Cél: adatok „megértése” o „detektívmunka” o erősen ad-hoc  Fő eszköz: adatok „bejárása” grafikus reprezentációkkal  Hipotézisteszteléssel: iteratív folyamat

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

Miről nem lesz szó?  Adatbányászat  Hipotézistesztelés  Kísérlettervezés o Pl. Rendszermodellezés tárgyunk  Számítógépes grafika  Információvizualizáció o Pl. blogok: Junk charts [8], Flowing data [9]

Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás  ggplot2 csomag (R) Adobe Illustrator, Inkscape  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha tengelyfeliratok sem: az elemző az interpreter  ~ matematikatörténet  Pl. Mondrian, iplots (R) Many Eyes, Tableau

Prezentáció vs. felderítés

Adatmennyiség?

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

ALAPFOGALMAK

Adatelemzés Adat Modell Többletinformáció

Modell  Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o …

Modell  Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o …

Adatelemzés Adat Modell Többletinformáció

Adat Széles Hosszú  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell

Adat  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell o Csak metaadat o Pl. , audio anyagok o Transzformáció strukturáltba?

Rekordok és változók Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Rekord/megfigyelés

Változók: kontextus és viselkedési  Kontextus o a mérési konfigurációt jellemzi  Viselkedési o maga a mért érték Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Változók/Attribútumok Start.time Country Location IP Client.type DC RT, RPT, RTT Kontextus Viselkedési

Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. napi átlaghőmérséklet, kor  Kategorikus (categorical) o Csak a megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők IRF jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. IRF előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

Kategorikus változók  Szokásos kategorikus (regular)  Rendezett o szintek között hierarchia Rendezett Szokásos kategorikus Változók Numerikus Kategorikus

Típusok Start.time Country Location IP Client.type DC RT, RPT, RTT – numerikus, folytonos – szokásos kategorikus – numerikus, folytonos

Adatelemzés Adat Modell Többletinformáció

Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

Adatelemzés Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek

Adatelemzés  Pl. eloszláselemzés

Adatelemzés  Pl. lineáris regresszió

Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

ALAPVETŐ DIAGRAMTÍPUSOK

1 változó {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

Hisztogram Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Oszlopszélesség/kezdőpont? Fontos percentilisek?

Egy kis leíró statisztika…

Doboz diagram (boxplot) Megjelenített dimenziók száma: 1 Ábrázolt összefüggés: Folytonos változó fontos percentilisei Általában 5 fontos érték Adategység: Doboz o Tervezői döntés: Outlierek? Q3 Medián Q1 Max. Min. IQR Q IQR Q1 – 1.5IQR

Hisztogram: fontos percentilisek? Q3 Medián Q1 Max. Min.

Robusztus mérőszámok  Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms Response time Resp. t. median Resp. t. mean 1 pont: 20 s Új medián: sort(resp. times)[501] = 3.02 ms Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! Robusztus  Nem rob.

2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

Numerikus kategóriánként

2 változó kapcsolata Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus Változók Numerikus Kategorikus

Pont – pont diagram (scatterplot)

Overplotting megoldások 1: jitter

Overplotting megoldások 2: átlátszóság

2 változó kapcsolata Változók Numerikus Kategorikus Változók Numerikus Kategorikus 2 numerikus 2 kategorikus 1 numerikus, 1 kategorikus

Mozaik diagram (mosaic plot) A túlsúlyosak nagy része férfi!

Az új autókban a tömeg kisebb… …és a fogyasztás is Ábra forrása: [4], [5]

Gráfok Rgraphviz

Beeswarm beeswarm

Korrelogram corrgram

Treemap treemap

Tableplot tabplot

Tableplot tabplot

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

FUNKCIONALITÁS

Prezentáció vs. felderítés  Prezentáció o Statikus o Jó minőségű o Tömör o Sok annotáció: nagy közönség  ~ bizonyítás a matematikában  Felderítő ábrázolás o Interaktív o Gyors o Több különálló ábrát kapcsol össze o Néha még tengelyfeliratok sem: egyedül az elemző kell hogy megértse  ~ matematikatörténet

Adatkötés

Lekérdezések

Színezés/átlátszóság

Miről lesz szó?  Adatelemzési alapfogalmak  Alapvető diagramtípusok  Interaktív EDA eszközök – elvárt funkcionalitás  Esettanulmány: cloud benchmarking

 Alapvető RT-RTT összefüggések  Kísérlettervezési hiányosságok  Konfiguráció hibák  Térbeli/időbeli/kliensbeli függőségek Cloud benchmarking

 Abalakozás  Eredménykiértékelés  Konzol Datacamp

Összefoglalás  Miért jó? o Összehasonlítás o Tetszőleges mélység  Mire jó? EDA Kapacitástervezés Teljesítménymenedzsment Monitorozási szabályok Rendelkezésre állás növelés Kísérlettervezés

Hivatkozások [1] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological Methods 2, 131–160 (1997) [2] Tukey, J.: We need both exploratory and confirmatory. The American Statistician 34, 23–25 (1980) [3] Yau, Nathan. Visualize this: the FlowingData guide to design, visualization, and statistics. John Wiley & Sons, [4] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its Applications. Springer Science+Business Media, New York (2009) [5] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples. CRC Press (2011) [6] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth European Dependable Computing Conference, pp. 185–190. IEEE (2012) [7] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for Resilient Systems (2013) [8] Funk, Kaiser: Junk Charts blog, URL: [9] Yau, Nathan: FlowingData blog, URL: