Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
1
Vizuális adatanalízis
2
Exploratoratory data analysis (EDA)
Cél Adatok megértése Mi jó, mi nem? Melyek a minőségileg eltérő csoportok? Mik a fontos jellemzők? Jelenségek megsejtése Korrelációkeresés (mi okoz mit?) Minőségileg eltérő tartományok Precíz statisztikai módszerek kiválasztása
3
http://www.visual-analytics.eu/ http://www.rosuda.org/mondrian/
Statisztikai analízis módszerek Vizualizálás Statisztikai nehéztüzérség nélkül Tukey, 60-as évek közepe Robusztus statisztika Csökkentjen az érzéekenység a mérési hibára Nemparametrikus statisztika Ne kelljen az ismeretlen eloszlásra feltételezéseket tenni
4
Egyedi változók
5
Egy kis példa: OHV CSV és rövid nevek
6
Nehéz értelmezni...
7
Oszlopdiagram (bar chart)
Megjelenített dimenziók száma: 1 Ábrázolt összefügg.: Diszkrét változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi Tervezői döntés: Csoportok kialakítása? Értékkészlet darabolása?
8
Nők és férfiak magasságának eloszlása is szép haranggörbe
Hisztogram Nők és férfiak magasságának eloszlása is szép haranggörbe Megjelenített dim.k: 1 Ábrázolt összefügg.: folytonos változó eloszlása Adategység: Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi Tervezői döntés: Oszlopok szélessége? Fontos percentilisek?
9
Doboz diagram (boxplot)
Megjelenített dim.k: 1 5 értékkel jellemzésként Ábrázolt összefügg.: folytonos változó fontos percentilisei Adategység: Doboz – szélei jelzik az alsó és felső kvartiliseket, Középen a medián. A minimum és a maximum általában még pontosan jelezve, Outlierek már csak pöttyökkel.
10
Boxplot Interquartile range
11
Két változó Cél: tartományok, összefüggések keresése
12
Pont – pont diagram (scatterplot)
Megjelenített dim.k: 2 Ábrázolt összefügg.: folytonos változók együttes eloszlása Adategység: pont – 𝑋= 𝑥 𝑖 , 𝑌= 𝑌 𝑖 előfordulás Korlát: ha az egyik változó értéke hiányzik nem tudjuk felrajzolni Tervezői döntés: Overplotting?
13
Hol volt, hol nem volt...
14
Szétszórjuk
15
A pontok....
16
És megpróbáljuk közelíteni...
17
Regresszió f függvény, bemenet: az attribútumok értéke,
kimenet: megfigyelések legjobb közelítése „ökölszabály” Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető,
18
Regressziós módszerek
Alapelv: Véletlen változó Hiba Közelítés Jósolt esemény Megfigyelhető változók Átlagos hiba (mean error) Becsült érték Mért érték
19
Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra
nem vár alapvető változást a rendszer viselkedésében Legkisebb négyzetek módszere keressük azokat az a,b paramétereket, amelyekre cél: minimális (Sum of Squared Errors) minimalizálása
20
Levezetés (parc. deriválás)
Xi, Yi a mért értékpárok (pl. idő, terhelés)
21
Lineáris regresszió Legjobban illeszkedő egyenes
𝑚𝑖𝑛 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 , ahol 𝜇 𝑥 =𝑎𝑥+𝑏 DE: Anscombe’s quartet Minőségileg különböző adatok Azonos regressziós egyenes
22
Loess görbe (Locally weighted polynomial regression)
Pont környezetében polinomiális közelítések összefűzve Tipikusan 1 vagy 2 fokú Környezet Fix intervallum (span) Fix darabszám 𝑇 𝑢 = ( 1− 𝑢 3 ) 3 for 𝑢 <1 0 otherwise 𝑤 𝑥 0 =𝑇 𝑥− 𝑥 0 𝑠 Nagy adatkészlet Outlier érzékenység Nem ad zárt alakot
23
Simító görbe Egy adott osztályból legjobban közelítő 𝜇 függvény
𝑚𝑖𝑛 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 λ 𝑥 1 𝑥 𝑛 𝜇 "(𝑥) 2 𝑑𝑥 Egy adott osztályból legjobban közelítő 𝜇 függvény λ simító paraméter Adat követése 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 2 Simaság 𝑥 1 𝑥 𝑛 𝜇 "(𝑥) 2 𝑑𝑥 λ =0 esetén interpolációs görbe λ →∞ esetében lineáris regresszió
25
Regresszió Cél: Példa:
megtalálni egy olyan f függvényt, amelynek inputja az attribútumok értéke, az outputja pedig a lehető legjobban közelíti (négyzetes hibaérték) a valóságot Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető, web forgalom jóslása
26
𝜆 = 0
27
𝜆 = 1
28
𝜆 = 500
29
Scatterplot mátrix Megjelenített dim.k: n Ábrázolt összefügg.:
A változópárok együttes eloszlása Adategység: Scatterplot – minden diagram a neki megfelelő változók együttes eloszlását mutatja be
30
Mozaik diagram (mosaic plot)
Megjelenített dim.k: 2 Ábrázolt összefügg.: két diszkrét változó együttes eloszlása Adategység: Téglalap – a téglalap területe arányos az (X = xi, Y = yi) értékpárok gyakoriságával Korlát: Sorfolytonos olvasása nehézkes A túlsúlyosak nagy része férfi!
31
Színekkel kommunikál:
Hőtérkép (heat map) Megjelenített dim.k: 3 Ábrázolt összefügg.: sűrű 3D struktúrák összefüggései Adategység: tile – azonos „magasságú” összefüggő területrész Tervezői döntés: tile-ok mérete? Színekkel kommunikál: Pl. nincs senki, aki kétméteres lenne és 25 kiló, de sok 1.60-as van 60 kiló környékén
32
Párhuzamos koordináták
Megjelenített dim.k: n Ábrázolt összefügg.: Rekordok/attribútumok hasonlósága Adategység: Törött vonal – az egyes attribútumtengelyeken felvett értékek rendezett sorozata Korlátok: Tengelyek (attribútumok) más mértékegysége/nagyságrendje stb. torzíthat … de a fogyasztás nagyobb Az új autókban a tömeg kisebb…
33
Buborék diagram (bubble chart)
Megjelenített dim.k: 3 Ábrázolt összefügg.: ritka 3D struktúrák összefüggései Adategység: körlap – 3 attribútummal leírható: X és Y koordináta a középpontra + sugár Korlátok overplotting torzíthat (ha a ritka struktúrában vannak sűrű részek) A Lotushoz tartozik a legkönnyebb Az X, Y pozíciót a fogyasztás és a teljesítmény adja, a kör sugara a tömeget mutatja
34
qqplot
35
Data transformation: Box-Cox
36
Osztályozás Cél: Példa:
adott teszthalmaz meglétét feltételezve egy újonnan érkező elemről eldönteni, melyik osztályba tartozik (az osztályok száma és a tesztrekordok osztályba tartozása rögzített) Példa: SPAM detektálás tartalom alapján, testtömeg/magasság alapján alany nemének meghatározása
37
Klaszterezés Cél: Példa:
egy halmaz elemeit csoportokba sorolni úgy, hogy az egymáshoz "közel" lévő elemek egymáshoz "hasonlóak" Példa: ajánló rendszerek R csomagokról, szenátusi tagok klaszterezése szavazatuk alapján
38
PCA Cél: Példa: megtalálni a rekordot legjobban jellemző faktorokat
Tőzsdei árfolyamok közül melyek határozzák meg legjobban a BUX index alakulását?
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.