Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Vizuális adatanalízis

Hasonló előadás


Az előadások a következő témára: "Vizuális adatanalízis"— Előadás másolata:

1 Vizuális adatanalízis

2 Exploratoratory data analysis (EDA)
Cél Adatok megértése Mi jó, mi nem? Melyek a minőségileg eltérő csoportok? Mik a fontos jellemzők? Jelenségek megsejtése Korrelációkeresés (mi okoz mit?) Minőségileg eltérő tartományok Precíz statisztikai módszerek kiválasztása

3 http://www.visual-analytics.eu/ http://www.rosuda.org/mondrian/
Statisztikai analízis módszerek Vizualizálás Statisztikai nehéztüzérség nélkül Tukey, 60-as évek közepe Robusztus statisztika Csökkentjen az érzéekenység a mérési hibára Nemparametrikus statisztika Ne kelljen az ismeretlen eloszlásra feltételezéseket tenni

4 Egyedi változók

5 Egy kis példa: OHV CSV és rövid nevek

6 Nehéz értelmezni...

7 Oszlopdiagram (bar chart)
Megjelenített dimenziók száma: 1 Ábrázolt összefügg.: Diszkrét változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi Tervezői döntés: Csoportok kialakítása? Értékkészlet darabolása?

8 Nők és férfiak magasságának eloszlása is szép haranggörbe
Hisztogram Nők és férfiak magasságának eloszlása is szép haranggörbe Megjelenített dim.k: 1 Ábrázolt összefügg.: folytonos változó eloszlása Adategység: Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi Tervezői döntés: Oszlopok szélessége? Fontos percentilisek?

9 Doboz diagram (boxplot)
Megjelenített dim.k: 1 5 értékkel jellemzésként Ábrázolt összefügg.: folytonos változó fontos percentilisei Adategység: Doboz – szélei jelzik az alsó és felső kvartiliseket, Középen a medián. A minimum és a maximum általában még pontosan jelezve, Outlierek már csak pöttyökkel.

10 Boxplot Interquartile range

11 Két változó Cél: tartományok, összefüggések keresése

12 Pont – pont diagram (scatterplot)
Megjelenített dim.k: 2 Ábrázolt összefügg.: folytonos változók együttes eloszlása Adategység: pont – 𝑋= 𝑥 𝑖 , 𝑌= 𝑌 𝑖 előfordulás Korlát: ha az egyik változó értéke hiányzik  nem tudjuk felrajzolni Tervezői döntés: Overplotting?

13 Hol volt, hol nem volt...

14 Szétszórjuk

15 A pontok....

16 És megpróbáljuk közelíteni...

17 Regresszió f függvény, bemenet: az attribútumok értéke,
kimenet: megfigyelések legjobb közelítése „ökölszabály” Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető,

18 Regressziós módszerek
Alapelv: Véletlen változó Hiba Közelítés Jósolt esemény Megfigyelhető változók Átlagos hiba (mean error) Becsült érték Mért érték

19 Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra
nem vár alapvető változást a rendszer viselkedésében Legkisebb négyzetek módszere keressük azokat az a,b paramétereket, amelyekre cél: minimális (Sum of Squared Errors) minimalizálása

20 Levezetés (parc. deriválás)
Xi, Yi a mért értékpárok (pl. idő, terhelés)

21 Lineáris regresszió Legjobban illeszkedő egyenes
𝑚𝑖𝑛 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 , ahol 𝜇 𝑥 =𝑎𝑥+𝑏 DE: Anscombe’s quartet Minőségileg különböző adatok Azonos regressziós egyenes

22 Loess görbe (Locally weighted polynomial regression)
Pont környezetében polinomiális közelítések összefűzve Tipikusan 1 vagy 2 fokú Környezet Fix intervallum (span) Fix darabszám 𝑇 𝑢 = ( 1− 𝑢 3 ) 3 for 𝑢 <1 0 otherwise 𝑤 𝑥 0 =𝑇 𝑥− 𝑥 0 𝑠 Nagy adatkészlet Outlier érzékenység Nem ad zárt alakot

23 Simító görbe Egy adott osztályból legjobban közelítő 𝜇 függvény
𝑚𝑖𝑛 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 λ 𝑥 1 𝑥 𝑛 𝜇 "(𝑥) 2 𝑑𝑥 Egy adott osztályból legjobban közelítő 𝜇 függvény λ simító paraméter Adat követése 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 2 Simaság 𝑥 1 𝑥 𝑛 𝜇 "(𝑥) 2 𝑑𝑥 λ =0 esetén interpolációs görbe λ →∞ esetében lineáris regresszió

24

25 Regresszió Cél: Példa:
megtalálni egy olyan f függvényt, amelynek inputja az attribútumok értéke, az outputja pedig a lehető legjobban közelíti (négyzetes hibaérték) a valóságot Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető, web forgalom jóslása

26 𝜆 = 0

27 𝜆 = 1

28 𝜆 = 500

29 Scatterplot mátrix Megjelenített dim.k: n Ábrázolt összefügg.:
A változópárok együttes eloszlása Adategység: Scatterplot – minden diagram a neki megfelelő változók együttes eloszlását mutatja be

30 Mozaik diagram (mosaic plot)
Megjelenített dim.k: 2 Ábrázolt összefügg.: két diszkrét változó együttes eloszlása Adategység: Téglalap – a téglalap területe arányos az (X = xi, Y = yi) értékpárok gyakoriságával Korlát: Sorfolytonos olvasása nehézkes A túlsúlyosak nagy része férfi!

31 Színekkel kommunikál:
Hőtérkép (heat map) Megjelenített dim.k: 3 Ábrázolt összefügg.: sűrű 3D struktúrák összefüggései Adategység: tile – azonos „magasságú” összefüggő területrész Tervezői döntés: tile-ok mérete? Színekkel kommunikál: Pl. nincs senki, aki kétméteres lenne és 25 kiló, de sok 1.60-as van 60 kiló környékén

32 Párhuzamos koordináták
Megjelenített dim.k: n Ábrázolt összefügg.: Rekordok/attribútumok hasonlósága Adategység: Törött vonal – az egyes attribútumtengelyeken felvett értékek rendezett sorozata Korlátok: Tengelyek (attribútumok) más mértékegysége/nagyságrendje stb. torzíthat … de a fogyasztás nagyobb Az új autókban a tömeg kisebb…

33 Buborék diagram (bubble chart)
Megjelenített dim.k: 3 Ábrázolt összefügg.: ritka 3D struktúrák összefüggései Adategység: körlap – 3 attribútummal leírható: X és Y koordináta a középpontra + sugár Korlátok overplotting torzíthat (ha a ritka struktúrában vannak sűrű részek) A Lotushoz tartozik a legkönnyebb Az X, Y pozíciót a fogyasztás és a teljesítmény adja, a kör sugara a tömeget mutatja

34 qqplot

35 Data transformation: Box-Cox

36 Osztályozás Cél: Példa:
adott teszthalmaz meglétét feltételezve egy újonnan érkező elemről eldönteni, melyik osztályba tartozik (az osztályok száma és a tesztrekordok osztályba tartozása rögzített) Példa: SPAM detektálás tartalom alapján, testtömeg/magasság alapján alany nemének meghatározása

37 Klaszterezés Cél: Példa:
egy halmaz elemeit csoportokba sorolni úgy, hogy az egymáshoz "közel" lévő elemek egymáshoz "hasonlóak" Példa: ajánló rendszerek R csomagokról, szenátusi tagok klaszterezése szavazatuk alapján

38 PCA Cél: Példa: megtalálni a rekordot legjobban jellemző faktorokat
Tőzsdei árfolyamok közül melyek határozzák meg legjobban a BUX index alakulását?


Letölteni ppt "Vizuális adatanalízis"

Hasonló előadás


Google Hirdetések