Vizuális adatanalízis

Slides:



Advertisements
Hasonló előadás
Petrovics Petra Doktorandusz
Advertisements

MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
MI 2003/ A következőkben más megközelítés: nem közvetlenül az eloszlásokból indulunk ki, hanem a diszkriminancia függvényeket keressük. Legegyszerűbb:
Gazdaságelemzési és Statisztikai Tanszék
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
„Leíró” statisztika: alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet.
Regresszió számítás Mérnöki létesítmények ellenőrzése, terveknek megfelelése Geodéziai mérések – pontok helyzete, pontszerű információ Lineáris regresszió.
Csoportosítás megadása: Δx – csoport szélesség
Lineáris és nemlineáris regressziók, logisztikus regresszió
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
AZ ÉGHAJLAT ÁBRÁZOLÁSA
Mátrix függvények Keresőfüggvények
Microsoft Excel 2010 Gyakoriság.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
Előadó: Prof. Dr. Besenyei Lajos
5. előadás.
III. előadás.
Lineáris korreláció és lineáris regresszió. A probléma felvetése y = 1,138x + 80,778r = 0,8962.
Regresszióanalízis 10. gyakorlat.
Dr. Gombos Tímea SE, III.sz. Belgyógyászati Klinika
Dr. Szalka Éva, Ph.D.1 Statisztika II. VI.. Dr. Szalka Éva, Ph.D.2 Regresszióanalízis.
Az Alakfelismerés és gépi tanulás ELEMEI
Nominális adat Módusz vagy sűrűsödési középpont Jele: Mo
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
STATISZTIKA II. 7. Előadás
Biostatisztika, MS Excel
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Kvantitatív módszerek
1 Mössbauer-spektrumok illesztése: vonalalak A kibocsátott  -sugárzás energiaspektruma Lorentz-görbe alakú: I : sugárzás intenzitása  : frekvencia 
Valószínűségszámítás
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
A sztochasztikus kapcsolatok (Folyt). Korreláció, regresszió
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
Adatleírás.
Két kvantitatív változó kapcsolatának vizsgálata
© Farkas György : Méréstechnika
Statisztikai alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
x1 xi 10.Szemnagyság: A szemnagyság megadásának nehézségei
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis „Big Data” elemzési módszerek Kocsis.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatanalízis Autonóm és hibatűrő információs rendszerek.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Regresszió-számítás március 30. Dr. Varga Beatrix egyetemi.
Közúti és Vasúti Járművek Tanszék. A ciklusidők meghatározása az elhasználódás folyamata alapján Az elhasználódás folyamata alapján kialakított ciklusrendhez.
A gyakorisági sorok grafikus ábrázolása
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
IT adatok vizuális elemzése
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.
Leíró statisztika gyakorló feladatok október 15.
Mediánok és rendezett minták
Szóródási mérőszámok, alakmutatók, helyzetmutatók
Numerikus differenciálás és integrálás
III. előadás.
Valószínűségi változók együttes eloszlása
5. előadás.
5. Kalibráció, függvényillesztés
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Adatfeldolgozási ismeretek környezetvédelmi-mérés technikusok számára
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Előadás másolata:

Vizuális adatanalízis

Exploratoratory data analysis (EDA) Cél Adatok megértése Mi jó, mi nem? Melyek a minőségileg eltérő csoportok? Mik a fontos jellemzők? Jelenségek megsejtése Korrelációkeresés (mi okoz mit?) Minőségileg eltérő tartományok Precíz statisztikai módszerek kiválasztása

http://www.visual-analytics.eu/ http://www.rosuda.org/mondrian/ Statisztikai analízis módszerek Vizualizálás Statisztikai nehéztüzérség nélkül Tukey, 60-as évek közepe Robusztus statisztika Csökkentjen az érzéekenység a mérési hibára Nemparametrikus statisztika Ne kelljen az ismeretlen eloszlásra feltételezéseket tenni http://www.visual-analytics.eu/ http://www.rosuda.org/mondrian/

Egyedi változók

Egy kis példa: OHV CSV és rövid nevek

Nehéz értelmezni...

Oszlopdiagram (bar chart) Megjelenített dimenziók száma: 1 Ábrázolt összefügg.: Diszkrét változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi Tervezői döntés: Csoportok kialakítása? Értékkészlet darabolása?

Nők és férfiak magasságának eloszlása is szép haranggörbe Hisztogram Nők és férfiak magasságának eloszlása is szép haranggörbe Megjelenített dim.k: 1 Ábrázolt összefügg.: folytonos változó eloszlása Adategység: Oszlop – az oszlop magassága az adott érték absz. gyakoriságát tükrözi Tervezői döntés: Oszlopok szélessége? Fontos percentilisek?

Doboz diagram (boxplot) Megjelenített dim.k: 1 5 értékkel jellemzésként Ábrázolt összefügg.: folytonos változó fontos percentilisei Adategység: Doboz – szélei jelzik az alsó és felső kvartiliseket, Középen a medián. A minimum és a maximum általában még pontosan jelezve, Outlierek már csak pöttyökkel.

Boxplot Interquartile range

Két változó Cél: tartományok, összefüggések keresése

Pont – pont diagram (scatterplot) Megjelenített dim.k: 2 Ábrázolt összefügg.: folytonos változók együttes eloszlása Adategység: pont – 𝑋= 𝑥 𝑖 , 𝑌= 𝑌 𝑖 előfordulás Korlát: ha az egyik változó értéke hiányzik  nem tudjuk felrajzolni Tervezői döntés: Overplotting?

Hol volt, hol nem volt...

Szétszórjuk

A pontok....

És megpróbáljuk közelíteni...

Regresszió f függvény, bemenet: az attribútumok értéke, kimenet: megfigyelések legjobb közelítése „ökölszabály” Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető,

Regressziós módszerek Alapelv: Véletlen változó Hiba Közelítés Jósolt esemény Megfigyelhető változók Átlagos hiba (mean error) Becsült érték Mért érték

Lineáris regresszió Egyszerű lin. függvény illesztése az adatokra nem vár alapvető változást a rendszer viselkedésében Legkisebb négyzetek módszere keressük azokat az a,b paramétereket, amelyekre cél: minimális (Sum of Squared Errors) minimalizálása

Levezetés (parc. deriválás) Xi, Yi a mért értékpárok (pl. idő, terhelés)

Lineáris regresszió Legjobban illeszkedő egyenes 𝑚𝑖𝑛 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 2 , ahol 𝜇 𝑥 =𝑎𝑥+𝑏 DE: Anscombe’s quartet Minőségileg különböző adatok Azonos regressziós egyenes

Loess görbe (Locally weighted polynomial regression) Pont környezetében polinomiális közelítések összefűzve Tipikusan 1 vagy 2 fokú Környezet Fix intervallum (span) Fix darabszám 𝑇 𝑢 = ( 1− 𝑢 3 ) 3 for 𝑢 <1 0 otherwise 𝑤 𝑥 0 =𝑇 𝑥− 𝑥 0 𝑠 Nagy adatkészlet Outlier érzékenység Nem ad zárt alakot

Simító görbe Egy adott osztályból legjobban közelítő 𝜇 függvény 𝑚𝑖𝑛 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 2 +λ 𝑥 1 𝑥 𝑛 𝜇 "(𝑥) 2 𝑑𝑥 Egy adott osztályból legjobban közelítő 𝜇 függvény λ simító paraméter Adat követése 𝑖=1 𝑛 𝑌 𝑖 − 𝜇 𝑥 𝑖 2 Simaság 𝑥 1 𝑥 𝑛 𝜇 "(𝑥) 2 𝑑𝑥 λ =0 esetén interpolációs görbe λ →∞ esetében lineáris regresszió

Regresszió Cél: Példa: megtalálni egy olyan f függvényt, amelynek inputja az attribútumok értéke, az outputja pedig a lehető legjobban közelíti (négyzetes hibaérték) a valóságot Példa: testtömeg/magasság együttes eloszlás valójában egyenesre illeszthető, web forgalom jóslása

𝜆 = 0

𝜆 = 1

𝜆 = 500

Scatterplot mátrix Megjelenített dim.k: n Ábrázolt összefügg.: A változópárok együttes eloszlása Adategység: Scatterplot – minden diagram a neki megfelelő változók együttes eloszlását mutatja be

Mozaik diagram (mosaic plot) Megjelenített dim.k: 2 Ábrázolt összefügg.: két diszkrét változó együttes eloszlása Adategység: Téglalap – a téglalap területe arányos az (X = xi, Y = yi) értékpárok gyakoriságával Korlát: Sorfolytonos olvasása nehézkes A túlsúlyosak nagy része férfi!

Színekkel kommunikál: Hőtérkép (heat map) Megjelenített dim.k: 3 Ábrázolt összefügg.: sűrű 3D struktúrák összefüggései Adategység: tile – azonos „magasságú” összefüggő területrész Tervezői döntés: tile-ok mérete? Színekkel kommunikál: Pl. nincs senki, aki kétméteres lenne és 25 kiló, de sok 1.60-as van 60 kiló környékén

Párhuzamos koordináták Megjelenített dim.k: n Ábrázolt összefügg.: Rekordok/attribútumok hasonlósága Adategység: Törött vonal – az egyes attribútumtengelyeken felvett értékek rendezett sorozata Korlátok: Tengelyek (attribútumok) más mértékegysége/nagyságrendje stb. torzíthat … de a fogyasztás nagyobb Az új autókban a tömeg kisebb…

Buborék diagram (bubble chart) Megjelenített dim.k: 3 Ábrázolt összefügg.: ritka 3D struktúrák összefüggései Adategység: körlap – 3 attribútummal leírható: X és Y koordináta a középpontra + sugár Korlátok overplotting torzíthat (ha a ritka struktúrában vannak sűrű részek) A Lotushoz tartozik a legkönnyebb Az X, Y pozíciót a fogyasztás és a teljesítmény adja, a kör sugara a tömeget mutatja

qqplot

Data transformation: Box-Cox

Osztályozás Cél: Példa: adott teszthalmaz meglétét feltételezve egy újonnan érkező elemről eldönteni, melyik osztályba tartozik (az osztályok száma és a tesztrekordok osztályba tartozása rögzített) Példa: SPAM detektálás tartalom alapján, testtömeg/magasság alapján alany nemének meghatározása

Klaszterezés Cél: Példa: egy halmaz elemeit csoportokba sorolni úgy, hogy az egymáshoz "közel" lévő elemek egymáshoz "hasonlóak" Példa: ajánló rendszerek R csomagokról, szenátusi tagok klaszterezése szavazatuk alapján

PCA Cél: Példa: megtalálni a rekordot legjobban jellemző faktorokat Tőzsdei árfolyamok közül melyek határozzák meg legjobban a BUX index alakulását?