Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.

Slides:



Advertisements
Hasonló előadás
Összetett kísérleti tervek és kiértékelésük:
Advertisements

I. előadás.
3. Két független minta összehasonlítása
Vizuális adatanalízis
„Leíró” statisztika: alapfogalmak
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes Intelligens rendszerfelügyelet.
SAS Enterprise Miner 2. gyakorlat
Virtuális méréstechnika
Virtuális méréstechnika Adatok elemzése, fájl I/O 1 Mingesz Róbert V
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet
Mérési pontosság (hőmérő)
Összefüggés vizsgálatok x átlag y átlag Y’ = a + bx.
Gazdaságelemzési és Statisztikai Tanszék
Dr. Szalka Éva, Ph.D.1 Statisztika II. VII.. Dr. Szalka Éva, Ph.D.2 Mintavétel Mintavétel célja: következtetést levonni a –sokaságra vonatkozóan Mintavétel.
Statisztika II. VI. Dr. Szalka Éva, Ph.D..
E L E M Z É S. 1., adatgyűjtés 2., mintavétel (a teljes sokaságot ritkán tudjuk vizsgálni) 3., mintavételi információk alapján megállapítások, következtetések.
III. előadás.
Regresszióanalízis 10. gyakorlat.
SPSS bevezetés.
SPSS leíró statisztika és kereszttábla elemzés (1-2. fejezet)
Hipotézisvizsgálat (1. rész) Kontingencia táblák
KÉT FÜGGETLEN, ILL. KÉT ÖSSZETARTOZÓ CSOPORT ÖSZEHASONLÍTÁSA
Nem-paraméteres eljárások, több csoport összehasonlítása
Kvantitatív módszerek
Az Alakfelismerés és gépi tanulás ELEMEI
Adatmodellek A modellezés statisztikai alapjai. Statisztikai modell??? cél: feltárni, hogy bizonyos jelenségek között létezik-e az általunk feltételezett.
Térkép. Mi az adat? Minden információ, amit tárolni kell. Minden információ, amit tárolni kell.  szám  szöveg  dátum  hang  kép, stb.
Egytényezős variancia-analízis
Statisztika a szociológiában
Biostatisztika, MS Excel
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Kvantitatív Módszerek
Gazdaságstatisztika 16. előadás Hipotézisvizsgálatok Alapfogalamak
Hipotézis vizsgálat (2)
Statisztikai módszerek áttekintése módszerválasztási tanácsok Makara Gábor.
Többváltozós adatelemzés
Többváltozós adatelemzés
Következtető statisztika 9.
Alapsokaság (populáció)
Alapfogalmak.
Lineáris regresszió.
Adatleírás.
Folytonos eloszlások.
t A kétoldalú statisztikai próba alapfogalmai
Két kvantitatív változó kapcsolatának vizsgálata
Paleobiológiai módszerek és modellek 4. hét
I. előadás.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Szondázás alapú diagnosztika 2. Autonóm és hibatűrő információs.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Kocsis Imre, Salánki Ágnes Intelligens.
Vargha András KRE és ELTE, Pszichológiai Intézet
Bevezetés a méréskiértékelésbe (BMETE80ME19) Intervallumbecslések 2014/
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
Valószínűségszámítás II.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
 A matematikai statisztika a természet és társadalom tömeges jelenségeit tanulmányozza.  Azokat a jelenségeket, amelyek egyszerre nagyszámú azonos tipusú.
Bevezetés a méréskiértékelésbe (BMETE80ME19)
Mérés és adatgyűjtés laboratóriumi gyakorlat
IT adatok vizuális elemzése
Bevezetés, tippek Ea-gyak kapcsolata Statisztika II -más tárgyak kapcsolata Hogyan tanulj? Interaktív órák, kérdezz, ha valami nem világos! tananyag =előadások.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék IT adatok vizuális elemzése Salánki Ágnes, Kocsis Imre Intelligens.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek.
Adatelemzési gyakorlatok
Dr. Varga Beatrix egyetemi docens
Gazdaságinformatikus MSc
A leíró statisztikák alapelemei
Mérések adatfeldolgozási gyakorlata vegyész technikusok számára
2. Regresszióanalízis Korreláció analízis: milyen irányú, milyen erős összefüggés van két változó között. Regresszióanalízis: kvantitatív kapcsolat meghatározása.
Előadás másolata:

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Alapfogalmak az adatelemzésben „Big Data” elemzési módszerek Kocsis Imre, Salánki Ágnes

Adatelemzés Adat Modell Többletinformáció

Modell  Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o …

Modell  Szakértői tudás o Elvárt összefüggések o Háttértudás a kísérletről o …

Adatelemzés Adat Modell Többletinformáció

Adat  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell Rekord/ megfigyelés Változó/ attribútum

Adat Széles Hosszú  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell

Adat  Nemstrukturált o Nincs előre rögzített tárolási/értelmezési modell o Csak metaadat o Pl. , audio anyagok o Transzformáció strukturáltba?

Numerikus és kategorikus változók  Numerikus (numerical) o az alapvető aritmetikai műveletek értelmesek o Pl. átlaghőmérséklet, kor  Kategorikus (categorical) o Csak megkülönböztetés miatt o Pl. telefonszám, nem Változók Numerikus Kategorikus

Numerikus változók  Folytonos o Mért – tetszőleges értéket felvehet adott tartományon belül adott pontosság mellett o Pl. a teremben ülők BigData jegyének átlaga  Diszkrét o Számolt – véges sok értéket vehet fel adott tartományban o Pl. BigData előadáson ülők száma Változók Numerikus Kategorikus Folytonos Diszkrét

Kategorikus változók  Rendezett o Teljes rendezés az értékeken  Nem rendezett (reguláris) Rendezett Nem rendezett Változók Numerikus Kategorikus

Adatelemzés Adat Modell Többletinformáció

Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

Adatelemzés Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Felderítő analízis Cél: hipotézisek megfogalmazása Ismerkedés az adatokkal/doménnel Erősen ad-hoc Fő eszköz: leíró statisztika + adatbányászat, sok vizualizáció Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek Megerősítő analízis Cél: hipotézisek tesztelése Előre megsejtett összefüggések ellenőrzése Fő eszköz: statisztikai tesztek + következtető módszerek

Adatelemzés  Pl. eloszláselemzés

Adatelemzés  Pl. lineáris regresszió

Adatelemzés Adat Modell Többletinformáció Megerősítő Felderítő Tisztítás

Adattisztítás  Adattisztítás! o Meglepően hosszú tud lenni o Legtöbbször nem tökéletes o Big Data?  Inkonzisztenciák o Beviteli/mérési hibák, „hibás join”, részleges megfigyelés, hamisítás, …  Kieső értékek (outliers) o =/= „durva hiba” (gross error) o Nem feltétlenül előnytelen, de klasszikusan az o Magas dimenziószámnál nehéz lehet detektálni o Alacsony dimenziós vizualizáció segíthet

Adattisztítás  Hiányzó adatok (missing data, „NA”, „null”) o Hol lehet probléma? o Mesterséges feltöltés („imputation”)  Több változó, mint megfigyelés/minta o Génkifejeződési vizsgálatok o Műholdképek spektrális vizsgálata o …

Leíró statisztika

 Vizsgált adatok alapvető jellemzői o Kvantitatív o Erősen absztrahál, „összefoglal”  Egyfajta ellentéte: következtető (inferential) stat. o Megfigyelt mintán túlmutató következtetések o Pl. populáció tulajdonságaira következtetés mintából  N.B.: ez egy erősen mérnöki szemléletű kurzus

(Folytonos) megfigyelések jellemzése

Kvartilisek szerepe „68–95–99.7 rule”

Boxplot (Box and whisker plot) Ez már nem fog menni Excelben. (?)

Centrális tendencia és diszperzió  Centrális jelleg jellemzői: o Átlag, medián, multimodalitás (illetve módus)  „Diszperzió” jellemzői o Percentilisek, szórás(ok), variancia  Melyik mennyire érzékeny a kiugró értékekre?  Megj.: a mintaátlag vs. populáció-átlag jellegű kérdésekkel itt nem foglalkozunk o (Mi minek hogyan milyen becslője…)

Robusztus mérőszámok  Alaphalmaz o 1000 pont ~ U(1, 5) egyenletes eloszlás átlag = medián = 3 ms 3ms ± 2 ms Válaszidő Vál. medián Vál. átlag 1 pont: 20 s Új medián: sort(resp. times)[501] = 3.02 ms Új átlag: (2 * 10^4 + 3 * 10^3 )/ 1001 = 25 ms! Robusztus  Nem rob.

Minta-variancia; minta kovariancia-mátrix Mennyire robosztusak? Breakdown point (becslőé): „rossz” megfigyelések max. aránya, ami után már tetszőlegesen rossz eredményt ad

Variancia, kovariancia: példa

Normalizálás (szórások szorzatával): Pearson-féle lineáris korrelációs koefficiens

Lineáris korrelációs koefficiens Egyenest most még nem illesztünk

Eloszlás jellemzése? {RPT: 609, 613, 913, …} {location: Peyton, Durham, …} Változók Numerikus Kategorikus Változók Numerikus Kategorikus

Oszlopdiagram (bar chart) Ábrázolt összefüggés: Kategorikus változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Értékkészlet darabolása?

Hisztogram Ábrázolt összefüggés: Folytonos változó egyes értékeinek abszolút gyakorisága Adategység: Oszlop – magassága: adott érték gyakorisága Tervezői döntés: Oszlopszélesség/kezdőpont? Fontos percentilisek?

Sűrűségfüggvény  Ha mégis kevésbé akarunk absztrahálni  Problémák  1. Biztos, hogy normál eloszlású a populáció?  2. Paramétereket kell becsülnünk a mintából

Nemparametrikus sűrűségbecslés

Kernel-módszerek Részletek kicsit később…

Problémák a hisztogrammal?  Általánosságban nem elfogulatlan  Akkor konzisztens, ha nem csökkentjük túl gyorsan a bin-méretet  (Ronda „zárt” alak)  Érzékeny például az „origó” választására  A „query value” a határon „ugrik”  Az ismert algoritmusok ellenére a gyakorlatban jórészt manuálisan paraméterezzük  Vagy „darabos”, vagy „nem folytonos”

Bin-szélesség hatása A többváltozós hisztogramokkal itt nem foglalkoztunk

Big Data és leíró statisztika?  A MapReduce programozási modellt láttuk. [5]

MapReduce és leíró statisztika?  MIN/MAX/AVG… o Folytonos esetben? o Diszkrét esetben?  Oszlopdiagram?  Hisztogram?  Kernel sűrűség-közelítés nagy adatra? o Tényleg nagy adatra drága „lekérdezni”: O(n) tag! o SIGMOD 2013: approximáció a minták csak egy mintáján számolással

Leíró statisztikák MapReduce becslése  Közelítő hisztogram újrahasznosítása o Kvantilisek becslése o Medián becslése o … De hogyan?  Faktor/nominális változók: wordcount!  Variancia/szórás: pl. két menetben o Empirikus átlag kell hozzá  Kovariancia, korreláció: két menetben, egy változó- párra egyszerű

Következtető statisztika

Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor

Ökölszabályok  LLN (Law of Large Numbers) o Ha a kísérletek száma tart a végtelenhez, az előfordulási gyakoriság az elméleti valószínűséghez konvergál

Ökölszabályok

? Magyarországi kamaszlányok Békés Heves Vas

? Magyarországi kamaszlányok Békés Heves Vas

Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor

Minta kiértékelés  EDA ~ nyomozás  Kiértékelés ~ a per maga o H 0 : alapfeltevés  a vádlott ártatlan o H A : alapfeltevés ellentéte  a vádlott bűnös o Kiértékelés: ha az alapfeltevés igaz, mennyire valószínű, hogy a kapott adatot tároltuk el?

Mit tesztelünk tipikusan?  Parametrikus tesztek o Egy minta eloszlás egy paraméterét próbáljuk kitalálni o Két minta eloszlásának a paramétere megegyezik-e?  Nemparametrikus tesztek o Illeszkedésvizsgálat  adott eloszlású-e egy minta? o Függetlenségi vizsgálat  független-e két minta? o Homogenitásvizsgálat  két minta eloszlása megegyezik-e?

Következtető statisztika Mintavételezés Minta kiértékelés Adatfelvétel Teljes populáció Reprezentatív minta EDA Hipotézis Val.ség, konf. int. stb. Következtetés Adatsor

Következtetés  Döntési bemenet o Valami küszöbérték  Adatsor típusa o Megfigyelési tanulmány (observational study) o Kísérlet (experiment) Különbség: a köztes változók eliminálása

Esettanulmány Forrás: „Girls who ate breakfast of any type had a lower average body mass index, a common obesity gauge, than those who said they didn't. The index was even lower for girls who said they ate cereal for breakfast.„

Esettanulmány Forrás: 1. „Breakfast, cereal keep girls slim” 2. „Being slim causes girls to eat breakfast„ ? 3. „A confounding variable is responsible for both”

Következtetés  Döntési bemenet o Valami küszöbérték  Adatsor típusa o Megfigyelési tanulmány (observational study) A köztes változók kiléte bizonytalan Csak korreláció, kauzális következtetések nem o Kísérlet (experiment) A köztes változókat kiszűrtük (mintavételezés!) Kauzális következtetések is

Adatelemzési módszerek

Adatbányászati építőkövek Asszociációs szabályok Regresszió Klaszterezés Osztályozás

Klaszterezés

Asszociációs szabályok

Osztályozás

Regresszió

Adatok  Adat: nyers tények o Numerikus érték, szöveg, görbe, 2D kép, …  Többváltozós adat(készlet), multivariate data: o Mérések, megfigyelések, válaszok sokasága kiválasztott változók egy készletén  Többváltozós adatelemzésben tipikusan: táblák o data matrix, data array, data frame, spreadsheet… o ! Ez „csak” a „klasszikus” többváltozós statisztika o r x n mátrix (megfigyelés/változó)

Adattípusok  Indexelő (indexing) vagy azonosító (identifier) változók o Különleges eset: elsődleges és idegen kulcsok  Bináris (indikátor)  Bool: „nem ismert” érték is lehet  Nominális o Sztring o Általában osztályozás és kategorizálás címkéi  Ordinális o (Lineárisan) rendezett  Egészértékű, folytonos (numerikus/decimális)

„The Curse of Dimensionality”

MapReduce és hisztogram (közelítés)  Tfh. Nem feltételezhetjük az ún. range partitioning-et a vizsgált változóra o Pl. óriási CSV-t dolgozunk fel – Hadoop + HDFS o Különben nem lenne problémánk  Partition Incremental Discretization (PiD) [4] o Módosítva [5]  Layer1 o Párhuzamosan több hisztogram építése o Azonos (igen kicsi) szélességű bin-ekkel kezdünk feltételezett intervallumon o Egy bin átlép egy thresholdot: split o N.B. adatfolyamra is működik  Layer2: Layer1 hisztogramok összefűzése

Layer1 karbantartás [5]

Layer1 karbantartás [4]

Összefűzés - hibaforrások  Csak a Layer1 töréspontjai  Split  pontatlan számlálók  + „split” az összefűzés során

Adattípusok  Fix (fixed): o Tudatosan előre rögzített, vagy o „Kauzális” a jelenség tekintetében o Ált. indexelő  Stochasztikus: o Véletlenszerűen kerül(t) kiválasztásra az ért. tartományból o Lásd pl. Bevezetés a matematikai statisztikába  Bemeneti (input, predictor, „X”): o Statisztikai kísérlet rögzíti vagy vezérli Kontextus – a kísérletet jellemzi Viselkedési – maga a mért érték  Kimeneti (output, response, „Y”): o Stochasztikus és a bemenettől függ

Magfüggvény-példák [4]

Források  [1] Izenman, A. J. (2008). Modern Multivariate Statistical Techniques. New York, NY: Springer New York. doi: /  [2] Zheng, Y., Jestes, J., Phillips, J. M., & Li, F. (2013). Quality and efficiency for kernel density estimates in large data. In Proceedings of the 2013 international conference on Management of data - SIGMOD ’13 (p. 433). New York, New York, USA: ACM Press. doi: /  [3] Rajaraman, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Cambridge: Cambridge University Press. doi: /CBO  [4] Gama, J., & Pinto, C. (2006). Discretization from data streams. In Proceedings of the 2006 ACM symposium on Applied computing - SAC ’06 (p. 662). New York, New York, USA: ACM Press. doi: /  [5] stream-via-map-reducehttp:// stream-via-map-reduce