Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.

Slides:



Advertisements
Hasonló előadás
ÉRDEKES PONTOK KINYERÉSE DIGITÁLIS KÉPEKEN. BEVEZETÉS  ALAPPROBLÉMA  Jellemzőpontok detektálása mindkét képen  Kinyert pontok megfeleltetése  Megfeleltetések.
Advertisements

Függvények.
Két fedvény korrelációjának meghatározása
Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting július 2. Tikk Domonkos Gravity Research.
Statisztikák. Foursquare • 2014 Januári adatok forrás: foursquare.com/about • Több mint 45 millió felhasználó • Több mint 5 milliárd check-in • Több mint.
Pac-Man játék tanulása Megerősítéses Tanulással Mesterséges Intelligencia algoritmusok tesztelése játékokon Gyenes Viktor Eötvös Loránd Tudományegyetem.
1 AIBO Robotfoci Bodor László IAR Bevezetés AIBO RoboCup AIBO RoboCup Célok Célok Rendszer elemei Rendszer elemei Megvalósítás terve Megvalósítás.
Ekler Péter Budapesti Műszaki és Gazdaságtudományi Egyetem
Többfelhasználós és internetes térkép kezelés, megjelenítés.
A rendszerszintű diagnosztika alapjai
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
3. Folytonos wavelet transzformáció (CWT)
Digitális képanalízis
Domain tesztelés bemutatása PHP tesztelés
Számítástudományi módszerek a webes szolgáltatásokban Rácz Balázs október 20.
SAS Enterprise Miner 2. gyakorlat
Programozási alapismeretek 10. előadás
Vizuális modellezés Uml és osztálydiagram UML eszközök
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Halmazok, relációk, függvények
Vámossy Zoltán 2004 (Mubarak Shah, Gonzales-Woods anyagai alapján)
Tökéletes Hash függvények keresése Kasler Lóránd-Péter.
Adatbányászat: Rendellenesség keresés
Szabó Attila, Cross-entrópia alkalmazása a megerősítéses tanulásban.
Hierarchikus klaszteranalízis
Közösségi weboldalak és az alumni szervezetek DPR Szakmai Klub I. Hain Ferenc - DPR Szakmai Klub http./
Lázár István Témavezető: Hajdu András
DDoS támadások veszélyei és az ellenük való védekezés lehetséges módszerei Gyányi Sándor.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Bin-summarise-smooth: ‚bigvis’ „Big Data” elemzési módszerek.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével.
Online adatbázisok a Fővárosi Szabó Ervin Könyvtár Központi Könyvtárában május 28. Téchy Tünde.
Topológia felderítés hibrid hálózatokban
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
1 Mössbauer-spektrumok illesztése: vonalalak A kibocsátott  -sugárzás energiaspektruma Lorentz-görbe alakú: I : sugárzás intenzitása  : frekvencia 
Mintavétel talajból, talajminták tárolása
1 AAO folytatás ++ Csink László. 2 Rekurzív bináris keresés (rendezett tömbben) public static int binker(int[] tomb, int value, int low, int high) public.
Többváltozós adatelemzés
Többváltozós adatelemzés 5. előadás. Hierarchikus klaszterezés Klaszterek számát nem kell előre megadni A pontok elhelyezkedését térképezi fel Nem feltétlenül.
Többváltozós adatelemzés
Programozási alapismeretek 11. előadás. ELTE Szlávi-Zsakó: Programozási alapismeretek 11.2/ Tartalom  Rendezési.
Költség-minimalizálás az ellenőrző kártyák alkalmazásánál Feladatmegoldás, kiegészítés.
Processzor, alaplap, memória
Nem más csak egyszerü logika!
Programozás I. Típus algoritmusok
Az informatika logikai alapjai
Budapest University of Technology and Economics Department of Measurement and Information Systems Monitor komponensek fejlesztése okostelefon platformra.
Adatbázis-kezelés 3-4. Adatok lekérdezése utasítás általános formája SELECT [ALL/DISTINCT] {*/, …, } FROM [ ], …, [ ] [WHERE GROUP BY, …, HAVING ORDER.
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Tőzsdei idősorok előrejelzése Excel-alapú hibridmodellel Varga Zoltán SZIE GSZDI PhD hallgató 2014 november
Ismerkedjünk tovább a számítógéppel
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
Nemzetközi: IT History Society _ Amerika Computer History Museum (California)
előadások, konzultációk
Tájékoztató 10. osztályosoknak Az érettségi vizsga Kötelező tárgyak: magyar nyelv és irodalom, történelem, matematika, idegen nyelv + 1 választott tárgy.
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.
EGEE-II INFSO-RI Enabling Grids for E-sciencE EGEE and gLite are registered trademarks Összefoglalás M. Kozlovszky MTA SZTAKI
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Stream Processing „Big Data” elemzési módszerek Kocsis Imre.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék R „Big Data” elemzési módszerek Kocsis Imre
Haladó C++ Programozás SzJ/IV
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
Rekord statisztikák Készítette: Komjáti Bálint IV. évf. fizikus hallgató (ELTE-2006) Györgyi Géza: Extrém érték statisztikák előadásán tartott szemináriumára.
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
GPU alapú fotontranszport nagyfelbontású heterogén közegben BME IIT Szirmay-Kalos László Magdics Milán Tóth Balázs.
HÁZI FELADAT. Házi Feladat  3 fős csapatok o Javasolt: legyen benne > másodéves informatikus  Feladatválasztás listából o Eseti elbírálással: “hozott”
(Informatikus mérnök szakra)
Innováció és fenntartható felszíni közlekedés konferencia 2016
Előadás másolata:

Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes

Alapfogalmak  Az alapfeladat ugyanaz  Az aspektus más

MINTAVÉTELEZÉS

Mintavételezés  SRS o Simple Random Sample o random mintavétel  Stratified Sample  Cluster sample

Mintavételezés  SRS o Simple Random Sample  Stratified Sample o Homogén „réteg” o Mindegyikből random m.  Cluster sample

Mintavételezés  SRS o Simple Random Sample  Stratified Sample  Cluster sample o ~azonos méretű klaszterek o Azokból random m.

Idősoroknál

SZŰRÉS

Definíciók  Jelfeldolgozás – frekvencia  Fizika – hullámhosszok  Matematika – részhalmaz  Industrial rock – ??  Számítástechnika o Értékek, jellemzően data streamben Mail Tartalom Wordfilter

Adatfolyamok 1.több forrásból, 2.ismeretlen sebességgel 1.több forrásból, 2.ismeretlen sebességgel Buffer, megengedett számítási memória igény korlátos Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Ábra és a számértékes példák forrása: [1]

Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatók o „A legutóbbi órában melyik volt a legnépszerűbb weboldal”  Hálózati forgalom  Tőzsdei adatok

Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok

Csúszóablakos tárolás

Mintavételezés streamekben  Pl. „az elmúlt héten hány egyedi query jött?”  Ezt kb. 10% minta alapján

Random mintavételezés  1/3-os mintavételezés

Mintavételezés streamekben  Pl. „az elmúlt héten hány egyedi query jött?”  Ezt kb. 10% minta alapján  Random mintavételezés o Ha tényleg egyedi a streamben, p = 0.1 a mintában o Ha kétszer fordul elő, p = 0.18 a mintában o Stb. Nem tudunk a minta alapján általánosítani a teljes streamre 

Mintavételezés streamekben: Hash  Pl. „az elmúlt héten hány egyedi query jött?”  Ezt kb. 10% minta alapján  Érték alapján szűrünk o Pl. hash függvény 0-9 közé o Feltételezések A hash egyenletes  az értékek 1/10-e kerül be a 0-ba

Mintavételezés streamekben: hash  1/3-os mintavételezés Legalább becsülni tudunk Mintavételezés típusa?

Szűrés streamekben  Pl. találjuk meg o a „különlegeseket” o az azonosokat o a különbözőeket Már az első is nehéz probléma

Bitszámlálás

Bloom filterek

FolyamFilter BESZÚR(25 = 11001) BESZÚR(159 = ) BESZÚR(585 = ) KERES(118 = )

Bloom filterek

OUTLIER DETEKTÁLÁS

Alapfeladat Ábra forrása: Vannak-e egyáltalán? Hogyan szeparálhatóak? Hogy néznek ki? Miért? Vannak-e egyáltalán? Nagy adat: aggregálás? Szakterület specifikus? Hatások?

Alapfeladat

Használati esetek Kép forrása:

Használati esetek Képek forrása:

Használati esetek

Alapfogalmak anomaly surprise rare event novelty outlier exception aberration peculiarity discordant observations

Definíció  Kevés van belőlük  „Gyanús”, hogy más a generáló folyamat/forrás

Pont- és kollektív anomála  Pontanomália  Kollektív anomália

Pont- és kollektív anomála  Pontanomália  Kollektív anomália

Pont- és kollektív anomália

Viselkedési és kontextusanomália  Viselkedési  Kontextus Ábrák forrása:

Viselkedési és kontextusanomália  Viselkedési  Kontextus Itt: viselkedési és pontanomáliák Ábrák forrása:

Megközelítések  Távolság alapúak  Sűrűség alapúak

Megközelítések  Távolság alapúak  Sűrűség alapúak

VIZUÁLIS MÓDSZEREK

1D  Az aggregálás általában nem jó

1D  Az aggregálás általában nem jó Néhány kilógó értéket a boxplot egyszerűen elmaszkol

 Eddig: kilógó esetek az egyes dimenziókban  Hogyan általánosítsunk? o Descartes szorzat? o Sűrűségfüggvény bevonása?

 Generalization of 1D density

 Egydimenziós általánosítása Több „normál” kategória is létezhet Minden más outlier, esetleg átmenet a normálok között Pontok nélkül a 0-1 nem látszik 

TÁVOLSÁG ALAPÚ TECHNIKÁK

Befoglaló burok Min.:  Féltér-mélység: Tukey, 1974 Extrém pontok Medián: majd a végén…

Befoglaló burok  Féltér-mélység: Tukey, 1974

Befoglaló burok  Féltér-mélység: Tukey, 1974

DEMO Befoglaló burok

DB

DEMO DB

MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt!

MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt! Kimerítő keresés? choose(n = 1000, k = 900) [1] e+139 Kimerítő keresés? choose(n = 1000, k = 900) [1] e+139

FAST-MCD  Közelítő algoritmus  Véletlenszerűen választott kezdőhalmaz  Iteratív  Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján

Mahalanobis távolság Ábra forrása:

FAST-MCD X  

BACON  Blocked Adaptive Computationally Efficient Outlier Nominators  Kiinduló halmaz félig felügyelt módban is!  Új halmaz: küszöbérték alapján

DEMO BACON

DEMO BACON

SŰRŰSÉG ALAPÚ TECHNIKÁK

LOF motiváció

LOF  Local Outlier Factor  Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség  Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

DEMO LOF

Big Data környezet?  Közelítő algoritmusok  Stream processing

Hivatkozásjegyzék  [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: o Coursera tárgy:  [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009