Outlier detektálás nagyméretű adathalmazokon

Slides:



Advertisements
Hasonló előadás
Szimmetriák szerepe a szilárdtestfizikában
Advertisements

Kauzális modellek Randall Munroe.
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
2.1Jelátalakítás - kódolás
Az úttervezési előírások változásai
Fizika II..
Számítógépes Hálózatok
Profitmaximalizálás  = TR – TC
A járműfenntartás valószínűségi alapjai
Szenzorok Bevezetés és alapfogalmak
Végeselemes modellezés matematikai alapjai
A magas baleseti kockázatú útszakaszok rangsorolása
Szerkezetek Dinamikája
MÉZHAMISÍTÁS.
Hőtan BMegeenatmh 5. Többfázisú rendszerek
BMEGEENATMH Hőátadás.
AUTOMATIKAI ÉPÍTŐELEMEK Széchenyi István Egyetem
Skandináv dizájn Hisnyay – Heinzelmann Luca FG58PY.
VÁLLALATI Pénzügyek 2 – MM
Hőtan BMEGEENATMH 4. Gázkörfolyamatok.
Szerkezetek Dinamikája
Összeállította: Polák József
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
Csáfordi, Zsolt – Kiss, Károly Miklós – Lengyel, Balázs
Tisztelt Hallgatók! Az alábbi példamegoldások segítségével felkészülhetnek a 15 pontos zárthelyi dolgozatra, ahol azt kell majd bizonyítaniuk, hogy a vállalati.
J. Caesar hatalomra jutása atl. 16d
Anyagforgalom a vizekben
Kováts András MTA TK KI Menedék Egyesület
Az eljárás megindítása; eljárási döntések az eljárás megindítása után
Melanóma Hakkel Tamás PPKE-ITK
Az új közbeszerzési szabályozás – jó és rossz gyakorlatok
Képzőművészet Zene Tánc
Penicillin származékok szabadgyökös reakciói
Boros Sándor, Batta Gyula
Bevezetés az alvás-és álomkutatásba
Kalandozások az álomkutatás területén
TANKERÜLETI (JÁRÁSI) SZAKÉRTŐI BIZOTTSÁG
Nemzetközi tapasztalatok kihűléssel kapcsolatban
Gajdácsi József Főigazgató-helyettes
Követelmények Szorgalmi időszakban:
Brachmann Krisztina Országos Epidemiológiai Központ
A nyelvtechnológia eszközei és nyersanyagai 2016/ félév
Járványügyi teendők meningococcus betegség esetén
Kezdetek októberében a könyvtár TÁMOP (3.2.4/08/01) pályázatának keretében vette kezdetét a Mentori szolgálat.
Poszt transzlációs módosulások
Vitaminok.
A sebész fő ellensége: a vérzés
Pharmanex ® Bone Formula
Data Mining Machine Learning a gyakorlatban - eszközök és technikák
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
Pontos, precíz és hatékony elméleti módszerek az anion-pi kölcsönhatási energiák számítására modell szerkezetekben előadó: Mezei Pál Dániel Ph. D. hallgató.
Bevezetés a pszichológiába
MOSZKVA ZENE: KALINKA –HELMUT LOTTI AUTOMATA.
Bőrimpedancia A bőr fajlagos ellenállásának és kapacitásának meghatározása Impedancia (Z): Ohmos ellenállást, frekvenciafüggő elemeket (kondenzátort, tekercset)
Poimenika SRTA –
Végeselemes modellezés matematikai alapjai
Összefoglalás.
Az energiarendszerek jellemzői, hatékonysága
Varga Júlia MTA KRTK KTI Szirák,
Konzerváló fogászat Dr. Szabó Balázs
További MapReduce szemelvények: gráfproblémák
Ráhagyások, Mérés, adatgyűjtés
Járműcsarnokok technológiai méretezése
Grafikai művészet Victor Vasarely Maurits Cornelis Escher.
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Az anyagok fejlesztésével a méretek csökkennek [Feynman, 1959].
Bevezetés a színek elméletébe és a fényképezéssel kapcsolatos fogalmak
Minőségmenedzsment alapjai
Konferencia A BIZTONSÁGOS ISKOLÁÉRT Jó kezdeményezések
Előadás másolata:

Outlier detektálás nagyméretű adathalmazokon Salánki Ágnes salanki@mit.bme.hu

Hol tartunk? Eddig: Most: Outlier detektáló módszerek DB, LOF, BACON stb. Most: Hol segíthet a MapReduce az outlier detektálásban? Adatfolyamokon

Implementációs kérdések Az alap mindig valamilyen távolságszámítás 𝑘𝑁𝑁( 𝑥 𝑖 ), 𝑁𝑁( 𝑥 𝑖 , 𝑟’) – milyen adatszerkezettel? Naiv Távolságmátrixot tárolunk 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤𝑟′ Partíciós módszerek? Pl. fák: k-d tree?

Implementációs kérdések 2. KERES: 𝑘 = 10 2.1 𝑟’ ≤9 (7. zóna) 2.2 r’ = 7 (5-8. zóna) Nem kell mindent kiszámolni  Többször kell kiszámolnunk ugyanazt  1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok

Map-Reduce? Mi van, ha már a felosztást is elosztottan akarom végezni? 𝑛 elég nagy  muszáj bontani Mi van, ha már a felosztást is elosztottan akarom végezni? MAP Csomópont milyen más csp-ok kNN-jeit frissítheti? REDUCE Ha megvan minden jelölt: tényleges távolságszámítás

Egy kis csalás.. Voronoi cellák 𝑼 𝟏

Amiért jó: MapReduce  𝑛 elég nagy  muszáj bontani Csomópont->tartomány hozzárendelések REDUCE1 Tartományok értékei MAP2 Csomópont milyen más csp-ok kNN-jeit frissítheti? Ezzel egyébként nyerhetünk a reduce-ban is, mert csomópontról csomópontra nézhetjük a dolgokat Simán lehet, hogy egyszer eljutunk oda is, hogy az egészet be kell húzni a memóriába, ha elég nagy a sugár  De legalább megpróbáltuk  Állandó finomhangolás: mekkora legyen egy cella? Ha kicsi: több cella megy a végén a reduce-ba. Ha nagy: mert akkor meg az összes pont megy REDUCE2 Ha megvan minden jelölt: tényleges távolságszámítás

Outlierek adatfolyamokban

Adatfolyamok Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Buffer, megengedett számítási memória igény korlátos Ismeretlen sebességgel: nem tudja a Google, mikor ülsz le keresni több forrásból, ismeretlen sebességgel Ábra és a számértékes példák forrása: [1]

Kitérő: outlierek idősorokban IT Monitorozás Tőzsdei elemzések Banki csalásfelderítés Mindkét adattípus számít Szenzorok: nagyrészt numerikus 𝐶𝑃𝑈_𝑛𝑖𝑐𝑒: 0.12, 0.13, 0.12, 0.13, … Naplózás: nagyrészt kategorikus 𝑉𝑀_𝑜𝑝𝑒𝑟𝑎𝑡𝑖𝑜𝑛𝑠: Start, Stop, Start, Snapshot, Snapshot, …

Outlierek szekvenciákban A legkiugróbb pont megtalálása 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], …, 𝑇[𝑘 + 𝑙]) ): max    

Outlierek szekvenciákban A legkiugróbb pont megtalálása 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], …, 𝑇[𝑘 + 𝑙]) ): max Square Error regresszióból: min  

Outlierek szekvenciákban A legkiugróbb pont megtalálása 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], …, 𝑇[𝑘 + 𝑙]) ): max Square Error regresszióból: min A pont törlésével a „minimum description length” a lehető legjobban lecsökken. Eredeti: 5 különböző érték -2 törlése után: 4 különböző érték is elég

Hatások szerinti osztályozás Additive outlier A rákövetkező elemekre teljesen hatástalan Level Shift Outlier Permanens hatás Innovational Outlier Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet Transient Change Outlier ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra

Hatások szerinti osztályozás Additive Level Shift Innovational Transient change

Additive és level-shift outlierek a Twitternél Globális és lokális megkülönböztetése Alapötlet: A globálisak látszanak a robusztus statisztikák kiszámítása után A lokálisak látszanak a “maradékból” (idősor – trend – szezonalitás stb.) Miért kell ez a twitternek? Botok/spamek kiszűrése: ünnepek, sportesemények

Additive és level-shift outlierek a Twitternél Pozitív outlierek: kapacitástervezéshez Negatív outlierek: HW vagy adatgyűjtési hibák felderítéséhez Miért kell ez a twitternek? Botok/spamek kiszűrése: ünnepek, sportesemények

“Elvárt viselkedés” streameken 𝑵 + 𝟏. lépés 𝑵. lépés 𝑵 + 𝟐. lépés 𝑵 + 𝟑. lépés

Offline algoritmusok közvetlen adaptálása Periodikus Minden n. adatpont után futtassuk le az X algoritmust Probléma: 𝑥 𝑛 −𝑡 nem tudjuk jelezni Iterált Minden lépésben újrafuttatjuk az X algoritmust Probléma: lassú  “Felügyelt” Az elején kiszámítjuk a “normál” működést, aztán mindent ahhoz viszonyítunk Probléma: az 𝑥 𝑛+3 is outlier lesz, hiszen a normál működést nem frissítjük

Storm STream OutlieR Miner: DB egyfajta streamesítése Lekérdezés: “Kérem az adott ablakban talált outliereket” Alapötlet Minden pontot kategorizáljunk a beérkezése pillanatában, később esetleg tartsuk karban az értékeit Háromféle csomópont típus “safe inlier”: már a bekerülése pillanatában elég szomszédja van “inlier”: a bekerülése után még jöttek hasonló pontok “outlier”: a “lejárati idejéig” sem jött elég szomszédja

Storm Exact-Storm Approximate-Storm Minden iterációban Kiszámoljuk az új elem szomszédságát Ezek alapján frissítjük a régiek értékeit Approximate-Storm Nem tároljuk el az összes safe inliert Nem tároljuk el az összes szomszédot Még így is határon belül tudunk becsülni..

Inkrementális LOF Közelítjük a kNN listát Alapötlet: sokdimenziós geometria

Outlierek szekvenciák között „Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?” Feltételezések Az idősorok hossza azonos Keressük a legkiugróbbat

Outlierek szekvenciák között Ötletek Képezzük le egy értékre az idősort/idősor párokat Elemek egy hasonlósági mátrixba Innentől már akármelyik klasszikus klaszterezési módszer működik Távolságfüggvény a szomszédossághoz?

Idősorok távolságfüggvényei Euklideszi távolság X tengely menti eltolás (offset)? Lehetséges megoldások: Dynamic time warping eleve kiugró értékek alapján hasonlítunk Length of common subsequence

Dinamikus idővetemítés Az idősorok pontjait nem indexenként hasonlítjuk össze Motiváció pl. hangfelismerésnél http://homepages.inf.ed.ac.uk/group/sli_archive/slip0809_c/s0562005/img/DTWExplain.png

Dinamikus idővetemítés számítása 𝑛 ×𝑚-es 𝐷 mátrixban rögzítjük a sorok egymástól való távolságát Kell: 𝑝= 𝑝 1 , 𝑝 2 ,… 𝑝 𝑘 útvonal a 𝐷 1,1 és 𝐷 𝑛,𝑚 között Cél: minimális költség Szabályok: Minden lépésben előre haladunk (nem távolodhatunk, tehát 𝑖,𝑗 → 𝑖 , 𝑗 esetén 𝑖 ≥𝑖, 𝑗 ≥𝑗) Az út folytonos, mindig csak szomszédos cellákra léphetünk

Dinamikus idővetemítés Sakoe-Chiba sáv http://homepages.inf.ed.ac.uk/group/sli_archive/slip0809_c/s0562005/theory.html Másik az Itakura

Longest common subsequence Nem a pontos időpont számít Csak a sorrend 𝑥 1 :𝑎𝑏𝑐𝑑𝑒𝑓𝑔 𝑙𝑐𝑠 𝑥 1 , 𝑥 2 :𝑎𝑏𝑐𝑒𝑔 𝑛𝑙𝑐𝑠( 𝑥 1 , 𝑥 2 ) =5 𝑥 2 :𝑓𝑎𝑏𝑑𝑐𝑒𝑔

Longest common subsequence Nem a pontos időpont számít Csak a sorrend Általánosítás folytonos értékekre

Hivatkozásjegyzék [1] Inkrementális LOF Pokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection for data streams." Computational Intelligence and Data Mining, 2007. CIDM 2007. IEEE Symposium on. IEEE, 2007. [2] Hatás szerinti outlier detektálás idősorokban http://www-01.ibm.com/support/knowledgecenter/SS3RA7_15.0.0/com.ibm.spss.modeler.help/ts_outliers_overview.htm

Hivatkozásjegyzék Exact-Storm Fabrizio Angiulli and Fabio Fassetti. Detecting distance-based outliers in streams of data. CIKM '07 Twitter BreakoutDetection package: https://blog.twitter.com/2015/introducing-practical-and-robust-anomaly-detection-in-a-time-series