Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaJudit Farkasné Megváltozta több, mint 9 éve
1
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu
2
Alapfogalmak Az alapfeladat ugyanaz Az aspektus más
3
OUTLIER DETEKTÁLÁS
4
Alapfeladat Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539 Vannak-e egyáltalán? Hogyan szeparálhatóak? Hogy néznek ki? Miért? Vannak-e egyáltalán? Nagy adat: aggregálás? Szakterület specifikus? Hatások?
5
Alapfeladat
6
Megközelítések Távolság alapúak Sűrűség alapúak
7
Megközelítések Távolság alapúak Sűrűség alapúak
8
TÁVOLSÁG ALAPÚ TECHNIKÁK
9
Befoglaló burok 0 23154678 76845321 Min.: 23144321 Féltér-mélység: Tukey, 1974 Extrém pontok Medián: majd a végén…
10
Befoglaló burok Féltér-mélység: Tukey, 1974
11
Befoglaló burok Féltér-mélység: Tukey, 1974
12
DEMO Befoglaló burok
13
DB
14
DEMO DB
15
MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt!
16
MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt! 0.0014 0.00041 0.00011 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139
17
FAST-MCD Közelítő algoritmus Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján
18
Mahalanobis távolság Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance
19
FAST-MCD X
20
BACON Blocked Adaptive Computationally Efficient Outlier Nominators Kiinduló halmaz félig felügyelt módban is! Új halmaz: küszöbérték alapján
21
DEMO BACON
22
DEMO BACON
23
SŰRŰSÉG ALAPÚ TECHNIKÁK
24
DB alapötlete Hiába vagyunk a középpontban, ha nincsenek szomszédaink Distance-based approach
25
LOF motiváció: mikor jó a DB?
26
LOF Local Outlier Factor Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan
27
LOF Ha a szomszédaim is magányosak, nincs nagy gond LOF: DMwR::lofactor Local outlier factor
28
DEMO LOF
29
OUTLIEREK ADATFOLYAMOKBAN
30
Adatfolyamok 1.több forrásból, 2.ismeretlen sebességgel 1.több forrásból, 2.ismeretlen sebességgel Buffer, megengedett számítási memória igény korlátos Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Ábra és a számértékes példák forrása: [1]
31
Outlierek idősorokban
32
Hatások szerinti osztályozás Additive outlier o A rákövetkező elemekre teljesen hatástalan Level Shift Outlier o Permanens hatás Innovational Outlier o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet Transient Change Outlier o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra
33
Basic types Additive Transient change Level Shift Innovational
34
Outlierek szekvenciák között „Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?” Feltételezések o Az idősorok hossza azonos o Keressük a legkiugróbbat
35
Outlierek szekvenciák között Ötletek o Képezzük le egy értékre az idősort variancia az első pillanat, amikor az érték elért egy küszöböt o Elemek egy hasonlósági mátrixba Innentől már akármelyik klasszikus klaszterezési módszer működik Távolságfüggvény a szomszédossághoz?
36
Idősorok távolságfüggvényei Euklideszi távolság o X tengely menti eltolás (offset)? Dynamic time warping o eleve kiugró értékek alapján hasonlítunk Length of common subsequence
37
Dinamikus idővetemítés Az idősorok pontjait nem indexenként hasonlítjuk össze o Motiváció pl. hangfelismerésnél
38
Dinamikus idővetemítés számítása
39
Dinamikus idővetemítés Sakoe-Chiba sáv
40
Longest common subsequence Nem a pontos időpont számít Csak a sorrend
41
Longest common subsequence Nem a pontos időpont számít Csak a sorrend Általánosítás folytonos értékekre
42
Outlierek szekvenciákban
43
Outlierek szekvenciákban
44
Outlierek szekvenciákban Eredeti: 5 különböző érték -2 törlése után: 4 különböző érték is elég
45
Autokorrelációs módszerek Autokorrelációs módszerek o Hol térünk el nagyon a prediktált értéktől? o Hol változik legjobban az autokorrelációs modell?
46
Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat? Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)
47
Kiindulási feltételek Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés
48
Kiindulási feltételek Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell? Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés
49
NNDB
50
Apriori információval – NNDB Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe
51
Implementációs kérdések
52
1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt
53
Map-Reduce? REDUCE MAP Csomópont milyen más csp- ok kNN-jeit frissítheti? Ha megvan minden jelölt: tényleges távolságszámítás Mi van, ha már a felosztást is elosztottan akarom végezni?
54
Egy kis csalás.. Voronoi cellák
55
Amiért jó: MapReduce MAP1 REDUCE2 MAP2 Csomópont->tartomány hozzárendelések Csomópont milyen más csp- ok kNN-jeit frissítheti? Ha megvan minden jelölt: tényleges távolságszámítás REDUCE1 Tartományok értékei
56
Hivatkozásjegyzék [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds https://www.coursera.org/course/mmds [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.