Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.

Hasonló előadás


Az előadások a következő témára: "Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault."— Előadás másolata:

1 Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu

2 Alapfogalmak  Az alapfeladat ugyanaz  Az aspektus más

3 OUTLIER DETEKTÁLÁS

4 Alapfeladat Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539 Vannak-e egyáltalán? Hogyan szeparálhatóak? Hogy néznek ki? Miért? Vannak-e egyáltalán? Nagy adat: aggregálás? Szakterület specifikus? Hatások?

5 Alapfeladat

6 Megközelítések  Távolság alapúak  Sűrűség alapúak

7 Megközelítések  Távolság alapúak  Sűrűség alapúak

8 TÁVOLSÁG ALAPÚ TECHNIKÁK

9 Befoglaló burok 0 23154678 76845321 Min.: 23144321  Féltér-mélység: Tukey, 1974 Extrém pontok Medián: majd a végén…

10 Befoglaló burok  Féltér-mélység: Tukey, 1974

11 Befoglaló burok  Féltér-mélység: Tukey, 1974

12 DEMO Befoglaló burok

13 DB

14 DEMO DB

15 MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt!

16 MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt! 0.0014 0.00041 0.00011 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139

17 FAST-MCD  Közelítő algoritmus  Véletlenszerűen választott kezdőhalmaz  Iteratív  Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján

18 Mahalanobis távolság Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

19 FAST-MCD X  

20 BACON  Blocked Adaptive Computationally Efficient Outlier Nominators  Kiinduló halmaz félig felügyelt módban is!  Új halmaz: küszöbérték alapján

21 DEMO BACON

22 DEMO BACON

23 SŰRŰSÉG ALAPÚ TECHNIKÁK

24 DB alapötlete Hiába vagyunk a középpontban, ha nincsenek szomszédaink  Distance-based approach

25 LOF motiváció: mikor jó a DB?

26 LOF  Local Outlier Factor  Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség  Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

27 LOF Ha a szomszédaim is magányosak, nincs nagy gond LOF: DMwR::lofactor Local outlier factor

28 DEMO LOF

29 OUTLIEREK ADATFOLYAMOKBAN

30 Adatfolyamok 1.több forrásból, 2.ismeretlen sebességgel 1.több forrásból, 2.ismeretlen sebességgel Buffer, megengedett számítási memória igény korlátos Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Ábra és a számértékes példák forrása: [1]

31 Outlierek idősorokban

32 Hatások szerinti osztályozás  Additive outlier o A rákövetkező elemekre teljesen hatástalan  Level Shift Outlier o Permanens hatás  Innovational Outlier o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet  Transient Change Outlier o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra

33 Basic types Additive Transient change Level Shift Innovational

34 Outlierek szekvenciák között  „Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?”  Feltételezések o Az idősorok hossza azonos o Keressük a legkiugróbbat

35 Outlierek szekvenciák között  Ötletek o Képezzük le egy értékre az idősort variancia az első pillanat, amikor az érték elért egy küszöböt o Elemek egy hasonlósági mátrixba  Innentől már akármelyik klasszikus klaszterezési módszer működik  Távolságfüggvény a szomszédossághoz?

36 Idősorok távolságfüggvényei  Euklideszi távolság o X tengely menti eltolás (offset)?  Dynamic time warping o eleve kiugró értékek alapján hasonlítunk  Length of common subsequence

37 Dinamikus idővetemítés  Az idősorok pontjait nem indexenként hasonlítjuk össze o Motiváció pl. hangfelismerésnél

38 Dinamikus idővetemítés számítása

39 Dinamikus idővetemítés Sakoe-Chiba sáv

40 Longest common subsequence  Nem a pontos időpont számít  Csak a sorrend

41 Longest common subsequence  Nem a pontos időpont számít  Csak a sorrend  Általánosítás folytonos értékekre

42 Outlierek szekvenciákban  

43 Outlierek szekvenciákban 

44 Outlierek szekvenciákban Eredeti: 5 különböző érték -2 törlése után: 4 különböző érték is elég

45 Autokorrelációs módszerek  Autokorrelációs módszerek o Hol térünk el nagyon a prediktált értéktől? o Hol változik legjobban az autokorrelációs modell?

46 Egy kis kitérő: NNDB  Felügyelt: feltételezzük, hogy létezik orákulum  Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?  Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni  Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

47 Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

48 Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell?  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

49 NNDB

50 Apriori információval – NNDB Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe

51 Implementációs kérdések

52 1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt  Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt 

53 Map-Reduce? REDUCE MAP Csomópont milyen más csp- ok kNN-jeit frissítheti? Ha megvan minden jelölt: tényleges távolságszámítás Mi van, ha már a felosztást is elosztottan akarom végezni?

54 Egy kis csalás.. Voronoi cellák

55 Amiért jó: MapReduce MAP1 REDUCE2 MAP2 Csomópont->tartomány hozzárendelések Csomópont milyen más csp- ok kNN-jeit frissítheti? Ha megvan minden jelölt: tényleges távolságszámítás REDUCE1 Tartományok értékei

56 Hivatkozásjegyzék  [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds https://www.coursera.org/course/mmds  [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009


Letölteni ppt "Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault."

Hasonló előadás


Google Hirdetések