Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.

Hasonló előadás


Az előadások a következő témára: "Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault."— Előadás másolata:

1 Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu

2 Alapfogalmak  Az alapfeladat ugyanaz  Az aspektus más

3 MINTAVÉTELEZÉS

4 Mintavételezés  SRS o Simple Random Sample o random mintavétel  Stratified Sample  Cluster sample

5 Mintavételezés  SRS o Simple Random Sample  Stratified Sample o Homogén „réteg” o Mindegyikből random m.  Cluster sample

6 Mintavételezés  SRS o Simple Random Sample  Stratified Sample  Cluster sample o ~azonos méretű klaszterek o Azokból random m.

7 Idősoroknál

8 SZŰRÉS

9 Definíciók  Jelfeldolgozás – frekvencia  Fizika – hullámhosszok  Matematika – részhalmaz  Industrial rock – ??  Számítástechnika o Értékek, jellemzően data streamben Mail Tartalom Wordfilter

10 Adatfolyamok 1.több forrásból, 2.ismeretlen sebességgel 1.több forrásból, 2.ismeretlen sebességgel Buffer, megengedett számítási memória igény korlátos Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Ábra és a számértékes példák forrása: [1]

11 Adatfolyam-források  Szenzor-adatok o 1 millió szenzor x 10/s x 4B  Képek o Szatelitek: n TB/nap  Internetes szolgáltatók o „A legutóbbi órában melyik volt a legnépszerűbb weboldal”  Hálózati forgalom  Tőzsdei adatok

12 Feldolgozás: időkorlát!  Diszk nem használható  Megengedett memóriaigény: korlátos  Elemenkénti számítási igény: korlátos  Szokásos megoldások: o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok

13 Csúszóablakos tárolás

14 Mintavételezés streamekben  Pl. „az elmúlt héten hány egyedi query jött?”  Ezt kb. 10% minta alapján

15 Random mintavételezés  1/3-os mintavételezés 1 3 2 12 3 2 13

16 Mintavételezés streamekben  Pl. „az elmúlt héten hány egyedi query jött?”  Ezt kb. 10% minta alapján  Random mintavételezés o Ha tényleg egyedi a streamben, p = 0.1 a mintában o Ha kétszer fordul elő, p = 0.18 a mintában o Stb. Nem tudunk a minta alapján általánosítani a teljes streamre 

17 Mintavételezés streamekben: Hash  Pl. „az elmúlt héten hány egyedi query jött?”  Ezt kb. 10% minta alapján  Érték alapján szűrünk o Pl. hash függvény 0-9 közé o Feltételezések A hash egyenletes  az értékek 1/10-e kerül be a 0-ba

18 Mintavételezés streamekben: hash  1/3-os mintavételezés 3 3 3 22 1 1 12 Legalább becsülni tudunk Mintavételezés típusa?

19 Szűrés streamekben  Pl. találjuk meg o a „különlegeseket” o az azonosokat o a különbözőeket Már az első is nehéz probléma

20 Bitszámlálás

21 Bloom filterek

22

23 FolyamFilter 00000000000 00100100000 10100101000 BESZÚR(25 = 11001) BESZÚR(159 = 10011111) BESZÚR(585 = 10010010019) 10100101010 KERES(118 = 1110110) 10100101010

24 Bloom filterek

25 OUTLIER DETEKTÁLÁS

26 Alapfeladat Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539 Vannak-e egyáltalán? Hogyan szeparálhatóak? Hogy néznek ki? Miért? Vannak-e egyáltalán? Nagy adat: aggregálás? Szakterület specifikus? Hatások?

27 Alapfeladat

28 Használati esetek Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

29 Használati esetek Képek forrása: http://www.szon.hu/http://www.szon.hu/

30 Használati esetek

31 Alapfogalmak anomaly surprise rare event novelty outlier exception aberration peculiarity discordant observations

32 Definíció  Kevés van belőlük  „Gyanús”, hogy más a generáló folyamat/forrás

33 Pont- és kollektív anomála  Pontanomália  Kollektív anomália

34 Pont- és kollektív anomála  Pontanomália  Kollektív anomália

35 Pont- és kollektív anomália

36 Viselkedési és kontextusanomália  Viselkedési  Kontextus Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.huhttp://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve

37 Viselkedési és kontextusanomália  Viselkedési  Kontextus Itt: viselkedési és pontanomáliák Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.huhttp://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve

38 Megközelítések  Távolság alapúak  Sűrűség alapúak

39 Megközelítések  Távolság alapúak  Sűrűség alapúak

40 VIZUÁLIS MÓDSZEREK

41 1D  Az aggregálás általában nem jó

42 1D  Az aggregálás általában nem jó Néhány kilógó értéket a boxplot egyszerűen elmaszkol

43  Eddig: kilógó esetek az egyes dimenziókban  Hogyan általánosítsunk? o Descartes szorzat? o Sűrűségfüggvény bevonása?

44

45  Generalization of 1D density

46  Egydimenziós általánosítása Több „normál” kategória is létezhet Minden más outlier, esetleg átmenet a normálok között Pontok nélkül a 0-1 nem látszik 

47 TÁVOLSÁG ALAPÚ TECHNIKÁK

48 Befoglaló burok 0 23154678 76845321 Min.: 23144321  Féltér-mélység: Tukey, 1974 Extrém pontok Medián: majd a végén…

49 Befoglaló burok  Féltér-mélység: Tukey, 1974

50 Befoglaló burok  Féltér-mélység: Tukey, 1974

51 DEMO Befoglaló burok

52 DB

53 DEMO DB

54 MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt!

55 MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt! 0.0014 0.00041 0.00011 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139

56 FAST-MCD  Közelítő algoritmus  Véletlenszerűen választott kezdőhalmaz  Iteratív  Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján

57 Mahalanobis távolság Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

58 FAST-MCD X  

59 BACON  Blocked Adaptive Computationally Efficient Outlier Nominators  Kiinduló halmaz félig felügyelt módban is!  Új halmaz: küszöbérték alapján

60 DEMO BACON

61 DEMO BACON

62 SŰRŰSÉG ALAPÚ TECHNIKÁK

63 LOF motiváció

64 LOF  Local Outlier Factor  Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség  Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

65 DEMO LOF

66 Big Data környezet?  Közelítő algoritmusok  Stream processing

67 Hivatkozásjegyzék  [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds https://www.coursera.org/course/mmds  [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009


Letölteni ppt "Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault."

Hasonló előadás


Google Hirdetések