Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaDénes Orsós Megváltozta több, mint 9 éve
1
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu
2
Alapfogalmak Az alapfeladat ugyanaz Az aspektus más
3
MINTAVÉTELEZÉS
4
Mintavételezés SRS o Simple Random Sample o random mintavétel Stratified Sample Cluster sample
5
Mintavételezés SRS o Simple Random Sample Stratified Sample o Homogén „réteg” o Mindegyikből random m. Cluster sample
6
Mintavételezés SRS o Simple Random Sample Stratified Sample Cluster sample o ~azonos méretű klaszterek o Azokból random m.
7
Idősoroknál
8
SZŰRÉS
9
Definíciók Jelfeldolgozás – frekvencia Fizika – hullámhosszok Matematika – részhalmaz Industrial rock – ?? Számítástechnika o Értékek, jellemzően data streamben Mail Tartalom Wordfilter
10
Adatfolyamok 1.több forrásból, 2.ismeretlen sebességgel 1.több forrásból, 2.ismeretlen sebességgel Buffer, megengedett számítási memória igény korlátos Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Ábra és a számértékes példák forrása: [1]
11
Adatfolyam-források Szenzor-adatok o 1 millió szenzor x 10/s x 4B Képek o Szatelitek: n TB/nap Internetes szolgáltatók o „A legutóbbi órában melyik volt a legnépszerűbb weboldal” Hálózati forgalom Tőzsdei adatok
12
Feldolgozás: időkorlát! Diszk nem használható Megengedett memóriaigény: korlátos Elemenkénti számítási igény: korlátos Szokásos megoldások: o Csúszóablakos tárolás és feldolgozás o Mintavételezés o Közelítő algoritmusok
13
Csúszóablakos tárolás
14
Mintavételezés streamekben Pl. „az elmúlt héten hány egyedi query jött?” Ezt kb. 10% minta alapján
15
Random mintavételezés 1/3-os mintavételezés 1 3 2 12 3 2 13
16
Mintavételezés streamekben Pl. „az elmúlt héten hány egyedi query jött?” Ezt kb. 10% minta alapján Random mintavételezés o Ha tényleg egyedi a streamben, p = 0.1 a mintában o Ha kétszer fordul elő, p = 0.18 a mintában o Stb. Nem tudunk a minta alapján általánosítani a teljes streamre
17
Mintavételezés streamekben: Hash Pl. „az elmúlt héten hány egyedi query jött?” Ezt kb. 10% minta alapján Érték alapján szűrünk o Pl. hash függvény 0-9 közé o Feltételezések A hash egyenletes az értékek 1/10-e kerül be a 0-ba
18
Mintavételezés streamekben: hash 1/3-os mintavételezés 3 3 3 22 1 1 12 Legalább becsülni tudunk Mintavételezés típusa?
19
Szűrés streamekben Pl. találjuk meg o a „különlegeseket” o az azonosokat o a különbözőeket Már az első is nehéz probléma
20
Bitszámlálás
21
Bloom filterek
23
FolyamFilter 00000000000 00100100000 10100101000 BESZÚR(25 = 11001) BESZÚR(159 = 10011111) BESZÚR(585 = 10010010019) 10100101010 KERES(118 = 1110110) 10100101010
24
Bloom filterek
25
OUTLIER DETEKTÁLÁS
26
Alapfeladat Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539 Vannak-e egyáltalán? Hogyan szeparálhatóak? Hogy néznek ki? Miért? Vannak-e egyáltalán? Nagy adat: aggregálás? Szakterület specifikus? Hatások?
27
Alapfeladat
28
Használati esetek Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-
29
Használati esetek Képek forrása: http://www.szon.hu/http://www.szon.hu/
30
Használati esetek
31
Alapfogalmak anomaly surprise rare event novelty outlier exception aberration peculiarity discordant observations
32
Definíció Kevés van belőlük „Gyanús”, hogy más a generáló folyamat/forrás
33
Pont- és kollektív anomála Pontanomália Kollektív anomália
34
Pont- és kollektív anomála Pontanomália Kollektív anomália
35
Pont- és kollektív anomália
36
Viselkedési és kontextusanomália Viselkedési Kontextus Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.huhttp://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve
37
Viselkedési és kontextusanomália Viselkedési Kontextus Itt: viselkedési és pontanomáliák Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.huhttp://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve
38
Megközelítések Távolság alapúak Sűrűség alapúak
39
Megközelítések Távolság alapúak Sűrűség alapúak
40
VIZUÁLIS MÓDSZEREK
41
1D Az aggregálás általában nem jó
42
1D Az aggregálás általában nem jó Néhány kilógó értéket a boxplot egyszerűen elmaszkol
43
Eddig: kilógó esetek az egyes dimenziókban Hogyan általánosítsunk? o Descartes szorzat? o Sűrűségfüggvény bevonása?
45
Generalization of 1D density
46
Egydimenziós általánosítása Több „normál” kategória is létezhet Minden más outlier, esetleg átmenet a normálok között Pontok nélkül a 0-1 nem látszik
47
TÁVOLSÁG ALAPÚ TECHNIKÁK
48
Befoglaló burok 0 23154678 76845321 Min.: 23144321 Féltér-mélység: Tukey, 1974 Extrém pontok Medián: majd a végén…
49
Befoglaló burok Féltér-mélység: Tukey, 1974
50
Befoglaló burok Féltér-mélység: Tukey, 1974
51
DEMO Befoglaló burok
52
DB
53
DEMO DB
54
MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt!
55
MCD Minimum Covariance Determinant Alapötlet o Keressük meg a legkompaktabb részhalmazt! 0.0014 0.00041 0.00011 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139 Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139
56
FAST-MCD Közelítő algoritmus Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján
57
Mahalanobis távolság Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance
58
FAST-MCD X
59
BACON Blocked Adaptive Computationally Efficient Outlier Nominators Kiinduló halmaz félig felügyelt módban is! Új halmaz: küszöbérték alapján
60
DEMO BACON
61
DEMO BACON
62
SŰRŰSÉG ALAPÚ TECHNIKÁK
63
LOF motiváció
64
LOF Local Outlier Factor Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan
65
DEMO LOF
66
Big Data környezet? Közelítő algoritmusok Stream processing
67
Hivatkozásjegyzék [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf http://infolab.stanford.edu/~ullman/mmds/book.pdf o Coursera tárgy: https://www.coursera.org/course/mmds https://www.coursera.org/course/mmds [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.