Mintavételezés, szűrés, outlierek detektálása

Slides:



Advertisements
Hasonló előadás
Szimmetriák szerepe a szilárdtestfizikában
Advertisements

Kauzális modellek Randall Munroe.
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
2.1Jelátalakítás - kódolás
Az úttervezési előírások változásai
Fizika II..
Számítógépes Hálózatok
Profitmaximalizálás  = TR – TC
A járműfenntartás valószínűségi alapjai
Szenzorok Bevezetés és alapfogalmak
Végeselemes modellezés matematikai alapjai
A magas baleseti kockázatú útszakaszok rangsorolása
Szerkezetek Dinamikája
MÉZHAMISÍTÁS.
Hőtan BMegeenatmh 5. Többfázisú rendszerek
BMEGEENATMH Hőátadás.
AUTOMATIKAI ÉPÍTŐELEMEK Széchenyi István Egyetem
Skandináv dizájn Hisnyay – Heinzelmann Luca FG58PY.
VÁLLALATI Pénzügyek 2 – MM
Hőtan BMEGEENATMH 4. Gázkörfolyamatok.
Szerkezetek Dinamikája
Összeállította: Polák József
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
Csáfordi, Zsolt – Kiss, Károly Miklós – Lengyel, Balázs
Tisztelt Hallgatók! Az alábbi példamegoldások segítségével felkészülhetnek a 15 pontos zárthelyi dolgozatra, ahol azt kell majd bizonyítaniuk, hogy a vállalati.
J. Caesar hatalomra jutása atl. 16d
Anyagforgalom a vizekben
Kováts András MTA TK KI Menedék Egyesület
Az eljárás megindítása; eljárási döntések az eljárás megindítása után
Melanóma Hakkel Tamás PPKE-ITK
Az új közbeszerzési szabályozás – jó és rossz gyakorlatok
Képzőművészet Zene Tánc
Penicillin származékok szabadgyökös reakciói
Boros Sándor, Batta Gyula
Bevezetés az alvás-és álomkutatásba
Kalandozások az álomkutatás területén
TANKERÜLETI (JÁRÁSI) SZAKÉRTŐI BIZOTTSÁG
Nemzetközi tapasztalatok kihűléssel kapcsolatban
Gajdácsi József Főigazgató-helyettes
Követelmények Szorgalmi időszakban:
Brachmann Krisztina Országos Epidemiológiai Központ
A nyelvtechnológia eszközei és nyersanyagai 2016/ félév
Járványügyi teendők meningococcus betegség esetén
Kezdetek októberében a könyvtár TÁMOP (3.2.4/08/01) pályázatának keretében vette kezdetét a Mentori szolgálat.
Poszt transzlációs módosulások
Vitaminok.
A sebész fő ellensége: a vérzés
Pharmanex ® Bone Formula
Data Mining Machine Learning a gyakorlatban - eszközök és technikák
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
Pontos, precíz és hatékony elméleti módszerek az anion-pi kölcsönhatási energiák számítására modell szerkezetekben előadó: Mezei Pál Dániel Ph. D. hallgató.
Bevezetés a pszichológiába
MOSZKVA ZENE: KALINKA –HELMUT LOTTI AUTOMATA.
Bőrimpedancia A bőr fajlagos ellenállásának és kapacitásának meghatározása Impedancia (Z): Ohmos ellenállást, frekvenciafüggő elemeket (kondenzátort, tekercset)
Poimenika SRTA –
Végeselemes modellezés matematikai alapjai
Összefoglalás.
Az energiarendszerek jellemzői, hatékonysága
Varga Júlia MTA KRTK KTI Szirák,
Konzerváló fogászat Dr. Szabó Balázs
Outlier detektálás nagyméretű adathalmazokon
További MapReduce szemelvények: gráfproblémák
Ráhagyások, Mérés, adatgyűjtés
Járműcsarnokok technológiai méretezése
Grafikai művészet Victor Vasarely Maurits Cornelis Escher.
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Az anyagok fejlesztésével a méretek csökkennek [Feynman, 1959].
Bevezetés a színek elméletébe és a fényképezéssel kapcsolatos fogalmak
Minőségmenedzsment alapjai
Előadás másolata:

Mintavételezés, szűrés, outlierek detektálása Salánki Ágnes salanki@mit.bme.hu

Alapfogalmak Az alapfeladat ugyanaz Az aspektus más

Mintavételezés

Mintavételezés SRS Stratified Sample Cluster sample

Mintavételezés SRS Stratified Sample Cluster sample Simple Random Sample random mintavétel Stratified Sample Cluster sample

Mintavételezés SRS Stratified Sample Cluster sample Simple Random Sample Stratified Sample Homogén „réteg” Mindegyikből random m. Cluster sample Feltétel: diszjunkt halmazokra kell hogy tudjam osztani

Mintavételezés SRS Stratified Sample Cluster sample Simple Random Sample Stratified Sample Cluster sample ~azonos méretű klaszterek Azokból random m.

Idősoroknál Outlierek? Random sampling size mondjuk 𝑝 = 0.001-nél? Lásd még „imbalanced” adatsorok P = 0.001-nél hány pont kell ahhoz, hogy elcsípjünk egyetlen kilógó értéket? 1 outlierre 1000 másik

Mintavételezés streamekben Pl. „az elmúlt héten hány egyedi lekérdezés jött?” megválaszolása 𝑛% minta alapján Web crawler: van egy adag linkünk, azt szétdobjuk a joboknak, akik meglátogatják a weboldalakat és onnan kigyűjtik az ott talált linkeket. Fel kell ismerni az azonos elemeket

Random mintavételezés 1/3-os mintavételezés egyedi lekérdezések aránya: 3/9 egyedi lekérdezések aránya egy kiválasztott mintában? 3 2 1 3 2 1 3 2 1 𝑝 = 1.0 𝑝 = 1.0 𝑝 = 1.0

Mintavételezés streamekben Random mintavételezés 10 vödörrel Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben) Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb. Nem tudunk a minta alapján általánosítani a teljes streamre  Web crawler: van egy adag linkünk, azt szétdobjuk a joboknak, akik meglátogatják a weboldalakat és onnan kigyűjtik az ott talált linkeket. Fel kell ismerni az azonos elemeket

Mintavételezés streamekben: Hash Pl. „az elmúlt héten hány egyedi lekérdezés jött?” megválaszolása 𝑛% minta alapján Érték alapján szűrünk Pl. hash függvény 0-9 közé Az azonosak azonos vödörbe kerülnek Feltételezések A hash egyenletes  az értékek 1/10-e kerül be a 0-ba

Mintavételezés streamekben: hash 1/3-os mintavételezés 2 3 3 3 2 2 1 1 1 Nagyobb biztonsággal tudunk becsülni  Mintavételezés típusa? 𝑝 =1/3 𝑝 = 1/3 𝑝 = 1/3

Outlier detektálás

Outlier „An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980) chess grandmaster Judit Polgár and Garry Kasparov reported IQ

Használati esetek Nálunk: Hálózati behatolás, teljesítménymenedzsment Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Használati esetek Képek forrása: http://www.szon.hu/ Rendfelügyelet: megvan a térfigyelő kamerák képeinek elemzése + terrorista-elhárítás is Képek forrása: http://www.szon.hu/

Használati esetek Tudományos világ: csillagászat támogatás, gyógyászat: automatikus detektálást segítünk

Használati esetek

Alapfogalmak outlier anomaly rare event discordant observations exception peculiarity outlier novelty rare event anomaly discordant observations aberration surprise

Definíció Kevés van belőlük „Gyanús”, hogy más a generáló folyamat/forrás Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему. Happy families are all alike;  every unhappy family is unhappy in its own way. A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az. (Tolsztoj: Anna Karenina)

Hivatkozásjegyzék [1] Stream Processing, filtering: Mining of Massive Data Sets Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf Coursera tárgy: https://www.coursera.org/course/mmds [2] Outlier Detection Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009