Salánki Ágnes salanki@mit.bme.hu Outlierdetektálás Salánki Ágnes salanki@mit.bme.hu.

Slides:



Advertisements
Hasonló előadás
Szimmetriák szerepe a szilárdtestfizikában
Advertisements

Kauzális modellek Randall Munroe.
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
2.1Jelátalakítás - kódolás
Az úttervezési előírások változásai
Fizika II..
Számítógépes Hálózatok
Profitmaximalizálás  = TR – TC
A járműfenntartás valószínűségi alapjai
Szenzorok Bevezetés és alapfogalmak
Végeselemes modellezés matematikai alapjai
A magas baleseti kockázatú útszakaszok rangsorolása
Szerkezetek Dinamikája
MÉZHAMISÍTÁS.
Hőtan BMegeenatmh 5. Többfázisú rendszerek
BMEGEENATMH Hőátadás.
AUTOMATIKAI ÉPÍTŐELEMEK Széchenyi István Egyetem
Skandináv dizájn Hisnyay – Heinzelmann Luca FG58PY.
VÁLLALATI Pénzügyek 2 – MM
Hőtan BMEGEENATMH 4. Gázkörfolyamatok.
Szerkezetek Dinamikája
Összeállította: Polák József
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
Csáfordi, Zsolt – Kiss, Károly Miklós – Lengyel, Balázs
Tisztelt Hallgatók! Az alábbi példamegoldások segítségével felkészülhetnek a 15 pontos zárthelyi dolgozatra, ahol azt kell majd bizonyítaniuk, hogy a vállalati.
J. Caesar hatalomra jutása atl. 16d
Anyagforgalom a vizekben
Kováts András MTA TK KI Menedék Egyesület
Az eljárás megindítása; eljárási döntések az eljárás megindítása után
Melanóma Hakkel Tamás PPKE-ITK
Az új közbeszerzési szabályozás – jó és rossz gyakorlatok
Képzőművészet Zene Tánc
Penicillin származékok szabadgyökös reakciói
Boros Sándor, Batta Gyula
Bevezetés az alvás-és álomkutatásba
Kalandozások az álomkutatás területén
TANKERÜLETI (JÁRÁSI) SZAKÉRTŐI BIZOTTSÁG
Nemzetközi tapasztalatok kihűléssel kapcsolatban
Gajdácsi József Főigazgató-helyettes
Követelmények Szorgalmi időszakban:
Brachmann Krisztina Országos Epidemiológiai Központ
A nyelvtechnológia eszközei és nyersanyagai 2016/ félév
Járványügyi teendők meningococcus betegség esetén
Kezdetek októberében a könyvtár TÁMOP (3.2.4/08/01) pályázatának keretében vette kezdetét a Mentori szolgálat.
Poszt transzlációs módosulások
Vitaminok.
A sebész fő ellensége: a vérzés
Pharmanex ® Bone Formula
Data Mining Machine Learning a gyakorlatban - eszközök és technikák
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
Pontos, precíz és hatékony elméleti módszerek az anion-pi kölcsönhatási energiák számítására modell szerkezetekben előadó: Mezei Pál Dániel Ph. D. hallgató.
Bevezetés a pszichológiába
MOSZKVA ZENE: KALINKA –HELMUT LOTTI AUTOMATA.
Bőrimpedancia A bőr fajlagos ellenállásának és kapacitásának meghatározása Impedancia (Z): Ohmos ellenállást, frekvenciafüggő elemeket (kondenzátort, tekercset)
Poimenika SRTA –
Végeselemes modellezés matematikai alapjai
Összefoglalás.
Az energiarendszerek jellemzői, hatékonysága
Varga Júlia MTA KRTK KTI Szirák,
Konzerváló fogászat Dr. Szabó Balázs
Outlier detektálás nagyméretű adathalmazokon
További MapReduce szemelvények: gráfproblémák
Ráhagyások, Mérés, adatgyűjtés
Járműcsarnokok technológiai méretezése
Grafikai művészet Victor Vasarely Maurits Cornelis Escher.
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Az anyagok fejlesztésével a méretek csökkennek [Feynman, 1959].
Bevezetés a színek elméletébe és a fényképezéssel kapcsolatos fogalmak
Minőségmenedzsment alapjai
Előadás másolata:

Salánki Ágnes salanki@mit.bme.hu Outlierdetektálás Salánki Ágnes salanki@mit.bme.hu

Definíció Kevés van belőlük „Gyanús”, hogy más a generáló folyamat/forrás Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему. Happy families are all alike;  every unhappy family is unhappy in its own way. A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az. (Tolsztoj: Anna Karenina)

Pont- és kollektív anomála Pontanomália Kollektív anomália

Pont- és kollektív anomála Pontanomália Kollektív anomália

Pont- és kollektív anomália Vonalak  bonnie magyarázat

Viselkedési és kontextusanomália Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.hu

Viselkedési és kontextusanomália Itt: viselkedési és pontanomáliák Ábrák forrása: http://www.baki-agrocentrum.hu/hu/szakmai-anyagok/agronomiai-informaciok/az-eghajlatvaltozas-zala-megye-szivebol-nezve http://www.metcenter.hu

Megközelítések Globális outlierek Lokális outlierek

Megközelítések Globális outlierek Lokális outlierek

Esettanulmány: PISA 2012 PISA 2012 results Most: matematika és értő olvasás eredmények China-Shanghai Japan Colombia Indonesia Peru Quatar

Befoglaló burok Féltér-mélység: Tukey, 1974 Min.: Extrém pontok 2 3 4 5 6 7 8 8 7 6 5 4 3 2 1 Min.: 1 2 3 4 4 3 2 1 Extrém pontok Medián: majd a végén… ℎ𝑑𝑠 𝑧 : min 𝑥 𝑖 : 𝑥 𝑖 ≤𝑧 , 𝑥 𝑗 : 𝑥 𝑗 ≥𝑧

Befoglaló burok Féltér-mélység: Tukey, 1974 Több dimenzió: veszem az összes lehetséges féltér-mélységét és számolok egy minimumot.

Befoglaló burok Féltér-mélység: Tukey, 1974 Több dimenzió: veszem az összes lehetséges féltér-mélységét és számolok egy minimumot.

Isodepth (Depth-Based) China-Shanghai Japan Costa Rica Colombia Kazakhstan

DEMO Befoglaló burok Csomag: depth Hasznos függvények: depth, isodepth Paraméterek: 𝑢 pont, 𝑑𝑝𝑡ℎ mélység

DB Distance Based Outlier: szomszédok száma alacsony Paraméterek 𝑟 sugarú hipergömb Szomszédok elvárt 𝜋 aránya

db – Distance-Based China-Shanghai Japan Costa Rica

DEMO DB Csomag: fields Függvény: fields.rdist.near Paraméterek: 𝑑𝑒𝑙𝑡𝑎 sugár

MCD Minimum Covariance Determinant Alapötlet Keressük meg a legkompaktabb részhalmazt!

Kimerítő keresés? MCD choose(n = 1000, k = 900) [1] 6.385051e+139 Minimum Covariance Determinant Alapötlet Keressük meg a legkompaktabb részhalmazt! Kimerítő keresés? choose(n = 1000, k = 900) [1] 6.385051e+139 0.0014 0.00041 0.00011

FAST-MCD Közelítő algoritmus Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása Mahalanobis távolság alapján

Mahalanobis távolság 𝐷 𝑥, 𝑀 = (𝑥 − 𝜗) 𝑇 𝑆 −1 𝑥 − 𝜗 𝐷 𝑥, 𝑀 = (𝑥 − 𝜗) 𝑇 𝑆 −1 𝑥 − 𝜗 𝑆 – kovarianciamátrix 𝜗 – súlypont Kovariancia: mennyire változnak együtt? Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

    FAST-MCD Közelítő algoritmus Véletlenszerűen választott kezdőhalmaz Iteratív Legközelebbi pontok kiválasztása Mahalanobis távolság alapján Legközelebbi 𝑥%  X   

BACON Blocked Adaptive Computationally Efficient Outlier Nominators Kiinduló halmaz félig felügyelt módban is! Új halmaz: küszöbérték alapján

BACON China-Shanghai Montenegro Peru Albania Kazakhstan Quatar

DEMO BACON Csomag: robustX Függvény: mvBACON Paraméterek 𝑖𝑛𝑖𝑡.𝑠𝑒𝑙 kezdőhalmaz „manual” – 𝑚𝑎𝑛.𝑠𝑒𝑙 kezdőhalmaz „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete

DEMO BACON Csomag: robustX Függvény: mvBACON Paraméterek 𝑖𝑛𝑖𝑡.𝑠𝑒𝑙 kezdőhalmaz „manual” – 𝑚𝑎𝑛.𝑠𝑒𝑙 kezdőhalmaz „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete

LOF motiváció

LOF Local Outlier Factor Alapötlet Outlier kritérium csak a szomszéd számít a távolság is módosul lokális sűrűség Outlier kritérium a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan Rd – reachability distance  simítás Lokális elérési sűrűség – 1 / (átlagban én milyen messze vagyok a többiektől) Lof – a környezetembe tartozó pontok és a sajátomnak az átlaga

LOF China-Shanghai Macao Liechtenstein

DEMO LOF Csomag: DMwR (Data Mining with R) Függvény: lofactor Paraméterek: 𝑘 szomszédság mérete

Esettanulmány: wealth & health of nations Hans Rosling 2006-os TED talkja A másik teljesen irreleváns kedvenc TED talkom: http://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization?language=en

Wealth and health of nations

Wealth and health of nations Happy families are all  alike;  every unhappy family is unhappy in its own way.

Wealth and health of nations időbeli változás

Hivatkozásjegyzék Outlier Detection alapmű Outlier Detection demo Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009 Outlier Detection demo https://github.com/FTSRG/BigDANTE/tree/master/RareEventDetectionDemo