Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.

Slides:



Advertisements
Hasonló előadás
Függvények.
Advertisements

Skálázható kollaboratív filtering módszerek a Netflix Prize versenyen The Budapest New Technology July Meeting július 2. Tikk Domonkos Gravity Research.
1 AIBO Robotfoci Bodor László IAR Bevezetés AIBO RoboCup AIBO RoboCup Célok Célok Rendszer elemei Rendszer elemei Megvalósítás terve Megvalósítás.
A rendszerszintű diagnosztika alapjai
MI 2003/9 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Felszíni és felszín alatti víz monitoring
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
Vizuális adatanalízis
Digitális képanalízis
Domain tesztelés bemutatása PHP tesztelés
Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István.
PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
Közeltéri mikroszkópiák
SAS Enterprise Miner 2. gyakorlat
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Hatékony gyorsítótár használata legrövidebb utak kereséséhez Bodnár István, Fodor Krisztián, Gyimesi Gábor Jeppe Rishede Thomsen, Man Lung Yiu, Christian.
Gépi tanulási módszerek
Távolságok, hasonlósági mértékek, dinamikus idővetemítés.
Osztályozás -- KNN Példa alapú tanulás: 1 legközelebbi szomszéd, illetve K-legközelebbi szomszéd alapú osztályozó eljárások.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Halmazok, relációk, függvények
Véletlen logikai hálózatok. Bevezető Logikai változó: Bináris változó. Két lehetséges értéke van: 0 és 1, néha ±1 {σ 1, σ 2,..., σ N }, σ i : {0,1}, i.
SZÁMÍTÓGÉP ARCHITEKTÚRÁK
Vámossy Zoltán 2004 (Mubarak Shah, Gonzales-Woods anyagai alapján)
Adatbányászat: Klaszterezés Haladó fogalmak és algoritmusok
Adatbányászat: Rendellenesség keresés
Matematika III. előadások MINB083, MILB083
Regresszióanalízis 10. gyakorlat.
Hierarchikus klaszteranalízis
Lázár István Témavezető: Hajdu András
ma már nem a vizsgált téma, hanem a használt módszerek teszik a fizikát dominál az átlagos viselkedés!!! alkalmazhatjuk a statisztikus fizika módszereit.
Dr. Balogh Péter Gazdaságelemzési és Statisztika Tanszék DE-AMTC-GVK
Fejmozgás alapú gesztusok felismerése Bertók Kornél, Fazekas Attila Debreceni Egyetem, Informatikai Kar Debreceni Képfeldolgozó Csoport KÉPAF 2013, Bakonybél.
Fuzzy rendszerek dr. Szilágyi László.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Problémás függvények : lokális optimalizáció nem használható Globális optimalizáció.
Optimalizáció modell kalibrációja Adott az M modell, és p a paraméter vektora. Hogyan állítsuk be p -t hogy a modell kimenete az x bemenő adatokon a legjobban.
Felszíni víz monitoring
Közeltéri mikroszkópiák
1 AAO folytatás ++ Csink László. 2 Rekurzív bináris keresés (rendezett tömbben) public static int binker(int[] tomb, int value, int low, int high) public.
Adatbányászati módszerek a térinformatikában
Többváltozós adatelemzés
Többváltozós adatelemzés
Alapfogalmak.
Belami beszámoló – Doménadaptációs alkalmazások. Problémafelvetés Felügyelt tanulás elvégzéséhez gyakran kevés jelölt adat áll rendelkezésre  doménadaptáció.
Valós idejű adaptív útvonalkeresés
Gazdasági viszonyszámok képzése IKT eszközök felhasználásával
Rövid összefoglaló a függvényekről
Vízminősítés és terhelés számítás feladat
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault.
Adatbányászati módszerek a weblogfájlok elemzésében
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
Bevezetés a méréskiértékelésbe (BMETE80ME19) 2014/
előadások, konzultációk
A HATÁROZOTT INTEGRÁL FOGALMA
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Korlátkielégítési problémák Autonóm és hibatűrő információs.
Fraktálok. Motiváció Three-Dimensional Mapping of Dislocation Avalanches: Clustering and Space/Time Coupling Jérôme Weiss and David Marsan Science 3 January.
F IGYELMI ALGORITMUSOKKAL VEZÉRELT HELYSZÍNANALÍZIS Persa György.
Bináris kereső fák Itterátorok.
MI 2003/8 - 1 Alakfelismerés alapproblémája: adott objektumok egy halmaza, továbbá osztályok (kategóriák) egy halmaza. Feladatunk: az objektumokat - valamilyen.
Incremental change © 2013 Betyár Gábor Rendszerfejlesztés II. 3. Óra.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék MapReduce alapok „Big Data” elemzési módszerek Kocsis Imre,
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
GPU alapú fotontranszport nagyfelbontású heterogén közegben BME IIT Szirmay-Kalos László Magdics Milán Tóth Balázs.
Lineáris programozás Elemi példa Alapfogalmak Általános vizsg.
Sudoku.
Mediánok és rendezett minták
Algoritmusok és Adatszerkezetek I.
Előadás másolata:

Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes

Alapfogalmak  Az alapfeladat ugyanaz  Az aspektus más

OUTLIER DETEKTÁLÁS

Alapfeladat Ábra forrása: Vannak-e egyáltalán? Hogyan szeparálhatóak? Hogy néznek ki? Miért? Vannak-e egyáltalán? Nagy adat: aggregálás? Szakterület specifikus? Hatások?

Alapfeladat

Megközelítések  Távolság alapúak  Sűrűség alapúak

Megközelítések  Távolság alapúak  Sűrűség alapúak

TÁVOLSÁG ALAPÚ TECHNIKÁK

Befoglaló burok Min.:  Féltér-mélység: Tukey, 1974 Extrém pontok Medián: majd a végén…

Befoglaló burok  Féltér-mélység: Tukey, 1974

Befoglaló burok  Féltér-mélység: Tukey, 1974

DEMO Befoglaló burok

DB

DEMO DB

MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt!

MCD  Minimum Covariance Determinant  Alapötlet o Keressük meg a legkompaktabb részhalmazt! Kimerítő keresés? choose(n = 1000, k = 900) [1] e+139 Kimerítő keresés? choose(n = 1000, k = 900) [1] e+139

FAST-MCD  Közelítő algoritmus  Véletlenszerűen választott kezdőhalmaz  Iteratív  Legközelebbi pontok kiválasztása o Mahalanobis távolság alapján

Mahalanobis távolság Ábra forrása:

FAST-MCD X  

BACON  Blocked Adaptive Computationally Efficient Outlier Nominators  Kiinduló halmaz félig felügyelt módban is!  Új halmaz: küszöbérték alapján

DEMO BACON

DEMO BACON

SŰRŰSÉG ALAPÚ TECHNIKÁK

DB alapötlete Hiába vagyunk a középpontban, ha nincsenek szomszédaink  Distance-based approach

LOF motiváció: mikor jó a DB?

LOF  Local Outlier Factor  Alapötlet: csak a szomszédaival hasonlítsuk össze o lokális sűrűség  Outlier kritérium o a lokális sűrűség jóval kisebb, mint a szomszédaimnak átlagosan

LOF Ha a szomszédaim is magányosak, nincs nagy gond LOF: DMwR::lofactor Local outlier factor

DEMO LOF

OUTLIEREK ADATFOLYAMOKBAN

Adatfolyamok 1.több forrásból, 2.ismeretlen sebességgel 1.több forrásból, 2.ismeretlen sebességgel Buffer, megengedett számítási memória igény korlátos Egyszer streamenként: „Lokális maximum?” Globális kérdések: „Minden új maximumot jelezzünk” Ábra és a számértékes példák forrása: [1]

Outlierek idősorokban

Hatások szerinti osztályozás  Additive outlier o A rákövetkező elemekre teljesen hatástalan  Level Shift Outlier o Permanens hatás  Innovational Outlier o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet  Transient Change Outlier o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra

Basic types Additive Transient change Level Shift Innovational

Outlierek szekvenciák között  „Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?”  Feltételezések o Az idősorok hossza azonos o Keressük a legkiugróbbat

Outlierek szekvenciák között  Ötletek o Képezzük le egy értékre az idősort variancia az első pillanat, amikor az érték elért egy küszöböt o Elemek egy hasonlósági mátrixba  Innentől már akármelyik klasszikus klaszterezési módszer működik  Távolságfüggvény a szomszédossághoz?

Idősorok távolságfüggvényei  Euklideszi távolság o X tengely menti eltolás (offset)?  Dynamic time warping o eleve kiugró értékek alapján hasonlítunk  Length of common subsequence

Dinamikus idővetemítés  Az idősorok pontjait nem indexenként hasonlítjuk össze o Motiváció pl. hangfelismerésnél

Dinamikus idővetemítés számítása

Dinamikus idővetemítés Sakoe-Chiba sáv

Longest common subsequence  Nem a pontos időpont számít  Csak a sorrend

Longest common subsequence  Nem a pontos időpont számít  Csak a sorrend  Általánosítás folytonos értékekre

Outlierek szekvenciákban  

Outlierek szekvenciákban 

Outlierek szekvenciákban Eredeti: 5 különböző érték -2 törlése után: 4 különböző érték is elég

Autokorrelációs módszerek  Autokorrelációs módszerek o Hol térünk el nagyon a prediktált értéktől? o Hol változik legjobban az autokorrelációs modell?

Egy kis kitérő: NNDB  Felügyelt: feltételezzük, hogy létezik orákulum  Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?  Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni  Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell?  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

NNDB

Apriori információval – NNDB Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe

Implementációs kérdések

1. ÉPÍT Hierarchikus adatszerkezetben a közeli ponthalmazok Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt  Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt 

Map-Reduce? REDUCE MAP Csomópont milyen más csp- ok kNN-jeit frissítheti? Ha megvan minden jelölt: tényleges távolságszámítás Mi van, ha már a felosztást is elosztottan akarom végezni?

Egy kis csalás.. Voronoi cellák

Amiért jó: MapReduce MAP1 REDUCE2 MAP2 Csomópont->tartomány hozzárendelések Csomópont milyen más csp- ok kNN-jeit frissítheti? Ha megvan minden jelölt: tényleges távolságszámítás REDUCE1 Tartományok értékei

Hivatkozásjegyzék  [1] Stream Processing, filtering: Mining of Massive Data Sets o Alapmű: o Coursera tárgy:  [2] Outlier Detection o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys (CSUR), 41(3):15, 2009