Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaLili Halászné Megváltozta több, mint 10 éve
1
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@mit.bme.huikocsis@mit.bme.hu, salanki.agnes@inf.mit.bme.husalanki.agnes@inf.mit.bme.hu 2013.12.02.
2
Fontosak a szabályok…
4
Kivételek?
6
Alapfogalmak Ritka esemény o Arányaiban ritkán fordul elő o Hasonló ok/következmény/jellemzők o Ritka? Mennyire ritka? Outlier/anomália o Egyetlen, a többitől független adatpont o Semmilyen közös vonása nincs másokkal
7
Sűrűségfüggvény emlékeztető
8
Kétdimenziós sűrűségfüggvény
9
Alapfogalmak Ritka esemény o Arányaiban ritkán fordul elő o Hasonló ok/következmény/jellemzők o Ritka? Mennyire ritka? Outlier/anomália o Egyetlen, a többitől független adatpont o Semmilyen közös vonása nincs másokkal
10
Egy dimenzióban
11
Két dimenzióban?
12
Alapfogalmak
13
Ritka események a gyakorlatban – dDOS Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-
14
R. események a gyakorlatban – SPAM detektálás Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers A SPAM valószínűsége kisebb A SPAM valószínűsége nagyobb A SPAM-ek száma arányaiban sokkal kisebb
15
R. események a gyakorlatban – csalásfelderítés Kép forrása: http://visualizeit.wordpress.com/ X tengely: számlavezetők Y tengely: tranzakciók száma / nap színezés: mennyire biztos a csalás?
16
Felügyelt és nem felügyelt tanulás Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük
17
Felügyelt és nem fel. tanulás – folyamatábra Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/
18
Osztályozás alapfeladat Képosztályozás: a képen látható objektum madár vagy repülő?
19
Osztályozás alapfeladat Levelek osztályozása: SPAM vagy nem SPAM?
20
Osztályozás alapfeladat Szabályok alapján Severity osztályozása Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp
21
Osztályozás Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix SPAM?
22
Osztályozás – alapfeladat Osztálycímke? Attribútumok? Input? Tanuló algoritmus? Osztálycímke? Attribútumok? Input? Tanuló algoritmus?
23
Példák osztályozási módszerekre – döntési fa
24
Döntési fák o Minden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet o Levelek: többségre döntünk Milyen attribútum szerint vágunk? o Legjobb: legtöbb információt hordozza Meddig menjünk?
25
Döntési fa vs diagram Döntési diagrammal összekötni Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos
26
Példák osztályozási módszerekre – naiv Bayes
27
Valami konstans
28
Példák osztályozási módszerekre – naiv Bayes Osztályozás menete o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket o Kiszámítjuk a szorzat értékét „A statisztikák szerint a SPAM levelek 45%-a tartalmazza a taget és 20%-uk a taget. Ez a levél tartalmazza a taget, de a -t nem. SPAM?”
29
Csoportosítás Csoportosítás (clustering) – megtalálni az egymáshoz hasonló elemeket o Output: klaszterek Egymáshoz hasonló?
30
Csoportosítási módszerek Középpont alapú o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik o Pl. k-Means Kapcsolat alapú o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében o Pl. single-link Sűrűség alapú o a klaszterek sűrűség alapján felismerhetőek o Pl. DBScan Egyéb
31
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
32
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
33
Csoportosítási módszerek Középpont alapú Kapcsolat alapú Sűrűség alapú Egyéb
34
A különbség Kép forrása: Ramaswamy S, Golub T R JCO 2002;20:1932-1941
35
Kis kitérő: attribútumszelekció
36
Alapproblémák Detektálás o Minden ritka osztályból legalább 1 reprezentáns megtalálása o Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor? Jellemzés o A reprezentánsok alapján a teljes ritka osztály megtalálása o Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés? Analízis o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? o Pl.: Mi okozta a leállást? Miért nem jó erre egy klasszikus osztályozás/feature selection?
37
Majdnem jó módszerek Kiegyensúlyozatlan klasszifikáció o Alulmintavételezzük amit már láttunk Anomália detektálás o Olyan különálló pontokat keresünk, amik mindegyik mástól különböznek Klasszikus attribútumkiválasztás o Olyat keres, ami a többségire jó Klasszikus klaszterezés o Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek
38
Kiindulási feltételek Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés
39
Kiindulási feltételek Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell? Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság Ami nem kell feltételül: szeparáltság Ha nincs: véletlen mintavételezés
40
FELÜGYELT DETEKTÁLÁS Cél: minden ritka osztályból legalább egy reprezentánst megtalálni
41
Feladat Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat? Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)
42
Apriori információval,1 ritka osztály – NNDB Módszer? Ellenőrizzük a szomszédokat! Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban
43
Algoritmus
44
Apriori információval – NNDB Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe
45
Változatok Több minor osztály? o Mint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk Kevesebb apriori információ? o Adottak: és semmi más o Módszer: eloszlásbecslés, majd azon mesterséges sűrűségszámítás Relációs kapcsolatok is adottak? o Módosítani kell a hasonlóságszámítást
46
Szintetikus adat
47
Éles adat?
52
FELÜGYELET NÉLKÜLI ANALÍZIS Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat
53
Feladat Mi van akkor, ha nincs orákulum? Input: bemeneti adathalmaz Output o Ritka események o Jellemző attribútumok Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is
54
Analízis, mint optimalizációs feladat Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez
55
Partial Augmented Lagrangian Method
56
PALM szintetikus adatok
57
Palm éles adatok? Nagyon érzékeny az attribútumok skálájára o MB vs kB? o Ballooning adatok: csak 0 vagy 1, miközben néhány CPU-adat fel van szorozva 1000-rel Futásidő
58
KARAKTERIZÁLÁS Cél: megkeresni a ritka osztályok minden példányát
59
Feladat
60
Karakterizálás, mint optimalizációs feladat
61
RACH – Rare Category Characterization
62
Hátrányok
63
Alapproblémák Detektálás o Minden ritka osztályból legalább 1 reprezentáns megtalálása o Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor? Jellemzés o A reprezentánsok alapján a teljes ritka osztály megtalálása o Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés? Analízis o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? o Pl.: Mi okozta a leállást?
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.