Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@mit.bme.huikocsis@mit.bme.hu, salanki.agnes@inf.mit.bme.husalanki.agnes@inf.mit.bme.hu 2013.12.02.

2 Fontosak a szabályok…

3

4 Kivételek?

5

6 Alapfogalmak  Ritka esemény o Arányaiban ritkán fordul elő o Hasonló ok/következmény/jellemzők o Ritka? Mennyire ritka?  Outlier/anomália o Egyetlen, a többitől független adatpont o Semmilyen közös vonása nincs másokkal

7 Sűrűségfüggvény emlékeztető

8 Kétdimenziós sűrűségfüggvény

9 Alapfogalmak  Ritka esemény o Arányaiban ritkán fordul elő o Hasonló ok/következmény/jellemzők o Ritka? Mennyire ritka?  Outlier/anomália o Egyetlen, a többitől független adatpont o Semmilyen közös vonása nincs másokkal

10 Egy dimenzióban

11 Két dimenzióban?

12 Alapfogalmak

13 Ritka események a gyakorlatban – dDOS Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

14 R. események a gyakorlatban – SPAM detektálás Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers A SPAM valószínűsége kisebb A SPAM valószínűsége nagyobb A SPAM-ek száma arányaiban sokkal kisebb

15 R. események a gyakorlatban – csalásfelderítés Kép forrása: http://visualizeit.wordpress.com/ X tengely: számlavezetők Y tengely: tranzakciók száma / nap színezés: mennyire biztos a csalás?

16 Felügyelt és nem felügyelt tanulás Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük

17 Felügyelt és nem fel. tanulás – folyamatábra Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/

18 Osztályozás alapfeladat Képosztályozás: a képen látható objektum madár vagy repülő?

19 Osztályozás alapfeladat Levelek osztályozása: SPAM vagy nem SPAM?

20 Osztályozás alapfeladat Szabályok alapján Severity osztályozása Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

21 Osztályozás Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix SPAM?

22 Osztályozás – alapfeladat Osztálycímke? Attribútumok? Input? Tanuló algoritmus? Osztálycímke? Attribútumok? Input? Tanuló algoritmus?

23 Példák osztályozási módszerekre – döntési fa

24  Döntési fák o Minden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet o Levelek: többségre döntünk  Milyen attribútum szerint vágunk? o Legjobb: legtöbb információt hordozza  Meddig menjünk?

25 Döntési fa vs diagram  Döntési diagrammal összekötni Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos

26 Példák osztályozási módszerekre – naiv Bayes

27 Valami konstans

28 Példák osztályozási módszerekre – naiv Bayes  Osztályozás menete o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket o Kiszámítjuk a szorzat értékét  „A statisztikák szerint a SPAM levelek 45%-a tartalmazza a taget és 20%-uk a taget. Ez a levél tartalmazza a taget, de a -t nem. SPAM?”

29 Csoportosítás  Csoportosítás (clustering) – megtalálni az egymáshoz hasonló elemeket o Output: klaszterek Egymáshoz hasonló?

30 Csoportosítási módszerek  Középpont alapú o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik o Pl. k-Means  Kapcsolat alapú o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében o Pl. single-link  Sűrűség alapú o a klaszterek sűrűség alapján felismerhetőek o Pl. DBScan  Egyéb

31 Csoportosítási módszerek  Középpont alapú  Kapcsolat alapú  Sűrűség alapú  Egyéb

32 Csoportosítási módszerek  Középpont alapú  Kapcsolat alapú  Sűrűség alapú  Egyéb

33 Csoportosítási módszerek  Középpont alapú  Kapcsolat alapú  Sűrűség alapú  Egyéb

34 A különbség Kép forrása: Ramaswamy S, Golub T R JCO 2002;20:1932-1941

35 Kis kitérő: attribútumszelekció

36 Alapproblémák  Detektálás o Minden ritka osztályból legalább 1 reprezentáns megtalálása o Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor?  Jellemzés o A reprezentánsok alapján a teljes ritka osztály megtalálása o Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés?  Analízis o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? o Pl.: Mi okozta a leállást? Miért nem jó erre egy klasszikus osztályozás/feature selection?

37 Majdnem jó módszerek  Kiegyensúlyozatlan klasszifikáció o Alulmintavételezzük amit már láttunk  Anomália detektálás o Olyan különálló pontokat keresünk, amik mindegyik mástól különböznek  Klasszikus attribútumkiválasztás o Olyat keres, ami a többségire jó  Klasszikus klaszterezés o Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek

38 Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

39 Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell?  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

40 FELÜGYELT DETEKTÁLÁS Cél: minden ritka osztályból legalább egy reprezentánst megtalálni

41 Feladat  Felügyelt: feltételezzük, hogy létezik orákulum  Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?  Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni  Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

42 Apriori információval,1 ritka osztály – NNDB Módszer? Ellenőrizzük a szomszédokat! Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban

43 Algoritmus

44 Apriori információval – NNDB Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe

45 Változatok  Több minor osztály? o Mint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk  Kevesebb apriori információ? o Adottak: és semmi más o Módszer: eloszlásbecslés, majd azon mesterséges sűrűségszámítás  Relációs kapcsolatok is adottak? o Módosítani kell a hasonlóságszámítást

46 Szintetikus adat

47 Éles adat?

48

49

50

51

52 FELÜGYELET NÉLKÜLI ANALÍZIS Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat

53 Feladat  Mi van akkor, ha nincs orákulum?  Input: bemeneti adathalmaz  Output o Ritka események o Jellemző attribútumok Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is

54 Analízis, mint optimalizációs feladat Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez

55 Partial Augmented Lagrangian Method

56 PALM szintetikus adatok

57 Palm éles adatok?  Nagyon érzékeny az attribútumok skálájára o MB vs kB? o Ballooning adatok: csak 0 vagy 1, miközben néhány CPU-adat fel van szorozva 1000-rel  Futásidő 

58 KARAKTERIZÁLÁS Cél: megkeresni a ritka osztályok minden példányát

59 Feladat

60 Karakterizálás, mint optimalizációs feladat

61 RACH – Rare Category Characterization

62 Hátrányok

63 Alapproblémák  Detektálás o Minden ritka osztályból legalább 1 reprezentáns megtalálása o Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor?  Jellemzés o A reprezentánsok alapján a teljes ritka osztály megtalálása o Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés?  Analízis o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? o Pl.: Mi okozta a leállást?


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével."

Hasonló előadás


Google Hirdetések