Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével.

Hasonló előadás


Az előadások a következő témára: "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével."— Előadás másolata:

1 Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@mit.bme.huikocsis@mit.bme.hu, salanki.agnes@inf.mit.bme.husalanki.agnes@inf.mit.bme.hu 2013.12.02.

2 Fontosak a szabályok…

3

4 Kivételek?

5

6 Alapfogalmak  Ritka esemény o Arányaiban ritkán fordul elő o Hasonló ok/következmény/jellemzők o Ritka? Mennyire ritka?  Outlier/anomália o Egyetlen, a többitől független adatpont o Semmilyen közös vonása nincs másokkal

7 Sűrűségfüggvény emlékeztető

8 Kétdimenziós sűrűségfüggvény

9 Alapfogalmak  Ritka esemény o Arányaiban ritkán fordul elő o Hasonló ok/következmény/jellemzők o Ritka? Mennyire ritka?  Outlier/anomália o Egyetlen, a többitől független adatpont o Semmilyen közös vonása nincs másokkal

10 Egy dimenzióban

11 Két dimenzióban?

12 Alapfogalmak

13 Ritka események a gyakorlatban – dDOS Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

14 R. események a gyakorlatban – SPAM detektálás Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers A SPAM valószínűsége kisebb A SPAM valószínűsége nagyobb A SPAM-ek száma arányaiban sokkal kisebb

15 R. események a gyakorlatban – csalásfelderítés Kép forrása: http://visualizeit.wordpress.com/ X tengely: számlavezetők Y tengely: tranzakciók száma / nap színezés: mennyire biztos a csalás?

16 Felügyelt és nem felügyelt tanulás Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük

17 Felügyelt és nem fel. tanulás – folyamatábra Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/

18 Osztályozás alapfeladat Képosztályozás: a képen látható objektum madár vagy repülő?

19 Osztályozás alapfeladat Levelek osztályozása: SPAM vagy nem SPAM?

20 Osztályozás alapfeladat Szabályok alapján Severity osztályozása Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

21 Osztályozás Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix SPAM?

22 Osztályozás – alapfeladat Osztálycímke? Attribútumok? Input? Tanuló algoritmus? Osztálycímke? Attribútumok? Input? Tanuló algoritmus?

23 Példák osztályozási módszerekre – döntési fa

24  Döntési fák o Minden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet o Levelek: többségre döntünk  Milyen attribútum szerint vágunk? o Legjobb: legtöbb információt hordozza  Meddig menjünk?

25 Döntési fa vs diagram  Döntési diagrammal összekötni Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos

26 Példák osztályozási módszerekre – naiv Bayes

27 Valami konstans

28 Példák osztályozási módszerekre – naiv Bayes  Osztályozás menete o Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket o Kiszámítjuk a szorzat értékét  „A statisztikák szerint a SPAM levelek 45%-a tartalmazza a taget és 20%-uk a taget. Ez a levél tartalmazza a taget, de a -t nem. SPAM?”

29 Csoportosítás  Csoportosítás (clustering) – megtalálni az egymáshoz hasonló elemeket o Output: klaszterek Egymáshoz hasonló?

30 Csoportosítási módszerek  Középpont alapú o a pont a hozzá legközelebb lévő középpont klaszterébe tartozik o Pl. k-Means  Kapcsolat alapú o legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében o Pl. single-link  Sűrűség alapú o a klaszterek sűrűség alapján felismerhetőek o Pl. DBScan  Egyéb

31 Csoportosítási módszerek  Középpont alapú  Kapcsolat alapú  Sűrűség alapú  Egyéb

32 Csoportosítási módszerek  Középpont alapú  Kapcsolat alapú  Sűrűség alapú  Egyéb

33 Csoportosítási módszerek  Középpont alapú  Kapcsolat alapú  Sűrűség alapú  Egyéb

34 A különbség Kép forrása: Ramaswamy S, Golub T R JCO 2002;20:1932-1941

35 Kis kitérő: attribútumszelekció

36 Alapproblémák  Detektálás o Minden ritka osztályból legalább 1 reprezentáns megtalálása o Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor?  Jellemzés o A reprezentánsok alapján a teljes ritka osztály megtalálása o Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés?  Analízis o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? o Pl.: Mi okozta a leállást? Miért nem jó erre egy klasszikus osztályozás/feature selection?

37 Majdnem jó módszerek  Kiegyensúlyozatlan klasszifikáció o Alulmintavételezzük amit már láttunk  Anomália detektálás o Olyan különálló pontokat keresünk, amik mindegyik mástól különböznek  Klasszikus attribútumkiválasztás o Olyat keres, ami a többségire jó  Klasszikus klaszterezés o Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek

38 Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

39 Kiindulási feltételek  Simaság o A többségi osztály eloszlásfüggvénye megfelelően sima o Matematikája kell?  Kompaktság o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság  Ami nem kell feltételül: szeparáltság  Ha nincs: véletlen mintavételezés

40 FELÜGYELT DETEKTÁLÁS Cél: minden ritka osztályból legalább egy reprezentánst megtalálni

41 Feladat  Felügyelt: feltételezzük, hogy létezik orákulum  Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?  Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni  Variációk egy témára o Mennyi információnk van? o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

42 Apriori információval,1 ritka osztály – NNDB Módszer? Ellenőrizzük a szomszédokat! Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban

43 Algoritmus

44 Apriori információval – NNDB Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe

45 Változatok  Több minor osztály? o Mint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk  Kevesebb apriori információ? o Adottak: és semmi más o Módszer: eloszlásbecslés, majd azon mesterséges sűrűségszámítás  Relációs kapcsolatok is adottak? o Módosítani kell a hasonlóságszámítást

46 Szintetikus adat

47 Éles adat?

48

49

50

51

52 FELÜGYELET NÉLKÜLI ANALÍZIS Cél: megtalálni orákulum nélkül a ritka eseményeket és a jellemző attribútumokat

53 Feladat  Mi van akkor, ha nincs orákulum?  Input: bemeneti adathalmaz  Output o Ritka események o Jellemző attribútumok Ötlet: egyébként is projektálnánk valamilyen attribútumtérbe az adathalmazt – próbáljuk ki az összes megfelelő teret is

54 Analízis, mint optimalizációs feladat Kompaktság: a ritka elemek közelebb vannak egymáshoz, mint a többiekhez

55 Partial Augmented Lagrangian Method

56 PALM szintetikus adatok

57 Palm éles adatok?  Nagyon érzékeny az attribútumok skálájára o MB vs kB? o Ballooning adatok: csak 0 vagy 1, miközben néhány CPU-adat fel van szorozva 1000-rel  Futásidő 

58 KARAKTERIZÁLÁS Cél: megkeresni a ritka osztályok minden példányát

59 Feladat

60 Karakterizálás, mint optimalizációs feladat

61 RACH – Rare Category Characterization

62 Hátrányok

63 Alapproblémák  Detektálás o Minden ritka osztályból legalább 1 reprezentáns megtalálása o Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor?  Jellemzés o A reprezentánsok alapján a teljes ritka osztály megtalálása o Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés?  Analízis o Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? o Pl.: Mi okozta a leállást?


Letölteni ppt "Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Ritka események kezelése intelligens adatfeldolgozás segítségével."

Hasonló előadás


Google Hirdetések