Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbányászat: Asszociációs szabályok Haladó fogalmak és algoritmusok 7. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította.

Hasonló előadás


Az előadások a következő témára: "Adatbányászat: Asszociációs szabályok Haladó fogalmak és algoritmusok 7. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította."— Előadás másolata:

1 Adatbányászat: Asszociációs szabályok Haladó fogalmak és algoritmusok 7. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton

2 Logók és támogatás A tananyag a TÁMOP /1/A számú Kelet-magyarországi Informatika Tananyag Tárház projekt keretében készült. A tananyagfejlesztés az Európai Unió támogatásával és az Európai Szociális Alap társfinanszírozásával valósult meg.

3 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Folytonos és kategorikus attributumok Példa asszociációs szabályra: {Lapok száma  [5,10)  (Böngésző=Mozilla)}  {Vétel = Nem} Hogyan alkalmazhatjuk az asszociációs elemzést nem aszimmetrikus bináris változókra?

4 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Kategorikus attributumok kezelése l Alakítsuk át a kategorikus attributumot aszimmetrikus bináris változókká. l Vezessünk be egy új,,tételt” minden egyes különböző attributum-érték párra. –Példa: helyettesítsük a Böngésző attributumot az alábbiakkal  Böngésző = Internet Explorer  Böngésző = Mozilla

5 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Kategorikus attributumok kezelése l Lehetséges szempontok –Mi van akkor, ha az attributumnak sok lehetséges értéke van?  Példa: az országnak több, mint 200 lehetséges értéke van  Az attributum értékek többségének nagyon kicsi lehet a támogatottsága –Lehetséges megoldás: vonjuk össze a kis támogatottságú értékeket –Mi van akkor, ha az attributum értékek eloszlása erősen ferde?  Példa: a látogatók 95%-nál a Vétel = Nem  A tételek többségét a (Vétel=Nem) tételhez fogjuk asszociálni. –Lehetséges megoldás: dobjuk el a nagy gyakoriságú tételeket

6 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Folytonos attributumok kezelése l Különböző fajta szabályok: –Kor  [21,35)  Fizetés  [70E,120E)  Vétel –Fizetés  [70E,120E)  Vétel  Kor:  =28,  =4 l Különböző módszerek: –Diszkretizáció alapú –Statisztika alapú –Nem diszkretizáció alapú  minApriori

7 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Folytonos attributumok kezelése l Diszkretizáljunk l Nem-felügyelt módon: –Egyenlő szélességű –Egyenlő mélységű –Klaszterezés l Felügyelt módon: Osztályv1v1 v2v2 v3v3 v4v4 v5v5 v6v6 v7v7 v8v8 v9v9 Rendellenes Normális bin 1 bin 3 bin 2 Attributum értékek, v

8 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Diszkretizációval kapcsolatos kérdések l A diszkretizált intervallumok mérete hatással van a támogatottságra és a megbízhatóságra. –Ha az intervallum túl kicsi  lehet, hogy nem elegendő a támogatottság –Ha az intervallum túl nagy  lehet, hogy nem elegendő a megbízhatóság l Lehetséges megoldás: használjuk az összes lehetséges intervallumot. {Visszafizetés = Nem, (Jövedelem = $51,250)}  {Csalás = Nem} {Visszafizetés = Nem, (60K  Jövedelem  80K)}  {Csalás = Nem} {Visszafizetés = Nem, (0K  Jövedelem  1B)}  {Csalás = Nem}

9 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Diszkretizációval kapcsolatos kérdések l Végrehajtási idő –Ha az intervallumok n értéket tartalmaznak, akkor átlagosan O(n 2 ) számú elrendezés van. l Túl sok szabály {Visszafizetés = Nem, (Jövedelem = $51,250)}  {Csalás = Nem} {Visszafizetés = Nem, (51K  Jövedelem  52K)}  {Csalás = Nem} {Visszafizetés = Nem, (50K  Jövedelem  60K)}  {Csalás = Nem}

10 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Srikant & Agrawal megközelítése l Dolgozzuk fel előzetesen az adatokat. –Diszkretizáljuk az attributumot egyenlő mélységű particionálást használva.  A particiók meghatározására használjunk részleges teljességi mérőszámot.  Vonjuk össze a szomszédos intervallumokat amíg a támogatottság kisebb, mint egy max-support küszöb. l Alkamazzunk létező asszociációs szabály bányászati algoritmusokat. l Határozzuk meg az érdekes szabályokat az outputban.

11 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Srikant & Agrawal megközelítése l A diszkretizáció során információt vesztünk –Használjunk részleges teljességi mérőszámot annak meghatározására, hogy mennyi információt vesztünk. C: az összes attributum érték elrendezése mellett kapott gyakori tételcsoportok P: a particiók elrendezése mellett kapott gyakori tételcsoportok P K-teljes C-re nézve ha P  C és  X  C,  X’  P úgy, hogy: 1. X’ általánosítása X-nek és s(X’)  K  s(X) (K  1) 2.  Y  X,  Y’  X’ úgy, hogy s(Y’)  K  s(Y) Adott K (részleges teljességi szint) mellett meghatározhatjuk az intervallumok (N) számát. X közelítő X

12 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Érdekességi mértékek l Adott Z = {z 1, z 2, …, z k } tételcsoport és Z’ = {z 1 ’, z 2 ’, …, z k ’} általánosítása P(Z): Z támogatottsága E Z’ (Z): Z-nek Z’-n alapuló várt támogatottsága –Z R-érdekes Z’-re nézve ha P(Z)  R  E Z’ (Z) {Visszafizetés = Nem, (Jövedelem = $51,250)}  {Csalás = Nem} {Visszafizetés = Nem, (51K  Jövedelem  52K)}  {Csalás = Nem} {Visszafizetés = Nem, (50K  Jövedelem  60K)}  {Csalás = Nem}

13 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Érdekességi mértékek l Egy S: X  Y és annak S’: X’  Y’ általánosítására P(Y|X): X  Y megbízhatósága P(Y’|X’): X’  Y’ megbízhatósága E S’ (Y|X): Z-nek Z’-n alapuló várt támogatottsága l Az S szabály R-érdekes az S’ ős-szabályra nézve –Támogatottság: P(S)  R  E S’ (S) vagy –Megbízhatóság: P(Y|X)  R  E S’ (Y|X)

14 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Statisztika alapú módszerek l Példa: Böngésző=Mozilla  Vétel=Igen  Kor:  =23 l A szabály következménye egy statisztikáival jellemzett folytonos változóból áll: –átlag, medián, szórás stb. l Megközelítés: –Töröljük (ideiglenesen) a célváltozót a megmaradó adatokból. –Alkalmazzunk létező gyakori tételcsoport generálást a fennmaradó adatokon. –Számoljuk ki minden gyakori tételcsoportra a megfelelő célváltozó leíró statisztikáit.  A gyakori tételcsoport szabály lesz ha a célváltozót a szabály következményének választjuk. –Alkalmazzunk statisztikai próbát a szabály érdekességének meghatározására.

15 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Statisztika alapú módszerek l Hogyan határozhatjuk meg egy asszociációs szabály érdekességét? –Hasonlítsuk össze a szabály által lefedett populáció statisztikáit a szabály által nem lefedettekéivel: A  B:  szemben A  B:  ’ –Statisztikai hipotézis vizsgálat:  Null hipotézis: H0:  ’ =  +   Alternatív hipotézis: H1:  ’ >  +   Z várható értéke 0 szórása 1 a null hipotézis mellett

16 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Statisztika alapú módszerek l Példa: r: Böngésző=Mozilla  Vétel=Igen  Kor:  =23 –A szabály érdekes ha a  and  ’ közötti különbség nagyobb mint 5 év (azaz  = 5) –Tegyük fel, hogy r-re n1 = 50, s1 = 3.5 –Tegyük fel, hogy r’-re (komplementer): n2 = 250, s2 = 6.5 –Egyoldali próbánál 95% megbízhatósági szinten a Z kritikus érték, hogy elvetjük a null hipotézist, –Mivel Z nagyobb mint 1.64, r érdekes szabály.

17 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Min-Apriori (Han és társai) Példa: W1 és W2 hajlamos rá, hogy ugyanazokban a dokumentumokban jelenjen meg Dokumentum-szó mátrix:

18 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Min-Apriori l Az adatok kizárólag ugyanolyan típusú folytonos attributumokat tartalmaznak. –Pl. a szavak gyakorisága egy dokumentumban l Lehetséges megoldás: –Alakítsuk át 0/1 mátrixá és ezután alkalmazzunk létező algoritmusokat.  szó-gyakorisági információk elvesztése –Nem alkalmazható a diszkretizálás amint a felhasználók szavak közötti és nem szó-csoportok közötti asszociációt szeretnének.

19 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Min-Apriori l Hogyan határozzuk meg egy szó támogatottságát? –Ha csak egyszerűen összeadjuk a gyakoriságokat, akkor a támogatottság nagyobb lesz a dokumentumok teljes számánál!  Normalizáljuk a szó vektorokat – pl. használjunk L 1 normát  Minden szónak 1.0-gyel egyenlő támogatottsága lesz Normali- záljunk

20 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Min-Apriori l A támogatottság új definíciója: Példa: sup(W1,W2,W3) = = 0.17

21 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton A támogatottság anti-monoton tulajdonsága Példa: sup(W1) = = 1 sup(W1, W2) = = 0.9 sup(W1, W2, W3) = = 0.17

22 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Többszintű asszociációs szabályok

23 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Többszintű asszociációs szabályok l Miért kell fogalom hierarchiát bevezetni? –Az alacsonyabb szinten lévő szabályoknak lehet, hogy nem elég nagy a támogatottsága ahhoz, hogy egy gyakori tételcsoportban megjelenjenek. –Az alacsonyabb szinten lévő szabályok túlságosan speciálisak  pl. lefölözött tej  fehér kenyér, 2% tej  búza kenyér, lefölözött tej  búza kenyér, stb. a tej és kenyér közötti kapcsolatra utalnak

24 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Többszintű asszociációs szabályok l Hogyan változik a támogatottság és a megbízhatóság ha megfordítjuk a fogalom hierarchiát? –Ha X egyaránt szülője X1-nek és X2-nek, akkor  (X) ≤  (X1) +  (X2) –Ha  (X1  Y1) ≥ minsup, és X szülője X1-nek, Y szülője Y1-nek akkor  (X  Y1) ≥ minsup,  (X1  Y) ≥ minsup  (X  Y) ≥ minsup –Ha conf(X1  Y1) ≥ minconf, akkorconf(X1  Y) ≥ minconf

25 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Többszintű asszociációs szabályok l 1. megközelítés: –Terjesszük ki a meglévő asszociációs szabály formalizmusunkat magasabb szintű tételek hozzáadásával. Eredeti tranzakció: {lefölözött tej, búza kenyér} Megnövelt tranzakció: {lefölözött tej, búza kenyér, tej, kenyér, élelem} l Szempontok: –A magasabb szinten elhelyezkedő tételeknek nagyobb a támogatottsága.  Ha alacsony a támogatottsági küszöb, akkor túl sok gyakori mintázat jön be a magasabb szintekről. –Növeli az adatok dimenzióját.

26 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Többszintű asszociációs szabályok l 2. megközelítés: –Generáljunk először gyakori mintázatokat a legmagasabb szinten. –Generáljunk ezután gyakori mintázatokat a következő legmagasabb szinten, és így tovább. l Szempontok: –Az I/O követelmények drámaian megnőnek mivel többször kell átfésülnünk az adatokat. –Lemaradhatunk néhány lehetséges szintek közötti asszociációs mintázatról.

27 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Szekvenciális adatok ObjektumIdőbélyegEsemények A102, 3, 5 A206, 1 A231 B114, 5, 6 B172 B217, 8, 1, 2 B281, 6 C141, 8, 7 Szekvenciális adatbázis:

28 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Példák szekvenciális adatra Sorozat adatbázis SorozatElem (Tranzakció) Esemény (Tétel) Vásárlói adatok Egy adott vásárló vásárlási története Egy vásárló által a t időpontban vásárolt termékek Könyvek, naplók, CD- k, stb. Web adatokEgy web-látogató böngészési aktivitása A látogató egy kattintása után megnézett fájlok Honlap, index-lap, kontakt info, stb. Esemény adatok Egy adott szenzor által generált események története Egy szenzor által kiváltott események a t időpontban A szenzorok által generált riasztások típusai Gén szekvenciák Egy faj DNS szekvenciájaA DNS szekvencia egy eleme A,T,G,C bázisok Sorozat E1 E2 E1 E3 E2 E3 E4 E2 Elem (Tranzakció) Esemény (Tétel)

29 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton A sorozat formális definíciója l Egy sorozat elemek (tranzakciók) egy rendezett listája s = –Minden elem események (tételek) egy összességét tartalmazza e i = {i 1, i 2, …, i k } –Minden elemhez idő vagy hely bélyeget rendelünk l Egy sorozat |s| hossza a sorozatbeli elemek száma. l Egy k-sorozat olyan sorozat, amely k eseményt (tételt) tartalmaz.

30 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Példák sorozatra l Web sorozat: l A 3-mile Island-beli nukleáris balesetet elindító események sorozata: (http://stellar-one.com/nuclear/staff_reports/summary_SOE_the_initiating_event.htm) l Egy könyvtárból kivett könyvek sorozata:

31 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Részsorozat definíciója l Egy sorozat része egy másik sorozatnak (m ≥ n) ha léteznek olyan i 1 < i 2 < … < i n számok, hogy a 1  b i1, a 2  b i1, …, a n  b in. l Egy w részsorozat támogatottságát az olyan adatsoroza- tok arányaként definiáljuk, amelyek tartalmazzák w-t. l A szekvenciális mintázat egy gyakori részsorozat (azaz egy olyan részsorozat, melynek támogatottsága ≥ minsup). Adat sorozatRészsorozatTartamazza-e? Igen Nem Igen

32 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Szekvenciális mintázat bányászat l Adott: –sorozatok egy adatbázisa –egy felhasználó által meghatározott minsup minimális támogatottsági küszöb l Feladat: –Keressük meg az összes olyan részsorozatot, amelynek támogatottsága ≥ minsup

33 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Szekvenciális mintázat bányászat: kihívások l Adott egy sorozat: –Példák részsorozataira:,,, stb. l Mennyi k-részsorozat nyerhető ki egy adott n-sorozatból? n = 9 k=4: Y _ _ Y Y _ _ _ Y

34 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Szekvenciális mintázat bányászat: példa Minsup = 50% Példák gyakori részsorozatokra: s=60% s=80% s=60%

35 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Szekvenciális minták kinyerése l Adott n számú esemény: i 1, i 2, i 3, …, i n l Jelöltek 1-részsorozatokra:,,, …, l Jelöltek 2-részsorozatokra:,, …,,, …, l Jelöltek 3-részsorozatokra:,, …,,, …,,, …,,, …

36 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Általánosított szekvenciális mintázat (GSP) l 1. lépés: –Fésüljük át először a D sorozat adatbázist az összes 1-elemű gyakori sorozat előállítására. l 2. lépés: Ismételjük amíg nem találunk új gyakori sorozatot –Jelölt generálás:  Vonjuk össze a (k-1)-edik lépésben talált gyakori részsorozatok párjait, hogy k tételt tartalmazó sorozat jelölteket kapjunk. –Jelölt tisztítás:  Töröljük azokat a k-sorozat jelölteket, amelyek nem gyakori (k-1)- részsorozatot tartalmaznak. –Támogatottság számlálás:  Fésüljük át újra a D sorozat adatbázist, hogy ezen új jelöltek támogatottságát megkapjuk. –Jelölt eliminálás:  Elimináljuk azokat a k-sorozat jelölteket, amelyek aktuális támogatottsága kisebb mint minsup.

37 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Jelölt generálás l Alapeset (k=2): –Két 1-sorozat, és, összevonása két 2-sorozat jelöltet eredményez: és l Általános eset (k>2): –Egy w 1 gyakori (k-1)-sorozatot összevonunk egy másik w 2 gyakori (k-1)-sorozattal, hogy egy k-sorozat jelöltet kapjunk, ha az a részsorozat, amelyet w 1 első elemének törlésével kapunk megegyezik azzal a sorozattal, amelyet w 2 utolsó elemének a törlésével kapunk.  Az összevonás eredményéül kapott jelölt a w 1 sorozat w 2 utolsó eleme általi kiterjesztésével adódik. –Ha w 2 két utolsó eseménye ugyanahhoz az elemhez tartozik, akkor w 2 utolsó eseménye w 1 utolsó elemének része lesz, –egyébként a w 2 –beli utolsó esemény egy különálló eseményként fűzzük w 1 végére.

38 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Jelölt generálási példák l Vonjuk össze az alábbi sorozatokat w 1 = és w 2 = Eredményül a sorozatot kapjuk, mivel w 2 két utolsó eseménye, 4 és 5, ugyanahhoz az elemhez tartozik. l Vonjuk össze az alábbi sorozatokat w 1 = és w 2 = Eredményül a sorozatot kapjuk, mivel w 2 két utolsó eseménye 4 és 5, nem ugyanahhoz az elemhez tartozik. l Nem kell összevonnunk a w 1 = és w 2 = hogy a jelöltet megkapjuk, mivel ha az utóbbi életképes jelölt, akkor megkapható w 1 –nek a sorozattal való összevonásával.

39 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton GSP példa

40 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Időbeli kényszerek (I) {A B} {C} {D E} <= m s <= x g >n g x g : max-rés n g : min-rés m s : maximális fedés AdatsorozatRészsorozatTartalmazza-e? Igen Nem Igen Nem x g = 2, n g = 0, m s = 4

41 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Szekvenciális mintázatok bányászata időbeli kényszerrel l 1. megközelítés: –Bányásszunk szekvenciális mintázatot időbeli kényszer nélkül. –Dolgozzuk fel utólagosan a feltárt mintázatokat. l 2. megközelítés: –Módosítsuk a GSP módszert úgy, hogy közvetlenül tisztítjuk azokat a jelölteket, amelyek nem tesznek eleget az időbeli kényszernek. –Kérdés:  Érvényben marad-e még az Apriori elv?

42 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Apriori elv szekvenciális adatokra Tegyük fel: x g = 1 (max-rés) n g = 0 (min-rés) m s = 5 (maximális fedés) minsup = 60% támogatottság = 40% de támogatottság = 60% Probléma merül fel a max-rés kényszer miatt. Nem merül fel ez a probléma ha a max-rés végtelen.

43 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Folyamatos részsorozatok l s folyamatos részsorozata az alábbi sorozatnak w = … ha az alábbi feltételek egyike teljesül: 1.s úgy adódik w-ből, hogy egy tételt törlünk e 1 –ből vagy e k -ből 2.s úgy adódik w -ből, hogy egy olyan tételt törlünk e i –ből, amely 2-nél több eseményt tartalmaz 3.s folyamatos részsorozata s’-nek és s’ folyamatos részsorozata w-nek (recurzív definíció) l Példák: s = –folyamatos részsorozata az alábbiaknak, és –nem folyamatos részsorozata az alábbiaknak és

44 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Módosított jelölt metszési lépés l A max-rés kényszer nélkül: –A k-sorozat jelöltet eltávolítjuk ha (k-1)-részsorozatai közül legalább az egyik nem gyakori. l A max-rés kényszerrel: –A k-sorozat jelöltet eltávolítjuk ha folyamatos (k-1)- részsorozatai közül legalább az egyik nem gyakori.

45 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Időbeli kényszerek (II) {A B} {C} {D E} <= m s <= x g >n g <= ws x g : max-rés n g : min-rés ws: ablak nagyság m s : maximális fedés AdatsorozatRészsorozatTartalmazás? Nem Igen Igen x g = 2, n g = 0, ws = 1, m s = 5

46 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Módosított támogatottság számlálás l Adott egy mintázat jelölt: –Az összes adatsorozat, amely tartalmazza a, ( ahol idő({c}) – idő({a}) ≤ ws) (ahol idő({a}) – idő({c}) ≤ ws) sorozatokat hozzájárul a mintázat jelölt támogatottsági számához.

47 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Egy más modell l Bizonyos területeken csak egy nagyon hosszú idősorunk van. –Példa:  hálózati forgalmi események monitorozása támadások miatt  telekommunikációs riasztási jelek monitorozása l A cél az, hogy események gyakori sorozatait találjuk meg az idősorban –A feladat gyakori epizód bányászatként is ismert E1 E2 E1 E2 E1 E2 E3 E4 E3 E4 E1 E2 E2 E4 E3 E5 E2 E3 E5 E1 E2 E3 E1 Mintázat:

48 Altalános támogatottságot számoló eljárások Tegyük fel: x g = 2 (max-rés) n g = 0 (min-rés) ws = 0 (ablak nagyság) m s = 2 (maximális fedés)

49 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Gyakori részgráf bányászat l Terjesszük ki az asszociációs szabály bányászatot gyakori részgráfok keresésére. l Hasznos a web-bányászatban, számítógépes ké- miában, bioinformatikában, térbeli adatoknál, stb.

50 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Gráf definíciók

51 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Tranzakciók gráf-reprezentációja l Minden tranzakció tételek egy klikkje

52 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Tranzakciók gráf-reprezentációja

53 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Kihívások l Egy csúcs duplikált címkéket is tartalmazhat l Támogatottság és megbízhatóság –Hogyan definiáljuk őket? l További kényszerek fakadhatnak a mintázat szerkezetéből –Támogatottság és megbízhatóság nem az egyetlen kényszer –Feltevés: a gyakori részgráfok összefüggőek l Apriori-szerű megközelítés: –Használjuk a gyakori k-részgráfokat a gyakori (k+1)-részgráfok előállítására.  Mi legyen k?

54 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Kihívások l Támogatottság: –Számos olyan gráf van, amely egy speciális részgráfot tartalmaz. l Az apriori elv még érvényben marad l Szintenkénti (Apriori-szerű) megközelítés: –Csúcsnövelés:  k a csúcsok száma –Élnövelés:  k az élek száma

55 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Csúcsnövelés

56 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Élnövelés

57 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Apriori-szerű algoritmus l Keressük meg a gyakori 1-részgráfokat l Ismételjük –Jelölt generálás  Használjuk a gyakori (k-1)-részgráfokat a k-részgráf jelöltek előállítására. –Jelölt metszés  Töröljük azokat a részgráf jelölteket, amelyeknek van nem gyakori (k-1)-részgráfja. –Támogatottság számlálás  Számoljuk össze a támogatottságát mindegyik megmaradt jelöltnek. –Töröljük azokat a k-részgráf jelölteket, amelyek nem gyakoriak. A gyakorlatban ez nem könnyű. Sok más szempont is létezik.

58 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Példa: adatállomány

59 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Példa

60 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Jelölt generálás l Aprioriban: –Két gyakori k-tételcsoport összevonása eredményez egy (k+1)-tételcsoport jelöltet. l Gyakori részgráf bányászatban (csúcs/él- növelés) –Két gyakori k-részgráf összevonása eredményez egy (k+1)-részgráf jelöltet.

61 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton A jelöltek multiplicitása (csúcsnövelés)

62 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton A jelöltek multiplicitása (élnövelés) l 1. eset: azonos csúcs címkék

63 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton A jelöltek multiplicitása (élnövelés) l 2. eset: A mag azonos címkéjű csúcsokat tartalmaz Mag: Az a (k-1)-részgráf, amely közös a gráfokban

64 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton A jelöltek multiplicitása (élnövelés) l 3. eset: Mag multiplicitás

65 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Adjacencia mátrix reprezentáció Ugyanaz a gráf sokféleképpen reprezentálható

66 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Gráf izomorfizmus l Egy gráf izomorf ha topológiailag ekvivalens egy másik gráffal.

67 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Gráf izomorfizmus l Próba szükséges a gráf izomorfizmus vizsgálatára: –A jelölt generálási lépés során határozzuk meg, hogy egy jelöltet korábban nem generáltunk-e már. –A jelölt metszési lépés során ellenőrizzük, hogy egy jelölt (k-1)-részgráfjai gyakoriak-e. –A támogatottság számlálás során ellenőrizzük, hogy egy jelölt nem része-e egy másik gráfnak.

68 © Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton Gráf izomorfizmus l Használjunk kanonikus címkézést az izomorfizmus kezelésére. –Képezzünk le minden gráfot egy rendezett stringgé úgy, hogy két izomorf gráfnak ugyanaz legyen a kanonikus kódolása. –Példa: Lexicografikusan legnagyobb adjacencia mátrix Sztring: Kanonikus:


Letölteni ppt "Adatbányászat: Asszociációs szabályok Haladó fogalmak és algoritmusok 7. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította."

Hasonló előadás


Google Hirdetések