Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István.

Hasonló előadás


Az előadások a következő témára: "Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István."— Előadás másolata:

1 Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István

2 Elemhalmaz bányászat Eddigi kutatási terület Vásárlói kosár Minden tranzakció elemek halmazát tartalmazza Cél: olyan termékeket találni, amik együttesen a megadott értéknél gyakrabban fordulnak elő

3 Szekvencia bányászat Olyan vásárlói kosár, ahol a vásárlókat megkülönböztetjük egymástól A tranzakciók elemhalmazok sorozatát tartalmazza  Egy vásárló az egyes vásárlási alkalmai során miket vásárolt Egy elemhalmazon belül az elemek sorrendje irreleváns (Ált. lexikografikusan rendezett) Az elemhalmazok sorrendje fontos  vásárolt termékek gyakran előforduló szekvenciáját keressük Példa szekvencia:

4 Részszekvencia -- Tartalmazás Legyen az elemhalmaz i=(i 1, i 2, …, i m ) ahol i j egy elem. Legyen a szekvencia s=, ahol s i egy elemhalmaz. Az szekvenciát tartalmazza a szekvencia, ha léteznek egészek i 1 < i 2 < …< i n, hogy a 1  b i 1, a 2  b i 2, …, a n  b i n. Példa: része az vagy az, de például nem része az

5 Szekvencia bányászat feladata Adott a szekvenciák halmaza Feladat megtalálni az összes résszekvenciát, ami gyakori a szekvencia adatbázisban Legelterjedtebb algoritmusok: AprioriAll GSP SPADE SPAM PrefixSpan …

6 A GSP algoritmus Generalized Sequential Patterns Szintenként halad Kihasználja az apriori hipotézist Első körben a gyakori elemeket határozza meg További lépésekben jelölteket generál, és egy újabb adatbázis olvasás során meghatározza a támogatottságukat

7 GSP – jelölt generálás

8 GSP – támogatottság meghatározása Az azonos méretű jelölteket hash-fában tárolja A jelöltek tárolásánál csak az elemeket veszi figyelembe A tranzakció feldolgozásakor a tranzakció elemeit rekurzívan dolgozza fel  egy elemre többször is sor kerül

9 Az SM-Tree algoritmus Szintenként haladó algoritmus A kételemű jelöltek támogatottságát mátrix segítségével határozza meg A jelölteket azonos elv alapján állítja elő, mint a GSP A jelöltek támogatottságához az automata elmélet alapján készített SM- Tree-t használja

10 A 2-szekvenciák meghatározása Egyelemű jelöltek tömbbel Kételemű jelöltek mátrixszal Két mátrix kell, az típusú és az típusú jelölteknek. Három elemű jelöltek generálása: és 

11 Véges automata elmélet Egy véges automata öt paraméterrel jellemezhető: M= (Q,Σ,δ,q 0,F) Q: állapotok halmaza Σ: alfabeta δ: Q  Σ  Q mozgási szabály q 0 : kiindulási állapot F: elfogadó állapotok halmaza Célunk: jelölt szekvenciákat elfogadó automata generálása

12 Szekvencia felismerése véges automatával Szekvenciát ábrázoljuk sztringként = ab-c-de A szekvencia véges automatája akkor fogadja el a bemenetét, ha a bemenet tartalmazza a szekvenciát S0S0 S1S1 S2S2 S3S3 S4S4 S5S5 S6S6 S7S7 ab - c - de - - \{a}\{b,-}\{-}\{c}\{-}\{d}\{e,-}

13 S0S0 S1S1 S2S2 S3S3 S4S4 S5S5 S6S6 S7S7 ab - c - de - - \{a}\{b,-}\{-}\{c}\{-}\{d}\{e,-}

14 Az SM-Tree létrehozása (1) Minden jelölt szekvenciához létre kell hozni egy automatát A könnyebb kezelés érdekében érdemes ezeket az automatákat összevonni  State Machine-Tree Az összevonáshoz definiálni kell a JOIN műveletet M 1 M 2 =SM 3, lényegében olyan, mint egy automata, csak a mozgási szabályban tér el: δ: Q  Σ  Q 2

15 Az SM-Tree létrehozása - példa ab-cd-e -- - -e ab-c -de - d - JOIN ab-c-de S1S1 -- S2S2 S3S3 S4S4 S5S5 S6S6 S7S7 S0S0 S0S0 S1S1 S2S2 S3S3 S4S4 S5S5 S6S6 S7S7 S0S0 S1S1 S2S2 S3S3 S4S4 S5S5 S6S6 S7S7 S8S8 S9S9 S 10

16 Az SM-Tree használata 8 2 6 0 13 5 4 9 7 1012 11 ABD BF - - A B F -- ABFD-F-ABF-AD-ABD-AFD-BFD-B-A F ABFF AA

17 0 1 2 3 4 5 6 7 89 10 11 12 ABFBF-AD-ABD-AFD-BFD-B-AD-F-A A B D B B B A F F AF F F AA - - - - D -BA - C A F 1 1 1 A bemenet:

18 Mérési eredmények D25C10T5S4I1.25

19 D200C10T5S6I3

20 Összefoglalás Probléma: nagy szekvenciákat tartalmazó adathalmazban gyakori részszekvenciák meghatározása Megoldás: automata elméleti alapokon Automata a jelölt szekvenciáknak SM-Tree készítése az automatákból A tranzakció minden elemét pontosan egyszer kell beolvasni

21 Publikációs listaPublikációs lista -- Folyóirat Iváncsy, R. and I. Vajk, “A Time and Memory Efficient Frequent Itemset Discovering Algorithm for Association Rule Mining”, International Journal of Computer Applications in Technology, Special Issue on "Data Mining Applications" by Inderscience Enterprises Ltd. (accepted) Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Itemsets: a Cubic-Structure-based Approach”, Computational Intelligence in Data mining Special Issue of the Informatica Journal (ISSN 0350-5596) (accepted)

22 Publikációs listaPublikációs lista -- Konferencia Iváncsy, G, R. Iváncsy and I. Vajk, “Graph Mining-Based Image Indexing”, In Proc. of the 5th International Symposium of Hungarian Researchers on Computational Intelligence, Budapest,Hungary, Nov. 11 -12, 2004. pp. Iváncsy R and I. Vajk, “A Survey of Discovering Frequent Patterns in Graph Data”, In Proc. of the IASTED International Conference on Databases and Applications ~DBA 2005~ as part of the Twenty-Third IASTED International Multi-Conference on Applied Informatics, Innsbruck, Austria, Feb. 14 -16, 2005. (accepted) Iváncsy R and I. Vajk, “Efficient Sequential Pattern Mining Algorithms”, In Proc. of the 4th WSEAS International Conference on Artificial Intelligence, Knowledge Engineering and Databases (AIKED 2005), Salzburg, Austria, Feb. 13 -15, 2005. (accepted) Iváncsy, R., S. Juhász and I. Vajk, “Fast Discovery of Sequential Patterns by Level- Wise Approach”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted) Iváncsy, R., T. Levendovszky and H. Charaf, “.NET Facilities in Data Mining Applications”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted) Iváncsy, R. and G. Iváncsy, “Image Indexing Using Frequent Graph Mining Technique”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, 2005 (accepted)

23 Kérdések


Letölteni ppt "Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István."

Hasonló előadás


Google Hirdetések