Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Gyakori minták bányászata tranzakciós és strukturált adatbázisokban című értekezés tanszéki védése Iváncsy Renáta Konzulens: Dr. Vajk István.

Hasonló előadás


Az előadások a következő témára: "Gyakori minták bányászata tranzakciós és strukturált adatbázisokban című értekezés tanszéki védése Iváncsy Renáta Konzulens: Dr. Vajk István."— Előadás másolata:

1 Gyakori minták bányászata tranzakciós és strukturált adatbázisokban című értekezés tanszéki védése Iváncsy Renáta Konzulens: Dr. Vajk István

2 Tartalom Általában a gyakori minták bányászatáról Gyakori elemhalmaz bányászat – 1. Tézis Gyakori szekvencia bányászat – 2. Tézis Gyakori részfa bányászat – 3. Tézis

3 Gyakori minta keresés Cél: nagy adathalmazban gyakran előforduló minták meghatározása  Az előfordulási számot támogatottságnak hívják Egy minta gyakori, ha támogatottsága egy minimális támogatottsági küszöb (σ min ) fölött van Probléma: az adathalmazok nagy mérete miatt, és a potenciálisan gyakori minták nagy számossága miatt a keresési tér óriási Keresési tér csökkentése  Apriori hipotézis  Egy gyakori mintának minden részmintája is gyakori  Következmény: egy ritka minta bármilyen bővítménye is ritka

4 Tipikus megközelítések Szintenként haladó  A k méretű mintát az adatbázis k-dik olvasásával határozza meg  Az Apriori hipotézis alapján a k-1 méretű gyakoriakból k méretű jelöltet generál  Előny: Memória igénye független az adatbázis méretétől, csak a jelöltek számától függ  Hátrány: Sok idő elmegy a nem gyakori jelöltek kiszórásával Sok az I/O művelet Adatbázis vetítésen alapuló  Az adatbázist a memóriába vetíti  csak memóriában dolgozik, 2 adatbázis olvasást igényel  A gyakoriak kiterjesztéseként találja meg a nagyobb gyakoriakat  Előny: Ha befér a memóriába, gyors  Hátrány: Memória igénye az adatbázis méretétől függ A memória tulajdonságaik miatt kutatásaimban a szintenként haladó módszerek gyorsításával foglalkoztam

5 Gyakori elemhalmaz bányászat

6 A problémakör Tipikus feladat: vásárlói kosár elemzés Az adatbázis elemhalmazokat tartalmazó tranzakciókból áll. Egy tranzakció egy vásárlást jelent. TIDelemhalmaz T1(1,3,4,5,8) T2(1,3,5) T3(2,6) MéretGyakori elemhalmazok L1(1),(3),(5) L2(1,3),(1,5),(3,5) L3(1,3,5) σ min = 2

7 Az Apriori algoritmus vizsgálata Mérések alapján belátható, hogy az Apriori algoritmus a kis elemszámú gyakori elemhalmazok meghatározására használja a legtöbb időt. Lehetséges ok: a hash-fa nem elég hatékony

8 1a. Tézis – ItemsetCode algoritmus Cél:  a szintenként haladó Apriori algoritmuson alapján  a kis elemszámú gyakori elemhalmazok meghatározásának gyorsítása Új gondolat:  a 3- és 4-elemű jelöltek meghatározásának problémáját visszavezetni a 2-elemű elemhalmazok meghatározásának problémájára  Ehhez a gyakori 2-eleműeket kódolni kell,  és a 3 és 4 elemű jelölteket a kód párok alkotják

9 1a. Tézis – ItemsetCode algoritmus Probléma:  A kód párok redundánsan generálják a jelölteket  Hogyan kezeljük hatékonyan a kódokat? Megoldás:  A redundancia elkerülésére a kód párokra két szabályt vezettem be  A kód párokat a hatékony memória kezelés miatt egy fésűs listában tárolom A fésűs lista egy listájában a jelöltek folytonosan címezhetők, ami a bevezetett szabályoknak köszönhető A jelöltek egyszerű indirekt indexeléssel címezhetők

10 Példa a fésűs listára

11 1b. Tézis – Cubic algoritmus Új gondolat:  Amíg a memóriában elfér a leggyorsabb módot, az indexelést használni a számlálók címzésére  A 3- és 4-elemű jelöltek támogatottságát kocka struktúra segítségével határozom meg  Ez a módszer kiterjeszthető a további szintekre is, ahol a kockák hash-fával címezhetők 1 n HASHHASH HASHHASH HASHHASH Cél:  Szintenként haladó módon a kis elemszámú jelöltek hatékony meghatározása

12 T22I8D200KT22I8D300K T18I6D100K Mérési eredmények – Futási idő

13 T22I8D100KT22I8D300K T22I8DxK Mérési eredmények – Memória igény

14 Összefoglalás Két módszert mutattam gyakori elemhalmazok hatékony meghatározására Az ItemsetCode algoritmus  Módszert adtam a 2-elemű gyakori elemhalmazok kódolására, mellyel a 3- és 4-elemű gyakoriakat lehet gyors módon meghatározni  Bemutattam, hogy a kód párok a jelölteket redundáns módon generálják  Szabályt adtam arra, hogyan szüntessük meg a redundanciát úgy, hogy ennek tulajdonságait a számláló struktúra kialakításánál kihasználhassuk  Megmutattam, hogyan kell fésűs listába szervezni a jelöltek számlálóit a hatékony kezelés érdekében

15 Összefoglalás A Cubic algoritmus  Megmutattam, hogyan kell kocka alapú index struktúra segítségével tárolni a 3- és 4-elemű jelölteket Mérésekkel igazoltam a két algoritmus hatékonyságát mind futási idő, mind memória igény szempontjából

16 Gyakori szekvencia bányászat

17 A problémakör Olyan vásárlói kosarak, ahol a vásárlók kilétét is nyilván tartjuk  minden vásárlóhoz a vásárolt elemhalmazok egy rendezett sorozatát tároljuk el. Ez lesz egy tranzakció TIDszekvencia T1 T2 T3 MéretGyakori szekvenciák L1,,, L2,,,,,, L3,,,, L4

18 2. Tézis – SM-Tree algoritmus Cél:  A szintenként haladó GSP algoritmuson alapulva egy hatékonyabb módszer kialakítása Új gondolat:  A jelölttartalmazás problémájának meghatározására determinisztikus véges automatának használata Ehhez a szekvenciákat sztringként ábrázolom, ahol az elemhalmazokat egy „–” jellel választom el egymástól  A hatékony kezelés érdekében az automatákat összefűzöm  SM-Tree struktúra

19 2. Tézis – SM-Tree algoritmus Az aktuális állapotokat tokenek segítségével kezelem Az SM-Tree állapotait két csoportra osztom  Fix állapotok – a „-” átmenetek után szereplő állapotok és a kezdő állapot  Átmeneti állapotok – minden nem fix állapot Belátható, hogy a fix állapotok halmaza csak nő, míg az átmeneti állapotok egyszerre kerülnek törlésre  két fix méretű tömbbel kezelhetők az aktív állapotokat jelző tokenek A struktúra előnye, hogy a bemeneti tranzakció elemeinek egyszeri végigolvasásával az összes jelöltről eldöntöm, hogy része-e a bemenetnek

20 Példa SM-Tree létrehozására S4S4 S0S0 S1S1 S2S2 S3S3 S5S5 D-B-A S0S0 S1S1 S2S2 S4S4 S3S3 -DBA - S0S0 S1S1 S2S2 S4S4 S3S3 -DBA - S6S6 S5S5 S7S7 -A B S0S0 S1S1 S2S2 S4S4 S3S3 -DBA - S6S6 S5S5 S7S7 - A B S8S8 F - S0S0 S1S1 S2S2 S4S4 S3S3 -DFB -

21 Mérési eredmények – Futási idő

22 Összefoglalás Módszert adtam gyakori szekvenciák hatékony kezelésére Megmutattam, hogyan kell véges automatát létrehozni szekvencia tartalmazás vizsgálatára Az általam ajánlott SM-Tree algoritmus összefűzött véges automaták segítségével egyszerre határozza meg a jelöltek támogatottságát Megmutattam, hogy az állapotokat két osztályra bontva az aktív állapotokat jelző tokeneket miként lehet hatékonyan kezelni Mérésekkel igazoltam az új algoritmus hatékonyságát

23 Gyakori fa bányászat

24 A problémakör Bemenet: fákat tartalmazó adatbázis Keresett minta: gyakori részfák  Részfa definíciója: a  1 (V  1,E  1 ) fa beágyazott részfája  2 (V  2,E  2 ) fának, ha V  1  V  2, és  1- ben akkor és csak akkor jelenik meg egy ág, ha a két csomópont azonos úton helyezkedik el  2 -ben A B BC D A Lehetséges részfái A B C D A CA A B A D (2)(3)(4)(1)

25 3. Tézis – PD-Tree algoritmus Cél:  Rendezett fák tartalmazásának hatékony felismerése Új gondolat:  Verem automata használata A fát sztringként kell reprezentálni úgy, hogy a struktúrára vonatkozó információ se vesszen el  A hatékony kezelés érdekében az automatákat összefűzöm úgy, hogy az összes jelölt kezeléséhez egyetlen verem szükséges  PD-Tree struktúra  A PD-Tree használatával a tranzakció elemeinek egyszeri beolvasása után minden jelöltről kiderül, hogy a bemenet tartalmazza-e vagy sem.

26 Példa verem automata az ABC-BA---D fához

27 λ\A,* / λ\A* -,* / ε λ,* / λ* -,* / ε q 0,0 q 1,1 q 2,2 q 3,3 q 4,2 q 6,4 q 5,3 q 7,3 q 10,2 q 9,1 q 8,2 A,* / * -, / ε B,* / * -, / ε -,C / ε -, / ε -,B / ε -, / ε -,A / ε -, / ε C,* / * B,* / * A,* / * -, / ε D,* / * -, / ε λ\B,* / λ\B* -,Γ\ / ε λ\C,* / λ\C* -,Γ\ / ε λ,* / λ* -,Γ\{C, } / ε λ\B,* / λ\B* -,Γ\ / ε λ\A,* / λ\A* -,Γ\ / ε λ,* / λ* -,Γ\{B, } / ε λ\D,* / λ\D * -,Γ\ / ε λ,* / λ* -,Γ\{B, } / ε λ,* / λ* -,Γ\{A, } / ε -,B / ε -, / ε Példa verem automata az ABC-BA---D fához

28 Példa automata négy jelölt fához ABC-B ABC--B BA-AB ABCD

29 Mérési eredmények

30 N°N°Jelölt adatbázis Bemeneti adatbázis Stack Auto. (sec) PD-Tree (sec) Gyorsulás 1D4F3L10T5KD5F4L10T1K D4F3L10T5KD5F4L10T10K D4F3L10T50KD5F4L10T1K D5F3L10T1KD4F3L10T10K D5F3L10T1KD4F3L10T5K D5F3L10T1KD4F3L10T50K D5F3L10T10KD4F3L10T5K D5F4L10T1KD5F4L10T10K D5F3L10T10KD5F4L10T1K Mérési eredmények

31 Összefoglalás Módszert adtam címkézett, gyökérrel rendelkező, rendezett fák hatékony felismerésére Megmutattam, hogyan lehet verem automata segítségével felismerni a részfa tartalmazást Módszert adtam arra, hogyan kell számos automatát úgy összefűzni, hogy a kialakult struktúra is csak egy vermet használjon Mérésekkel igazoltam a módszer hatékonyságát

32 Külföldön megjelent idegen nyelvű folyóiratcikk 1. Iváncsy, R. and I. Vajk, “Finding the Size-Restricted Frequent Itemsets in Market Basket Data”, Scientific Bulletin of “Politehnica” University of Timisoara, Transactions on Automatic Control and Computer Science, Vol.49 (63) 2004 No. 3, ISSN X, Editura Politehnica, Timisoara, Romania, 2004, pp Iváncsy, R. and I. Vajk, “A Time and Memory Efficient Frequent Itemset Discovering Algorithm for Association Rule Mining”, International Journal of Computer Applications in Technology, Special Issue on Data Mining Applications” by Inderscience Enterprises Ltd. (accepted) 3. Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Itemsets: a Cubic-Structure- based Approach”, Computational Intelligence in Data mining Special Issue of the Informatica Journal (ISSN ) (accepted) 4. Iváncsy, R and I. Vajk, “Efficient Sequential Pattern Mining Algorithms”, WSEAS Transactions on Computers, Issue 2, Volume 4, February 2005, ISNN , pp Magyar nyelvű folyóiratcikk 5. Iváncsy, R. „Hogyan írjunk Java appletet”, Elektrotechnika, 95. évfolyam, 10. szám, HUISSN: , A magyar elektrotechnikai egyesület hivatalos lapja, pp: Marossy, K. and R. Iváncsy, „Egy új számítástechnikai leíró nyelv, az XML a gyakorlatban”, Elektrotechnika, 96. évfolyam, 3. szám, HUISSN: , A magyar elektrotechnikai egyesület hivatalos lapja, pp: Iváncsy, R. „Matlab (6. rész)”, Elektronet, Elektonikai-Informatikai Szakfolyóirat, 12. évfolyam, 2. szám, március, HUISSN: X, Heiling Média Kft. pp Publikációs lista

33 Szerkesztett könyvben megjelent idegen nyelvű cikk 8. Iváncsy, R., S. Juhász and I. Vajk, "A State Machine-Tree Approach-Based Efficient Sequential Pattern Mining Algorithm" Intelligent Systems at the Service of Mankind Volume 2. (accepted) 9. Kovács, F, R. Iváncsy and S. Juhász, "Performance Modelling of Serial and Distributed Association Rule Mining Algorithms", Intelligent Systems at the Service of Mankind Volume 2. (accepted) Nemzetközi részvételű konferencia kiadványban megjelent idegen nyelvű előadás 10. Iváncsy, R., F. Kovacs, and I. Vajk, “An Analysis of Association Rule Mining Algorithms”, In CD-ROM Proc. of Fourth International ICSC Symposium on Engineering of Intelligent Systems (EIS 2004), Island of Madeira, Portugal, Feb. 29-Mar. 2, Iváncsy, R., F. Kovacs, and I. Vajk, “Dynamic Itemset Counting in PC Cluster Based Association Rule Mining”, In CD-ROM Proc. of Fourth International ICSC Symposium on Engineering of Intelligent Systems (EIS 2004), Island of Madeira, Portugal, Feb. 29-Mar. 2, Kovács, F., R. Iváncsy and I. Vajk, ”Evaluation of the Serial Association Rule Mining Algorithms”, 22ND IASTED International Conference on Databases and Applications, February 17-19, Innsbruck, Austria, Iváncsy, R. and I. Vajk, “Size Restricted Association Rule Mining”, MicroCAD 2004 International Scientific Conference, University of Miskolc, March 18-19, Miskolc, pp Juhász, S., R. Iváncsy and I. Vajk, “Performance Modelling of the Apriori Association Rule Mining Algorithm”, MicroCAD 2004 International Scientific Conference, University of Miskolc, March 18-19, Miskolc, pp Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Patterns in Market Basket Data”, In. Proc. of 4th International Conference on Intelligent Systems Design and Applications (ISDA’04), Budapest, Hungary, Augustus pp Publikációs lista

34 16. Iváncsy, R., S. Juhász, and F. Kovács, “Performance Prediction for Association Rule Mining Algorithms”, In Proc. of IEEE International Conference on Computational Cybernetics ICCC 2004, Vienna University of Technology, Austria, August 30 - September 1, pp Iváncsy, G, R. Iváncsy and I. Vajk, “Graph Mining-Based Image Indexing”, In Proc. of the 5th International Symposium of Hungarian Researchers on Computational Intelligence, Budapest,Hungary, Nov , pp Iváncsy R and I. Vajk, “A Survey of Discovering Frequent Patterns in Graph Data”, In Proc. of the IASTED International Conference on Databases and Applications ~DBA 2005~ as part of the Twenty-Third IASTED International MultiConference on Applied Informatics, Innsbruck, Austria, Feb , pp Iváncsy, R., S. Juhász and I. Vajk, “Fast Discovery of Sequential Patterns by Level-Wise Approach”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, Hungary, pp Iváncsy, R., T. Levendovszky and H. Charaf, “.NET Facilities in Data Mining Applications”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, Hungary, pp Iváncsy, R. and G. Iváncsy, “Image Indexing Using Frequent Graph Mining Technique”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, Hungary, pp Iváncsy, R. and I. Vajk, “SeqTreeMiner: a New Approach to Sequence Mining”, International Carpatian Control Conference 2005 (ICCC'2005), May , Miskolc-Lillafüred, Hungary, Vol. 1. pp Iváncsy, R. and I. Vajk, "Fast Discovery of Tree Patterns", In Proc. of the 5 th International Conference for PhD Students, Aug, Miskolc, Hungary (accepted) 24. Herczegh, G. and R. Iváncsy, "Deadlock Handling in Microsoft SQL Server", In Proc. of the 5th International Conference for PhD Students, Aug, Miskolc, Hungary, (accepted) Publikációs lista

35 Köszönöm a figyelmet!


Letölteni ppt "Gyakori minták bányászata tranzakciós és strukturált adatbázisokban című értekezés tanszéki védése Iváncsy Renáta Konzulens: Dr. Vajk István."

Hasonló előadás


Google Hirdetések