Gyakori minták bányászata tranzakciós és strukturált adatbázisokban

Gyakori minták bányászata tranzakciós és strukturált adatbázisokban
című értekezés tanszéki védése Iváncsy Renáta Konzulens: Dr. Vajk István

Tartalom Általában a gyakori minták bányászatáról
Gyakori elemhalmaz bányászat – 1. Tézis Gyakori szekvencia bányászat – 2. Tézis Gyakori részfa bányászat – 3. Tézis

Gyakori minta keresés Cél: nagy adathalmazban gyakran előforduló minták meghatározása Az előfordulási számot támogatottságnak hívják Egy minta gyakori, ha támogatottsága egy minimális támogatottsági küszöb (σmin) fölött van Probléma: az adathalmazok nagy mérete miatt, és a potenciálisan gyakori minták nagy számossága miatt a keresési tér óriási Keresési tér csökkentése  Apriori hipotézis Egy gyakori mintának minden részmintája is gyakori Következmény: egy ritka minta bármilyen bővítménye is ritka

Tipikus megközelítések
Szintenként haladó A k méretű mintát az adatbázis k-dik olvasásával határozza meg Az Apriori hipotézis alapján a k-1 méretű gyakoriakból k méretű jelöltet generál Előny: Memória igénye független az adatbázis méretétől, csak a jelöltek számától függ Hátrány: Sok idő elmegy a nem gyakori jelöltek kiszórásával Sok az I/O művelet Adatbázis vetítésen alapuló Az adatbázist a memóriába vetíti  csak memóriában dolgozik, 2 adatbázis olvasást igényel A gyakoriak kiterjesztéseként találja meg a nagyobb gyakoriakat Előny: Ha befér a memóriába, gyors Hátrány: Memória igénye az adatbázis méretétől függ A memória tulajdonságaik miatt kutatásaimban a szintenként haladó módszerek gyorsításával foglalkoztam

Gyakori elemhalmaz bányászat

A problémakör Tipikus feladat: vásárlói kosár elemzés
Az adatbázis elemhalmazokat tartalmazó tranzakciókból áll. Egy tranzakció egy vásárlást jelent. Méret Gyakori elemhalmazok L1 (1),(3),(5) L2 (1,3),(1,5),(3,5) L3 (1,3,5) TID elemhalmaz T1 (1,3,4,5,8) T2 (1,3,5) T3 (2,6) σmin= 2

Az Apriori algoritmus vizsgálata
Mérések alapján belátható, hogy az Apriori algoritmus a kis elemszámú gyakori elemhalmazok meghatározására használja a legtöbb időt. Lehetséges ok: a hash-fa nem elég hatékony

1a. Tézis – ItemsetCode algoritmus
Cél: a szintenként haladó Apriori algoritmuson alapján a kis elemszámú gyakori elemhalmazok meghatározásának gyorsítása Új gondolat: a 3- és 4-elemű jelöltek meghatározásának problémáját visszavezetni a 2-elemű elemhalmazok meghatározásának problémájára Ehhez a gyakori 2-eleműeket kódolni kell, és a 3 és 4 elemű jelölteket a kód párok alkotják

1a. Tézis – ItemsetCode algoritmus
Probléma: A kód párok redundánsan generálják a jelölteket Hogyan kezeljük hatékonyan a kódokat? Megoldás: A redundancia elkerülésére a kód párokra két szabályt vezettem be A kód párokat a hatékony memória kezelés miatt egy fésűs listában tárolom A fésűs lista egy listájában a jelöltek folytonosan címezhetők, ami a bevezetett szabályoknak köszönhető A jelöltek egyszerű indirekt indexeléssel címezhetők

Példa a fésűs listára

1b. Tézis – Cubic algoritmus
Cél: Szintenként haladó módon a kis elemszámú jelöltek hatékony meghatározása 1 n H A S Új gondolat: Amíg a memóriában elfér a leggyorsabb módot, az indexelést használni a számlálók címzésére A 3- és 4-elemű jelöltek támogatottságát kocka struktúra segítségével határozom meg Ez a módszer kiterjeszthető a további szintekre is, ahol a kockák hash-fával címezhetők

Mérési eredmények – Futási idő
T22I8D200K T22I8D300K T18I6D100K

Mérési eredmények – Memória igény
T22I8D100K T22I8D300K T22I8DxK

Összefoglalás Két módszert mutattam gyakori elemhalmazok hatékony meghatározására Az ItemsetCode algoritmus Módszert adtam a 2-elemű gyakori elemhalmazok kódolására, mellyel a 3- és 4-elemű gyakoriakat lehet gyors módon meghatározni Bemutattam, hogy a kód párok a jelölteket redundáns módon generálják Szabályt adtam arra, hogyan szüntessük meg a redundanciát úgy, hogy ennek tulajdonságait a számláló struktúra kialakításánál kihasználhassuk Megmutattam, hogyan kell fésűs listába szervezni a jelöltek számlálóit a hatékony kezelés érdekében

Összefoglalás A Cubic algoritmus
Megmutattam, hogyan kell kocka alapú index struktúra segítségével tárolni a 3- és 4-elemű jelölteket Mérésekkel igazoltam a két algoritmus hatékonyságát mind futási idő, mind memória igény szempontjából

Gyakori szekvencia bányászat

A problémakör Olyan vásárlói kosarak, ahol a vásárlók kilétét is nyilván tartjuk  minden vásárlóhoz a vásárolt elemhalmazok egy rendezett sorozatát tároljuk el. Ez lesz egy tranzakció Méret Gyakori szekvenciák L1 <(1)>,<(2)>,<(3)>,<(5)> L2 <(1,3)>,<(1,5)>,<(3,5)>, <(1)(1)>,<(2)(1)>,<(2)(3)>,<(2)(5)> L3 <(2)(1,3)>, <(2)(1,5)>, <(2)(3,5)>,<(1,3)(1)>, <(1,3,5)> L4 <(2)(1,3,5)> TID szekvencia T1 <(2)(1,3,5)(1,2)> T2 <(1,2,3)(1,3,5)> T3 <(2,6)>

2. Tézis – SM-Tree algoritmus
Cél: A szintenként haladó GSP algoritmuson alapulva egy hatékonyabb módszer kialakítása Új gondolat: A jelölttartalmazás problémájának meghatározására determinisztikus véges automatának használata Ehhez a szekvenciákat sztringként ábrázolom, ahol az elemhalmazokat egy „–” jellel választom el egymástól A hatékony kezelés érdekében az automatákat összefűzöm  SM-Tree struktúra

2. Tézis – SM-Tree algoritmus
Az aktuális állapotokat tokenek segítségével kezelem Az SM-Tree állapotait két csoportra osztom Fix állapotok – a „-” átmenetek után szereplő állapotok és a kezdő állapot Átmeneti állapotok – minden nem fix állapot Belátható, hogy a fix állapotok halmaza csak nő, míg az átmeneti állapotok egyszerre kerülnek törlésre  két fix méretű tömbbel kezelhetők az aktív állapotokat jelző tokenek A struktúra előnye, hogy a bemeneti tranzakció elemeinek egyszeri végigolvasásával az összes jelöltről eldöntöm, hogy része-e a bemenetnek

Példa SM-Tree létrehozására
B A S4 S0 S1 S2 S3 S5 D - B A S0 S1 S2 S4 S3 - D F B S0 S1 S2 S4 S3 - D B A S6 S5 S7 S0 S1 S2 S4 S3 - D B A S6 S5 S7 S8 F

Mérési eredmények – Futási idő

Összefoglalás Módszert adtam gyakori szekvenciák hatékony kezelésére
Megmutattam, hogyan kell véges automatát létrehozni szekvencia tartalmazás vizsgálatára Az általam ajánlott SM-Tree algoritmus összefűzött véges automaták segítségével egyszerre határozza meg a jelöltek támogatottságát Megmutattam, hogy az állapotokat két osztályra bontva az aktív állapotokat jelző tokeneket miként lehet hatékonyan kezelni Mérésekkel igazoltam az új algoritmus hatékonyságát

Gyakori fa bányászat

A problémakör Bemenet: fákat tartalmazó adatbázis
Keresett minta: gyakori részfák Részfa definíciója: a 1(V1,E1) fa beágyazott részfája 2(V2,E2) fának, ha V1 V2, és 1-ben akkor és csak akkor jelenik meg egy ág, ha a két csomópont azonos úton helyezkedik el 2-ben A B C D A B C D A C A B D Lehetséges részfái (1) (2) (3) (4)

3. Tézis – PD-Tree algoritmus
Cél: Rendezett fák tartalmazásának hatékony felismerése Új gondolat: Verem automata használata A fát sztringként kell reprezentálni úgy, hogy a struktúrára vonatkozó információ se vesszen el A hatékony kezelés érdekében az automatákat összefűzöm úgy, hogy az összes jelölt kezeléséhez egyetlen verem szükséges  PD-Tree struktúra A PD-Tree használatával a tranzakció elemeinek egyszeri beolvasása után minden jelöltről kiderül, hogy a bemenet tartalmazza-e vagy sem.

Példa verem automata az ABC-BA---D fához

Példa verem automata az ABC-BA---D fához
-,* / ε λ,* / λ* q0,0 q1,1 q2,2 q3,3 q4,2 q6,4 q5,3 q7,3 q10,2 q9,1 q8,2 A,* / <A,0>* -,<A,0> / ε B,* / <B,1>* -,<B,1> / ε -,C / ε -,<C,*> / ε -,B / ε -,<B,*> / ε -,A / ε -,<A,*> / ε C,* / <C,2>* B,* / <B,4>* A,* / <A,5>* -,<B,4> / ε D,* / <D,9>* λ\B,* / λ\B* -,Γ\<A,0> / ε λ\C,* / λ\C* -,Γ\<B,1> / ε -,Γ\{C,<C,*>} / ε -,Γ\<B,4> / ε -,Γ\{B,<B,*>} / ε λ\D,* / λ\D * -,Γ\{A,<A,*>} / ε

Példa automata négy jelölt fához
ABC-B ABC--B BA-AB ABCD

Mérési eredmények

Mérési eredmények N° Jelölt adatbázis Bemeneti adatbázis Stack Auto.
(sec) PD-Tree Gyorsulás 1 D4F3L10T5K D5F4L10T1K 160.72 6.50 24.73 2 D5F4L10T10K 74.31 21.94 3 D4F3L10T50K 160.17 5.02 31.93 4 D5F3L10T1K D4F3L10T10K 43.36 13.23 3.27 5 43.42 18.83 2.31 6 43.26 12.38 3.50 7 D5F3L10T10K 613.44 98.42 6.23 8 255.52 40.59 6.29 9 354.48 37.44 9.47

Összefoglalás Módszert adtam címkézett, gyökérrel rendelkező, rendezett fák hatékony felismerésére Megmutattam, hogyan lehet verem automata segítségével felismerni a részfa tartalmazást Módszert adtam arra, hogyan kell számos automatát úgy összefűzni, hogy a kialakult struktúra is csak egy vermet használjon Mérésekkel igazoltam a módszer hatékonyságát

Publikációs lista Külföldön megjelent idegen nyelvű folyóiratcikk
Iváncsy, R. and I. Vajk, “Finding the Size-Restricted Frequent Itemsets in Market Basket Data”, Scientific Bulletin of “Politehnica” University of Timisoara, Transactions on Automatic Control and Computer Science, Vol.49 (63) 2004 No. 3, ISSN X, Editura Politehnica, Timisoara , Romania , 2004, pp Iváncsy, R. and I. Vajk, “A Time and Memory Efficient Frequent Itemset Discovering Algorithm for Association Rule Mining”, International Journal of Computer Applications in Technology, Special Issue on Data Mining Applications” by Inderscience Enterprises Ltd. (accepted) Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Itemsets: a Cubic-Structure-based Approach”, Computational Intelligence in Data mining Special Issue of the Informatica Journal (ISSN ) (accepted) Iváncsy, R and I. Vajk, “Efficient Sequential Pattern Mining Algorithms”, WSEAS Transactions on Computers, Issue 2, Volume 4, February 2005, ISNN , pp Magyar nyelvű folyóiratcikk Iváncsy, R. „Hogyan írjunk Java appletet”, Elektrotechnika, 95. évfolyam, 10. szám, HUISSN: , A magyar elektrotechnikai egyesület hivatalos lapja, pp: Marossy, K. and R. Iváncsy, „Egy új számítástechnikai leíró nyelv, az XML a gyakorlatban”, Elektrotechnika, 96. évfolyam, 3. szám, HUISSN: , A magyar elektrotechnikai egyesület hivatalos lapja, pp: Iváncsy, R. „Matlab (6. rész)”, Elektronet, Elektonikai-Informatikai Szakfolyóirat, 12. évfolyam, 2. szám, március, HUISSN: X, Heiling Média Kft. pp

Publikációs lista Szerkesztett könyvben megjelent idegen nyelvű cikk
Iváncsy, R., S. Juhász and I. Vajk, "A State Machine-Tree Approach-Based Efficient Sequential Pattern Mining Algorithm" Intelligent Systems at the Service of Mankind Volume 2. (accepted) Kovács, F, R. Iváncsy and S. Juhász, "Performance Modelling of Serial and Distributed Association Rule Mining Algorithms", Intelligent Systems at the Service of Mankind Volume 2. (accepted) Nemzetközi részvételű konferencia kiadványban megjelent idegen nyelvű előadás Iváncsy, R., F. Kovacs, and I. Vajk, “An Analysis of Association Rule Mining Algorithms”, In CD-ROM Proc. of Fourth International ICSC Symposium on Engineering of Intelligent Systems (EIS 2004), Island of Madeira, Portugal, Feb. 29-Mar. 2, Iváncsy, R., F. Kovacs, and I. Vajk, “Dynamic Itemset Counting in PC Cluster Based Association Rule Mining”, In CD-ROM Proc. of Fourth International ICSC Symposium on Engineering of Intelligent Systems (EIS 2004), Island of Madeira, Portugal, Feb. 29-Mar. 2, Kovács, F., R. Iváncsy and I. Vajk, ”Evaluation of the Serial Association Rule Mining Algorithms”, 22ND IASTED International Conference on Databases and Applications, February 17-19, Innsbruck, Austria, 2004. Iváncsy, R. and I. Vajk, “Size Restricted Association Rule Mining”, MicroCAD 2004 International Scientific Conference, University of Miskolc , March 18-19, Miskolc , pp Juhász, S., R. Iváncsy and I. Vajk, “Performance Modelling of the Apriori Association Rule Mining Algorithm”, MicroCAD 2004 International Scientific Conference, University of Miskolc, March 18-19, Miskolc, pp Iváncsy, R. and I. Vajk, “Fast Discovery of Frequent Patterns in Market Basket Data”, In. Proc. of 4th International Conference on Intelligent Systems Design and Applications (ISDA’04), Budapest , Hungary , Augustus pp

Publikációs lista Iváncsy, R., S. Juhász, and F. Kovács, “Performance Prediction for Association Rule Mining Algorithms”, In Proc. of IEEE International Conference on Computational Cybernetics ICCC 2004, Vienna University of Technology, Austria, August 30 - September 1, pp Iváncsy, G, R. Iváncsy and I. Vajk, “Graph Mining-Based Image Indexing”, In Proc. of the 5th International Symposium of Hungarian Researchers on Computational Intelligence, Budapest,Hungary, Nov. 11 -12, pp Iváncsy R and I. Vajk, “A Survey of Discovering Frequent Patterns in Graph Data”, In Proc. of the IASTED International Conference on Databases and Applications ~DBA 2005~ as part of the Twenty-Third IASTED International MultiConference on Applied Informatics, Innsbruck, Austria, Feb , 2005. pp Iváncsy, R., S. Juhász and I. Vajk, “Fast Discovery of Sequential Patterns by Level-Wise Approach”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, Hungary, 2005. pp Iváncsy, R., T. Levendovszky and H. Charaf, “.NET Facilities in Data Mining Applications”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, Hungary, pp Iváncsy, R. and G. Iváncsy, “Image Indexing Using Frequent Graph Mining Technique”, MicroCAD 2005 International Scientific Conference, University of Miskolc, March 10-11, Miskolc, Hungary, pp Iváncsy, R. and I. Vajk, “SeqTreeMiner: a New Approach to Sequence Mining”, International Carpatian Control Conference 2005 (ICCC'2005), May , Miskolc-Lillafüred, Hungary, 2005. Vol. 1. pp Iváncsy, R. and I. Vajk, "Fast Discovery of Tree Patterns", In Proc. of the 5th International Conference for PhD Students, Aug, Miskolc, Hungary (accepted) Herczegh, G. and R. Iváncsy, "Deadlock Handling in Microsoft SQL Server", In Proc. of the 5th International Conference for PhD Students, Aug, Miskolc, Hungary, (accepted)

Köszönöm a figyelmet! !

Gyakori minták bányászata tranzakciós és strukturált adatbázisokban

Hasonló előadás

Az előadások a következő témára: "Gyakori minták bányászata tranzakciós és strukturált adatbázisokban"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

Gyakori minták bányászata tranzakciós és strukturált adatbázisokban

Hasonló előadás

Az előadások a következő témára: "Gyakori minták bányászata tranzakciós és strukturált adatbázisokban"— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés