PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István
Adatbányászat Asszociációs szabályok feltárása Pl. vásárlói kosarak Feladat: Elemek együttes előfordulásának megszámolása A keresési idő és a memória igény csökkentése
Elemhalmaz támogatottsága Az X elemhalmaz támogatottsága: azon tranzakciók számának aránya az összes tranzakciószámhoz képest, amelyek tartalmazzák az X-et.
Asszociációs szabály
Asszociációk bányászatának lépései Az összes gyakori elemhalmaz megtalálása A gyakori elemhalmazokból érvényes asszociációs szabályok generálása Gyakori elemhalmaz: támogatottsága nagyobb mint a küszöbérték Érvényes szabály: eleget tesz mind a minimális támogatottság, mind a minimális bizonyosság küszöbértékének Számítási igény alapján a gyakori elemhalmazok meghatározása a kritikus
A félév során végzett munka Korlátozott méretű szabály keresés Az Apriori és az FP-growth algoritmus módosítása Az Apriori algoritmus problémáinak feltárása ASC algoritmus Az FP-growth algoritmus problémáinak feltárása Cubic FP-growth
Apriori algoritmus (1) Szintenként haladó algoritmus Alapja: egy gyakori elemhalmaz minden részhalmaza is gyakori, azaz ha egy elemhalmaz nem gyakori, akkor annak bármely elemmel való bővítése sem lesz gyakori Az adatok tranzakciókban kerülnek reprezentálásra (minden egyes tranzakció egy azonosítóból és egy elemeket tartalmazó listából áll)
Apriori algoritmus (2) Meg kell találni az összes 1 elemű gyakori elemhalmazt (L 1 ) Ha megvan a k-1 elemű gyakori elemhalmazunk (L k-1 ), ebből kell generálni a k elemű jelölteket (C k ) Összekapcsoljuk azon két halmazt, amik az első k-2 elemben azonosak A jelöltekből kivesszük azokat, aminek van k-1 elemű nem gyakori részhalmaza, így megkapjuk C k -t L k -t C k -ból kapjuk a min_s alapján
Az FP-growth algoritmus 1. adatbázis olvasás gyakori elemhalmazok sorbarendezése 2. adatbázis olvasás FP-fa felépítése a memóriában Az FP-fából feltételes fák építésének segítségével meghatározza a gyakori elemhalmazokat
Korlátozott méretű szabály keresése Apriori módosítása – szintenként haladó k. szinten be kell fejezni a feldolgozást FP-growth módosítása A fa bejárásakor csak a max. k méretű halmazokat kell kigenerálni
Mérési eredmények APRIORI FP-GROWTH
Magyarázat az FP-growth viselkedésére
Az Apriori algoritmus viselkedése
Az ASC algoritmus 1 és 2 elemű halmazok meghatározása mátrix segítségével 3-4 elemű halmazok meghatározása kocka struktúrával 1 n HASHHASH HASHHASH HASHHASH
FP-growth algoritmus Azonos statisztikai tulajdonsággal rendelkező két adathalmaz esetén, amikben a tranzakciók száma egy nagyságrenddel tér el, a generált fa mérete és közel egy nagyságrenddel tér el A felesleges csomópontokat ne építsük bele a fába Csak azokból a tranzakciókból építsünk fát, amik tartalmaznak legalább egy négyelemű gyakori elemhalmazt
Cubic FP-growth algoritmus Az ASC algoritmussal meghatározzuk az 1-4 gyakori elemhalmazokat Kiszűrjük azokat a tranzakciókat, amik nem tartalmaznak gyakori négyelemű részhalmazt Felépítjük az FP-fát és végrehajtjuk az FP- growth algoritmust
Mérési eredmények
Publikációk R.Iváncsy, F.Kovács, I.Vajk: An Analysis of Association Rule Mining Algorithms, EIS 2004 F.Kovács, R.Iváncsy, I.Vajk: Dynamic Itemset Counting in PC Cluster Based Association Rule Mining, EIS 2004 F.Kovács, R.Iváncsy, I.Vajk: Evaluation of the Serial Association Rule Mining Algorithms, IASTED 2004 R.Iváncsy, I.Vajk: Size Restricted Association Rule Mining, MicroCAD 2004 S.Juhász, R.Iváncsy, I.Vajk: Performance Modelling of the Apriori Association Rule Mining Algorithm, MicroCAD 2004