Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.

Hasonló előadás


Az előadások a következő témára: "PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István."— Előadás másolata:

1 PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István

2 Adatbányászat – asszociációs szabályok Adatbányászati problémák feltérképezése Asszociációs szabály generáló algoritmusok vizsgálata Elkészítettem egy programot, ami megvalósítja az asszociációs szabálygenerálás alap algoritmusát, az Apriori algoritmust Tervek: További algoritmusokkal kiegészíteni a programot, méréseket végezni

3 Elemhalmaz támogatottsága Az X elemhalmaz támogatottsága: azon tranzakciók számának aránya az összes tranzakciószámhoz, amelyek tartalmazzák az X-et.

4 Asszociációs szabály

5 Érvényes asszociációs szabályok

6 Asszociációk bányászatának lépései Az összes gyakori elemhalmaz megtalálása A gyakori elemhalmazokból érvényes asszociációs szabályok generálása Gyakori elemhalmaz: támogatottsága nagyobb mint a küszöbérték Érvényes szabály: eleget tesz mind a minimális támogatottság, mind a minimális bizonyosság küszöbértékének Számítási igény alapján a gyakori elemhalmazok meghatározása a kritikus

7 Algoritmusok Gyakori elemhalmazok megtalálására

8 Lehetséges megoldások (1) Szintenként haladó algoritmusok Többször olvassák végig az adatbázist i-edik végigolvasáskor csak a az i elemű gyakori termékhalmazokat állítják elő Annyiszor olvassák végig az adatbázist, ahány elemű a legnagyobb gyakori termékhalmaz Az i+1-edik lépésben a már addig megtalált gyakori termékhalmazokból következtetnek a lehetséges jelöltekre

9 Lehetséges megoldások (2) Kétfázisú szabálykinyerés Adatbázis tömörítése Az adatbázist a memóriába tömörítik, majd a memóriában végzik el a gyakori elemhalmazok meghatározását Mintavételezés a gyakori elemhalmazokat a mintában határozzák meg, majd leellenőrzik az adatbázisban Particionálás Az adatbázist részekre osztása után az egyes részeken külön-külön lehet elvégezni a bányászatot, majd a végén az egész adatbázis alapján ellenőrzés

10 Apriori algoritmus (1) Szintenként haladó algoritmus Alapja: egy gyakori elemhalmaz minden részhalmaza is gyakori, azaz ha egy elemhalmaz nem gyakori, akkor annak bármely elemmel való bővítése sem lesz gyakori Az adatok tranzakciókban kerülnek reprezentálásra (minden egyes tranzakció egy azonosítóból és egy elemeket tartalmazó listából áll)

11 Apriori algoritmus (2) Meg kell találni az összes 1 elemű gyakori elemhalmazt (L 1 ) Ha megvan a k-1 elemű gyakori elemhalmazunk (L k-1 ), ebből kell generálni a k elemű jelölteket (C k ) Összekapcsoljuk azon két halmazt, amik az első k-2 elemben azonosak A jelöltekből kivesszük azokat, aminek van k-1 elemű nem gyakori részhalmaza, így megkapjuk C k -t L k -t C k -ból kapjuk a min_s alapján

12 Az Apriori algoritmus változatai DHP (Direct Hashing and Pruning) DIC (Dynamic Itemset Counting) DCI (Direct Count & Intersect) DCP (Direct count candidates & Prune Transactions)

13 FP-growth (1) Az adatbázist egy fa struktúrába tömöríti Nem kell jelölteket generálnia, így igen sok számítási költséget megtakarít Használható partíciós algoritmusban Mérések alapján mondható, hogy hosszú és rövid minták megtalálására is hatékonyan alkalmazható lehet

14 FP-growth (2) T_IDElemekT_IDElemek T100I1 I2 I5T600I2 I3 T200I2 I4T700I1 I3 T300I2 I3T800I1 I2 I3 I5 T400I1 I2 I4T900I1 I2 I3 T500I1 I3 Az adatbázis egyszeri végigolvasásával megszámláljuk az egyes elemek előfordulását.

15 FP-growth (3) -- Az FP-fa NULL I2 : 7 I1:4 I5:1I4:1I3:2 I5:1 I4:1I3:2 I1 : 2 I3:2 Az elemeket előfordulásuk szerint csökkenő sorrendbe kell tenni, és a tranzakciókat a második olvasáskor ez alapján kell feldolgozni  egy fát kell építeni

16 FP-growth (4) A gyakori elemhalmazokat egy rekurzív algoritmus segítségével lehet kinyerni Az algoritmus során (ellentétben az Apriori algoritmussal) egyszerre nem csak az azonos elemszámú halmazokat kapjuk meg

17 Az algoritmusok osztályozása (1) Osztályozási szempontok lehetnek: A megtalált gyakori halmazok fajtái A tranzakciók reprezentációja A tranzakciók statisztikai tulajdonságai Az adathalmazok reprezentációja Fa alapú – a fa bejárása (szélességi, mélységi) Gráf alapú – maximális klikk keresése Az adatbázis hozzáférés száma (I/O) A memória igény A CPU igény

18 A gyakori halmazok fajtái FI (Frequent Itemset) – gyakori elemhalmazok MFI (MAximal Frequent Itemset) – maximális gyakori elemhalmazok Ha X elemhalmaz gyakori, és nincs olyan bővebb halmaz, ami tartalmazza X-et, és gyakori FCI (Frequent Closed Itemset) – gyakori zárt elemhalmazok

19 A tranzakciók reprezentációja Horizontális elem vektor Horizontális elem lista (tranzakciós adatbázis) Az egyes tranzakcióhoz listában vannak az elemek Vertikális TID vektor Vertikális TID lista (TID list)

20 Az adathalmazok reprezentációja Fa – a különböző algoritmusok a fa ágainak metszésével próbálják hatékonyabbá tenni a keresést Páros gráf A páros gráf egyik csomópont halmaza a tranzakciók, a másik az elemek Egy él van egy elem és egy tranzakció között, ha az elem benne van a tranzakcióban A maximális gyakori elemhalmazok a maximális klikkek a páros gráfban – ez NP teljes probléma

21 Az algoritmusok osztályozása (2) Az Apriori algoritmus Az összes gyakori elemhalmazt megtalálja Horizontális elemlistán dolgozik Szélességi bejárást alkalmaz Szintenként halad Hatékony rövid gyakori elemhalmazokat tartalmazó adatbázisok esetén FP-growth Az összes gyakori elemhalmazt megtalálja jelölt generálása nélkül TID listán dolgozik Az adatbázist egy fába tömöríti – kétszer kell az adatbázishoz hozzáférnie Hosszú mintákra is alkalmas

22 Az algoritmusok osztályozása (3) Elemhal maz típus Adathalmaz reprezentáció Bejárás módja Rövid vagy hosszú mintákra hatékony Egyéb AprioriFIElem listaszélességirövidHash alapú DHP, DICFIElem listaszélességirövidDinamikus elemszámlálás, hash alapú DCIFIElem lista, később TID lista szélességihosszú FP-growthFITID listamélységihosszú MAFIAMFIVertical bitmapmélységihosszú MaxMinerMFI mélységihosszú DepthProjectMFI GenMaxMFI MaxClicqueMFI Páros-gráf ClosedFCI Apriori alapú CHARMFCIItemset, tidsetmélységihosszúHash alapú

23 Összegzés Kezelhetőség érdekében csökkenteni kell: az adatbázis hozzáférések számát az adatok reprezentációja miatt elfoglalt memóriát ritka elemhalmazok által elfoglalt memóriát (a jelöltek számát) A számítási igényt


Letölteni ppt "PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István."

Hasonló előadás


Google Hirdetések