PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.

Slides:



Advertisements
Hasonló előadás
GRIN: Gráf alapú RDF index
Advertisements

Készítette: Kosztyán Zsolt Tibor
Nevezetes algoritmusok
MESTERSÉGES INTELLIGENCIA (ARTIFICIAL INTELLIGENCE)
QAM és OFDM modulációs eljárások
Onlinemarketing.hu Kft. A Magyar Online Hirdetési Adatbázis rövid bemutatása. Készítette az Onlinemarketing.hu Kft.
Matematika és Tánc Felkészítő tanár: Komáromi Annamária
Adatbányászat: Asszociációs szabályok Alapfogalmak és algoritmusok
A többszörös összehasonlítás gondolatmenete. Több mint két statisztikai döntés egy vizsgálatban? Mi történik az elsõ fajú hibával, ha két teljesen független.
Illeszkedési mátrix Villamosságtani szempontból legfontosabb mátrixreprezentáció. Legyen G egy irányított gráf, n ponton e éllel. Az n x e –es B(G) mátrixot.
Ph.D beszámoló 2004/2005 I.félév Készítette: Iváncsy Renáta Konzulens: Vajk István.
INFOÉRA Kombinatorikai algoritmusok (Horváth Gyula és Szlávi Péter előadásai felhasználásával) Juhász István-Zsakó László: Informatikai.
4. VÉGES HALMAZOK 4.1 Alaptulajdonságok
Erősen összefüggő komponensek meghatározása
DAG topologikus rendezése
Szélességi bejárás Párhuzamosítása.
Szélességi bejárás , 0.
Gráf Szélességi bejárás
Hatékony gyorsítótár használata legrövidebb utak kereséséhez Bodnár István, Fodor Krisztián, Gyimesi Gábor Jeppe Rishede Thomsen, Man Lung Yiu, Christian.
Algebra a matematika egy ága
Bevezetés a gépi tanulásba február 16.. Mesterséges Intelligencia „A számítógépes tudományok egy ága, amely az intelligens viselkedés automatizálásával.
Szintaktikai elemzés március 1.. Gépi tanulás Osztályozási feladat: Adott egyedek egy halmaza és azok osztályba tartozási függvénye (tanító halmaz),
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
Klaszterező algoritmusok smart city alkalmazásokhoz Gonda László Témavezető: Dr. Ispány Márton.
Állapottér-reprezentáljunk!
Készítette: Pető László
Ozsváth Károly TF Kommunikációs-Informatikai és Oktatástechnológiai Tanszék.
Programozó matematikus szak 2003/2004-es tanév II. félév
A digitális számítás elmélete
IRE 4 /32/ 1 Óbudai Egyetem, NIK Dr. Kutor László2011. TÁMOP – I ntelligens R endszerek E lmélete 4.
„Országos” feladat. Feladat: Egy tetszőleges, színes országokat tartalmazó térképen akar eljutni egy kommandós csapat egy országból egy másikba. Viszont.
Miskolci Egyetem Informatikai Intézet Általános Informatikai Tanszé k Pance Miklós Adatstruktúrák, algoritmusok előadásvázlat Miskolc, 2004 Technikai közreműködő:
Készítette: Kosztyán Zsolt Tibor
Utórendezéses edényrendezés – RADIX „előre”
Adatbázisrendszerek jövője
Intelligens Felderítő Robotok
Készítette: Gergó Márton Konzulens: Engedy István 2009/2010 tavasz.
Lénárt Szabolcs Páll Boglárka
3.2. A program készítés folyamata Adatelemzés, adatszerkezetek felépítése Típus, változó, konstans fogalma, szerepe, deklarációja.
Készítette: Tóth Ervin
Hernyák Zoltán Programozási Nyelvek II.
I276 Antal János Benjamin 12. osztály Nyíregyháza, Széchenyi I. Közg. Szki. Huffman kódolás.
Gráf Szélességi bejárás/keresés algoritmusa
Euler gráf Euler, 1736 Königsbergi hidak
Előadó: Nagy Sára Mesterséges intelligencia Kereső rendszerek.
Algoritmizálás, adatmodellezés tanítása 8. előadás.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Mintavételes Eljárások.
Osztott adatbázisok.  Gyors ismétlés: teljes redukáló  Teljes redukáló költsége  Természetes összekapcsolások vetítése  Természetes összekapcsolások.
Feladatok (értékadás)
Háló- (gráf-) algoritmusok
Minuet: A Scalable Distributed Multiversion B-Tree Írta: Benjamin Sowell, Wojciech Golab, Mehul A. Shah Feldolgozta: Fokin Miklós, Hodosy Gábor, Tóth Tamás.
GRÁFOK Definíció: Gráfnak nevezzük véges vagy megszámlálhatóan végtelen sok pont és azokat összekötő szintén véges vagy megszámlálhatóan végtelen sok.
Computing n-Gram Statistics in MapReduce Klaus Berberich, Srikanta Bedathur EDBT/ICDT 2013 Joint Conference.
Diszjunkt halmazok adatszerkezete A diszjunkt halmaz adatszerkezet diszjunkt dinamikus halmazok S={S 1,…,S n } halmaza. Egy halmazt egy képviselője azonosít.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Gráf szélességi bejárása. Cél Az algoritmus célja az, hogy bejárjuk egy véges gráf összes csúcsát és kiírjuk őket a kezdőcsúcstól való távolságuk szerint.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
Memóriakezelés feladatok Feladat: 12 bites címtartomány. 0 ~ 2047 legyen mindig.
INFOÉRA Gráfok, gráfalgoritmusok II. (Horváth Gyula és Szlávi Péter előadásai felhasználásával) Juhász István-Zsakó László: Informatikai.
PhD beszámoló 2003/2004 I. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István.
Huffman kód.
BITCOIN. Bitcoin 2009-ben jelent meg Ingyenes, nyílt forráskódú kliens Nincs központi bank, P2P rendszer
Nevezetes algoritmusok
Mediánok és rendezett minták
Adatbázis-kezelés 2. Relációs adatbázisok.
Adatbázisrendszerek elméleti alapjai 9. előadás
Algoritmusok és Adatszerkezetek I.
Algoritmusok és Adatszerkezetek I.
Algoritmusok és Adatszerkezetek I.
Állapottér-reprezentáljunk!
Előadás másolata:

PhD beszámoló 2002/2003 II. félév Készítette: Iváncsy Renáta Konzulens: Dr. Vajk István

Adatbányászat – asszociációs szabályok Adatbányászati problémák feltérképezése Asszociációs szabály generáló algoritmusok vizsgálata Elkészítettem egy programot, ami megvalósítja az asszociációs szabálygenerálás alap algoritmusát, az Apriori algoritmust Tervek: További algoritmusokkal kiegészíteni a programot, méréseket végezni

Elemhalmaz támogatottsága Az X elemhalmaz támogatottsága: azon tranzakciók számának aránya az összes tranzakciószámhoz, amelyek tartalmazzák az X-et.

Asszociációs szabály

Érvényes asszociációs szabályok

Asszociációk bányászatának lépései Az összes gyakori elemhalmaz megtalálása A gyakori elemhalmazokból érvényes asszociációs szabályok generálása Gyakori elemhalmaz: támogatottsága nagyobb mint a küszöbérték Érvényes szabály: eleget tesz mind a minimális támogatottság, mind a minimális bizonyosság küszöbértékének Számítási igény alapján a gyakori elemhalmazok meghatározása a kritikus

Algoritmusok Gyakori elemhalmazok megtalálására

Lehetséges megoldások (1) Szintenként haladó algoritmusok Többször olvassák végig az adatbázist i-edik végigolvasáskor csak a az i elemű gyakori termékhalmazokat állítják elő Annyiszor olvassák végig az adatbázist, ahány elemű a legnagyobb gyakori termékhalmaz Az i+1-edik lépésben a már addig megtalált gyakori termékhalmazokból következtetnek a lehetséges jelöltekre

Lehetséges megoldások (2) Kétfázisú szabálykinyerés Adatbázis tömörítése Az adatbázist a memóriába tömörítik, majd a memóriában végzik el a gyakori elemhalmazok meghatározását Mintavételezés a gyakori elemhalmazokat a mintában határozzák meg, majd leellenőrzik az adatbázisban Particionálás Az adatbázist részekre osztása után az egyes részeken külön-külön lehet elvégezni a bányászatot, majd a végén az egész adatbázis alapján ellenőrzés

Apriori algoritmus (1) Szintenként haladó algoritmus Alapja: egy gyakori elemhalmaz minden részhalmaza is gyakori, azaz ha egy elemhalmaz nem gyakori, akkor annak bármely elemmel való bővítése sem lesz gyakori Az adatok tranzakciókban kerülnek reprezentálásra (minden egyes tranzakció egy azonosítóból és egy elemeket tartalmazó listából áll)

Apriori algoritmus (2) Meg kell találni az összes 1 elemű gyakori elemhalmazt (L 1 ) Ha megvan a k-1 elemű gyakori elemhalmazunk (L k-1 ), ebből kell generálni a k elemű jelölteket (C k ) Összekapcsoljuk azon két halmazt, amik az első k-2 elemben azonosak A jelöltekből kivesszük azokat, aminek van k-1 elemű nem gyakori részhalmaza, így megkapjuk C k -t L k -t C k -ból kapjuk a min_s alapján

Az Apriori algoritmus változatai DHP (Direct Hashing and Pruning) DIC (Dynamic Itemset Counting) DCI (Direct Count & Intersect) DCP (Direct count candidates & Prune Transactions)

FP-growth (1) Az adatbázist egy fa struktúrába tömöríti Nem kell jelölteket generálnia, így igen sok számítási költséget megtakarít Használható partíciós algoritmusban Mérések alapján mondható, hogy hosszú és rövid minták megtalálására is hatékonyan alkalmazható lehet

FP-growth (2) T_IDElemekT_IDElemek T100I1 I2 I5T600I2 I3 T200I2 I4T700I1 I3 T300I2 I3T800I1 I2 I3 I5 T400I1 I2 I4T900I1 I2 I3 T500I1 I3 Az adatbázis egyszeri végigolvasásával megszámláljuk az egyes elemek előfordulását.

FP-growth (3) -- Az FP-fa NULL I2 : 7 I1:4 I5:1I4:1I3:2 I5:1 I4:1I3:2 I1 : 2 I3:2 Az elemeket előfordulásuk szerint csökkenő sorrendbe kell tenni, és a tranzakciókat a második olvasáskor ez alapján kell feldolgozni  egy fát kell építeni

FP-growth (4) A gyakori elemhalmazokat egy rekurzív algoritmus segítségével lehet kinyerni Az algoritmus során (ellentétben az Apriori algoritmussal) egyszerre nem csak az azonos elemszámú halmazokat kapjuk meg

Az algoritmusok osztályozása (1) Osztályozási szempontok lehetnek: A megtalált gyakori halmazok fajtái A tranzakciók reprezentációja A tranzakciók statisztikai tulajdonságai Az adathalmazok reprezentációja Fa alapú – a fa bejárása (szélességi, mélységi) Gráf alapú – maximális klikk keresése Az adatbázis hozzáférés száma (I/O) A memória igény A CPU igény

A gyakori halmazok fajtái FI (Frequent Itemset) – gyakori elemhalmazok MFI (MAximal Frequent Itemset) – maximális gyakori elemhalmazok Ha X elemhalmaz gyakori, és nincs olyan bővebb halmaz, ami tartalmazza X-et, és gyakori FCI (Frequent Closed Itemset) – gyakori zárt elemhalmazok

A tranzakciók reprezentációja Horizontális elem vektor Horizontális elem lista (tranzakciós adatbázis) Az egyes tranzakcióhoz listában vannak az elemek Vertikális TID vektor Vertikális TID lista (TID list)

Az adathalmazok reprezentációja Fa – a különböző algoritmusok a fa ágainak metszésével próbálják hatékonyabbá tenni a keresést Páros gráf A páros gráf egyik csomópont halmaza a tranzakciók, a másik az elemek Egy él van egy elem és egy tranzakció között, ha az elem benne van a tranzakcióban A maximális gyakori elemhalmazok a maximális klikkek a páros gráfban – ez NP teljes probléma

Az algoritmusok osztályozása (2) Az Apriori algoritmus Az összes gyakori elemhalmazt megtalálja Horizontális elemlistán dolgozik Szélességi bejárást alkalmaz Szintenként halad Hatékony rövid gyakori elemhalmazokat tartalmazó adatbázisok esetén FP-growth Az összes gyakori elemhalmazt megtalálja jelölt generálása nélkül TID listán dolgozik Az adatbázist egy fába tömöríti – kétszer kell az adatbázishoz hozzáférnie Hosszú mintákra is alkalmas

Az algoritmusok osztályozása (3) Elemhal maz típus Adathalmaz reprezentáció Bejárás módja Rövid vagy hosszú mintákra hatékony Egyéb AprioriFIElem listaszélességirövidHash alapú DHP, DICFIElem listaszélességirövidDinamikus elemszámlálás, hash alapú DCIFIElem lista, később TID lista szélességihosszú FP-growthFITID listamélységihosszú MAFIAMFIVertical bitmapmélységihosszú MaxMinerMFI mélységihosszú DepthProjectMFI GenMaxMFI MaxClicqueMFI Páros-gráf ClosedFCI Apriori alapú CHARMFCIItemset, tidsetmélységihosszúHash alapú

Összegzés Kezelhetőség érdekében csökkenteni kell: az adatbázis hozzáférések számát az adatok reprezentációja miatt elfoglalt memóriát ritka elemhalmazok által elfoglalt memóriát (a jelöltek számát) A számítási igényt