Adatbányászati módszerek a weblogfájlok elemzésében Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia
Tartalom Mi az az adatbányászat? Alkalmazások Mi az a weblog? Mit tudhatunk meg belőle? Néhány klaszterező algoritmus További algoritmusok
Mi az az adatbányászat? „Az adatbányászat a tudás nagy mennyiségű adatból történő kiválasztása, kibányászása” (J. Han, M. Kamber: Adatbányászat) Célja: tudáskinyerés adatbázisokból Érvényes Újszerű Lehetőleg hasznos Végső soron érthető minták
A legfontosabb adatbányászati feladatok Gyakori minták keresése Pl. együtt vásárolt termékek Attribútumok közötti kapcsolat Pl. orvosnál a különböző tünetek Klaszterezés Sorozatelemzés Részsorozatok, regresszió Eltéréselemzés Webes adatbányászat
Alkalmazások Bankban Utazással kapcsolatos minták Vásárlói szokások Döntési fák a hitel odaítélésekor Utazással kapcsolatos minták A repülőjegy vagy a szálloda legyen akciós? Vásárlói szokások Együtt vásárolt termékek Akciók On-line áruházak ajánlási rendszere Az ember genotípusának elemzése Csillagászat
Mi az a weblog? Egy webszerver a következő információkat tárolja a logjában: A kérő ip-címe A kérés időpontja A kért dokumentum A dokumentum mérete Honnan érkezett a látogató Böngésző típusa Hibakód 195.56.0.68 - - [08/Sep/1999:13:34:11 +0200] "GET /index.htm HTTP/1.1" 200 1039 "-" "Mozilla/4.04 [en]C-NECCK (Win95; I)” 195.56.0.68 - - [08/Sep/1999:13:34:15 +0200] "GET /tartalom.htm HTTP/1.1" 200 2143 "http://www.dss.hu/index.htm" "Mozilla/4.04 [en]C-NECCK (Win95; I)"
Ami a sorokban van: Melyek azok az oldalak, amelyek iránt a legtöbben érdeklődnek Hogyan jutnak el ezekre az oldalakra Mennyi időt töltött az egyes oldalakon Melyik oldalakat nézik együtt Mely oldalakon hagyják el a honlapot
Ami a sorok között van: Hova helyezzük a reklámot? Mit reklámozzunk? Melyik oldalra? Az oldalon belül hova? Mit reklámozzunk? Dinamikus honlap készítése Következtethetünk a látogató érdeklődési körére Honlapszerkezet kialakítása Link a gyakran együtt nézett oldalak között Link azokra az oldalakra, amit eddig elkerültek
Klaszterező algoritmusok Klaszterezés: Az adatok csoportosítása olyan módon, hogy az azonos csoportban lévő elemek jobban hasonlítsanak egymáshoz, mint a különböző csoportban lévők
K-Means
K-Means - előnyök és hátrányok Gyors futási idő [O(nkt)] Könnyű programozni Hátrányok: Előre rögzített klaszterek Érzékeny a klaszterek méretére Érzékeny a zajra Nem ismer fel konkáv klasztereket
Csoportosítási szempontok Melyik oldalon lépett be és ki a látogató Melyik oldalon mennyi időt töltött Vásárolt-e valamit, igénybe vett-e szolgáltatást? Visszatért-e erre az oldalra Melyik napszakban járt a honlapon a látogató
Fuzzy klaszterezés Fuzzy klaszterezés: azt mondjuk meg, hogy milyen valószínűséggel tartozik egy elem egy klaszterbe Kevésbé torzítják az eredményt a kilógó adatok Bejárások klaszterezése
Sűrűség alapú klaszterezés (DBScan) Minden pontot sűrűnek, sűrűn elérhetőnek vagy sűrűn összekötöttnek nevezünk Egy klaszterbe tartoznak az egymásból sűrűn elérhető pontok Előny: konkáv klasztert is felismer Hátrány: lassabb futási idő O(n2)
OPTICS: az adatok előzetes rendezése DBScan-hez hasonló algoritmus Egy rendezést ad a pontokon Minden ponthoz hozzárendel egy sűrűségi számot Segíthet jó kezdőpontot találni más klaszterezőkhöz
További algoritmusok Szegmentáció Fuzzy klaszterezés Markov-modellek K-means DBScan Optics Fuzzy klaszterezés CARD Markov-modellek VMM AGILE Szekvenciák azonosítása Statisztikák, riportok készítése
Köszönetnyilvánítás DSS Consulting Kft. Rovnyai János Kiss Ákos Maklári Ágoston