Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaJázmin Ballané Megváltozta több, mint 9 éve
1
Adatbányászati módszerek a weblogfájlok elemzésében
Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia
2
Tartalom Mi az az adatbányászat? Alkalmazások Mi az a weblog?
Mit tudhatunk meg belőle? Néhány klaszterező algoritmus További algoritmusok
3
Mi az az adatbányászat? „Az adatbányászat a tudás nagy mennyiségű adatból történő kiválasztása, kibányászása” (J. Han, M. Kamber: Adatbányászat) Célja: tudáskinyerés adatbázisokból Érvényes Újszerű Lehetőleg hasznos Végső soron érthető minták
4
A legfontosabb adatbányászati feladatok
Gyakori minták keresése Pl. együtt vásárolt termékek Attribútumok közötti kapcsolat Pl. orvosnál a különböző tünetek Klaszterezés Sorozatelemzés Részsorozatok, regresszió Eltéréselemzés Webes adatbányászat
5
Alkalmazások Bankban Utazással kapcsolatos minták Vásárlói szokások
Döntési fák a hitel odaítélésekor Utazással kapcsolatos minták A repülőjegy vagy a szálloda legyen akciós? Vásárlói szokások Együtt vásárolt termékek Akciók On-line áruházak ajánlási rendszere Az ember genotípusának elemzése Csillagászat
6
Mi az a weblog? Egy webszerver a következő információkat tárolja a logjában: A kérő ip-címe A kérés időpontja A kért dokumentum A dokumentum mérete Honnan érkezett a látogató Böngésző típusa Hibakód [08/Sep/1999:13:34: ] "GET /index.htm HTTP/1.1" "-" "Mozilla/4.04 [en]C-NECCK (Win95; I)” [08/Sep/1999:13:34: ] "GET /tartalom.htm HTTP/1.1" " "Mozilla/4.04 [en]C-NECCK (Win95; I)"
7
Ami a sorokban van: Melyek azok az oldalak, amelyek iránt a legtöbben érdeklődnek Hogyan jutnak el ezekre az oldalakra Mennyi időt töltött az egyes oldalakon Melyik oldalakat nézik együtt Mely oldalakon hagyják el a honlapot
8
Ami a sorok között van: Hova helyezzük a reklámot? Mit reklámozzunk?
Melyik oldalra? Az oldalon belül hova? Mit reklámozzunk? Dinamikus honlap készítése Következtethetünk a látogató érdeklődési körére Honlapszerkezet kialakítása Link a gyakran együtt nézett oldalak között Link azokra az oldalakra, amit eddig elkerültek
9
Klaszterező algoritmusok
Klaszterezés: Az adatok csoportosítása olyan módon, hogy az azonos csoportban lévő elemek jobban hasonlítsanak egymáshoz, mint a különböző csoportban lévők
10
K-Means
11
K-Means - előnyök és hátrányok
Gyors futási idő [O(nkt)] Könnyű programozni Hátrányok: Előre rögzített klaszterek Érzékeny a klaszterek méretére Érzékeny a zajra Nem ismer fel konkáv klasztereket
12
Csoportosítási szempontok
Melyik oldalon lépett be és ki a látogató Melyik oldalon mennyi időt töltött Vásárolt-e valamit, igénybe vett-e szolgáltatást? Visszatért-e erre az oldalra Melyik napszakban járt a honlapon a látogató
13
Fuzzy klaszterezés Fuzzy klaszterezés: azt mondjuk meg, hogy milyen valószínűséggel tartozik egy elem egy klaszterbe Kevésbé torzítják az eredményt a kilógó adatok Bejárások klaszterezése
14
Sűrűség alapú klaszterezés (DBScan)
Minden pontot sűrűnek, sűrűn elérhetőnek vagy sűrűn összekötöttnek nevezünk Egy klaszterbe tartoznak az egymásból sűrűn elérhető pontok Előny: konkáv klasztert is felismer Hátrány: lassabb futási idő O(n2)
15
OPTICS: az adatok előzetes rendezése
DBScan-hez hasonló algoritmus Egy rendezést ad a pontokon Minden ponthoz hozzárendel egy sűrűségi számot Segíthet jó kezdőpontot találni más klaszterezőkhöz
16
További algoritmusok Szegmentáció Fuzzy klaszterezés Markov-modellek
K-means DBScan Optics Fuzzy klaszterezés CARD Markov-modellek VMM AGILE Szekvenciák azonosítása Statisztikák, riportok készítése
17
Köszönetnyilvánítás DSS Consulting Kft. Rovnyai János Kiss Ákos
Maklári Ágoston
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.