Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Adatbányászati módszerek a weblogfájlok elemzésében Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia.

Hasonló előadás


Az előadások a következő témára: "Adatbányászati módszerek a weblogfájlok elemzésében Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia."— Előadás másolata:

1 Adatbányászati módszerek a weblogfájlok elemzésében Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia

2 Tartalom Mi az az adatbányászat? Alkalmazások Mi az a weblog? Mit tudhatunk meg belőle? Néhány klaszterező algoritmus További algoritmusok

3 Mi az az adatbányászat? „Az adatbányászat a tudás nagy mennyiségű adatból történő kiválasztása, kibányászása” (J. Han, M. Kamber: Adatbányászat) Célja: tudáskinyerés adatbázisokból Érvényes Újszerű Lehetőleg hasznos Végső soron érthető minták

4 A legfontosabb adatbányászati feladatok Gyakori minták keresése Pl. együtt vásárolt termékek Attribútumok közötti kapcsolat Pl. orvosnál a különböző tünetek Klaszterezés Sorozatelemzés Részsorozatok, regresszió Eltéréselemzés Webes adatbányászat

5 Alkalmazások Bankban Döntési fák a hitel odaítélésekor Utazással kapcsolatos minták A repülőjegy vagy a szálloda legyen akciós? Vásárlói szokások Együtt vásárolt termékek Akciók On-line áruházak ajánlási rendszere Az ember genotípusának elemzése Csillagászat

6 Mi az a weblog? Egy webszerver a következő információkat tárolja a logjában: A kérő ip-címe A kérés időpontja A kért dokumentum A dokumentum mérete Honnan érkezett a látogató Böngésző típusa Hibakód [08/Sep/1999:13:34: ] "GET /index.htm HTTP/1.1" "-" "Mozilla/4.04 [en]C-NECCK (Win95; I)” [08/Sep/1999:13:34: ] "GET /tartalom.htm HTTP/1.1" "http://www.dss.hu/index.htm" "Mozilla/4.04 [en]C-NECCK (Win95; I)"

7 Ami a sorokban van: Melyek azok az oldalak, amelyek iránt a legtöbben érdeklődnek Hogyan jutnak el ezekre az oldalakra Mennyi időt töltött az egyes oldalakon Melyik oldalakat nézik együtt Mely oldalakon hagyják el a honlapot

8 Ami a sorok között van: Hova helyezzük a reklámot? Melyik oldalra? Az oldalon belül hova? Mit reklámozzunk? Dinamikus honlap készítése Következtethetünk a látogató érdeklődési körére Honlapszerkezet kialakítása Link a gyakran együtt nézett oldalak között Link azokra az oldalakra, amit eddig elkerültek

9 Klaszterező algoritmusok Klaszterezés: Az adatok csoportosítása olyan módon, hogy az azonos csoportban lévő elemek jobban hasonlítsanak egymáshoz, mint a különböző csoportban lévők

10 K-Means

11 K-Means - előnyök és hátrányok Előnyök: Gyors futási idő [O(nkt)] Könnyű programozni Hátrányok: Előre rögzített klaszterek Érzékeny a klaszterek méretére Érzékeny a zajra Nem ismer fel konkáv klasztereket

12 Csoportosítási szempontok Melyik oldalon lépett be és ki a látogató Melyik oldalon mennyi időt töltött Vásárolt-e valamit, igénybe vett-e szolgáltatást? Visszatért-e erre az oldalra Melyik napszakban járt a honlapon a látogató

13 Fuzzy klaszterezés Fuzzy klaszterezés: azt mondjuk meg, hogy milyen valószínűséggel tartozik egy elem egy klaszterbe Kevésbé torzítják az eredményt a kilógó adatok Bejárások klaszterezése

14 Sűrűség alapú klaszterezés (DBScan) Minden pontot sűrűnek, sűrűn elérhetőnek vagy sűrűn összekötöttnek nevezünk Egy klaszterbe tartoznak az egymásból sűrűn elérhető pontok Előny: konkáv klasztert is felismer Hátrány: lassabb futási idő O(n 2 )

15 OPTICS: az adatok előzetes rendezése DBScan-hez hasonló algoritmus Egy rendezést ad a pontokon Minden ponthoz hozzárendel egy sűrűségi számot Segíthet jó kezdőpontot találni más klaszterezőkhöz

16 További algoritmusok Szegmentáció K-means DBScan Optics Fuzzy klaszterezés CARD Markov-modellek VMM AGILE Szekvenciák azonosítása Statisztikák, riportok készítése

17 Köszönetnyilvánítás DSS Consulting Kft. Rovnyai János Kiss Ákos Maklári Ágoston


Letölteni ppt "Adatbányászati módszerek a weblogfájlok elemzésében Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia."

Hasonló előadás


Google Hirdetések