Adatbányászati módszerek a weblogfájlok elemzésében

Slides:



Advertisements
Hasonló előadás
Vatera-forintok a kalapács alatt Gerő Viktor. A vatera marketing céljai - Minél több vevő (több felhasználó) ‏ - Minél többször (gyakoribb tranzakció)‏
Advertisements

DISPLAY HIRDETÉSEK. DISPLAY HIRDETÉSEK Fontos a technológiai háttér AZ ONLINE HIRDETÉSEK ELŐNYEI Real-time menedzselhető Mérhető Targetálható Interaktív.
Programozási tételek, és „négyzetes” rendezések
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
Meteorológiai Előrejelzés Adatbányászati Támogatással Putnoki Gyula GTK ISZAM II.évf. Társszerzők: az ISZAM-os Meteor-team TDK-konferencia 2007 Gödöllő.
Készítette: Bátori Béla 12.k
Lábnyomok a világhálón Arató Bence szakmai igazgató Webtárházak Kulcs a látogatók megismeréséhez.
Szűcs Imre CRM elemző GE Consumer Finance Budapest Bank Rt.
Adatbányászat a kontrollingban
Célcsoport elérése – online támogatással Go East! – a ki nem használt lehetőségek birodalma.
Sűrűségfüggvény Parzen becslés Mintapontszám, szigma.
Digitális képanalízis
SAS Enterprise Miner 2. gyakorlat
Sütik. Mi is az a süti? A HTTP-süti egy információcsomag, amelyet a szerver küld a böngészőnek, majd a böngésző visszaküld a szervernek minden, a szerver.
Böngészők Internet Explorer Mozilla Firefox
Az ETR technológia DEXTER Informatikai kft..
MI 2003/ Alakfelismerés - még egy megközelítés: még kevesebbet tudunk. Csak a mintánk adott, de címkék nélkül. Csoportosítás (klaszterezés, clustering).
[ Internet marketing Logfile elemzés Készítették: Fejős András
Klaszterező algoritmusok smart city alkalmazásokhoz Gonda László Témavezető: Dr. Ispány Márton.
Adatbányászat. Miért kell menedzselni a tudást és az adatokat? Az adatok mennyisége folyamatosan nő Az elektronikus dokumentáltság növeli az átláthatatlan.
OKTATÁSI ADATBÁNYÁSZAT
1 Hogyan juthatunk be a keresők első oldalára – kereső optimalizálás.
Az adatfeldolgozás forrásai
Böngésző programok (Böngészés).
Kereső programok használata
Webbányászat (web mining) Mártonffy A: Kutakodom, tehát vagyok cikke nyomán.
Az SPSS technológiával háromszorosára nőtt az online eladásokból származó bevétel.
Budapest, február 25. Kötik-e a cégek termékeikhez a fogyasztót, és ha igen hogyan?,,Marketing, public relations és reklám az egészségügyben’’ VIII.
2004. március „Megbízható harmadik fél szolgáltatás, a digitális aláírás bevezetése az egészségügyi ágazatban” EP 1 részprojektjének státusza és.
Vényköteles gyógyszerek expediálásakor végzendő betegoktatás
Levelezés, és a többiek Takács Béla Irodalom Bodnár –Magyari: Az Internet használata I. (Kiskapu) Bodnár –Magyari: Az Internet használata.
1 Informatikai Szakképzési Portál Adatbázis kezelés Adatbázis feltöltés.
Objektumok. Az objektum információt tárol, és kérésre feladatokat hajt végre. Az objektum adatok (attribútumok) és metódusok (operációk,műveletek) összessége,
Debrecen, március 27. Internet Fiesta 2008 Könyvtárak akadálymentesítése az Interneten Internet Fiesta 2008 Debrecen, március 27.
Adatbázisrendszerek jövője
Prezentáció készítés MS PowerPoint segítségével
Szemantikus keresők.
Csoportosítás (klaszterezés) A csoportosítás feladata a vizsgált objektumok jól elkülönülő csoportba történő besorolása. A klaszterezés sok szempontból.
XHTML 1. óra. Miért térjünk át HTML-ről XHTML- re? HTML-szabványban tartalom és forma összemosódott HTML 4.0 szabványban stíluslapok használatát javasolták.
Önálló labor munka Csillag Kristóf 2005/2006. őszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
1 Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése Célkitűzés: Információk téma-specifikus, különböző típusú forrásokból (internet, intranet.
Önálló labor munka Csillag Kristóf 2004/2005. tavaszi félév Téma: „Argument Mapping (és hasonló) technológiákon alapuló döntéstámogató rendszerek vizsgálata”
A hatvanas években merült föl az USA-ban egy kevéssé sebezhető számítógép-hálózat szükségessége, amelynek egy esetleges atomtámadás után megmaradó részei.
és segíteni az embereket, akik hozzá akarnak férni ezekhez.
Lábnyomok a világhálón Arató Bence, szakmai igazgató
WEB 2.0. Amiről szó lesz… Web átalakulóban, a WEB 2.0 –Újszerű weboldalak… –Első a tartalom! –A felhasználók hatalomátvétele?! –A Web mint platform –
Többváltozós adatelemzés

Közösségi hálók hálójában Szilassi Andrea Városi Könyvtár Tatabánya.
A Microsoft Üzleti Intelligencia megoldása és platformja
Adatbányászat Excel 2007-tel
13.tétel Mutassa be a honlap készítésére alkalmas szoftvereket! Hasonlítsa össze a Macromedia Dreamweaver és Microsoft Office Frontpage programokat!
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Megerősítő elemzés „Big Data” elemzési módszerek Salánki.
A szolgáltatás technikájával – technológiájával kapcsolatos elemzések „EISZ Jövője” Konferencia június 22.
Kutatási beszámoló 2002/2003 I. félév Iváncsy Renáta.
Automatikus fizikai tervezési javaslatok XML adatbázisokhoz Balogh Bernadett Kresz Marcell Cseh Tamás.
Génexpressziós chipek mérési eredményeinek biklaszter analízise.
Cím szöveg – Second level Third level – Fourth level » Fifth level TÁMOP Tájékoztató Nap „Interaktív elektronikus tananyagok fejlesztése” projekt.
Mennyit ér az adatbázisod?. Amennyit kihozol belőle…
Információ és kommunikáció
PR az interneten.
OVIDIUS Info-Service Co Ltd.
LOG-junk ki a sorból.
Információ és kommunikáció
OVIDIUS Info-Service Co Ltd.
Üzleti intelligencia megoldások, avagy vezetői döntéstámogatás (XXI.)
Adatbázis-kezelés 2. Relációs adatbázisok.
A Google-fiókban előállítható kérdőívek
Önnek egy új üzenete érkezett – Tárgy: adatigénylés
Az okos vásárlás lehetőségei a Kaposvár Kincse példáján
Előadás másolata:

Adatbányászati módszerek a weblogfájlok elemzésében Dömötör Csilla IV. alkalmazott matematikus Eötvös Konferencia

Tartalom Mi az az adatbányászat? Alkalmazások Mi az a weblog? Mit tudhatunk meg belőle? Néhány klaszterező algoritmus További algoritmusok

Mi az az adatbányászat? „Az adatbányászat a tudás nagy mennyiségű adatból történő kiválasztása, kibányászása” (J. Han, M. Kamber: Adatbányászat) Célja: tudáskinyerés adatbázisokból Érvényes Újszerű Lehetőleg hasznos Végső soron érthető minták

A legfontosabb adatbányászati feladatok Gyakori minták keresése Pl. együtt vásárolt termékek Attribútumok közötti kapcsolat Pl. orvosnál a különböző tünetek Klaszterezés Sorozatelemzés Részsorozatok, regresszió Eltéréselemzés Webes adatbányászat

Alkalmazások Bankban Utazással kapcsolatos minták Vásárlói szokások Döntési fák a hitel odaítélésekor Utazással kapcsolatos minták A repülőjegy vagy a szálloda legyen akciós? Vásárlói szokások Együtt vásárolt termékek Akciók On-line áruházak ajánlási rendszere Az ember genotípusának elemzése Csillagászat

Mi az a weblog? Egy webszerver a következő információkat tárolja a logjában: A kérő ip-címe A kérés időpontja A kért dokumentum A dokumentum mérete Honnan érkezett a látogató Böngésző típusa Hibakód 195.56.0.68 - - [08/Sep/1999:13:34:11 +0200] "GET /index.htm HTTP/1.1" 200 1039 "-" "Mozilla/4.04 [en]C-NECCK (Win95; I)” 195.56.0.68 - - [08/Sep/1999:13:34:15 +0200] "GET /tartalom.htm HTTP/1.1" 200 2143 "http://www.dss.hu/index.htm" "Mozilla/4.04 [en]C-NECCK (Win95; I)"

Ami a sorokban van: Melyek azok az oldalak, amelyek iránt a legtöbben érdeklődnek Hogyan jutnak el ezekre az oldalakra Mennyi időt töltött az egyes oldalakon Melyik oldalakat nézik együtt Mely oldalakon hagyják el a honlapot

Ami a sorok között van: Hova helyezzük a reklámot? Mit reklámozzunk? Melyik oldalra? Az oldalon belül hova? Mit reklámozzunk? Dinamikus honlap készítése Következtethetünk a látogató érdeklődési körére Honlapszerkezet kialakítása Link a gyakran együtt nézett oldalak között Link azokra az oldalakra, amit eddig elkerültek

Klaszterező algoritmusok Klaszterezés: Az adatok csoportosítása olyan módon, hogy az azonos csoportban lévő elemek jobban hasonlítsanak egymáshoz, mint a különböző csoportban lévők

K-Means

K-Means - előnyök és hátrányok Gyors futási idő [O(nkt)] Könnyű programozni Hátrányok: Előre rögzített klaszterek Érzékeny a klaszterek méretére Érzékeny a zajra Nem ismer fel konkáv klasztereket

Csoportosítási szempontok Melyik oldalon lépett be és ki a látogató Melyik oldalon mennyi időt töltött Vásárolt-e valamit, igénybe vett-e szolgáltatást? Visszatért-e erre az oldalra Melyik napszakban járt a honlapon a látogató

Fuzzy klaszterezés Fuzzy klaszterezés: azt mondjuk meg, hogy milyen valószínűséggel tartozik egy elem egy klaszterbe Kevésbé torzítják az eredményt a kilógó adatok Bejárások klaszterezése

Sűrűség alapú klaszterezés (DBScan) Minden pontot sűrűnek, sűrűn elérhetőnek vagy sűrűn összekötöttnek nevezünk Egy klaszterbe tartoznak az egymásból sűrűn elérhető pontok Előny: konkáv klasztert is felismer Hátrány: lassabb futási idő O(n2)

OPTICS: az adatok előzetes rendezése DBScan-hez hasonló algoritmus Egy rendezést ad a pontokon Minden ponthoz hozzárendel egy sűrűségi számot Segíthet jó kezdőpontot találni más klaszterezőkhöz

További algoritmusok Szegmentáció Fuzzy klaszterezés Markov-modellek K-means DBScan Optics Fuzzy klaszterezés CARD Markov-modellek VMM AGILE Szekvenciák azonosítása Statisztikák, riportok készítése

Köszönetnyilvánítás DSS Consulting Kft. Rovnyai János Kiss Ákos Maklári Ágoston