Lábnyomok a világhálón Arató Bence szakmai igazgató Webtárházak Kulcs a látogatók megismeréséhez
Webtárházak •Az internet széles körű üzleti elterjedésével egyre fontosabb feladat a webes adatok elemzése •Hagyományos cégeknél az online csatorna kezelése egyenrangú a többivel •A modern cégek esetében sokszor szinte kizárólag csak online ügyfelek vannak
Alkalmazási területek •E-kereskedelem (e-krskdlm) •Hírszolgáltatók •Céges weboldalak •e-bank műveletek •online közösségek •Hirdetési hálózatok •...
Content & Customer Az elemzés két fő szempontrendszere •Mikor, milyen tartalom, hogyan kerül felhasználásra (Content) •Ki a látogató, milyen tulajdonságai vannak, hogyan viselkedik (Customer)
Mi is a weblog? •Böngészés közben a számítgépünk tulajdonképpen állományokat tölt le a webszerverekről •Ezek az állományok vegyesen szövegek (HTML oldalak), képek illetve egyéb állományok •A webszerverek minden egyes állomány letöltését naplózzák - ez a weblog [31/Oct/2000:02:23: ] "GET /index.html HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)" [31/Oct/2000:02:23: ] "GET /images/background.jpg HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)" [31/Oct/2000:02:23: ] "GET /images/logo.gif HTTP/1.1" " "Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)"
Azaz… •A weblogból az derül ki, hogy melyik gépről (IP cím), mikor, melyik weboldalt nézték meg. •Az olvasó kiléte, szándékai, véleménye homályban rejtőzik - egyelőre
Elemzési megoldások •Kézi számlálás (pl. Perl programmokkal) •Ingyenes elemzőeszközök (pl. Webalizer) •Dobozos termékek (pl. Webtrends) •Mérőszolgálatok
Adattárház megközelítés •A logban rejtőző infomációk stratégiai értéket képeznek •Relációs adatbázis biztosítja a nagymennyiségű részletes adat tárolását •Többhavi adat az idősoros elemzésekhez •Részletes ügyfélinformáció célzott hirdetésekhez és perszonalizációhoz •Komplex elemzőeszközök (OLAP, adatbányászat, SQL)
IP cím visszafejtés Látogató azonosítás Tartalom osztályzás Session besorolás Relációs adatbázis Warehouse Builder Staging terület Csillagsémás adatmodell Összegző táblák Üzleti logika Oracle 8i Előfeldolgozás (ETL) OLAP elemző adatbázis Oracle Express Adatbányász eszközök Oracle Darwin Relációs lekérdezések Discoverer Oracle webtárház felépítése
A webtárházak kihívásai •A weblogok mérete igen nagy lehet, külföldön több milliárd sor/nap, nálunk több millió •Az adatok aggregálása csak nagyon korlátozottan alkalmazható, mivel a viselkedés elemzéséhez az eredeti (teljes) clickstream szükséges
A webtárházak kihívásai II. •A weblogot az elemzéshez gazdagítani kell •Látogatói információk: regisztrációs adatok, online felmérések, nyereményjátékok és viselkedési attribútumok •Content információk: információk a meglévő adatbázisokból, szerkesztőségi rendszerből, terméktörzsből, külső forrásokból és felhasználói attribútumok
Webtárház adatmodell Ténytábla sok-sok millió sor... Ügyfél dimenzió •több százezer sor • nagyszámú jellemző Content dimenzió •Néhány ezertől néhány millió sorig •nagyszámú jellemző Műszaki dimenziók Böngésző, op.rendszer, felbontás, plugin, java, Flash …. Hozzáférés Dialup, bérelt vonal, kábeltévé, ADSL...
Jótanácsok •A sikeres elemzéshez a webhely(ek) kialakítása is fontos •Egységes felhasználóazonosítás •intelligens oldalstruktúra •elnevezési szabványok alkalmazása •speciális elemzőoldalak használata (landing és forward pages, technikai mérőoldalak)
Jótanácsok II. •Nem szabad csak azért elemezni, mert ’az adat ott van’ •Mindig egy adott üzleti (kereskedelmi, marketing) igény kielégítése a cél •A jól felépített adattárház nagyon rugalmas, az üzleti kérdések igen széles körére tud választ adni
Elemzési lánc Üzleti igény Elvárások definiálása Tényadat az adattárházból ”Tudnunk kell, hogy milyen gyakran jönnek vissza ügyfeleink!” Célkitűzés: 1-2 naponta > 30% Hetente min 2X >70 % Akciótervek
? ?