Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
Pereszlényi Attila Web Spam Web Konferencia Miről lesz szó
Pereszlényi Attila Web Spam Web Konferencia Web spam: gép megtévesztése
Pereszlényi Attila Web Spam Web Konferencia Web Spam és Spam •Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának •Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt •Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül)
Pereszlényi Attila Web Spam Web Konferencia •Kereső top találat forgalmat, bevételt jelent •Manipuláció, “Search Engine Optimization” •Tartalom spam Kulcsszavak, népszerű kifejezések, elírások •Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok •Bevétel gyakran indirekt •„Affiliate” programok, Google AdSense •Reklámok megjelenítése, forgalom továbbterelése A spammer célpontja a Google
Pereszlényi Attila Web Spam Web Konferencia A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
Pereszlényi Attila Web Spam Web Konferencia Keresési találati pozíció hatása Találati pozíció nézésével töltött idő Találathoz érkezés ideje „spam industry had a revenue potential of $4.5 billion in year 2004 if they had been able to completely fool all search engines on all commercially viable queries” [Amitay 2004] [Granka,Joachims,Gay 2004]
Pereszlényi Attila Web Spam Web Konferencia A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, PageRank
Pereszlényi Attila Web Spam Web Konferencia Web spam •Spam szűrés nélkül egy keresőrendszer ma csak spamet találna
Web Spam Taxonómia 1. Tartalom spam
Pereszlényi Attila Web Spam Web Konferencia Kulcsszó értéke Google AdWords Competition 10k 10th wedding anniversary 128mb, 1950s, … abc, abercrombie, … b2b, baby, bad credit, … digital camera earn big money, easy, … f1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … …
Pereszlényi Attila Web Spam Web Konferencia Tartalom modellezés példa Nemsp téma 4Nemsp téma 10 club (0.035)music (0.022) team (0.012)band (0.012) league (0.009)film (0.011) win (0.009)festival (0.009) Spam téma 7 loan (0.080) unsecured (0.026) credit (0.024) home (0.022) Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]
Pereszlényi Attila Web Spam Web Konferencia Spammelt rangsor-elemek •Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima. co.uk buy-canon-rebel-20d-lens-case.camerasx.com •Anchor szöveg (title, H1, stb) free, great deals, cheap, inexpensive, cheap, free •Meta keywords – nem érdemes
Pereszlényi Attila Web Spam Web Konferencia Parkoló domén atangledweb.co.uk currently offline atangledweb.co.uk back soon atangledweb.co.uk Soundbridge HomeMusic WiFi Media Play - >... SanDisk Sansa e GB MP3 Player - - >... AIGO F820+ 1GB Beach inspired MP3 Pla - >... Targus I-Pod Mini Sound Enhancer - >... Sony NWA806FP.CE7 4GB video WALKMAN - >... Ministry of Sound 512MB MP3 player - >... Nokia Fold Design Megapi - >... Samsung E350 - Camera Phone With Flas<a class=l
Pereszlényi Attila Web Spam Web Konferencia Kulcsszó zsúfolás, másolatok
Pereszlényi Attila Web Spam Web Konferencia Google hirdetések
Web Spam Taxonómia 2. Hivatkozás spam
Pereszlényi Attila Web Spam Web Konferencia “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99) •Becsületes, emberi ajánlást tartalmazó hivatkozás •Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … •Szándékos, manipulatív link spam Hivatkozások: A Jó, a Rossz és a Csúf
Pereszlényi Attila Web Spam Web Konferencia Link farmok W W W Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam
Pereszlényi Attila Web Spam Web Konferencia Link farmok Sok domén, sőt, sok IP 411fashion.com 411 sites A-Z list Mézesmadzag: keresett tartalom 411amusement.com 411 sites A-Z list 411zoos.com 411 sites A-Z list target
Pereszlényi Attila Web Spam Web Konferencia ρ=0.97 ρ=0.61 Becsületes: fhh.hamburg.de Spam: radiopr.bildflirt.de ( farm része) PageRank támogatók eloszlása alacsony magas PageRank alacsony magas PageRank [Benczúr,Csalogány,Sarlós,Uher 2005]
Web Spam Taxonómia 3. Rejtőzködés
Pereszlényi Attila Web Spam Web Konferencia Formázás •Egy-pixeles kép •Fehér alapon fehér •Stylesheet határozza meg a színt, elhelyezést •… Elv: robot HTML feldolgozó kódja egyszerűsített
Pereszlényi Attila Web Spam Web Konferencia JavaScript alkalmazása var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location=" mega/free software downloads.html"; •window.location elemen keresztüli átirányítás •eval : véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) •document.write
Pereszlényi Attila Web Spam Web Konferencia HTTP szintű rejtőzködés •User agent, kliens host szerint •Más tartalom a felhasználónak, más a GoogleBot-nak
Web Spam Taxonómia 4. Közösségi tartalom spam
Pereszlényi Attila Web Spam Web Konferencia Új célpont: vendégkönyvek, blogok
Pereszlényi Attila Web Spam Web Konferencia „Fórumnak látszó tárgy”
Spam vadászat
Pereszlényi Attila Web Spam Web Konferencia Jellemzők •Szóelőfordulások (szózsák modell) •TrustRank: becsületes oldalakból induló PageRank •Ki- és be-linkek száma, kölcsönösség •Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása •Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben •Google hirdetések száma •Site felépítése, mélysége, belső hivatkozás- szerkezete, dok formátumok, …
Pereszlényi Attila Web Spam Web Konferencia Gráf-simítás: „know your neighbor” •Becsületes oldal ritkán mutat spamre •Spamre sok más spam hivatkozik 1.Spamség jóslat p(v) minden oldalra 2.Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) 3.Újraklasszifikáció az új jellemzővel ? u v1v1 v2v2 v7v7
Pereszlényi Attila Web Spam Web Konferencia A Web Spam Challenge • UK-WEBSPAM2006 (Yahoo Research, 2007-ben) • 9000 Web site, 500,000 hivatkozás • 767 spam, 7472 becsületes •UK-WEBSPAM2007 (verseny most) •114,000 Web site, 3 Md hivatkozás •222 spam, 3776 becsületes •Teljes letöltés 3 TByte •UK-WEBSPAM2008? Mi szervezzük? •Internet Archívummal együttműködve, időben folyamatos letöltés •Cél: spam időbeliségének, mozgásának vizsgálata
Magunkról
Pereszlényi Attila Web Spam Web Konferencia Benczúr András Kutatás-Fejlesztés Lukács András Kutatás, Ipari kapcsolatok Rónyai Lajos Informatika Labor vezető Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő
Pereszlényi Attila Web Spam Web Konferencia • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport
Köszönöm a figyelmet! Pereszlényi Attila datamining.sztaki.hu/