Előadást letölteni
Az előadás letöltése folymat van. Kérjük, várjon
KiadtaÁrpád Kovács Megváltozta több, mint 10 éve
1
Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport
2
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Miről lesz szó
3
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Web spam: gép megtévesztése
4
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Web Spam és E-mail Spam •Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának •Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt •Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül)
5
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 •Kereső top találat forgalmat, bevételt jelent •Manipuláció, “Search Engine Optimization” •Tartalom spam Kulcsszavak, népszerű kifejezések, elírások •Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok •Bevétel gyakran indirekt •„Affiliate” programok, Google AdSense •Reklámok megjelenítése, forgalom továbbterelése A spammer célpontja a Google
6
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg
7
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Keresési találati pozíció hatása Találati pozíció nézésével töltött idő Találathoz érkezés ideje „spam industry had a revenue potential of $4.5 billion in year 2004 if they had been able to completely fool all search engines on all commercially viable queries” [Amitay 2004] [Granka,Joachims,Gay 2004]
8
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, PageRank
9
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Web spam •Spam szűrés nélkül egy keresőrendszer ma csak spamet találna
10
Web Spam Taxonómia 1. Tartalom spam
11
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Kulcsszó értéke Google AdWords Competition 10k 10th wedding anniversary 128mb, 1950s, … abc, abercrombie, … b2b, baby, bad credit, … digital camera earn big money, easy, … f1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … …
12
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Tartalom modellezés példa Nemsp téma 4Nemsp téma 10 club (0.035)music (0.022) team (0.012)band (0.012) league (0.009)film (0.011) win (0.009)festival (0.009) Spam téma 7 loan (0.080) unsecured (0.026) credit (0.024) home (0.022) Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]
13
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Spammelt rangsor-elemek •Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima. co.uk buy-canon-rebel-20d-lens-case.camerasx.com •Anchor szöveg (title, H1, stb) free, great deals, cheap, inexpensive, cheap, free •Meta keywords – nem érdemes
14
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Parkoló domén atangledweb.co.uk currently offline atangledweb.co.uk back soon atangledweb.co.uk Soundbridge HomeMusic WiFi Media Play - >... SanDisk Sansa e250 - 2GB MP3 Player - - >... AIGO F820+ 1GB Beach inspired MP3 Pla - >... Targus I-Pod Mini Sound Enhancer - >... Sony NWA806FP.CE7 4GB video WALKMAN - >... Ministry of Sound 512MB MP3 player - >... Nokia 6125 - Fold Design - 1.3 Megapi - >... Samsung E350 - Camera Phone With Flas<a class=l
15
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Kulcsszó zsúfolás, másolatok
16
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Google hirdetések
17
Web Spam Taxonómia 2. Hivatkozás spam
18
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99) •Becsületes, emberi ajánlást tartalmazó hivatkozás •Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … •Szándékos, manipulatív link spam Hivatkozások: A Jó, a Rossz és a Csúf
19
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Link farmok W W W Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam
20
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Link farmok Sok domén, sőt, sok IP 411fashion.com 411 sites A-Z list Mézesmadzag: keresett tartalom 411amusement.com 411 sites A-Z list 411zoos.com 411 sites A-Z list target
21
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 ρ=0.97 ρ=0.61 Becsületes: fhh.hamburg.de Spam: radiopr.bildflirt.de (www.popdata.de farm része) PageRank támogatók eloszlása alacsony magas PageRank alacsony magas PageRank [Benczúr,Csalogány,Sarlós,Uher 2005]
22
Web Spam Taxonómia 3. Rejtőzködés
23
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Formázás •Egy-pixeles kép •Fehér alapon fehér •Stylesheet határozza meg a színt, elhelyezést •… Elv: robot HTML feldolgozó kódja egyszerűsített
24
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 JavaScript alkalmazása var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html"; •window.location elemen keresztüli átirányítás •eval : véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) •document.write
25
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 HTTP szintű rejtőzködés •User agent, kliens host szerint •Más tartalom a felhasználónak, más a GoogleBot-nak
26
Web Spam Taxonómia 4. Közösségi tartalom spam
27
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Új célpont: vendégkönyvek, blogok
28
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 „Fórumnak látszó tárgy”
29
Spam vadászat
30
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Jellemzők •Szóelőfordulások (szózsák modell) •TrustRank: becsületes oldalakból induló PageRank •Ki- és be-linkek száma, kölcsönösség •Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása •Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben •Google hirdetések száma •Site felépítése, mélysége, belső hivatkozás- szerkezete, dok formátumok, …
31
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Gráf-simítás: „know your neighbor” •Becsületes oldal ritkán mutat spamre •Spamre sok más spam hivatkozik 1.Spamség jóslat p(v) minden oldalra 2.Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) 3.Újraklasszifikáció az új jellemzővel ? u v1v1 v2v2 v7v7
32
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 A Web Spam Challenge • UK-WEBSPAM2006 (Yahoo Research, 2007-ben) • 9000 Web site, 500,000 hivatkozás • 767 spam, 7472 becsületes •UK-WEBSPAM2007 (verseny most) •114,000 Web site, 3 Md hivatkozás •222 spam, 3776 becsületes •Teljes letöltés 3 TByte •UK-WEBSPAM2008? Mi szervezzük? •Internet Archívummal együttműködve, időben folyamatos letöltés •Cél: spam időbeliségének, mozgásának vizsgálata
33
Magunkról
34
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Benczúr András Kutatás-Fejlesztés Lukács András Kutatás, Ipari kapcsolatok Rónyai Lajos Informatika Labor vezető Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő
35
Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport
36
Köszönöm a figyelmet! Pereszlényi Attila datamining.sztaki.hu/ peresz@ilab.sztaki.hu
Hasonló előadás
© 2024 SlidePlayer.hu Inc.
All rights reserved.