Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI.

Hasonló előadás


Az előadások a következő témára: "Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI."— Előadás másolata:

1 Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

2 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Miről lesz szó

3 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Web spam: gép megtévesztése

4 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Web Spam és E-mail Spam •Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának •Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt •Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül)

5 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 •Kereső top találat forgalmat, bevételt jelent •Manipuláció, “Search Engine Optimization” •Tartalom spam Kulcsszavak, népszerű kifejezések, elírások •Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok •Bevétel gyakran indirekt •„Affiliate” programok, Google AdSense •Reklámok megjelenítése, forgalom továbbterelése A spammer célpontja a Google

6 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg

7 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Keresési találati pozíció hatása Találati pozíció nézésével töltött idő Találathoz érkezés ideje „spam industry had a revenue potential of $4.5 billion in year 2004 if they had been able to completely fool all search engines on all commercially viable queries” [Amitay 2004] [Granka,Joachims,Gay 2004]

8 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, PageRank

9 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Web spam •Spam szűrés nélkül egy keresőrendszer ma csak spamet találna

10 Web Spam Taxonómia 1. Tartalom spam

11 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Kulcsszó értéke Google AdWords Competition 10k 10th wedding anniversary 128mb, 1950s, … abc, abercrombie, … b2b, baby, bad credit, … digital camera earn big money, easy, … f1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … …

12 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Tartalom modellezés példa Nemsp téma 4Nemsp téma 10 club (0.035)music (0.022) team (0.012)band (0.012) league (0.009)film (0.011) win (0.009)festival (0.009) Spam téma 7 loan (0.080) unsecured (0.026) credit (0.024) home (0.022) Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]

13 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Spammelt rangsor-elemek •Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima. co.uk buy-canon-rebel-20d-lens-case.camerasx.com •Anchor szöveg (title, H1, stb) free, great deals, cheap, inexpensive, cheap, free •Meta keywords – nem érdemes

14 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Parkoló domén atangledweb.co.uk currently offline atangledweb.co.uk back soon atangledweb.co.uk Soundbridge HomeMusic WiFi Media Play - >... SanDisk Sansa e250 - 2GB MP3 Player - - >... AIGO F820+ 1GB Beach inspired MP3 Pla - >... Targus I-Pod Mini Sound Enhancer - >... Sony NWA806FP.CE7 4GB video WALKMAN - >... Ministry of Sound 512MB MP3 player - >... Nokia 6125 - Fold Design - 1.3 Megapi - >... Samsung E350 - Camera Phone With Flas<a class=l

15 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Kulcsszó zsúfolás, másolatok

16 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Google hirdetések

17 Web Spam Taxonómia 2. Hivatkozás spam

18 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99) •Becsületes, emberi ajánlást tartalmazó hivatkozás •Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … •Szándékos, manipulatív link spam Hivatkozások: A Jó, a Rossz és a Csúf

19 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Link farmok W W W Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam

20 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Link farmok Sok domén, sőt, sok IP 411fashion.com 411 sites A-Z list Mézesmadzag: keresett tartalom 411amusement.com 411 sites A-Z list 411zoos.com 411 sites A-Z list target

21 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 ρ=0.97 ρ=0.61 Becsületes: fhh.hamburg.de Spam: radiopr.bildflirt.de (www.popdata.de farm része) PageRank támogatók eloszlása alacsony magas PageRank alacsony magas PageRank [Benczúr,Csalogány,Sarlós,Uher 2005]

22 Web Spam Taxonómia 3. Rejtőzködés

23 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Formázás •Egy-pixeles kép •Fehér alapon fehér •Stylesheet határozza meg a színt, elhelyezést •… Elv: robot HTML feldolgozó kódja egyszerűsített

24 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 JavaScript alkalmazása var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location="http://umlander.info/ mega/free software downloads.html"; •window.location elemen keresztüli átirányítás •eval : véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) •document.write

25 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 HTTP szintű rejtőzködés •User agent, kliens host szerint •Más tartalom a felhasználónak, más a GoogleBot-nak

26 Web Spam Taxonómia 4. Közösségi tartalom spam

27 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Új célpont: vendégkönyvek, blogok

28 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 „Fórumnak látszó tárgy”

29 Spam vadászat

30 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Jellemzők •Szóelőfordulások (szózsák modell) •TrustRank: becsületes oldalakból induló PageRank •Ki- és be-linkek száma, kölcsönösség •Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása •Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben •Google hirdetések száma •Site felépítése, mélysége, belső hivatkozás- szerkezete, dok formátumok, …

31 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Gráf-simítás: „know your neighbor” •Becsületes oldal ritkán mutat spamre •Spamre sok más spam hivatkozik 1.Spamség jóslat p(v) minden oldalra 2.Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) 3.Újraklasszifikáció az új jellemzővel ? u v1v1 v2v2 v7v7

32 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 A Web Spam Challenge • UK-WEBSPAM2006 (Yahoo Research, 2007-ben) • 9000 Web site, 500,000 hivatkozás • 767 spam, 7472 becsületes •UK-WEBSPAM2007 (verseny most) •114,000 Web site, 3 Md hivatkozás •222 spam, 3776 becsületes •Teljes letöltés 3 TByte •UK-WEBSPAM2008? Mi szervezzük? •Internet Archívummal együttműködve, időben folyamatos letöltés •Cél: spam időbeliségének, mozgásának vizsgálata

33 Magunkról

34 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 Benczúr András Kutatás-Fejlesztés Lukács András Kutatás, Ipari kapcsolatok Rónyai Lajos Informatika Labor vezető Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő

35 Pereszlényi Attila Web Spam Web Konferencia 2008. 04. 26 • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport

36 Köszönöm a figyelmet! Pereszlényi Attila datamining.sztaki.hu/ peresz@ilab.sztaki.hu


Letölteni ppt "Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI."

Hasonló előadás


Google Hirdetések