Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI.

Slides:



Advertisements
Hasonló előadás
Keresőrendszerek.
Advertisements

Zoological Record adatbázis bemutatása A Web of Knowledge platformon Tóth Szász Enikő
Kereső program használata Készítette: Berger Nikolett
 A Web, kezdeti időszakában csak a szöveges file-okat kezelte.  Ma teljes körű multimédia szolgáltatásokat nyújt  Filmet,  Zenét,  Képeket nézhet.
Rádai Péter Euro Nyelvvizsga Központ Top tippek az Euroexam nyelvvizsgákra készülőknek Angol B2 / C1.
Az online reklám A/B tesztjei, streaming media értékei és hatásai, hagyományos vs komplex online reklámok összehasonlítása (banner, szponzoráció, audió,
A szolgáltatásai Gödöny Péter ELTE IK Pataky István Inf. Szki.
Internet ismeretek II..
SEO ELEMZÉS A webtarhely.xstudio.hu webtarhely.xstudio.hu PORTÁL RÉSZÉRE.
FILMKLUB SZERVEZÉSE A TÁRSADALOMBA NEHEZEN BEILLESZKEDŐ FIATAL FELNŐTTEKNEK
Készítette: Kozák Magdolna. Google  „google”: eredetileg „googol”, ami a matematikában azt a számot fejezi ki, ahol egy 1-es után 100 darab nulla van.
Keresőmarketing stratégiák
TDK-DOLGOZAT TDK-DOLGOZAT Keresőoptimalizálással kapcsolatos kérdőívek kiértékelése Szerző: SZÉKEJ É. Krisztián Témavezető: Dr. PATAKI Éva.
A jövő technológiái Kőnig Tibor főmérnök, Microsoft Magyarország blogs.msdn.com/tibork-on-ms blogs.msdn.com/tibork-on-ms.
Böngészők Internet Explorer Mozilla Firefox
GOOGLE 1998 szeptember Ma: az IN-es keresés 75%-a Webes keresés Képkeresés Usenet csoportokban Könyvtárban (hierarchikus katalógus) Egyéb szolgáltatások.
1 Hogyan juthatunk be a keresők első oldalára – kereső optimalizálás.
Bónácz Péter Compszerviz.hu
Kliensoldali Programozás
Vizuális és web programozás II.
Kereső programok használata
András A. Benczúr, Károly Csalogány, Tamás Sarlós, Máté Uher.
Aki keres, az talál? Igen, talál. Ki ezt, ki azt, de egy szót beütve a google keresőbe (pl.) mindig ugyanazt, hacsak nem kerültek fel új honlapok az adott.
Exchange Server 2007 Client Access Role
E-book-ok, könyvtárak, OSZK Networkshop 2011 Kaposvár, április 27.
Az elektronikus könyvtárak hálózata Moldován István OSZK MEK Osztály Hódmezővásárhely, július 5-7. Digitalizálási konferencia.
A MEK metaadat- szolgáltatása Networkshop Győr, Góczán Andrea OSZK, MEK osztály.
Keresőoptimalizáló eszközök ( S earch E ngine O ptimization tools )
Szemantikus keresők.
Ebsco adatbázisok Koltay Klára 2006/ félév.
Vida Andrea SZTE Egyetemi Könyvtár
Az internetes keresőkben a felhasználó az őt érdeklő szavakra, adatokra kereshet rá egy általában egyszerű oldalon, egy beviteli mező és egyéb szűrési.
Wikicsoda? Márkaépítés és forgalom-generálás tartalommal Sáfrány Zsuzsanna head of neo content DigitalFestival április 29.
Rádai Péter Euro Nyelvvizsga Központ Top tippek az Euroexam nyelvvizsgákra készülőknek Angol B2 / C1.
A legjobb weboldás! “Oszd meg a tudásodat másokkal: ez az egyik módja annak, hogy halhatatlan légy.” (Dalai Láma)
Keresőrendszerek.
Az Internet alkalmazásai
Az internetes keresési módszerek
Web-programozás Lénárt Anett egyetemi adjunktus - PTE PMMK Rendszer- és Szoftvertechnológia Tanszék 2. Előadás Tananyag: A HTML nyelv meta elemei.
Keresés a weben Kulcsszavas keresés: Google (
50M Lumia activations achieved globally Windows Phone #2 phone in 14 market swith >10% share in 8 markets 390% increase in monthly app downloads.
Vállalkozások az Interneten Készítette: 7even Online Ügynökség.
Keresőmarketing nap Birkás Dávid november 20.
a google adwords változásainak követése, a változások várható iránya
Keresés fajtái Matching (szabadszavas)
TÁMOP /1-2F Internet-szolgáltatások I/13. évfolyam Keresések, regisztrációk Szepessy István 2009.
Adatkeresés az interneten
FELSŐOKTATÁSI INTÉZMÉNYEK ONLINE MARKETING MULTIKULTURÁLIS ASPEKTUSAINAK FELTÁRÁSA MULTIKULTURALITÁS A XXI. SZÁZADBAN TUDOMÁNYOS KONFERENCIA
Internet tudományos használata Skultéti Attila 2015.
17 ISMERTESSE AZ INTERNETES KERESÉSI MÓDSZEREKET! KONKRÉT GYAKORLATI PÉLDA KERESÉSRE.(KERESÉS, TALÁLATI LISTA ÉRTELMEZÉSE, TALÁLT OLDAL MENTÉSE.) Készítette:
Internet tudományos használata Skultéti Attila 2015.
OVIDIUS Info-Service Co Ltd.
“Tudásmegosztás és szervezeti problémamegoldás a mesterséges intelligencia korában” Levente Szabados Technológiai Igazgató.
Keresési stratégia, Boolean operátorok
OVIDIUS Info-Service Co Ltd.
Scopus Vasas Lívia, PhD 2017.
OVIDIUS Info-Service Co Ltd.
Internet és kommunikáció
Irodalomkutatási módszerek 2017/18 2
Az irodalomkutatás és idézet keresés segédeszköze
Internet-szolgáltatások I/13. évfolyam
GEGES JÓZSEF Ph.D. OVIDIUS Info-Service Co Ltd.
OVIDIUS Info-Service Co Ltd.
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Az internet minőségi információ halmazainak feltárásáról
Az irodalomkutatás és idézet keresés segédeszköze
Lívia Vasas, PhD 2018 Disszertációk Lívia Vasas, PhD 2018.
Lívia Vasas, PhD 2019 Disszertációk Lívia Vasas, PhD 2019.
Előadás másolata:

Web Spam: manipulált tartalom a Világhálón Pereszlényi Attila Benczúr András, Bíró István, Fekete Zsolt Rácz Simon, Siklósi Dávid, Szabó Jácint MTA SZTAKI Adatbányászat és Webkeresés Kutatócsoport

Pereszlényi Attila Web Spam Web Konferencia Miről lesz szó

Pereszlényi Attila Web Spam Web Konferencia Web spam: gép megtévesztése

Pereszlényi Attila Web Spam Web Konferencia Web Spam és Spam •Cél nem (feltétlenül) a végfelhasználó Pl. Javítsuk a Google pozícióját egy „ügyfél” oldalának •Szűrés nem a kliensnél Keresőrendszer központilag szűr Nem lehet letölteni és tesztelni a spam szűrőt •Spammer dolga nehezebb Eredmény megjelenése lassú folyamat (Robot megtalálja, index frissül)

Pereszlényi Attila Web Spam Web Konferencia •Kereső top találat forgalmat, bevételt jelent •Manipuláció, “Search Engine Optimization” •Tartalom spam Kulcsszavak, népszerű kifejezések, elírások •Link spam „Farmok”: sűrűn linkelt, redirect-elt site-ok •Bevétel gyakran indirekt •„Affiliate” programok, Google AdSense •Reklámok megjelenítése, forgalom továbbterelése A spammer célpontja a Google

Pereszlényi Attila Web Spam Web Konferencia A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg

Pereszlényi Attila Web Spam Web Konferencia Keresési találati pozíció hatása Találati pozíció nézésével töltött idő Találathoz érkezés ideje „spam industry had a revenue potential of $4.5 billion in year 2004 if they had been able to completely fool all search engines on all commercially viable queries” [Amitay 2004] [Granka,Joachims,Gay 2004]

Pereszlényi Attila Web Spam Web Konferencia A Web Spammer célja • Kereső felhasználási tapasztalat: • Csak az első oldal tetejét (sőt, csak az első 2 találatot) nézzük meg • Jó rangsor – Search Engine Optimization célpontja • Mitől függ a rangsor? • Szóelőfordulás, HTML elemekkel (cím, fejléc, méret, stb.) súlyozva • Hivatkozó (anchor) szöveg, domén, URL szavai – legjobb! • URL hossza, könyvtárszint mélysége • Rámutató hivatkozások száma, PageRank

Pereszlényi Attila Web Spam Web Konferencia Web spam •Spam szűrés nélkül egy keresőrendszer ma csak spamet találna

Web Spam Taxonómia 1. Tartalom spam

Pereszlényi Attila Web Spam Web Konferencia Kulcsszó értéke Google AdWords Competition 10k 10th wedding anniversary 128mb, 1950s, … abc, abercrombie, … b2b, baby, bad credit, … digital camera earn big money, easy, … f1, family, flower, fantasy gameboy, gates, girl, … hair, harry potter, … ibiza, import car, … james bond, janet jackson karate, konica, kostenlose ladies, lesbian, lingerie, … …

Pereszlényi Attila Web Spam Web Konferencia Tartalom modellezés példa Nemsp téma 4Nemsp téma 10 club (0.035)music (0.022) team (0.012)band (0.012) league (0.009)film (0.011) win (0.009)festival (0.009) Spam téma 7 loan (0.080) unsecured (0.026) credit (0.024) home (0.022) Példa 20 spam és 50 nemspam generatív téma modellből [Bíró, Szabó, Benczúr 2008]

Pereszlényi Attila Web Spam Web Konferencia Spammelt rangsor-elemek •Domén név adjustableloanmortgagemastersonline.compay.dahannusaprima. co.uk buy-canon-rebel-20d-lens-case.camerasx.com •Anchor szöveg (title, H1, stb) free, great deals, cheap, inexpensive, cheap, free •Meta keywords – nem érdemes

Pereszlényi Attila Web Spam Web Konferencia Parkoló domén atangledweb.co.uk currently offline atangledweb.co.uk back soon atangledweb.co.uk Soundbridge HomeMusic WiFi Media Play - >... SanDisk Sansa e GB MP3 Player - - >... AIGO F820+ 1GB Beach inspired MP3 Pla - >... Targus I-Pod Mini Sound Enhancer - >... Sony NWA806FP.CE7 4GB video WALKMAN - >... Ministry of Sound 512MB MP3 player - >... Nokia Fold Design Megapi - >... Samsung E350 - Camera Phone With Flas<a class=l

Pereszlényi Attila Web Spam Web Konferencia Kulcsszó zsúfolás, másolatok

Pereszlényi Attila Web Spam Web Konferencia Google hirdetések

Web Spam Taxonómia 2. Hivatkozás spam

Pereszlényi Attila Web Spam Web Konferencia “hyperlink structure contains an enormous amount of latent human annotation that can be extremely valuable for automatically inferring notions of authority.” (Chakrabarti et. al. ’99) •Becsületes, emberi ajánlást tartalmazó hivatkozás •Nem ajánló értékű, pl. „affiliate program”, vagy fórum, lista navigáció … •Szándékos, manipulatív link spam Hivatkozások: A Jó, a Rossz és a Csúf

Pereszlényi Attila Web Spam Web Konferencia Link farmok W W W Becsületes Web kilépési pont: • Mézesmadzag: pl keresett tartalom másolata • Parkoló domén régi hivatkozása • Blog, vendégkönyv spam

Pereszlényi Attila Web Spam Web Konferencia Link farmok Sok domén, sőt, sok IP 411fashion.com 411 sites A-Z list Mézesmadzag: keresett tartalom 411amusement.com 411 sites A-Z list 411zoos.com 411 sites A-Z list target

Pereszlényi Attila Web Spam Web Konferencia ρ=0.97 ρ=0.61 Becsületes: fhh.hamburg.de Spam: radiopr.bildflirt.de ( farm része) PageRank támogatók eloszlása alacsony magas PageRank alacsony magas PageRank [Benczúr,Csalogány,Sarlós,Uher 2005]

Web Spam Taxonómia 3. Rejtőzködés

Pereszlényi Attila Web Spam Web Konferencia Formázás •Egy-pixeles kép •Fehér alapon fehér •Stylesheet határozza meg a színt, elhelyezést •… Elv: robot HTML feldolgozó kódja egyszerűsített

Pereszlényi Attila Web Spam Web Konferencia JavaScript alkalmazása var1=100;var3=200;var2=var1 + var3; var4=var1;var5=var4 + var3; if(var2==var5) document.location=" mega/free software downloads.html"; •window.location elemen keresztüli átirányítás •eval : véletlenszerűnek tűnő statikus adatokból való spam tartalom (szöveg, link) •document.write

Pereszlényi Attila Web Spam Web Konferencia HTTP szintű rejtőzködés •User agent, kliens host szerint •Más tartalom a felhasználónak, más a GoogleBot-nak

Web Spam Taxonómia 4. Közösségi tartalom spam

Pereszlényi Attila Web Spam Web Konferencia Új célpont: vendégkönyvek, blogok

Pereszlényi Attila Web Spam Web Konferencia „Fórumnak látszó tárgy”

Spam vadászat

Pereszlényi Attila Web Spam Web Konferencia Jellemzők •Szóelőfordulások (szózsák modell) •TrustRank: becsületes oldalakból induló PageRank •Ki- és be-linkek száma, kölcsönösség •Szavak száma, hossza, HTML elemek (title, anchor) közötti eloszlása •Sikeresség népszerű kulcsszavakra spamszűrés nélküli teszt keresőrendszerben •Google hirdetések száma •Site felépítése, mélysége, belső hivatkozás- szerkezete, dok formátumok, …

Pereszlényi Attila Web Spam Web Konferencia Gráf-simítás: „know your neighbor” •Becsületes oldal ritkán mutat spamre •Spamre sok más spam hivatkozik 1.Spamség jóslat p(v) minden oldalra 2.Céloldal u, szomszéd p(v) aggregálásával új jellemző: f(u) 3.Újraklasszifikáció az új jellemzővel ? u v1v1 v2v2 v7v7

Pereszlényi Attila Web Spam Web Konferencia A Web Spam Challenge • UK-WEBSPAM2006 (Yahoo Research, 2007-ben) • 9000 Web site, 500,000 hivatkozás • 767 spam, 7472 becsületes •UK-WEBSPAM2007 (verseny most) •114,000 Web site, 3 Md hivatkozás •222 spam, 3776 becsületes •Teljes letöltés 3 TByte •UK-WEBSPAM2008? Mi szervezzük? •Internet Archívummal együttműködve, időben folyamatos letöltés •Cél: spam időbeliségének, mozgásának vizsgálata

Magunkról

Pereszlényi Attila Web Spam Web Konferencia Benczúr András Kutatás-Fejlesztés Lukács András Kutatás, Ipari kapcsolatok Rónyai Lajos Informatika Labor vezető Adatbányászat és Keresés Kutatócsoport 3 posztdoktor 8 doktorandusz 5 fejlesztő

Pereszlényi Attila Web Spam Web Konferencia • Egyedi technológiák extrém adatméretekre •(web)keresés, szövegfeldolgozás Európai Internet Archívum Web Spam szűrés •viselkedésmodellezés, eseményfelderítés biztosítási csalás felderítő eszköz együttműködés az EU terrorelhárítás adatbányászati támogatás előkészítésére nagyméretű webszerver naplók hosszú időtartamú elemzése •lemorzsolódás, árrugalmasság vizsgálatok hazai biztosítók, telefontársaságok •ajánló rendszerek KDD Cup első helyezés Adatbányászat és Keresés Kutatócsoport

Köszönöm a figyelmet! Pereszlényi Attila datamining.sztaki.hu/