{ Közösségi spammelés felismerése és eliminálása Kivonat – Pletser József
Közösségi mézesmadzagok Profilok statisztikai analízise Közösségi spammerek a Twitteren és a MySpace-en. Mézesmadzag alapú felderítő rendszerek Statisztika a spammerekről Absztrakt
Az internethasználók több időt töltenek közösségi oldalakon A cégeknek máshol kell megtalálni a célközönségüket Közösségi média rendszerek függenek a felhasználóktól Spammerek azonosíthatók viselkedésük és profilképük alapján Bevezetés
Facebook 500 millió felhasználó 14 millió közösségi oldal különféle témákban Videó, fénykép, és oldalmegosztás Felhasználói kultúra A cikk írásakor a legnépszerűbb oldalnak rajongója volt
Felhasználók 80%-a kapott kéretlen ismerős felkérést Óvatlan felhasználók kiadják az adataikat Nem feltétlenül csak reklámozás céljából spammelnek Felderítésükhöz HIL adatbővítés szükséges Mindig visszajönnek Szomorú tények
Emberi interakció nélkül Közösségi oldalak spamprofiljainak a begyűjtésére Statisztikai felhasználói modell fejlesztése Nulla napos spammerek kiszűrése Mézesmadzag alapú felderítés
Online közösség modellezése
Kép hisztogramja alapján (illetve emberi logika alapján) Szövegek alapján (URL a szövegben, kulcsszavak) Felhasználói profilok alapján (spammer profilok jellemzői – kevés ismerős) Jellemzők kinyerése
A közösségi spam felismerési probléma megállapítani egy c osztályozó egységen keresztül, hogy melyik u i a spammer, úgy, hogy p i adott. Egy osztályozó c: u i {spammer, törvényes felhasználó} halmazba képző függvény, megállapítja, hogy u i spammer, vagy sem. C-hez szükség van különböző jellemzőket tartalmazó halmazra. F= {f 1, f 2, …, f m }, mely U elemeire hivatkozik. A probléma meghatározása
Megoldás megközelítése
A profilok spammelő viselkedése különböző jól elkülöníthető mintákra épülnek. A legnépszerűbb spammelési célpontok a középnyugati állapok, és a legtöbb spam profil Californiában lakik. A spammer profilok 57.2%-a egy másik profilról másolta a „Rólam” részt. Sok spam profil megkülönböztethető demográfiai jellemzőket alakítottak ki (pl. kor, kapcsolat, stb.) MySpace megfigyelések
Click traps Friend Infiltrators Pornographic storytellers Japanese Pill pushers Winnies Spammer profilok statisztikái
Duplicate spammers Pornographic spammers Promoters Phisers Friend infiltrators Twitter megfigyelések
{ A spammerek azonnali kiküszöbölése Research Study 2
A kivehető spammelésre utaló jelek a begyűjtött spammer profilokból használhatóak-e arra, hogy automatikusan megkülönböztethessük a spammereket a törvényes felhasználóktól. Ha biztos mintáink vannak (ahogy a megfigyelések az előző fejezetben kimutattak bizonyos mintákat), akkor az osztályozó egység megfigyelhet jeleket, amik alapján megjósolhatunk egy új spamet Probléma megfogalmazása
Felhasználói demográfia: kor, nem, lakóhely és egyéb a felhasználót jellemző információk A felhasználó által megosztott információk: például a „Rólam” mező, blog bejegyzések, kommentek. Felhasználói aktivitás jellemzői: Posztolási gyakoriság, csirip gyakoriság Felhasználói kapcsolatok: barátok száma, követők, illetve követett személyek. Osztályozó egység megközelítése és metrikája
104 törvényes felhasználó 168 spammer (spammer és hirdető) Minden felhasználó adata Cél: a felhasználó törvényes, spammer, vagy hirdető? Twitter spammerek osztályozása
Követők és a követettek átlaga, és a kétirányú barátságok (követettek ∩ követők) / követettek Csiripek és az azokból levonható tanulságok: A linkek számának aránya A különböző linkek száma kifejezések aránya Az kifejezések aránya Támpontok a Twitteren
A spammereknek saját taktikáik vannak Azonosításuk nem lehetetlen Profilok alapján beskatulyázhatóak Különböző jellemzők segítenek. Összegzés