Boha Roland - Kéretlen levelek PPKE-ITK (2005) 1 Nyelv-alapú spam- szűrők Boha Roland november 24.
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 2 Mi is a spam? A spam kéretlen (pl.: cím publikus helyről), nagy példányszámban elküldött (10-től…), azonos tartalmú (részletekben különbözhet) elektronikus üzenet. Szó szerinti jelentése: löncshús konzerv, amely az elnevezés alapjául szolgáló Monthy Python burleszkben szerepelt.
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 3 Mi a baj a spam-mel? A spam nem ingyenes A spam tönkreteheti az internetes kommunikációt A küldött spam-ek száma exponenciálisan nő.
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 4
5 Spamtörténelem május 3. - „DEC spam” (Igen, a számítógéptípus…) május Rob Noha: anyagi támogatás tanulmányai finanszírozására (hírcsoportok voltak a cél) Dave Rhodes – Első klasszikus kéretlen levél: „Gazdagodj meg gyorsan!” (lánclevél)
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 6 ARMM spam – hibás program, közel 200 üzenetet küldött véletlenül egy hírcsoportba (innentől spam a kéretlen levél) január Az első „ütős” spam: vallásos jellegű üzenet április - Canter & Siegel: „Zöldkártya” – vállalták, megbuktak
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 7 A spam napjainkban Számos vírus is „keveredik” az ilyen levelekbe Spamzombik A teljes forgalom százalékát teszi ki „A spam 2003-ban világszerte 20,5 milliárd dolláros kárt okozott”
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 8 Hogyan működik a levelezés az Interneten? Az RFC822 írja le a levél fejrész formátumát, az RFC821 pedig az SMTP protokollt. (A két szabályhalmaz mint elektronikus boríték működik.) A két partner kölcsönösen "bemutatkozik" >>HELO<< után hamis adat is lehet, IP alapú név számít „MAIL FROM:„ - feladó "RCPT TO:" – címzett (utóbbiból bármennyi lehet) Fejléc elemek: Date; From; To; Sender; Reply-to; Subject; Received
Boha Roland - Kéretlen levelek PPKE-ITK (2005) helka.iif.hu IC 122 PP 122 Here - Pleased to meet you HELO HUGBOX.SZTAKI.HU 250 helka.iif.hu: HUGBOX.SZTAKI.HU looks good to me MAIL FROM: 250 OK RCPT TO: 250 Recipient OK. DATA 354 Enter Mail, end by a line with only '.' Received: from tas.vain.hu by HUGBOX.SZTAKI.HU (MX V4.1 VAX) with SMTP; Mon, 29 Sep :44:26 gmt+1 Received: from mos.vain.hu [ ]) by tas.vain.hu (8.8.5/8.8.5) with SMTP id BAA29005 for ; Tue, 30 Sep :43: Received: from csrlink.net (sallybrown.csrlink.net) by mos.vain.hu (5.x/SMI-SVR4) id AA15758; Mon, 29 Sep :43: Received: from (ad compuserve.com [ ]) by csrlink.net (8.8.5/8.8.5) with SMTP id RAA11806; Mon, 29 Sep :32: (EST) Date: Mon, 29 Sep 97 16:38:23 EST To: From: Subject: Let's talk dirty. Message-ID: <> LAUNDRY!!! $20,000,000 (Million) IN SALES In Just (5) Months!!! HELP......WE NEED MORE DEALERS!!
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 10 Mit tesznek a spam ellen? Öngyógyítás? Emberi eredet… Opt-in: felhasználó beleegyezésével; Opt-out: lehetőséget kell adni a leiratkozásra Smith-féle törvénytervezet: reklámfax alapján pénzbírság
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 11 Mit tegyél, ha levélszemetet kapsz? Soha ne válaszolj kéretlen re! (A „biztos” lista értékes…) Soha ne kattints kéretlen ben szereplő linkekre! (áloldalak…) Soha ne vásárolj kéretlen ben hirdető forgalmazótól! (Ők is pénzből élnek…) Soha ne készíts címlistát! (legalább titkos másolatot küldj…)
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 12 A védekezés módjai Relay megtiltás Fekete listák Valósidejű spam blokkolás (automatizált) Spam szűrők
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 13 Relay megtiltás: (a szerver-üzemeltető feladata); A legfontosabb, amit a levelező szerverek gazdáinak meg kell tenniük, az annak megakadályozása, hogy a spam küldők ugródeszkának használhassák rendszerüket. Fekete listák: A spamek jelentős része ugyanazokról a címekről érkezik, ha megtiltjuk ezekről a helyekről a levelek érkezését, akkor az ártatlan helynek is segítünk
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 14 Valósidejű spam blokkolás RBL (Realtime Blackhole List): IP címeket tartalmaz, melyekrõl - közvetve vagy közvetlenül -, spam származik. ORDB (Open Relay Database) RSS (Relay Spam Stopper): Mint az RBL, de míg az RBL spam forrásokat, reléket és spammelést támogató rendszereket is tartalmaz, addig ez utóbbiak csak nyílt reléket.
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 15 Spam szűrők – működési elvek Szűrés a feladó címe alapján (eredet) Szűrés a levél tartalma, felépítése alapján Szűrés adatbázisok segítségével Szűrés (saját) szabályokkal Egyéb megoldások Minta és szabálycsere
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 16 Szűrés a feladó címe alapján Feketelista (Black list) (kézi karbantartás) Fehérlista (White list) (kézi karbantartás, tájékoztatás) Szürkelista (Grey list) (tájékoztatás) RBL (Realtime Blackhole List) (szerverszinten)
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 17 Szűrés a levél tartalma, felépítése alapján Bayes-szűrő: Bizonyos spam-szűrők a Thomas Bayes matematikus által kidolgozott elméletet használják; valószínűség-számítási elvek segítségével határozzák meg, hogy egy normális levélnek vagy spamnek számít-e. Pontozás Több ezer minta alapján Tanítható Tévedhet
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 18 Szűrés adatbázisok segítségével Egy statisztikai módszer elemzi a beérkező leveleket, részeire bontja azokat Ez alapján osztályoz Személyre szabott spam adatbázis (szabályok) Az adatbázis fokozatosan "megtanulja" az adott környezetben előforduló spam jellemzőket
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 19 Szűrés adatbázisok segítségével II. Mivel a statisztikai módszerek a levelek sajátosságait tanulják meg, ezért a tanítómintát nagyon gondosan kell összeállítani. Spam szövegek szórása jóval kisebb, mint a nem spam levelekben lévőké, így spam < nem spam
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 20 Szűrés (saját) szabályokkal Alapvető dolog: szűrők A bayes-i rendszerrel kombináltan igazán hatékony Testreszabhatóság
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 21 Egyéb megoldások SpamAssasin: 3.x -től az általános algoritmust felváltotta egy neurális hálózat, hiba visszacsatolással (tanítás sem kell hozzá) A fenti módszerek kombinációi (nagy neveknél mind, vagy több is egy termékben)
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 22 Minta és szabálycsere Hatékonyság: felismerési és vakriasztási arányból Változékonyság, adaptivitás A spam küldője is ember: alkalmazkodik, változtat A tisztán statisztikai alapú szűrőknél nem kell frissíteni, csak tanítani, tanítani….
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 23 Most akkor mi van??? Hol bujkál a nyelvtechnológia? Mintakeresés, heurisztikus módszerek, statisztikai módszerek alapja (szavak, szókapcsolatok relációinál, felismerésüknél) Bayes-szűrő Adatbázisok mögött Szabályok mögött
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 24 Források _uj.html (Pásztor Miklós) _uj.html am_tudnivalok/kutatashttp:// am_tudnivalok/kutatas
Boha Roland - Kéretlen levelek PPKE-ITK (2005) 25 Köszönöm a figyelmet!