Az előadás letöltése folymat van. Kérjük, várjon

Az előadás letöltése folymat van. Kérjük, várjon

802.11 User fingerprinting Jeffrey PangBen Greenstein Ramakrishna Gummadi Srinivasan SeshanDavid Wetherall Bánsághi Csaba 2009 ELTE.

Hasonló előadás


Az előadások a következő témára: "802.11 User fingerprinting Jeffrey PangBen Greenstein Ramakrishna Gummadi Srinivasan SeshanDavid Wetherall Bánsághi Csaba 2009 ELTE."— Előadás másolata:

1 User fingerprinting Jeffrey PangBen Greenstein Ramakrishna Gummadi Srinivasan SeshanDavid Wetherall Bánsághi Csaba 2009 ELTE

2 A probléma A i szabvány biztosítja a: Felhasználó/szolgáltatás hitelesítést Az adatok bizalmasságát és integritását NEM biztosítja az anonimitást/helytitkosságot (location privacy): pl.: a reklámozott MAC cím alapján követhető az eszköz Ötlet: álnevek használata, pl. ideiglenes, periodikusan változó MAC cím Ebben a cikkben: Az álnevek használata nem elég az anonimitás biztosításához Implicit azonosítók alapján nagy valószínűséggel lehet a felhasználókat azonosítani Mindezt életből vett mintákon végzett mérésekkel igazoljuk

3 Implicit azonosítók 1. Példák a 2004-es SIGCOMM konferencia forgalmának archívumából: Egy résztvevő laptopja a „University of Washington” és „djw” nevű hálózatokat keresi ∙„djw” -> David J. Wetherall ∙A Wigle nevű online adatbázis szerint Seattle környékén egy ilyen nevű hálózat van ∙Mi több: a forrását Wetherall otthonának 60 méteres körzetébe teszi Ki volt az, aki a konferencia során 512MB adatot töltött le BitTorrenttel? ∙A „roofnet” hálózatot keresi -> Cambridge/MIT ∙Mi van, ha váltogatja a MAC címét? ∙Óránként kapcsolódott ugyanahhoz az SSH és IMAP szerverhez, és egyedül ő tett ilyet ∙És ha link-rétegű titkosítás is lenne? ∙A frame-ek mérete egyedi; a management frame-ekben reklámozott képességek egyeznek ∙Még így is elég információnk van, hogy Cambridgehez kössük

4 A probléma gyökere(i): A protokoll magasabb rétegeiből származó információ nincs megfelelően elrejtve (pl. csomagméretek, akár titkosítás mellett is) A kapcsolatépítéskor közzétett információ nyilvános Nagyobb probléma része: hogyan tud két eszköz titokban kapcsolatot fölépíteni? Implementációfüggő viselkedéskülönbségekből információ nyerhető (operációs rendszer, illesztőprogram, stb.) Nem csak a ben fölmerülő problémák: BlueTooth, ZigBee, stb. Protokoll szinten megoldandó kérdések Implicit azonosítók 2.

5 Kísérleti körülmények Gyenge „ellenség”: mindennapos eszközökkel (laptop, tcpdump, stb.), passzív módban (üzenetek küldése nélkül) figyeli a forgalmat Háromféle hálózattípus: ∙ publikus (pl. reptér): a fizikai, link és hálózati rétegek forgalma is nyilvános (ez a leggyakoribb) ∙ otthoni: link rétegű titkosítás (WEP/WPA), de a frame-ek mérete/időzítése valamint a management frame-ek tartalma látszik ∙ vállalati: link rétegű titkosítás, azonos hálózati eszközök; a felhasználók által használt hálózatok/alkalmazások láthatóak Forgalomminta: egy álnévhez rendelt hálózati forgalom (max. 1 óra) Tréning minta: a célfelhasználótól gyűjtött forgalomminta Validációs minta: az ellenség által tesztelni kívánt forgalomminta Két fő kérdést kell tudni eldönteni: ∙ 1. kérdés: Ez a minta az U felhasználótól jött? ∙ 2. kérdés: Járt itt ma az U felhasználó?

6 Tesztadatok sigcomm : SIGCOMM 2004 ucsd : University of California San diegoi épületében, 2006 november 17-én gyűjtött forgalom apt : a cikk szerzői által gyűjtött 19 napos minta egy bérház közelében, csak broadcast management csomagok

7 Azonosító forgalomjellemzők netdests: (IP, port) párok halmaza felhasználónként ∙ a weboldalak népszerűsége Zipf-eloszlású ∙ kevés, jellegzetes szolgáltatás ( , kedvenc weboldalak) ssids: Service Set Identifier (SSID) keresések halmaza ∙ WinXP és OS X automatikusan és titkosítatlanul küldi ∙ ritka előfordulás, időben változhat bcast: broadcast csomagok méreteinek halmaza ∙ több program (NetBIOS, MS Office, stb.) automatikusan küldi ∙ a csomagméret utalhat a tartalomra, a tartalom pedig azonosít ∙ a méretek egyedül közel olyan jó azonosítók, mint az (alkamazás, méret) párok fields: protokoll mezők tartalma a MAC header-ben ∙ információ a wireless eszközről, driverről, konfigurációról ∙ gyengén azonosít, de majdnem minden frame-ből kinyerhető Ezeket vizsgáljuk külön-külön és kombinálva is a három tesztadaton

8 1.Implicit azonosítók számszerűsítése fields : minden kombináció külön érték a többi azonosítót halmazként tekintjük 2.A tréning minták alapján fölépítjük a felhasználók profilját Profile U : a tréning során észlelt összes halmaz uniója 3.Számszerűsítjük két minta egyezésének mértékét Súlyozott Jaccard hasonlósági index ( J(X,Y) = |X∩Y|/|XUY| ) Súlyok: w(e): az e elem felhasználók közötti előfordulásának reciproka 4.Egyezés eldöntése: (A képletben szereplő valószínűségeket a tréning mintákból becsüljük) Ha ez az érték meghalad egy T küszöböt, akkor Igen a válasz, egyébként Nem 1. kérdés: Ez a minta U-tól jött?

9 Pontosság A döntésnek két tulajdonságát vizsgáljuk: 1.TPR (True Positive Rate) Mekkora arányban ismertük fel helyesen, hogy az adott minta az U felhasználóé 2.FPR (False Positive Rate) Mekkora arányban tulajdonítottuk valaki más forgalmát U-nak A T küszöbérték változtatásával lehet elérni egy kitűzött TPR/FPR értéket Az adott FPR-hez tartozó T a különböző tréning minták miatt felhasználónként változhat

10 Vízszintes vonalak: elméleti maximum (ha van implicit azonosító, akkor fölismeri, különben találgat) ssids a ritkasága miatt elméletileg is alacsony fields csak magasabb FPR mellett azonosít: csoportokba osztásra alkalmas a többi azonosító kis FPR mellett is vagy egyedien azonosít, vagy egyáltalán nem Átlag TPR önálló azonosítók esetén

11 TPR változása felhasználók között FPR = 0.01: netdests, ssids, bcast a felhasználók 65, 11 ill. 24%-ára 0.5-ös TPR-t ad! DE: a felhasználók 12, 29 ill. 56%-ára 0.1-es FPR mellett sem tudunk 0.1-es TPR-t adni ∙ ők gyakorlatilag azonosíthatatlanok: lehúzták az előző átlagot ∙ tehát a többieket viszont az átlagnál jóval nagyobb arányban tudjuk azonosítani

12 Mennyit kell tanulni? sigcomm minta FPR = 0.01 netdests az első 3 minta után stabilizálódik a többi azonosítóban nincs jelentős fejlődés, valószínűleg mert automatikusak

13 Azonosítók kombinálása A gyakorlatban a támadó több azonosítót együttesen vizsgálhat publikus hálózat: netdists, ssids, bcast, fields ∙ titkosítás/hitelesítés legfeljebb magasabb szinteken (pl. bejelentkezés weboldalon) otthoni hálózat: ssids, bcast, fields ∙ WEP/WPA, de különböző eszközök kapcsolódnak vállalati hálózat: ssids, bcast ∙ titkosított közeg, homogén hardverkörnyezet ∙ a különbségek kizárólag a felhasználók/programok eltérő viselkedéséből erednek Ezeket a kombinációkat alkalmazzuk a sigcomm mintára ∙ a sigcomm és ucsd mintákban közel ugyanolyan implicit azonosítók találhatók ∙ különböző méretű populációkban is mérünk: nagyobb populációban nagyobb eséllyel van „hasonmás”

14 Az eredmények Nem meglepő: több jellemzőből pontosabban azonosítunk

15 2. kérdés: Járta ma itt U? Előfordulhat-e, hogy a Q felhasználótól jövő mintákat rendszeresen U-nak tulajdonítjuk? A jelek szerint nem: A felhasználók 60%-a legfeljebb 1, 95%-a legfeljebb 3 hibás azonosításért (false positive) felelős

16 2. kérdés: Járta ma itt U? Van-e időbeli összefüggés a helyes/helytelen azonosítások között? Ha van, akkor avalószínűségnek jelentősen el kell térnie 1-től Az esetek 60 ill. 70%-ában a két valószínűség aránya ½ és 2 között van: nem jelentős eltérés (t = 2)

17 2. kérdés: eredmények

18 90%-os bizonyosság mellett: ∙publikus hálózatban még 100 felhasználónak is legalább a felét azonosítani tudjuk ∙legfeljebb 25 felhasználónak a 27%-át azonosíthatjuk hálózattípustól függetlenül ∙ez a korlát 100 felhasználónál is csak 12%-ra megy le ∙csak annyi kell, hogy a felhasználók aktívak legyenek legfeljebb 25 felhasználós hálózatban az elég aktív felhasználók 12-37%-át még 99%-os bizonyosság mellett is azonosítani tudjuk az otthoni ill. vállalati hálózatokra jellemzőbb a populációdiagramok bal ill. felső fele (felhasználók/aktív órák száma) A legfontosabbak

19 Konklúzió Implicit azonosítók segítségével hatékonyan tudunk felhasználókat azonosítani és követni Egyes felhasználók könnyebben követhetők, mint mások Az álnevek bevezetése önmagában nem elég Már egy önálló implicit azonosító is tud pontos lenni ∙ Ráadásul gyorsan, 1-3 mintából tanulható A problémát a szabvány hibái okozzák A cikkben leírt módszerek, statisztikák csak alsó korlátok: erősebb ellenségek, újabb implicit azonosítók jobb eredményeket érhetnek el.

20 Kapcsolódó kutatások Helytitkosság (location privacy) ∙Elsősorban az RFID és GPS technológiákkal kapcsolatban merül fel ∙A „benyomuló számítástechnika” (pervasive/ubiquitous computing) fejlődésével a et is egyre jobban érinti: egyre nagyobb lefedettség, egyre könnyebb lenyomozni egy eszközt Anonimitás (identity hiding) ∙Álneveket széles körben használnak (pl. GSM rendszerekben) ∙Mint láttuk, ez szükséges de nem elégséges a lenyomozhatatlanság biztosításához Implicit azonosítók (implicit identifiers) Korábbi kutatások sikeresen azonosítottak: ∙alkalmazást, titkosított forgalom alapján ∙drivert, a probe-ok időzítése alapján ∙eszközt, a TCP timestamp-ek elcsúszása alapján ∙felhasználót, clickprint-ek vagy gépelés alapján ∙operációs rendszert, a network stack viselkedése alapján ( nmap, p0f ) ∙weboldalt, a forgalom mérete és időzítése alapján (titkos csatornán keresztül is)


Letölteni ppt "802.11 User fingerprinting Jeffrey PangBen Greenstein Ramakrishna Gummadi Srinivasan SeshanDavid Wetherall Bánsághi Csaba 2009 ELTE."

Hasonló előadás


Google Hirdetések