1 A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós.

1 A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós KSH, Népesedési és szociális védelmi statisztikai főosztály Miklos.Farago@ksh.hu 2002. Május 24. MTA Statisztikai és Jövőkutatási Tudományos Bizottsága

2 Statisztikai felfedés elleni védelem (Statistical Diclosure Control, SDC) •A legfontosabb fogalmak (azonosítás, mikroadatvédelem / táblázatos adatok védelme stb.) már harminc évvel ezelőtti dokumentumokban és publikációkban megjelentek. Eleinte az egyes európai országok statisztikai hivatalai külön-külön fejlesztették a módszertant, később egyetemek és kutatóintézetek is bekapcsolódtak, végül európai szintű projektekben egyesítették az erőiket. Néhány éve az Eurostat is magáévá tette és alkalmazza a módszertant. •Az angol National Statistics Code of Practice nyolc alapelve közül az egyik az adatvédelemre vonatkozik, melynek első mondata a következő: 1. The National Statistician will set standards for protecting confidentiality, including a guarantee that no statistics will be produced that are likely to identify an individual unless specifically agreed with them. •A témának nagy irodalma van, jelenleg a módszerek tökéletesítése és a gyakorlati igényekre való „ráhajlítása” folyik. Az alább röviden ismertetett fogalmak és módszerek szakmai evidenciák a tagállamok statisztikai hivatalaiban. •2004-ban az ONS-ben 100 fölötti létszám föglalkozott adatvédelemmel, ezen belül 20 fölött SDC technikákkal

3 Az Európai Statisztika Gyakorlati Kódexe előírja, hogy: „… a legmesszebbmenőkig biztosítani kell az adatszolgáltatók jogait, biztosítani kell az általuk szolgáltatott információk bizalmas kezelését és kizárólag statisztikai célokra történő felhasználását”. •Célszerű lenne, ha a KSH-n belül az adatvédelem egységes elvek alapján történne. Ehhez minimálisan az szükséges, hogy a fogalmak és módszerek mindenki számára •Egy kutató minél részletesebb adatokhoz próbál hozzájutni, a statisztikus pedig a lehető legrészletesebben szeretne adatot szolgáltatni. •Az SDC módszerek alkalmazása mindig információvesztéssel jár, ami a statisztikai adatszolgáltató alaptevékenységével éppen ellentétes. Ezért egy adathalmaz adatvédelme minden esetben egy feltételes optimumfeladat felállítását jelenti: maximális részletezettségű adatok nyújtása, feltéve, hogy a megfigyelési egységek adatvédelme nem sérül. •A statisztikai felfedés elleni védelem: módszerek olyan összessége, melyek csökkentik a megfigyelési egységekre (személyekre, vállalatokra, egyéb szervezetekre) vonatkozó információk felfedésének kockázatát. •A kérdés az, hogy milyen mértékű csökkentés a megfelelő. Hogyan mérhető az elveszett információ mennyisége?

4 •Felfedés (azonosítás), védelem: egy adathalmaz valamely megfigyelési egységének beazonosítása ÉS valamilyen érzékeny adat, azaz olyan információ hozzákapcsolása, amelyet ő nem szeretne. Az adatvédelem célja ezt megakadályozni. (De mi az azonosítás) •Az SDC a fenti két esemény közül már az elsőt, az azonosítást kívánja megakadályozni. A közvélekedéssel ellentétben nincs akadálya érzékeny adatok közlésének, ha a mögötte álló egyén vagy vállalat stb. nem azonosítható. A „védelem” fogalmát ekvivalensnek tekintjük az „azonosíthatatlanság”-gal: a védett adathalmaz nem tartalmaz azonosítható statisztikai egységet (vagy legalábbis nagyon nehezen azonosíthatóakat tartalmaz.) •Az érzékeny adat nem jogszabályban meghatározott fogalom, nem definiálható korrektül, mert mindenki másra érzékeny. Az érzékeny adatok egy részét, az ún. különleges adatokat nevesíti az adatvédelmi törvény (vallás, faji eredet, egészségi állapot stb.).

5 A felfedés kockázata, az „egyenkockázat” elve A kiadott adathalmaz védelmének erőssége függjön attól, hogy a) milyen adathalmazt b) kinek c) milyen célra adunk át. a) egy részletesebb adathalmaz nagyobb felfedési kockázattal bír, b) egy kutató részletesebb adatokat kaphat így, főképp, ha c) az outputja (a publikáció) eléggé aggregált, azaz kis felfedési kockázatú. Tehát a fenti három kockázat „összege” legyen azonos (minimális). Ez egyben az átadott információ mennyiségét maximalizálja: ha mindenki ugyanazt kapná, „túlvédetté” kellene tenni a fájlt. „safe projects, safe people, safe setting, safe outputs” Európában általánosan megkülönböztetik például pl. a kutatóknak és a nyilvánosságnak szánt adatokat. A Commission regulation (EC) No. 31. a mikroadatfájlokat public és research típusba sorolja. Ezek a védelem erősségét jelzik.

6 Az egyedi adat 1993. évi XLVI. Törvény a statisztikáról: „ … a természetes és a jogi személy, valamint a jogi személyiséggel nem rendelkező adatszolgáltatóval kapcsolatba hozható adatot (a továbbiakban: egyedi adat).” A definíció konkretizálásra szorul. Ehhez szükséges látnunk a tipikus adathalmazokat. A két alapvető típus: a) mikroadat (-bázis): emberekről, csoportokról, vállalatokról rekordtruktúrában, oszlopok: tulajdonságok (változók) b) táblázat: mikroadatbázisból táblázás útján előállt tégla (-lap,- test) (a táblázat adatvédelmekor általában szükség van a „mögötte álló” adatbázisra)

7 - Kulcs vagy kombináció (key) : érték k-as pl. (nő, 34, Kecskemét) egy 3 hosszú kulcs - találat (score): egy adott kulccsal rendelkező rekordok száma -azonosítás: ha egyetlen találat van, feltéve, hogy az adatbázis teljeskörű Tehát az azonosítás mindig egy konkrét érték k-ashoz tartozik azonosítás/azonosítás= valamely érték k-ashoz egyetlen találat a populációban

8 Probléma: a teljes vizsgálat kombinatorikailag kezelhetetlen, pl: Mit tegyünk? Nyilván szűkíteni kell. Mindenesetre a rövid kulcsok a veszélyesek a gyakorlatban. közvetlen azonosítók: egyetlen (esetleg két) változó azonosít egy egyedet a populációban. Pl. név, cím, TAJ, adóazonosító, bankszámlaszám. Ezeket azonnal ki kell venni az adatbázisból. u.i. kevés addícionális információval már akár egyedileg is azonosítható az adatszolgáltató. Tehát, ha egy kombináció gyakorisága nagyobb, mint egy bizonyos küszöb, akkor a kombináció SAFE, egyébként védeni kell őt. Az SDC már a ritka kombinációk megjelenését próbálja megakadályozni, 170/1993. (XII. 3.) Korm. rendelet, 19. §: Összesítve sem lehet nyilvánosságra hozni - az Stt. 18. §-ának (2) bekezdésében és a 16. §- ban foglaltak kivételével - olyan adatot, amelynél az adatszolgáltatók száma háromnál kevesebb Ez azonban problémás: egy elég hosszú kulcshoz 3-nál kevesebb találat lesz.

10 Az adatbázis bővítése nyereségbef. adó a) Új kombinációk új érzékeny adatokat képeznek b) Új rövid, egyedi kulcs: Én ismerem őt! („valósághoz linkelés”) (2007. évi CI. Törvény a döntéselőkészítéshez szükséges adatok hozzáférhetőségének biztosításáról ???) Tehát kellene tudni, milyen saját informáióval (adatbázzal) rendelkezik az adatkérő. De legalább tudni, milyen adatbázisok vannak forgalomban (regiszterek, marketing cégek, internet)

11 A szűkítés céljából modellezik a tipikus felfedési kulcsokat (szcenáriókat) Így néhány, az adatkérőhöz célszerűen választott hosszú kulcs árán csökkenteni lehet a maximális vizsgálati kulcs méretét. Azaz pl. elég az összes, legfeljebb 3, 4 hosszú kulcshoz keresni a ritka kombinációkat.

12 Az azonosítás kockázatát csökkentő SDC lépések •Bizonyos oszlopokat törlünk. •Aggregálás (vagy globális átkódolás): pl. összevonunk értékeket (korcsoport, bokszoló és birkózó helyett mindenhol küzdősportot űző, helység helyett kistérség stb.). Speciálisan az alsó és felső értékhatárok közelében (felső és alsó kódolás). A legnagyobb vállalatokat sok jellemzőjük közvetlenül azonosítja. Ez mindig nagymértékű információvesztés •Bizonyos cellákat „letakarunk” (cellaelnyomás, local suppression). Ez lokális akció: kisebb veszteség, mégsem szeretik. (A látszat…) Minimalizálni kell a veszteséget. •Kerülni a frissen szedett adatok kiadását. •Kerülni kell az enyhén shiftelt adatokat (pl. tavalyi ÉS ezévi is, panel!). A szűk metszet könnyen azonosít. •Egy felmérésről egyszer adni adatokat. (Ha többször, akkor hiába védettek külön, összekapcsolja.) •Szétültetni a családokat: ez a minimum, egyáltalán megkeverni a rekordokat

13 Az alábbi, perturbációs módszerek mind megváltoztatják a valódi értéket - ez előbbiekkel ellentétben. • Kerekítés (determinisztikus, random, „controlled” stb.) • Véletlen zaj hozzáadása Egy 0 várható értékű véletlen szám hozzáadása a változó értékéhez. • PRAM kategórikus változókra (Post Randomization Method) Sorsolással egy kategórikus változó i-edik értékét a j-edikre változtatja megadható P(i,j) valószínűséggel. Annak is van esélye, hogy nem változik: P(i,i). Pl. Szeged helyett Szekszárdot ír. • Helyezés-csere (Numerical Rank Swapping) Bármely ordinális változóra (a többitől függetlenül): a változó minden értékét adott valószínűséggel kicseréli a legközelebbi k (pl. 50) érték közül eggyel • Numerikus mikroaggregáció Az összes rekordot legalább k elemű csoportokba szeparálja úgy, hogy a csoport- homogenitások összege maximális legyen. Mindenfajta aggregáció alapkérdése a helyes csoportméret megállapítása. Az azonosítás kockázatát csökkentő SDC lépések

16 a) milyen adathalmazt b) kinek c) milyen célra adunk át. Még egyszer: a felfedés kockázata • A felfedő motivációi: - konkrétan keres valakit - csak úgy horgászik - bárki jó neki, csak a Hivatal hitelét rontsa azzal, hogy sikerült neki - véletlenül talál valakit • A „szakmai” (SDC) ismeretei • Felszereltsége (hardver, szoftver) • Saját információi, adatbázisai (linkelés céljára)

18 T=67=25+19+13+8+2 A védendő cella definíciója

24 Az azonosítás kockázatát csökkentő SDC lépések Mint a mikroadatoknál: - Aggregálás (glóbális átkódolás) - cellaelmyonás - perturbációs módszerek ( Kerekítés, vélet zaj hozzáadása, PRAM, értékcsere) Aggregálás (glóbális átkódolás)

25 Másodlagos cellaelnyomás (secondary suppression) Probléma: ha adatokat ÉS bizonyos aggregátumaikat is közöljük, akkor a letakart adatok (pl. vízfejűek) rekonstruálhatók. A baj, ha egyértelműen. (Egyetlen lehetséges értékkel állnak elő az aggregátumok.) Kérdés/1: melyek a letakartak közül ezek? Kérdés/1: mi legyen a többiekkel? Válasz: újabb elemek (kényszerű) letakarása úgy, hogy immár semelyik sem legyen egyértelmű (az újak se). Minimális számban (optimumfeladat)! PL. táblázatok (akár több D-sek) a sor- és osszlopösszesenjeikkel. Pl. hierarchikus táblák (lásd korábban): nagy bonyolultság

26 Ha 4-nél kevesebbet takarunk le, egyértelműen kiszámolhatóak. Ha mind a négyet? Másodlagos cellaelnyomás/1 végtelen sok megoldás

28 Másodlagos cellaelnyomás -Általában igaz, hogy a letakart cellák egyértelműsége nem függ a celllaértéktől, csak a cellák egymáshoz képesti elhelyezkedésétől. -Kiderült, hogy a védett cellahely-halmazok geometriailag karakterizálhatók (nem csak gráfokkal) – legalábbis 2D-ben: Pontosan azok a védett cellahely-halmazok, amelyek „lépcsők” uniói, vagy átfogalmazva: egy alakzat pontosan akkor védett, ha minden pontja egy halmazbeli lépcső csúcsa.

32 kézi megoldás Másodlagos cellaelnyomás

33 ügyesügyetlen vagy Másodlagos cellaelnyomás

34 Másodlagos cellaelnyomás

35 Az SDC munkaidőigényes tevékenység, az adatigény (a mennyiség és a részletezettség) nő. Az adatkiadásokat az adatvédelem szempontjából is kell dokumentálni, tekintettel a lehetséges összekapcsolásokra. (Pl. az végrehajtott SDC akciót is.) Az statisztikai adatvédelem optimalizálási probléma: maximális információátadás, az egyediség megakadályozásával & a rendelkezésre álló kapacitásokkal, mint mellékfeltételekkel

1 A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós.

Hasonló előadás

Az előadások a következő témára: "1 A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés

Bejelentkezés

A társadalmi hálózaton keresztül belépni:

1 A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós.

Hasonló előadás

Az előadások a következő témára: "1 A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós."— Előadás másolata:

Hasonló előadás

Projectumról

Visszajelzés