MTA Statisztikai és Jövőkutatási Tudományos Bizottsága

Slides:



Advertisements
Hasonló előadás
Szimmetriák szerepe a szilárdtestfizikában
Advertisements

Kauzális modellek Randall Munroe.
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
2.1Jelátalakítás - kódolás
Az úttervezési előírások változásai
Fizika II..
Számítógépes Hálózatok
Profitmaximalizálás  = TR – TC
A járműfenntartás valószínűségi alapjai
Szenzorok Bevezetés és alapfogalmak
Végeselemes modellezés matematikai alapjai
A magas baleseti kockázatú útszakaszok rangsorolása
Szerkezetek Dinamikája
MÉZHAMISÍTÁS.
Hőtan BMegeenatmh 5. Többfázisú rendszerek
BMEGEENATMH Hőátadás.
AUTOMATIKAI ÉPÍTŐELEMEK Széchenyi István Egyetem
Skandináv dizájn Hisnyay – Heinzelmann Luca FG58PY.
VÁLLALATI Pénzügyek 2 – MM
Hőtan BMEGEENATMH 4. Gázkörfolyamatok.
Szerkezetek Dinamikája
Összeállította: Polák József
A TUDOMÁNYOS KUTATÁS MÓDSZERTANA
Csáfordi, Zsolt – Kiss, Károly Miklós – Lengyel, Balázs
Tisztelt Hallgatók! Az alábbi példamegoldások segítségével felkészülhetnek a 15 pontos zárthelyi dolgozatra, ahol azt kell majd bizonyítaniuk, hogy a vállalati.
J. Caesar hatalomra jutása atl. 16d
Anyagforgalom a vizekben
Kováts András MTA TK KI Menedék Egyesület
Az eljárás megindítása; eljárási döntések az eljárás megindítása után
Melanóma Hakkel Tamás PPKE-ITK
Az új közbeszerzési szabályozás – jó és rossz gyakorlatok
Képzőművészet Zene Tánc
Penicillin származékok szabadgyökös reakciói
Boros Sándor, Batta Gyula
Bevezetés az alvás-és álomkutatásba
Kalandozások az álomkutatás területén
TANKERÜLETI (JÁRÁSI) SZAKÉRTŐI BIZOTTSÁG
Nemzetközi tapasztalatok kihűléssel kapcsolatban
Gajdácsi József Főigazgató-helyettes
Követelmények Szorgalmi időszakban:
Brachmann Krisztina Országos Epidemiológiai Központ
A nyelvtechnológia eszközei és nyersanyagai 2016/ félév
Járványügyi teendők meningococcus betegség esetén
Kezdetek októberében a könyvtár TÁMOP (3.2.4/08/01) pályázatának keretében vette kezdetét a Mentori szolgálat.
Poszt transzlációs módosulások
Vitaminok.
A sebész fő ellensége: a vérzés
Pharmanex ® Bone Formula
Data Mining Machine Learning a gyakorlatban - eszközök és technikák
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
Pontos, precíz és hatékony elméleti módszerek az anion-pi kölcsönhatási energiák számítására modell szerkezetekben előadó: Mezei Pál Dániel Ph. D. hallgató.
Bevezetés a pszichológiába
MOSZKVA ZENE: KALINKA –HELMUT LOTTI AUTOMATA.
Bőrimpedancia A bőr fajlagos ellenállásának és kapacitásának meghatározása Impedancia (Z): Ohmos ellenállást, frekvenciafüggő elemeket (kondenzátort, tekercset)
Poimenika SRTA –
Végeselemes modellezés matematikai alapjai
Összefoglalás.
Az energiarendszerek jellemzői, hatékonysága
Varga Júlia MTA KRTK KTI Szirák,
Konzerváló fogászat Dr. Szabó Balázs
Outlier detektálás nagyméretű adathalmazokon
További MapReduce szemelvények: gráfproblémák
Ráhagyások, Mérés, adatgyűjtés
Járműcsarnokok technológiai méretezése
Grafikai művészet Victor Vasarely Maurits Cornelis Escher.
VÁLLALATI PÉNZÜGYEK I. Dr. Tóth Tamás.
RÉSZEKRE BONTOTT SOKASÁG VIZSGÁLATA
Az anyagok fejlesztésével a méretek csökkennek [Feynman, 1959].
Bevezetés a színek elméletébe és a fényképezéssel kapcsolatos fogalmak
Minőségmenedzsment alapjai
Előadás másolata:

MTA Statisztikai és Jövőkutatási Tudományos Bizottsága A statisztikai adatvédelem, mint optimalizálási probléma: maximális információátadás az egyediség megakadályozásával („ritka kombinációk”) Faragó Miklós KSH, Népesedési és szociális védelmi statisztikai főosztály Miklos.Farago@ksh.hu 2002. Május 24. MTA Statisztikai és Jövőkutatási Tudományos Bizottsága MTA Statisztikai és Jövőkutatási Tudományos Bizottsága MTA Statisztikai és Jövőkutatási Tudományos Bizottsága MTA Statisztikai és Jövőkutatási Tudományos Bizottsága MTA Statisztikai és Jövőkutatási Tudományos Bizottsága MTA Statisztikai és Jövőkutatási Tudományos Bizottsága

Statisztikai felfedés elleni védelem (Statistical Diclosure Control, SDC) A legfontosabb fogalmak (azonosítás, mikroadatvédelem / táblázatos adatok védelme stb.) már harminc évvel ezelőtti dokumentumokban és publikációkban megjelentek. Eleinte az egyes európai országok statisztikai hivatalai külön-külön fejlesztették a módszertant, később egyetemek és kutatóintézetek is bekapcsolódtak, végül európai szintű projektekben egyesítették az erőiket. Néhány éve az Eurostat is magáévá tette és alkalmazza a módszertant. Az angol National Statistics Code of Practice nyolc alapelve közül az egyik az adatvédelemre vonatkozik, melynek első mondata a következő: 1. The National Statistician will set standards for protecting confidentiality, including a guarantee that no statistics will be produced that are likely to identify an individual unless specifically agreed with them. A témának nagy irodalma van, jelenleg a módszerek tökéletesítése és a gyakorlati igényekre való „ráhajlítása” folyik. Az alább röviden ismertetett fogalmak és módszerek szakmai evidenciák a tagállamok statisztikai hivatalaiban. 2004-ban az ONS-ben 100 fölötti létszám föglalkozott adatvédelemmel, ezen belül 20 fölött SDC technikákkal

Az Európai Statisztika Gyakorlati Kódexe előírja, hogy: „… a legmesszebbmenőkig biztosítani kell az adatszolgáltatók jogait, biztosítani kell az általuk szolgáltatott információk bizalmas kezelését és kizárólag statisztikai célokra történő felhasználását”. Célszerű lenne, ha a KSH-n belül az adatvédelem egységes elvek alapján történne. Ehhez minimálisan az szükséges, hogy a fogalmak és módszerek mindenki számára Egy kutató minél részletesebb adatokhoz próbál hozzájutni, a statisztikus pedig a lehető legrészletesebben szeretne adatot szolgáltatni. Az SDC módszerek alkalmazása mindig információvesztéssel jár, ami a statisztikai adatszolgáltató alaptevékenységével éppen ellentétes. Ezért egy adathalmaz adatvédelme minden esetben egy feltételes optimumfeladat felállítását jelenti: maximális részletezettségű adatok nyújtása, feltéve, hogy a megfigyelési egységek adatvédelme nem sérül. A statisztikai felfedés elleni védelem: módszerek olyan összessége, melyek csökkentik a megfigyelési egységekre (személyekre, vállalatokra, egyéb szervezetekre) vonatkozó információk felfedésének kockázatát. A kérdés az, hogy milyen mértékű csökkentés a megfelelő. Hogyan mérhető az elveszett információ mennyisége?

Felfedés (azonosítás), védelem: egy adathalmaz valamely megfigyelési egységének beazonosítása ÉS valamilyen érzékeny adat, azaz olyan információ hozzákapcsolása, amelyet ő nem szeretne. Az adatvédelem célja ezt megakadályozni. (De mi az azonosítás) Az SDC a fenti két esemény közül már az elsőt, az azonosítást kívánja megakadályozni. A közvélekedéssel ellentétben nincs akadálya érzékeny adatok közlésének, ha a mögötte álló egyén vagy vállalat stb. nem azonosítható. A „védelem” fogalmát ekvivalensnek tekintjük az „azonosíthatatlanság”-gal: a védett adathalmaz nem tartalmaz azonosítható statisztikai egységet (vagy legalábbis nagyon nehezen azonosíthatóakat tartalmaz.) Az érzékeny adat nem jogszabályban meghatározott fogalom, nem definiálható korrektül, mert mindenki másra érzékeny. Az érzékeny adatok egy részét, az ún. különleges adatokat nevesíti az adatvédelmi törvény (vallás, faji eredet, egészségi állapot stb.).

A felfedés kockázata, az „egyenkockázat” elve A kiadott adathalmaz védelmének erőssége függjön attól, hogy a) milyen adathalmazt b) kinek c) milyen célra adunk át. a) egy részletesebb adathalmaz nagyobb felfedési kockázattal bír, b) egy kutató részletesebb adatokat kaphat így, főképp, ha c) az outputja (a publikáció) eléggé aggregált, azaz kis felfedési kockázatú. Tehát a fenti három kockázat „összege” legyen azonos (minimális). Ez egyben az átadott információ mennyiségét maximalizálja: ha mindenki ugyanazt kapná, „túlvédetté” kellene tenni a fájlt. „safe projects, safe people, safe setting, safe outputs” Európában általánosan megkülönböztetik például pl. a kutatóknak és a nyilvánosságnak szánt adatokat. A Commission regulation (EC) No. 31. a mikroadatfájlokat public és research típusba sorolja. Ezek a védelem erősségét jelzik.

Az egyedi adat 1993. évi XLVI. Törvény a statisztikáról: „ … a természetes és a jogi személy, valamint a jogi személyiséggel nem rendelkező adatszolgáltatóval kapcsolatba hozható adatot (a továbbiakban: egyedi adat).” A definíció konkretizálásra szorul. Ehhez szükséges látnunk a tipikus adathalmazokat. A két alapvető típus: a) mikroadat (-bázis): emberekről, csoportokról, vállalatokról rekordtruktúrában, oszlopok: tulajdonságok (változók) b) táblázat: mikroadatbázisból táblázás útján előállt tégla (-lap,- test) (a táblázat adatvédelmekor általában szükség van a „mögötte álló” adatbázisra)

- Kulcs vagy kombináció (key) : érték k-as pl - Kulcs vagy kombináció (key) : érték k-as pl. (nő, 34, Kecskemét) egy 3 hosszú kulcs - találat (score): egy adott kulccsal rendelkező rekordok száma azonosítás: ha egyetlen találat van, feltéve, hogy az adatbázis teljeskörű Tehát az azonosítás mindig egy konkrét érték k-ashoz tartozik azonosítás/azonosítás= valamely érték k-ashoz egyetlen találat a populációban

Az SDC már a ritka kombinációk megjelenését próbálja megakadályozni, u.i. kevés addícionális információval már akár egyedileg is azonosítható az adatszolgáltató. Tehát, ha egy kombináció gyakorisága nagyobb, mint egy bizonyos küszöb, akkor a kombináció SAFE, egyébként védeni kell őt. 170/1993. (XII. 3.) Korm. rendelet, 19. §: Összesítve sem lehet nyilvánosságra hozni - az Stt. 18. §-ának (2) bekezdésében és a 16. §- ban foglaltak kivételével - olyan adatot, amelynél az adatszolgáltatók száma háromnál kevesebb Ez azonban problémás: egy elég hosszú kulcshoz 3-nál kevesebb találat lesz. Probléma: a teljes vizsgálat kombinatorikailag kezelhetetlen, pl: Mit tegyünk? Nyilván szűkíteni kell. Mindenesetre a rövid kulcsok a veszélyesek a gyakorlatban. közvetlen azonosítók: egyetlen (esetleg két) változó azonosít egy egyedet a populációban. Pl. név, cím, TAJ, adóazonosító, bankszámlaszám. Ezeket azonnal ki kell venni az adatbázisból.

Az adatbázis bővítése a) Új kombinációk új érzékeny adatokat képeznek nyereség bef. adó b) Új rövid, egyedi kulcs: Én ismerem őt! („valósághoz linkelés”) (2007. évi CI. Törvény a döntéselőkészítéshez szükséges adatok hozzáférhetőségének biztosításáról ???) Tehát kellene tudni, milyen saját informáióval (adatbázzal) rendelkezik az adatkérő. De legalább tudni, milyen adatbázisok vannak forgalomban (regiszterek, marketing cégek, internet)

A szűkítés céljából modellezik a tipikus felfedési kulcsokat (szcenáriókat) Így néhány, az adatkérőhöz célszerűen választott hosszú kulcs árán csökkenteni lehet a maximális vizsgálati kulcs méretét. Azaz pl. elég az összes, legfeljebb 3, 4 hosszú kulcshoz keresni a ritka kombinációkat.

Az azonosítás kockázatát csökkentő SDC lépések Bizonyos oszlopokat törlünk. Aggregálás (vagy globális átkódolás): pl. összevonunk értékeket (korcsoport, bokszoló és birkózó helyett mindenhol küzdősportot űző, helység helyett kistérség stb.). Speciálisan az alsó és felső értékhatárok közelében (felső és alsó kódolás). A legnagyobb vállalatokat sok jellemzőjük közvetlenül azonosítja. Ez mindig nagymértékű információvesztés Bizonyos cellákat „letakarunk” (cellaelnyomás, local suppression). Ez lokális akció: kisebb veszteség, mégsem szeretik. (A látszat…) Minimalizálni kell a veszteséget. Kerülni a frissen szedett adatok kiadását. Kerülni kell az enyhén shiftelt adatokat (pl. tavalyi ÉS ezévi is, panel!). A szűk metszet könnyen azonosít. Egy felmérésről egyszer adni adatokat. (Ha többször, akkor hiába védettek külön, összekapcsolja.) Szétültetni a családokat: ez a minimum, egyáltalán megkeverni a rekordokat

Az azonosítás kockázatát csökkentő SDC lépések Az alábbi, perturbációs módszerek mind megváltoztatják a valódi értéket - ez előbbiekkel ellentétben. Kerekítés (determinisztikus, random, „controlled” stb.) Véletlen zaj hozzáadása Egy 0 várható értékű véletlen szám hozzáadása a változó értékéhez. PRAM kategórikus változókra (Post Randomization Method) Sorsolással egy kategórikus változó i-edik értékét a j-edikre változtatja megadható P(i,j) valószínűséggel. Annak is van esélye, hogy nem változik: P(i,i). Pl. Szeged helyett Szekszárdot ír. Helyezés-csere (Numerical Rank Swapping) Bármely ordinális változóra (a többitől függetlenül): a változó minden értékét adott valószínűséggel kicseréli a legközelebbi k (pl. 50) érték közül eggyel Numerikus mikroaggregáció Az összes rekordot legalább k elemű csoportokba szeparálja úgy, hogy a csoport- homogenitások összege maximális legyen. Mindenfajta aggregáció alapkérdése a helyes csoportméret megállapítása.

Még egyszer: a felfedés kockázata a) milyen adathalmazt b) kinek c) milyen célra adunk át. A felfedő motivációi: - konkrétan keres valakit - csak úgy horgászik - bárki jó neki, csak a Hivatal hitelét rontsa azzal, hogy sikerült neki - véletlenül talál valakit A „szakmai” (SDC) ismeretei Felszereltsége (hardver, szoftver) Saját információi, adatbázisai (linkelés céljára)

A védendő cella definíciója T=67=25+19+13+8+2

Az azonosítás kockázatát csökkentő SDC lépések Mint a mikroadatoknál: - Aggregálás (glóbális átkódolás) - cellaelmyonás - perturbációs módszerek ( Kerekítés, vélet zaj hozzáadása, PRAM, értékcsere) Aggregálás (glóbális átkódolás)

Másodlagos cellaelnyomás (secondary suppression) Probléma: ha adatokat ÉS bizonyos aggregátumaikat is közöljük, akkor a letakart adatok (pl. vízfejűek) rekonstruálhatók. A baj, ha egyértelműen. (Egyetlen lehetséges értékkel állnak elő az aggregátumok.) Kérdés/1: melyek a letakartak közül ezek? Kérdés/1: mi legyen a többiekkel? Válasz: újabb elemek (kényszerű) letakarása úgy, hogy immár semelyik sem legyen egyértelmű (az újak se). Minimális számban (optimumfeladat)! PL. táblázatok (akár több D-sek) a sor- és osszlopösszesenjeikkel. Pl. hierarchikus táblák (lásd korábban): nagy bonyolultság

Másodlagos cellaelnyomás/1 Ha 4-nél kevesebbet takarunk le, egyértelműen kiszámolhatóak. Ha mind a négyet? végtelen sok megoldás

Másodlagos cellaelnyomás Általában igaz, hogy a letakart cellák egyértelműsége nem függ a celllaértéktől, csak a cellák egymáshoz képesti elhelyezkedésétől. Kiderült, hogy a védett cellahely-halmazok geometriailag karakterizálhatók (nem csak gráfokkal) – legalábbis 2D-ben: Pontosan azok a védett cellahely-halmazok, amelyek „lépcsők” uniói, vagy átfogalmazva: egy alakzat pontosan akkor védett, ha minden pontja egy halmazbeli lépcső csúcsa.

Másodlagos cellaelnyomás kézi megoldás

Másodlagos cellaelnyomás ügyes ügyetlen vagy

Másodlagos cellaelnyomás

Az statisztikai adatvédelem optimalizálási probléma: Az SDC munkaidőigényes tevékenység, az adatigény (a mennyiség és a részletezettség) nő. Az adatkiadásokat az adatvédelem szempontjából is kell dokumentálni, tekintettel a lehetséges összekapcsolásokra. (Pl. az végrehajtott SDC akciót is.) Az statisztikai adatvédelem optimalizálási probléma: maximális információátadás, az egyediség megakadályozásával & a rendelkezésre álló kapacitásokkal, mint mellékfeltételekkel