1. Konseptet med datamasking
Data maskering er også kjent som datamasking. Det er en teknisk metode å konvertere, endre eller dekke sensitive data som mobiltelefonnummer, bankkortnummer og annen informasjon når vi har gitt maskeregler og retningslinjer. Denne teknikken brukes først og fremst for å forhindre at sensitive data blir brukt direkte i upålitelige miljøer.
Datamaskeringsprinsipp: Data maskering skal opprettholde de opprinnelige dataregenskapene, forretningsreglene og datarelevansen for å sikre at den påfølgende utvikling, testing og dataanalyse ikke vil bli påvirket av maskering. Sørg for datakonsistens og gyldighet før og etter maskering.
2. Data maskeringsklassifisering
Data maskering kan deles inn i statisk datamasking (SDM) og dynamisk data maskering (DDM).
Statisk datamasking (SDM): Statisk datamasking krever etablering av en ny ikke-produksjonsmiljødatabase for isolasjon fra produksjonsmiljøet. Sensitive data blir trukket ut fra produksjonsdatabasen og lagres deretter i ikke-produksjonsdatabasen. På denne måten er de desensibiliserte dataene isolert fra produksjonsmiljøet, som oppfyller forretningsbehov og sikrer sikkerheten til produksjonsdata.
Dynamic Data Masking (DDM): Det brukes vanligvis i produksjonsmiljøet for å desensibilisere sensitive data i sanntid. Noen ganger kreves forskjellige nivåer av maskering for å lese de samme sensitive dataene i forskjellige situasjoner. For eksempel kan forskjellige roller og tillatelser implementere forskjellige maskeringsordninger.
Datarapportering og dataprodukter som maskerer applikasjonen
Slike scenarier inkluderer hovedsakelig interne dataovervåkningsprodukter eller Billboard, eksterne tjenestedataprodukter og rapporter basert på dataanalyse, for eksempel forretningsrapporter og prosjektgjennomgang.
3. Data maskeringsløsning
Vanlige datamaskeringsordninger inkluderer: ugyldighet, tilfeldig verdi, erstatning av data, symmetrisk kryptering, gjennomsnittsverdi, forskyvning og avrunding, etc.
Ugyldighet: Invalidering refererer til kryptering, avkortning eller skjul av sensitive data. Denne ordningen erstatter vanligvis reelle data med spesielle symboler (for eksempel *). Operasjonen er enkel, men brukere kan ikke vite formatet til de opprinnelige dataene, som kan påvirke påfølgende dataapplikasjoner.
Tilfeldig verdi: Den tilfeldige verdien refererer til tilfeldig erstatning av sensitive data (tall erstatter sifre, bokstaver erstatter bokstaver og tegn erstatter tegn). Denne maskeringsmetoden vil sikre formatet på sensitive data til en viss grad og lette etterfølgende dataapplikasjon. Maskering av ordbøker kan være nødvendig for noen meningsfulle ord, for eksempel navn på mennesker og steder.
Databytte: Databytte er lik maskeringen av null og tilfeldige verdier, bortsett fra at i stedet for å bruke spesialtegn eller tilfeldige verdier, erstattes maskeringsdataene med en spesifikk verdi.
Symmetrisk kryptering: Symmetrisk kryptering er en spesiell reversibel maskeringsmetode. Det krypterer sensitive data gjennom krypteringsnøkler og algoritmer. Ciphertext -formatet stemmer overens med de opprinnelige dataene i logiske regler.
Gjennomsnittlig: Gjennomsnittlig ordning brukes ofte i statistiske scenarier. For numeriske data beregner vi først deres gjennomsnitt, og distribuerer deretter tilfeldig de desensibiliserte verdiene rundt gjennomsnittet, og holder dermed summen av dataene konstant.
Offset og avrunding: Denne metoden endrer digitale data ved tilfeldig skift. Offset -avrundingen sikrer omtrentlig ektheten av området mens du opprettholder sikkerheten til dataene, som er nærmere de virkelige dataene enn de tidligere ordningene, og har stor betydning i scenariet med Big Data -analyse.
Anbefalemodellen "ML-NPB-5660"For datamaskering
4. Vanlig brukte datamaskingsteknikker
(1). Statistiske teknikker
Dataprøvetaking og dataaggregering
- Dataprøvetaking: Analyse og evaluering av det opprinnelige datasettet ved å velge et representativt undergruppe av datasettet er en viktig metode for å forbedre effektiviteten av de-identifiseringsteknikker.
- Dataaggregering: Som en samling av statistiske teknikker (for eksempel summering, telling, gjennomsnitt, maksimum og minimum) anvendt på attributter i mikrodata, er resultatet representativt for alle poster i det originale datasettet.
(2). Kryptografi
Kryptografi er en vanlig metode for å desensibilisere eller forbedre effektiviteten av desensibilisering. Ulike typer krypteringsalgoritmer kan oppnå forskjellige desensibiliseringseffekter.
- Deterministisk kryptering: En symmetrisk kryptering som ikke er tilfeldig. Den behandler vanligvis ID -data og kan dekryptere og gjenopprette chifferteksten til den opprinnelige IDen når det er nødvendig, men nøkkelen må beskyttes riktig.
- Irreversibel kryptering: Hash -funksjonen brukes til å behandle data, som vanligvis brukes til ID -data. Det kan ikke direkte dekrypteres og kartleggingsforholdet må lagres. I tillegg, på grunn av funksjonen i hasjfunksjonen, kan det oppstå datakollisjon.
- Homomorfkryptering: Ciphertext Homomorfic algoritme brukes. Karakteristikken er at resultatet av chiffertekstoperasjon er det samme som for klartekstoperasjon etter dekryptering. Derfor brukes det ofte til å behandle numeriske felt, men det er ikke mye brukt av ytelsesgrunner.
(3). Systemteknologi
Undertrykkelsesteknologien sletter eller beskytter dataelementer som ikke oppfyller personvernbeskyttelse, men som ikke publiserer dem.
- Maskering: Det refererer til den vanligste desensibiliseringsmetoden for å maskere attributtverdien, for eksempel motstandernummeret, ID -kortet er merket med en stjerne, eller adressen er avkortet.
- Lokal undertrykkelse: refererer til prosessen med å slette spesifikke attributtverdier (kolonner), fjerne ikke-essensielle datafelt;
- Registreringsundertrykkelse: refererer til prosessen med å slette spesifikke poster (rader), slette ikke-essensielle dataregistreringer.
(4). Pseudonym teknologi
Pseudomanning er en avidentifiseringsteknikk som bruker et pseudonym for å erstatte en direkte identifikator (eller annen sensitiv identifikator). Pseudonyme teknikker skaper unike identifikatorer for hvert enkelt informasjonsemne, i stedet for direkte eller sensitive identifikatorer.
- Det kan generere tilfeldige verdier uavhengig for å samsvare med den opprinnelige IDen, lagre kartleggingstabellen og strengt kontrollere tilgangen til kartleggingstabellen.
- Du kan også bruke kryptering for å produsere pseudonymer, men trenger å holde dekrypteringsnøkkelen ordentlig;
Denne teknologien er mye brukt i tilfelle av et stort antall uavhengige databrukere, for eksempel OpenID i Open Platform -scenariet, der forskjellige utviklere får forskjellige OpenID -er for samme bruker.
(5). Generaliseringsteknikker
Generaliseringsteknikk refererer til en de-identifiseringsteknikk som reduserer granulariteten til utvalgte attributter i et datasett og gir en mer generell og abstrakt beskrivelse av dataene. Generaliseringsteknologi er enkel å implementere og kan beskytte ektheten av data på postnivå. Det brukes ofte i dataprodukter eller datarapporter.
- Avrunding: Innebærer å velge en avrundingsbase for den valgte attributtet, for eksempel oppover eller nedover rettsmedisinske, og gir resultater 100, 500, 1K og 10K
- Topp- og bunnkodingsteknikker: Bytt ut verdier over (eller under) terskelen med en terskel som representerer det øverste (eller bunnen) nivået, og gir et resultat av "over x" eller "under x"
(6). Randomiseringsteknikker
Som en slags avidentifiseringsteknikk refererer randomiseringsteknologi til å endre verdien av en attributt gjennom randomisering, slik at verdien etter randomisering er forskjellig fra den opprinnelige virkelige verdien. Denne prosessen reduserer en angripers evne til å utlede en attributtverdi fra andre attributtverdier i samme dataregistrering, men påvirker ektheten til de resulterende dataene, som er vanlig med produksjonstestdata.
Post Time: SEP-27-2022