1. Konseptet med datamaskering
Datamaskering er også kjent som datamaskering. Det er en teknisk metode for å konvertere, endre eller dekke til sensitive data som mobiltelefonnummer, bankkortnummer og annen informasjon når vi har gitt maskeringsregler og -policyer. Denne teknikken brukes primært for å forhindre at sensitive data brukes direkte i upålitelige miljøer.
Prinsipp for datamaskering: Datamaskering bør opprettholde de opprinnelige dataegenskapene, forretningsreglene og datarelevansen for å sikre at påfølgende utvikling, testing og dataanalyse ikke påvirkes av maskering. Sørg for datakonsistens og gyldighet før og etter maskering.
2. Klassifisering av datamaskering
Datamaskering kan deles inn i statisk datamaskering (SDM) og dynamisk datamaskering (DDM).
Statisk datamaskering (SDM)Statisk datamaskering krever etablering av en ny database i et ikke-produksjonsmiljø for isolering fra produksjonsmiljøet. Sensitive data hentes fra produksjonsdatabasen og lagres deretter i ikke-produksjonsdatabasen. På denne måten isoleres de desensibiliserte dataene fra produksjonsmiljøet, noe som oppfyller forretningsbehov og sikrer sikkerheten til produksjonsdataene.
Dynamisk datamaskering (DDM)Det brukes vanligvis i produksjonsmiljøet for å desensibilisere sensitive data i sanntid. Noen ganger kreves det forskjellige maskeringsnivåer for å lese de samme sensitive dataene i forskjellige situasjoner. For eksempel kan forskjellige roller og tillatelser implementere forskjellige maskeringsordninger.
Applikasjon for datarapportering og maskering av dataprodukter
Slike scenarier inkluderer hovedsakelig interne dataovervåkingsprodukter eller reklametavler, eksterne tjenestedataprodukter og rapporter basert på dataanalyse, for eksempel forretningsrapporter og prosjektgjennomgang.
3. Datamaskeringsløsning
Vanlige datamaskeringsordninger inkluderer: ugyldiggjøring, tilfeldig verdi, dataerstatning, symmetrisk kryptering, gjennomsnittsverdi, forskyvning og avrunding, etc.
UgyldiggjøringUgyldiggjøring refererer til kryptering, avkorting eller skjuling av sensitive data. Denne ordningen erstatter vanligvis reelle data med spesialsymboler (som *). Operasjonen er enkel, men brukerne kan ikke vite formatet til de opprinnelige dataene, noe som kan påvirke senere dataapplikasjoner.
Tilfeldig verdiDen tilfeldige verdien refererer til tilfeldig erstatning av sensitive data (tall erstatter sifre, bokstaver erstatter bokstaver og tegn erstatter tegn). Denne maskeringsmetoden vil sikre formatet til sensitive data til en viss grad og legge til rette for senere dataanvendelse. Maskeringsordbøker kan være nødvendig for noen meningsfulle ord, for eksempel navn på personer og steder.
DatautskiftingDataerstatning ligner på maskering av null- og tilfeldige verdier, bortsett fra at maskeringsdataene erstattes med en bestemt verdi i stedet for å bruke spesialtegn eller tilfeldige verdier.
Symmetrisk krypteringSymmetrisk kryptering er en spesiell reversibel maskeringsmetode. Den krypterer sensitive data gjennom krypteringsnøkler og algoritmer. Krypteringstekstformatet er konsistent med de opprinnelige dataene i logiske regler.
GjennomsnittligGjennomsnittsskjemaet brukes ofte i statistiske scenarier. For numeriske data beregner vi først gjennomsnittet deres, og fordeler deretter de desensibiliserte verdiene tilfeldig rundt gjennomsnittet, slik at summen av dataene holdes konstant.
Forskyvning og avrundingDenne metoden endrer de digitale dataene ved tilfeldig forskyvning. Offset-rundingen sikrer den omtrentlige autentisiteten til området samtidig som datasikkerheten opprettholdes, som er nærmere de reelle dataene enn de tidligere ordningene, og har stor betydning i scenarioet med stordataanalyse.
Anbefalt modellML-NPB-5660"for datamaskeringen
4. Vanlig brukte datamaskeringsteknikker
(1). Statistiske teknikker
Datautvalg og dataaggregering
- Datautvalg: Analyse og evaluering av det opprinnelige datasettet ved å velge et representativt delsett av datasettet er en viktig metode for å forbedre effektiviteten av avidentifikasjonsteknikker.
- Dataaggregering: Som en samling av statistiske teknikker (som summering, telling, gjennomsnittsberegning, maksimum og minimum) brukt på attributter i mikrodata, er resultatet representativt for alle poster i det opprinnelige datasettet.
(2). Kryptografi
Kryptografi er en vanlig metode for å desensibilisere eller forbedre effektiviteten av desensibilisering. Ulike typer krypteringsalgoritmer kan oppnå forskjellige desensibiliseringseffekter.
- Deterministisk kryptering: En ikke-tilfeldig symmetrisk kryptering. Den behandler vanligvis ID-data og kan dekryptere og gjenopprette krypteringsteksten til den opprinnelige ID-en når det er nødvendig, men nøkkelen må beskyttes på riktig måte.
- Irreversibel kryptering: Hash-funksjonen brukes til å behandle data, som vanligvis brukes for ID-data. Den kan ikke dekrypteres direkte, og mappingsforholdet må lagres. I tillegg kan det oppstå datakollisjoner på grunn av hash-funksjonens funksjon.
- Homomorf kryptering: Den homomorfe krypteringsalgoritmen for chiffertekst brukes. Dens karakteristiske er at resultatet av chiffertekstoperasjonen er det samme som for klartekstoperasjonen etter dekryptering. Derfor brukes den ofte til å behandle numeriske felt, men den er ikke mye brukt av ytelseshensyn.
(3). Systemteknologi
Teknologien for undertrykkelse sletter eller skjermer dataelementer som ikke oppfyller personvernreglene, men publiserer dem ikke.
- Maskering: dette refererer til den vanligste desensitiviseringsmetoden for å maskere attributtverdier, for eksempel motstanderens nummer, ID-kort merket med en stjerne eller adressen avkortet.
- Lokal undertrykkelse: refererer til prosessen med å slette spesifikke attributtverdier (kolonner), fjerne unødvendige datafelt;
- Undertrykkelse av poster: refererer til prosessen med å slette spesifikke poster (rader), slette unødvendige dataposter.
(4). Pseudonymteknologi
Pseudomanning er en avidentifikasjonsteknikk som bruker et pseudonym for å erstatte en direkte identifikator (eller annen sensitiv identifikator). Pseudonymteknikker lager unike identifikatorer for hver enkelt informasjonssubjekt, i stedet for direkte eller sensitive identifikatorer.
- Den kan generere tilfeldige verdier uavhengig for å samsvare med den opprinnelige ID-en, lagre kartleggingstabellen og strengt kontrollere tilgangen til kartleggingstabellen.
– Du kan også bruke kryptering til å lage pseudonymer, men du må oppbevare dekrypteringsnøkkelen på riktig måte;
Denne teknologien er mye brukt i tilfeller med et stort antall uavhengige databrukere, for eksempel OpenID i åpen plattform-scenario, der forskjellige utviklere skaffer seg forskjellige OpenID-er for samme bruker.
(5). Generaliseringsteknikker
Generaliseringsteknikk refererer til en avidentifikasjonsteknikk som reduserer granulariteten til utvalgte attributter i et datasett og gir en mer generell og abstrakt beskrivelse av dataene. Generaliseringsteknologi er enkel å implementere og kan beskytte autentisiteten til data på postnivå. Den brukes ofte i dataprodukter eller datarapporter.
- Avrunding: innebærer å velge en avrundingsbase for det valgte attributtet, for eksempel oppover- eller nedoverrettet rettsmedisin, noe som gir resultater på 100, 500, 1K og 10K
- Kodeteknikker for topp og bunn: Erstatt verdier over (eller under) terskelen med en terskel som representerer topp- (eller bunn-) nivået, noe som gir resultatet «over X» eller «under X»
(6). Randomiseringsteknikker
Som en slags avidentifikasjonsteknikk refererer randomiseringsteknologi til å endre verdien til et attributt gjennom randomisering, slik at verdien etter randomisering er forskjellig fra den opprinnelige reelle verdien. Denne prosessen reduserer en angripers mulighet til å utlede en attributtverdi fra andre attributtverdier i samme datapost, men påvirker autentisiteten til de resulterende dataene, noe som er vanlig med produksjonstestdata.
Publisert: 27. september 2022