Hva er datamaskeringsteknologien og -løsningen i Network Packet Broker?

1. Konseptet med datamaskering

Datamaskering er også kjent som datamaskering. Det er en teknisk metode for å konvertere, modifisere eller dekke sensitive data som mobiltelefonnummer, bankkortnummer og annen informasjon når vi har gitt maskeringsregler og retningslinjer. Denne teknikken brukes først og fremst for å forhindre at sensitive data brukes direkte i upålitelige miljøer.

Datamaskeringsprinsipp: Datamaskering bør opprettholde de opprinnelige datakarakteristikkene, forretningsreglene og datarelevansen for å sikre at den påfølgende utviklingen, testingen og dataanalysen ikke blir påvirket av maskering. Sikre datakonsistens og gyldighet før og etter maskering.

2. Klassifisering av datamaskering

Datamaskering kan deles inn i statisk datamaskering (SDM) og dynamisk datamaskering (DDM).

Statisk datamaskering (SDM): Maskering av statiske data krever etablering av en ny database for ikke-produksjonsmiljøer for isolering fra produksjonsmiljøet. Sensitive data trekkes ut fra produksjonsdatabasen og lagres deretter i ikke-produksjonsdatabasen. På denne måten blir de desensibiliserte dataene isolert fra produksjonsmiljøet, noe som møter forretningsbehov og sikrer sikkerheten til produksjonsdata.

SDM

Dynamisk datamaskering (DDM): Det brukes vanligvis i produksjonsmiljøet for å desensibilisere sensitive data i sanntid. Noen ganger kreves det forskjellige maskeringsnivåer for å lese de samme sensitive dataene i forskjellige situasjoner. For eksempel kan forskjellige roller og tillatelser implementere forskjellige maskeringsskjemaer.

DDM

Datarapportering og maskeringsapplikasjon for dataprodukter

Slike scenarier inkluderer hovedsakelig interne dataovervåkingsprodukter eller reklametavler, eksterne tjenestedataprodukter og rapporter basert på dataanalyse, for eksempel forretningsrapporter og prosjektgjennomgang.

datarapportering av produktmaskering

3. Datamaskeringsløsning

Vanlige datamaskeringsskjemaer inkluderer: ugyldiggjøring, tilfeldig verdi, dataerstatning, symmetrisk kryptering, gjennomsnittsverdi, offset og avrunding, etc.

Ugyldiggjøring: Ugyldiggjøring refererer til kryptering, avkorting eller skjule av sensitive data. Denne ordningen erstatter vanligvis ekte data med spesielle symboler (som *). Operasjonen er enkel, men brukere kan ikke vite formatet til de originale dataene, noe som kan påvirke påfølgende dataapplikasjoner.

Tilfeldig verdi: Den tilfeldige verdien refererer til tilfeldig erstatning av sensitive data (tall erstatter sifre, bokstaver erstatter bokstaver og tegn erstatter tegn). Denne maskeringsmetoden vil sikre formatet til sensitive data til en viss grad og lette etterfølgende dataapplikasjon. Maskeringsordbøker kan være nødvendig for noen meningsfulle ord, for eksempel navn på personer og steder.

Dataerstatning: Dataerstatning ligner på maskering av null- og tilfeldige verdier, bortsett fra at i stedet for å bruke spesialtegn eller tilfeldige verdier, erstattes maskeringsdataene med en spesifikk verdi.

Symmetrisk kryptering: Symmetrisk kryptering er en spesiell reversibel maskeringsmetode. Den krypterer sensitive data gjennom krypteringsnøkler og algoritmer. Chiffertekstformatet er i samsvar med de originale dataene i logiske regler.

Gjennomsnittlig: Gjennomsnittsordningen brukes ofte i statistiske scenarier. For numeriske data beregner vi først gjennomsnittet, og fordeler deretter de desensibiliserte verdiene tilfeldig rundt gjennomsnittet, og holder dermed summen av dataene konstant.

Offset og avrunding: Denne metoden endrer de digitale dataene ved tilfeldig skift. Offset-avrundingen sikrer den omtrentlige autentisiteten til rekkevidden samtidig som sikkerheten til dataene opprettholdes, som er nærmere de reelle dataene enn de tidligere ordningene, og har stor betydning i scenarioet med big data-analyse.

ML-NPB-5660-数据脱敏

Den anbefalte modellen "ML-NPB-5660" for datamaskeringen

4. Vanlig brukte datamaskeringsteknikker

(1). Statistiske teknikker

Datasampling og dataaggregering

- Dataprøvetaking: Analysen og evalueringen av det originale datasettet ved å velge et representativt delsett av datasettet er en viktig metode for å forbedre effektiviteten til avidentifikasjonsteknikker.

- Dataaggregering: Som en samling av statistiske teknikker (som summering, telling, gjennomsnitt, maksimum og minimum) brukt på attributter i mikrodata, er resultatet representativt for alle poster i det originale datasettet.

(2). Kryptografi

Kryptografi er en vanlig metode for å desensibilisere eller forbedre effektiviteten av desensibilisering. Ulike typer krypteringsalgoritmer kan oppnå forskjellige desensibiliseringseffekter.

- Deterministisk kryptering: En ikke-tilfeldig symmetrisk kryptering. Den behandler vanligvis ID-data og kan dekryptere og gjenopprette chifferteksten til den opprinnelige IDen når det er nødvendig, men nøkkelen må beskyttes ordentlig.

- Irreversibel kryptering: Hash-funksjonen brukes til å behandle data, som vanligvis brukes til ID-data. Den kan ikke dekrypteres direkte, og tilordningsforholdet må lagres. I tillegg, på grunn av funksjonen til hash-funksjonen, kan datakollisjon forekomme.

- Homomorf kryptering: Den chiffertekst homomorfe algoritmen brukes. Dens karakteristikk er at resultatet av chiffertekstoperasjon er det samme som for rentekstoperasjon etter dekryptering. Derfor er det ofte brukt til å behandle numeriske felt, men det er ikke mye brukt av ytelsesgrunner.

(3). Systemteknologi

Undertrykkelsesteknologien sletter eller skjermer dataelementer som ikke oppfyller personvernet, men publiserer dem ikke.

- Maskering: det refererer til den vanligste desensibiliseringsmetoden for å maskere attributtverdien, for eksempel motstanderens nummer, ID-kortet er merket med en stjerne, eller adressen er avkortet.

- Lokal undertrykkelse: refererer til prosessen med å slette spesifikke attributtverdier (kolonner), fjerning av ikke-essensielle datafelt;

- Record undertrykkelse: refererer til prosessen med å slette spesifikke poster (rader), sletting av ikke-essensielle dataposter.

(4). Pseudonymteknologi

Pseudomanning er en avidentifikasjonsteknikk som bruker et pseudonym for å erstatte en direkte identifikator (eller annen sensitiv identifikator). Pseudonymteknikker skaper unike identifikatorer for hvert enkelt informasjonsobjekt, i stedet for direkte eller sensitive identifikatorer.

- Den kan generere tilfeldige verdier uavhengig for å samsvare med den opprinnelige IDen, lagre kartleggingstabellen og strengt kontrollere tilgangen til kartleggingstabellen.

- Du kan også bruke kryptering til å produsere pseudonymer, men må beholde dekrypteringsnøkkelen riktig;

Denne teknologien er mye brukt i tilfellet med et stort antall uavhengige databrukere, slik som OpenID i det åpne plattformscenariet, der forskjellige utviklere skaffer forskjellige Openider for samme bruker.

(5). Generaliseringsteknikker

Generaliseringsteknikk refererer til en avidentifikasjonsteknikk som reduserer granulariteten til utvalgte attributter i et datasett og gir en mer generell og abstrakt beskrivelse av dataene. Generaliseringsteknologi er enkel å implementere og kan beskytte ektheten til data på rekordnivå. Det brukes ofte i dataprodukter eller datarapporter.

– Avrunding: innebærer å velge en avrundingsbase for det valgte attributtet, for eksempel kriminaltekniske undersøkelser oppover eller nedover, og gir resultater 100, 500, 1K og 10K

- Topp- og bunnkodingsteknikker: Erstatt verdier over (eller under) terskelen med en terskel som representerer det øverste (eller nederste) nivået, og gir resultatet "over X" eller "under X"

(6). Randomiseringsteknikker

Som en slags avidentifikasjonsteknikk refererer randomiseringsteknologi til å modifisere verdien av et attributt gjennom randomisering, slik at verdien etter randomisering er forskjellig fra den opprinnelige reelle verdien. Denne prosessen reduserer muligheten for en angriper til å utlede en attributtverdi fra andre attributtverdier i samme datapost, men påvirker ektheten til de resulterende dataene, som er vanlig med produksjonstestdata.


Innleggstid: 27. september 2022