Om syntetiske data
Syntetiske data er ikke data som er maskert, pseudonymisert, avidentifisert, eller anonymisert.
- Maskert - Nok persondata er skjult for å gjøre det vanskelig å identifisere. For eksempel, skjul de siste 5 sifrene i fødselsnummeret. Kan være lett å re-identifisere.
- Pseudonymisert - Personlig data erstattet med falske data. For eksempel et reelt fødselsnummer blir erstattet med et fiktivt fødselsnummer. Kan re-identifisere med table eller metode det ble pseudonymisert med. Kan også re-identifisere med annen personlig informasjon.
- Avidentifisert - Navn, personidentifikator (PID), og annen personlig informasjon fjernes. Kan re-identifisere med tilleggsinformasjon.
- Anonymisert - All personlig informasjon er fjernet, og i tillegg er annen informasjon som kunne brukes å identifisere folk fjernet. Kan være vanskelig å hel-anonymisere, og nyttig informasjon kan fjernes også.
- Syntetiske - Data som er kunstig generert, i stedet for å bli hentet direkte fra virkelige hendelser. De etterligner strukturen og egenskapene til ekte data, men uten originale dataene. Kan ikke re-identifisere fordi det er ikke noen å re-identifisere til. Inneholder alle nyttig informasjon.
Tre Hensyn
Når vi tenker på data, har vi tre forskjellige hensyn å ta stilling til:
- Sikker - Er det mulig å re-identifisere og få ut ekte persondata?
- Tilgjengelig - Er det noe vanlig folk har tilgang til eller kreves spesiell tillatelse/tilgang?
- Nyttig - Ligner produktet ekte data? Har det samme statistisk distribusjon?
Vi mener at hel-syntetiske data er den løsningen som oppfyller alle tre hensyn på en tilfredsstillende måte. Hel-syntetiske data er sikker fordi det inneholder ikke ekte persondata. Det kan, av samme grunn, gjøres tilgjengelig til alle uten å bryte med godt personvern. Fordi det ligner statistikk distribusjon til produksjonsdata, kan det være nyttig for brukere.