Om syntetiske data

Syntetiske data er ikke data som er maskert, pseudonymisert, avidentifisert, eller anonymisert.

Maskert - Nok persondata er skjult for å gjøre det vanskelig å identifisere. For eksempel, skjul de siste 5 sifrene i fødselsnummeret. Kan være lett å re-identifisere.
Pseudonymisert - Personlig data erstattet med falske data. For eksempel et reelt fødselsnummer blir erstattet med et fiktivt fødselsnummer. Kan re-identifisere med table eller metode det ble pseudonymisert med. Kan også re-identifisere med annen personlig informasjon.
Avidentifisert - Navn, personidentifikator (PID), og annen personlig informasjon fjernes. Kan re-identifisere med tilleggsinformasjon.
Anonymisert - All personlig informasjon er fjernet, og i tillegg er annen informasjon som kunne brukes å identifisere folk fjernet. Kan være vanskelig å hel-anonymisere, og nyttig informasjon kan fjernes også.
Syntetiske - Data som er kunstig generert, i stedet for å bli hentet direkte fra virkelige hendelser. De etterligner strukturen og egenskapene til ekte data, men uten originale dataene. Kan ikke re-identifisere fordi det er ikke noen å re-identifisere til. Inneholder alle nyttig informasjon.

Tre Hensyn

Når vi tenker på data, har vi tre forskjellige hensyn å ta stilling til:

Sikker - Er det mulig å re-identifisere og få ut ekte persondata?
Tilgjengelig - Er det noe vanlig folk har tilgang til eller kreves spesiell tillatelse/tilgang?
Nyttig - Ligner produktet ekte data? Har det samme statistisk distribusjon?

Vi mener at hel-syntetiske data er den løsningen som oppfyller alle tre hensyn på en tilfredsstillende måte. Hel-syntetiske data er sikker fordi det inneholder ikke ekte persondata. Det kan, av samme grunn, gjøres tilgjengelig til alle uten å bryte med godt personvern. Fordi det ligner statistikk distribusjon til produksjonsdata, kan det være nyttig for brukere.

Hvorfor bruke syntetiske data?

Fordi det gir mest verdi med minst utfordringer. Syntetiske data kan brukes å utvikle produkter eller kvalitetssikre systemer med data som tilsvarer ekte data, uten å ha spesiell tilgang eller helsepersonell status. Det er også forenklende for å produsere en stor mengde data på en gang.