Om syntetiske data

Syntetiske data er ikke det samme som maskerte, pseudonymiserte, avidentifiserte eller anonymiserte data. Forskjellen ligger i om dataene fortsatt har en kobling til virkelige personer eller hendelser.

Det finnes flere måter å behandle data på, og disse varierer i hvor stor risiko de innebærer, hvilke begrensninger de gir, og hvor mye nytteverdi som bevares.

Maskerte data

Personopplysninger skjules delvis for å gjøre identifisering vanskeligere.
Eksempel: De siste fem sifrene i et fødselsnummer skjules.
Risiko: Ofte lett å re-identifisere med tilgang til tilleggsinformasjon.

Pseudonymiserte data

Direkte personopplysninger erstattes med kunstige eller fiktive verdier.
Eksempel: Et reelt fødselsnummer byttes ut med et annet nummer.
Risiko: Kan re-identifiseres ved hjelp av nøkkel, tabell eller metode brukt ved pseudonymiseringen – eller gjennom annen tilgjengelig personinformasjon.

Avidentifiserte data

Navn, personidentifikatorer (PID) og andre direkte identifiserende opplysninger fjernes.
Risiko: Kan fortsatt re-identifiseres ved bruk av tilleggsinformasjon eller sammenstilling av data.

Anonymiserte data

All personidentifiserende informasjon er fjernet, og dataene er ytterligere bearbeidet for å hindre indirekte identifisering.
Begrensning: Full anonymisering er vanskelig å garantere, og tiltakene kan redusere dataens nytteverdi betydelig. Det er stor sannsynlighet for at dataene ikke er brukbare fordi de mangler for mye informasjon.

Syntetiske data

Data som er kunstig generert, og som ikke stammer fra virkelige personer eller faktiske hendelser.
De etterligner struktur, sammenhenger og statistiske egenskaper i ekte data – uten å inneholde originaldataene.
Disse kan ikke re-identifiseres, fordi det ikke finnes noen virkelige personer å identifisere.

Tre sentrale hensyn ved bruk av data

Når vi vurderer ulike typer data, må vi balansere tre hensyn:

Sikkerhet
– Kan dataene re-identifiseres og avsløre ekte personopplysninger?

Tilgjengelighet
– Krever dataene særskilt tilgang, autorisasjon eller helsepersonellstatus?

Nytteverdi
– Ligner dataene ekte produksjonsdata i struktur, sammenhenger og statistisk fordeling?

Hvorfor hel-syntetiske data?

Vi mener at hel-syntetiske data er den løsningen som best ivaretar alle tre hensynene:

Sikker: Inneholder ingen ekte persondata
Tilgjengelig: Kan deles og brukes bredt uten å bryte personvernregelverk
Nyttig: Har statistiske egenskaper som tilsvarer produksjonsdata og kan brukes til utvikling, testing og kvalitetssikring

Hvorfor bruke syntetiske data?

Fordi det gir mest verdi med færrest utfordringer.

Syntetiske data gjør det mulig å:

utvikle og teste løsninger med data som ligner ekte data
unngå behov for særskilt tilgang eller helsepersonellautorisasjon
produsere store datamengder raskt og konsistent
redusere risiko knyttet til personvern og informasjonssikkerhet

Syntetiske data muliggjør dermed effektiv utvikling og kvalitetssikring – uten kompromisser på personvern.