Toda kako anonimni so ti podatki in ali je s to metodo res mogoče zaobiti zaščitne ukrepe Splošne uredbe o varstvu podatkov (GDPR)1 Kaj o tem pravi slovenska zakonodaja?
V tem zapisu bomo razmislili o pravnih vidikih sintetičnih podatkov in o tem, ali so resnično prikrit blagoslov za prihodnost izmenjave podatkov, in kar je še pomembneje, našo zasebnost.
Sintetični podatki so umetno ustvarjeni podatki, ki vsebujejo številne korelacije in vpoglede v izvirni nabor podatkov, ne da bi neposredno podvajali kateregakoli od posameznih vnosov. Tako posamezniki, na katere se osebni podatki nanašajo, ne bi smeli biti več določljivi v novem naboru podatkov.
Ohranjanje statističnih lastnosti pomeni, da bi moral biti vsak, ki analizira sintetične podatke, na primer analitik podatkov, sposoben izpeljati enake statistične sklepe iz analize danega nabora sintetičnih podatkov, kot bi jih imel, če bi dobil dejanske (izvirne) podatke.
Postopek se imenuje sinteza. Z uporabo metod umetne inteligence, kot so globoko učenje (deep learning) in generativni modeli, se sintetični podatki generirajo s posnemanjem vzorcev, po katerih so nastali originalni podatki, vendar ne da bi jih kopirali ali kakorkoli povezovali z originalnimi podatki.
"Recimo, da imamo nabor podatkov, ki vsebuje slike konjev. Morda bomo želeli zgraditi model, ki lahko ustvari novo podobo konja, ki nikoli ni obstajal, a je še vedno videti resničen, ker se je model naučil splošnih pravil, ki urejajo videz konja. Najprej potrebujemo nabor podatkov, sestavljen iz številnih primerov entitete, ki jo poskušamo ustvariti. To so podatki za usposabljanje, ena taka podatkovna točka pa se imenuje opazovanje. Naš cilj je zgraditi model, ki lahko generira nove sklope funkcij, ki izgledajo, kot da so bile ustvarjene z uporabo istih pravil kot izvirni podatki."2
Sintetični podatki po vseh svojih tehničnih lastnostih predstavljajo podatke, ki naj bi bili nesporni z vidika varstva zasebnosti. Ta predpostavka je osnova za povezovanje sintetičnega načina generiranja podatkov s splošno zakonodajo o varstvu podatkov v EU in Republiki Sloveniji - moramo pa se vprašati, kaj natančno določa zakonodajo in kako poskrbimo, da ta povezava z izvirnimi podatki res ni omogočena.
Glede na tehnološki napredek in nenehno razvijajoča se orodja za anonimizacijo podatkov ni posebnih predpisov, ki bi nam povedali, ali prav sintetični podatki ustrezajo tem zahtevam, vendar moramo tako kot pri vsaki drugi obliki anonimizacije sklep izpeljati iz pomena in namena teh in drugih povezanih predpisov.
Podlaga za sintetične podatke, kot tudi za vse druge vrste anonimiziranih podatkov, je v uvodni izjavi GDPR,3 ki med drugim pravi, da načela varstva podatkov ne veljajo za osebne podatke, ki so bili predelani v anonimne podatke tako, da subjekt ni več prepoznaven:
"Načel varstva podatkov zato ne bi smeli uporabljati za anonimizirane informacije, in sicer informacije, ki niso povezane z določenim ali določljivim posameznikom, ali osebne podatke, ki so bili anonimizirani na tak način, da posameznik, na katerega se nanašajo osebni podatki, ni ali ni več določljiv. Ta uredba torej ne zadeva obdelave takšnih anonimiziranih informacij, vključno z informacijami v statistične ali raziskovalne namene."4
GDPR ne vsebuje natančne definicije anonimiziranih podatkov, vendar se da iz prejšnjega opisa razbrati, da je treba za anonimizacijo kakršnihkoli podatkov iz podatkov odstraniti ustrezne elemente, tako da posameznika, na katerega se nanašajo osebni podatki, ni več mogoče identificirati. Natančneje, podatki morajo biti obdelani tako, da jih ni več mogoče uporabiti za identifikacijo fizične osebe z uporabo "vseh sredstev, ki bi jih lahko razumno uporabila" bodisi upravljavec podatkov bodisi tretja oseba. Pomemben dejavnik je tudi, da mora biti obdelava nepovratna ...
Nadaljevanje članka za naročnike >> Dženeta Schitton: Sintetični podatki - izjema v predpisih o varstvu osebnih podatkov
>> ali na portalu Pravna praksa, št. 19, 2022
>> Še niste naročnik? Preverite uporabniške pakete!
----------------------------------
Opombe: