Sintetični podatki - izjema v predpisih o varstvu osebnih podatkov

08.06.2022 11:00 V zadnjih letih so t. i. masovni podatki (veliko podatkovje, big data) korenito spremenili naš način življenja, poslovanja in (znanstvenih) raziskav. To se odraža v občutnem povečanju povpraševanja po velikih količinah (osebnih) podatkov. Stroga zakonodaja o zasebnosti pa je delno omejila ta razvoj in se na splošno šteje za največjo oviro pri prosti izmenjavi podatkov, posebej v EU. S kreiranjem sintetičnih podatkov želijo tehnološka podjetja ponuditi rešitev tega problema z uporabo umetne inteligence za ustvarjanje novih podatkovnih nizov, ki posnemajo statistične korelacije podatkov iz resničnega sveta.

Toda kako anonimni so ti podatki in ali je s to metodo res mogoče zaobiti zaščitne ukrepe Splošne uredbe o varstvu podatkov (GDPR)1 Kaj o tem pravi slovenska zakonodaja?

V tem zapisu bomo razmislili o pravnih vidikih sintetičnih podatkov in o tem, ali so resnično prikrit blagoslov za prihodnost izmenjave podatkov, in kar je še pomembneje, našo zasebnost.

Kaj so sintetični podatki?

Sintetični podatki so umetno ustvarjeni podatki, ki vsebujejo številne korelacije in vpoglede v izvirni nabor podatkov, ne da bi neposredno podvajali kateregakoli od posameznih vnosov. Tako posamezniki, na katere se osebni podatki nanašajo, ne bi smeli biti več določljivi v novem naboru podatkov.

Ohranjanje statističnih lastnosti pomeni, da bi moral biti vsak, ki analizira sintetične podatke, na primer analitik podatkov, sposoben izpeljati enake statistične sklepe iz analize danega nabora sintetičnih podatkov, kot bi jih imel, če bi dobil dejanske (izvirne) podatke.

Postopek se imenuje sinteza. Z uporabo metod umetne inteligence, kot so globoko učenje (deep learning) in generativni modeli, se sintetični podatki generirajo s posnemanjem vzorcev, po katerih so nastali originalni podatki, vendar ne da bi jih kopirali ali kakorkoli povezovali z originalnimi podatki.

"Recimo, da imamo nabor podatkov, ki vsebuje slike konjev. Morda bomo želeli zgraditi model, ki lahko ustvari novo podobo konja, ki nikoli ni obstajal, a je še vedno videti resničen, ker se je model naučil splošnih pravil, ki urejajo videz konja. Najprej potrebujemo nabor podatkov, sestavljen iz številnih primerov entitete, ki jo poskušamo ustvariti. To so podatki za usposabljanje, ena taka podatkovna točka pa se imenuje opazovanje. Naš cilj je zgraditi model, ki lahko generira nove sklope funkcij, ki izgledajo, kot da so bile ustvarjene z uporabo istih pravil kot izvirni podatki."2

Sintetični podatki po vseh svojih tehničnih lastnostih predstavljajo podatke, ki naj bi bili nesporni z vidika varstva zasebnosti. Ta predpostavka je osnova za povezovanje sintetičnega načina generiranja podatkov s splošno zakonodajo o varstvu podatkov v EU in Republiki Sloveniji - moramo pa se vprašati, kaj natančno določa zakonodajo in kako poskrbimo, da ta povezava z izvirnimi podatki res ni omogočena.

Glede na tehnološki napredek in nenehno razvijajoča se orodja za anonimizacijo podatkov ni posebnih predpisov, ki bi nam povedali, ali prav sintetični podatki ustrezajo tem zahtevam, vendar moramo tako kot pri vsaki drugi obliki anonimizacije sklep izpeljati iz pomena in namena teh in drugih povezanih predpisov.

Anonimizacija proti psevdonimizaciji

Podlaga za sintetične podatke, kot tudi za vse druge vrste anonimiziranih podatkov, je v uvodni izjavi GDPR,3 ki med drugim pravi, da načela varstva podatkov ne veljajo za osebne podatke, ki so bili predelani v anonimne podatke tako, da subjekt ni več prepoznaven:

"Načel varstva podatkov zato ne bi smeli uporabljati za anonimizirane informacije, in sicer informacije, ki niso povezane z določenim ali določljivim posameznikom, ali osebne podatke, ki so bili anonimizirani na tak način, da posameznik, na katerega se nanašajo osebni podatki, ni ali ni več določljiv. Ta uredba torej ne zadeva obdelave takšnih anonimiziranih informacij, vključno z informacijami v statistične ali raziskovalne namene."4

GDPR ne vsebuje natančne definicije anonimiziranih podatkov, vendar se da iz prejšnjega opisa razbrati, da je treba za anonimizacijo kakršnihkoli podatkov iz podatkov odstraniti ustrezne elemente, tako da posameznika, na katerega se nanašajo osebni podatki, ni več mogoče identificirati. Natančneje, podatki morajo biti obdelani tako, da jih ni več mogoče uporabiti za identifikacijo fizične osebe z uporabo "vseh sredstev, ki bi jih lahko razumno uporabila" bodisi upravljavec podatkov bodisi tretja oseba. Pomemben dejavnik je tudi, da mora biti obdelava nepovratna ...

Nadaljevanje članka za naročnike >> Dženeta Schitton: Sintetični podatki - izjema v predpisih o varstvu osebnih podatkov
>> ali na portalu Pravna praksa, št. 19, 2022

>> Še niste naročnik? Preverite uporabniške pakete!

----------------------------------
Opombe:

1 Uredba (EU) 2016/679 Evropskega parlamenta in Sveta z dne 27. aprila 2016 o varstvu posameznikov pri obdelavi osebnih podatkov in o prostem pretoku takih podatkov ter o razveljavitvi Direktive 95/46/ES (Splošna uredba o varstvu podatkov).

2 Foster, D.: Generative deep learning: teaching machines to paint, write, compose, and play. O'Reilly Media, 2019, str 1.

3 Splošna uredba o varstvu podatkov, točka 26.

4 GDPR, točka 26.

10 najvplivnejših pravnikov

Multimedijski arhiv