AI modely, využití osobních dat a soulad s GDPR

Na konci roku 2024 vydal Evropský sbor pro ochranu osobních údajů (EDPB) stanovisko, které přináší sadu doporučení, jak zajistit ochranu osobních údajů při vývoji a nasazení modelů umělé inteligence (AI).

Andrea Diligent

Stanovisko obsahuje základní návod jednak pro dozorové úřady, jednak pro vývojáře a provozovatele AI modelů, jak posoudit a zajistit soulad s obecným nařízením o ochraně osobních údajů (GDPR).

Anonymita AI modelu

Evropský sbor primárně řešil, zda lze AI model trénovaný na osobních údajích považovat za anonymní. Anonymita totiž zásadně ovlivňuje, zda se na model vztahují pravidla GDPR. Pokud AI model není anonymní, musí být dodrženy právní povinnosti pro zpracování osobních údajů, jako je získání právního základu pro zpracování, ochrana práv subjektů údajů nebo minimalizace rizika identifikace. Anonymita by naopak znamenala, že GDPR se na model nevztahuje, což má významné dopady na právní a technické požadavky při vývoji a zavádění AI.

Existují AI modely, které jsou trénované tak, aby poskytly mj. i určitý údaj o konkrétní osobě. Pokud se zeptáte na datum narození slavného herce, tak vám tuto informaci poskytnou. Tyto modely za anonymní považovat nelze v zásadě nikdy. EDPB se proto při posuzování anonymity soustředí na AI modely, které nejsou určeny k poskytování osobních údajů, nicméně při jejich trénování osobní údaje byly použity.

Doposud ohledně této problematiky panovaly nejasnosti. Např. hamburský dozorový úřad uvedl, že velké jazykové modely (LLM) vůbec neobsahují osobní údaje, protože informace v nich obsažené jsou rozloženy na anonymní tokeny. AI model pak skládá tokeny do smysluplných výstupů na základě pravděpodobnostních vzorců. Takové zacházení s daty dle německého úřadu neumožňuje přímou identifikaci jednotlivců.

S tímto názorem se však EDPB neztotožnil. Proč?

Riziko extrakce osobních údajů

Evropský sbor uvedl, že anonymitu AI modelů nelze předpokládat automaticky. Přestože AI model nebude primárně určen k poskytování informací o konkrétních lidech, existuje riziko, že dojde, ať už úmyslně či nikoliv, k extrakci osobních údajů z tréninkových dat. Dokonce i modely, které neobsahují explicitní osobní údaje, mohou skrývat riziko nepřímé identifikace, například prostřednictvím inference nebo regurgitace dat.

Co tyto pojmy znamenají?

Útočník může model opakovaně dotazovat na konkrétní scénáře a z odpovědí odvodit, že určitá osoba byla zahrnuta v tréninkových datech. Pokud model trénovaný na lékařských datech odpovídá přesnými detaily o vzácném onemocnění, může z toho být odvozeno (tzv. inference), že konkrétní pacient byl v tréninkovém souboru.

regurgitaci dochází za situace, pokud byl jazykový model trénován např. na e-mailech obsahujících osobní údaje a na základě promptu model vrátí část reálného e-mailu.

EDPB proto uzavřel, že AI model nelze považovat automaticky za anonymní, aniž by bylo provedeno jeho další testování a prokazování odolnosti vůči útokům na zpětnou identifikaci. 

Opatření k zajištění anonymity AI modelů

Evropský sbor uvedl, že pro zajištění anonymity AI modelu je nezbytné minimalizovat pravděpodobnost znovuzískání osobních údajů. Mezi klíčová opatření, která mohou pomoci při hodnocení anonymity AI modelu, patří:

  • Minimalizace nebo úplné vyloučení osobních údajů již při výběru tréninkových dat. Například pro vývoj AI modelu, který zpracovává zákaznické recenze, se použijí pouze veřejně dostupné a anonymní recenze, nikoli interní databáze obsahující osobní údaje zákazníků (e-mailové adresy apod.).

  • Pseudonymizace nebo anonymizace dat a jejich omezení na minimum. Např. v tréninkovém datasetu pro model zdravotní péče jsou odstraněny všechny přímé identifikátory (jméno, adresa) a jsou nahrazeny pseudonymizovanými ID. Navíc se v rámci trénování AI uchovávají pouze atributy nezbytné pro naplnění účelu AI modelu (např. věk namísto data narození).

  • Implementace metod zvyšujících anonymitu. Během tréninku jazykového modelu je implementována např. metoda differential privacy, která přidává statistický šum k údajům, aby bylo znemožněno zpětné získání původních dat i v případě útoku.

  • Redukce rizik získání osobních údajů v rámci výstupů z AI modelu. Model chatbotu, který odpovídá na zákaznické dotazy, je nakonfigurován tak, aby odmítl vracet citlivé informace, jako jsou adresy nebo osobní identifikátory, i kdyby byly uživateli explicitně či nepřímo požadovány.

  • Testování odolnosti vůči útokům. To může spočívat například v ověření, zda model nedokáže generovat konkrétní sekvence dat ani při sofistikovaně formulovaných dotazech.

  • Ověření účinnosti ochranných opatření, jako je zjištění, zda přidaný šum dostatečně zabraňuje zpětnému získání osobních údajů.

  • Pravidelné audity, zda navržený model splňuje plánované standardy.

  • Vedení řádné dokumentace, včetně vyhodnocení a aktualizace posouzení vlivu na ochranu osobních údajů (DPIA), popisu technických a organizačních opatření, vyjádření DPO, reportů o způsobech a výsledcích testování apod.

EDPB zároveň upozorňuje, že jde pouze o příkladmý výčet opatření. Každý případ a každý AI model musí být hodnocen individuálně. Jiná opatření bude nutno aplikovat na veřejné AI modely přístupné neomezenému počtu uživatelů, kteří mohou použít řadu metod k pokusům o extrakci osobních údajů, jiná opatření na interní AI model dostupný pouze zaměstnancům.

I přes všechny zavedené instrumenty nemusí být anonymita konkrétního modelu dosažena, případně ani chtěna, což je obzvláště relevantní u modelů, jejichž cílem je zpracování osobních údajů i na výstupu. U AI modelu, který zpracovává životopisy, motivační dopisy a výsledky testů uchazečů, aby vyhodnotil jejich vhodnost na konkrétní pozici, nebude anonymita žádoucí. V takových případech bude klíčové dodržení právního rámce ochrany osobních údajů.

Oprávněný zájem jako právní titul ke zpracování dat v AI

Při tréninku, vývoji i využívání neanonymního AI modelu je nezbytné splnění povinností podle GDPR, včetně existence tzv. právního titulu ke zpracování (čl. 6 GDPR). Právní titul je konkrétní právní důvod, který ospravedlňuje zpracování osobních údajů a zajišťuje, že je v souladu s právními předpisy.

Právním titulem, který v tomto případě připadá v úvahu především, je oprávněný zájem správce nebo třetí strany. To vyvolává diskuse o použitelnosti oprávněného zájmu při vývoji a používání AI modelů. Otázkou bylo, zda například oprávněný zájem vývojáře trénovat AI model nebo zájem uživatele tento model nasadit může být dostatečný pro zpracování údajů konkrétních osob, aniž by bylo nutné získat výslovný souhlas takových osob nebo s nimi uzavřít smlouvu.

EDPB jasně konstatoval, že oprávněný zájem může být právním titulem pro zpracování osobních údajů prostřednictvím AI modelů, pokud správce provede standardní tříkrokový test:

  1. Identifikace oprávněného zájmu: Správce musí prokázat a doložit, že jeho zájem je zákonný, jasně definovaný a reálný (např. zavedení konverzačního agenta asistujícího uživatelům webových stránek).

  2. Posouzení nezbytnosti zpracování: Zpracování musí být nezbytné pro dosažení daného zájmu a nesmí existovat méně invazivní alternativa (např. zlepšování bezpečnostních mechanismů pomocí analýzy uživatelských dat).

  3. Provedení balančního testu: Správce musí zhodnotit, zda nad jeho zájmem nepřevažují práva a svobody dotčených jednotlivců. Přitom bude třeba zohlednit řadu kritérií. Zda osobní údaje již byly veřejně dostupné, vztah mezi subjektem údajů a správcem (jestli vůbec nějaký existuje), povahu dané služby nebo zdroj, z jakého jsou osobní údaje získány či očekávání subjektů údajů.

Očekávání dotčených osob

Pro běžného uživatele může být složité pochopit, jakým způsobem jsou jeho osobní údaje v rámci modelů umělé inteligence využívány. Právě proto je při zpracování osobních údajů nezbytné zohlednit, zda dotčené osoby mohou rozumně očekávat, že jejich údaje budou takto využity.

EDPB zdůrazňuje, že pouhé uvedení informací o tomto účelu zpracování v obecných zásadách ochrany osobních údajů nestačí. Organizace musí podniknout další kroky, aby zajistily, že jednotlivci skutečně chápou, jak budou jejich údaje při vývoji či nasazení AI zpracovány.

Ve fázi vývoje AI modelu závisí rozumná očekávání subjektů údajů například na tom, zda:

  • byly osobní údaje zveřejněny samotným subjektem údajů,

  • subjekt poskytl údaje přímo správci, například v rámci využívání služby, nebo

  • správce získal údaje z jiných zdrojů, od konkrétní třetí strany nebo pomocí web scrapingu.

Ve fázi nasazení AI modelu je důležité zohlednit očekávání subjektů údajů v kontextu schopností modelu. U modelů, které se přizpůsobují na základě vstupů od uživatelů, může být relevantní zvážit, zda si uživatelé byli vědomi, že poskytnutím osobních údajů dosáhnou přizpůsobení služby přímo jim, nebo celkového zlepšení modelu pro všechny uživatele.

Jak prokázat soulad AI modelu s GDPR?

EDPB uvádí několik příkladů opatření, jak zmírnit rizika nesouladu s GDPR při provádění balančního testu.

Vývoj AI modelu

V souvislosti s vývojovou fází AI modelů zmiňuje EDPB jednak opatření, která již byla uvedena shora u dosahování anonymity modelu. Pokud nevedla k úplné anonymizaci modelu, mohou sloužit alespoň ke snížení rizik pro dotčené subjekty údajů na akceptovatelnou úroveň a tím k dosažení souladu s GDPR.

Mezi další zmírňující opatření ve fázi vývoje AI modelu patří zejména:

  • Zajištění dostatečné doby mezi sběrem tréninkových dat a jejich využitím: Tato doba má subjektům údajů umožnit uplatnit jejich práva, například právo na výmaz nebo opravu údajů, ještě před jejich využitím k tréninku AI modelu.

  • Nabídka možnosti „opt-out“ ještě před zahájením zpracování: Subjekt údaj by měl mít právo vznést námitku proti použití svých údajů.

  • Rozšíření práva na výmaz: Subjektům údajů by mělo být umožněno požádat o nevyužití jejich údajů při tréninku AI modelu, i když jim nesvědčí právo na výmaz podle článku 17 odst. 1 GDPR.

  • Možnost podávání stížností: Subjekt údajů by měl mít možnost si stěžovat, pokud se domnívá, že jeho údaje byly zpracovány nebo uchovány v AI modelu, přestože měly být odstraněny.

  • Zvýšení transparentnosti: Organizace by měly poskytovat informace o vývoji AI modelů, například zveřejněním kritérií pro sběr dat a seznamů použitých datasetů.

  • Alternativní formy informování: Pro lepší pochopení ze strany subjektů údajů mohou organizace využívat grafické vizualizace, často kladené dotazy (FAQ), e-mailové kampaně nebo mediální komunikaci.

  • Dobrovolné roční zprávy o transparentnosti: Tyto zprávy mohou zahrnovat další (detailnější) informace o zpracování osobních údajů v AI modelech a přijatých opatřeních na ochranu soukromí.

  • Omezení web scrapingu: Organizace by měly zpracování dat prostřednictvím web scrapingu přizpůsobit tak, aby vyloučily určité typy obsahu, citlivé kategorie dat nebo konkrétní zdroje, které mohou být problematické z hlediska ochrany osobních údajů.

Nasazení AI modelu

Během nasazení AI modelu doporučuje Sbor zavést následující opatření ke snížení rizik a zajištění souladu s GDPR:

  • Technická opatření jako použití výstupních filtrů k zabránění generování osobních údajů.

  • Usnadnění nebo zrychlení výkonu práv jednotlivců, jako je právo na výmaz nebo odstranění osobních údajů z výstupů modelu.

Při hodnocení konkrétního AI modelu by měly dozorové úřady zvážit i další faktory, např. zda správce zveřejnil výsledky balančního testu nebo zda do rozhodování o zpracování osobních údajů v rámci AI modelu zapojil pověřence pro ochranu osobních údajů.

Implementace těchto opatření přispívá k dosažení souladu s tzv. tříkrokovým testem, včetně provedení balančního testu, a umožňuje správci prokázat, že pro zpracování osobních údajů disponuje odpovídajícím právním základem v podobě oprávněného zájmu. Ne vždy se to ale podaří hned od počátku zpracování osobních údajů.

Důsledky nezákonného zpracování osobních údajů v AI

Pokud během vývoje AI modelu dojde k nezákonnému (míněno rozpornému s čl. 5 (1) a GDPR a čl. 6 GDPR) zpracování osobních údajů, může být další nasazení modelu ze strany dozorového úřadu zcela zakázáno.

Evropský sbor z tohoto postupu připouští i určité výjimky. Pokud takovýto model přestane zpracovávat osobní údaje a jeho výstupy jsou již dostatečně anonymní, může být jeho další používání přípustné.

U AI modelu založeného na nelegálním využití dat při tréninku byly zvažovány 3 potencionální scénáře:

  1. Správce nezákonně zpracuje osobní údaje k vývoji modelu, údaje zůstanou v modelu a následně je stejný správce dále zpracovává (například v rámci nasazení modelu).

  2. Správce nezákonně zpracuje osobní údaje k vývoji modelu, údaje zůstanou v modelu a následně je zpracovává jiný správce během nasazení modelu.

  3. Správce nezákonně zpracuje osobní údaje k vývoji modelu, poté zajistí, že model je anonymizován, a následně stejný nebo jiný správce zahájí další zpracování osobních údajů v rámci nasazení modelu.

prvních dvou scénářích AI model uchovává osobní údaje osob a nelze ho považovat za anonymní. Sbor uvádí, že je třeba posuzovat individuálně, zda fáze vývoje a nasazení tvoří samostatné zpracovatelské činnosti, do jaké míry nedostatek právního základu pro počáteční zpracování ovlivňuje zákonnost následného zpracování nebo zda byl proveden řádný balanční test a zohledněna očekávání subjektů údajů. Nicméně v těchto dvou scénářích může nezákonnost počátečního zpracování ovlivňovat i zákonnost následného zpracování, včetně možného zákazu nelegální model nadále využívat.

Oproti tomu třetí scénář předpokládá, že správce prokáže, že AI model byl před dalším zpracováním osobních údajů anonymizován. Důležitou roli přitom bude hrát implementace opatření, jako je:

  • Anonymizace tréninkových dat: Úplné odstranění všech identifikovatelných prvků z původních dat tak, aby nebylo možné identifikovat jednotlivce, a to ani nepřímo.

  • Dodatečné zabezpečení: Implementace technologických řešení minimalizujících riziko zpětné identifikace, například použití mechanismů ochrany soukromí, jako je diferencovaná anonymizace nebo omezený přístup k modelu.

V těchto případech by zákonnost zpracování prováděného ve fázi nasazení neměla být ovlivněna nezákonností počátečního zpracování. Uvedená opatření mohou napravit původně chybně a nezákonně vedený projekt a zajistit, aby AI model mohl být dále využíván v souladu s GDPR.

Několik důležitých bodů závěrem

Stanovisko EDPB nepokrývá problematiku zpracování osobních údajů v rámci AI modelů komplexně, ale zaměřuje se na vybrané problematické otázky. Společnosti by tedy neměly zapomínat ani na další povinnosti dle GDPR.

Důležité v celém procesu zpracování osobních údajů v rámci AI modelu bude především určení rolí, tj. kdo je správcem, zpracovatelem, či zda vzniká společné správcovství, a to zejména s ohledem na princip odpovědnosti.

Nelze zapomínat ani na to, že opatření přijatá dozorovými úřady podle GDPR se nevylučují s opatřeními, která bude možné uložit podle nařízení o umělé inteligenci (AI Act) nebo jiných právních předpisů (např. dovození občanskoprávní odpovědnosti za vzniklou újmu).

Ačkoliv stanovisko EDPB poskytuje cenná doporučení, jejich aplikace v praxi bude vždy záviset na konkrétních okolnostech a vlastnostech daného AI modelu. Vzhledem k rychlému technologickému vývoji nelze předem zcela předvídat všechny možné způsoby využití AI. Je proto pozitivní, že stanovisko EDPB nabízí základní vodítka, která mohou správci a zpracovatelé využít při posuzování souladu s GDPR různých typů modelů AI.