Shadow AI, de AVG en datalekken (2): datalek en modelrisico’s

Auteur

Jeroen van Woezik

Deel 2 van een driedelige serie over shadow AI voor FG’s en privacy officers.

Shadow AI is het gebruik van AI-tools zoals ChatGPT, Claude of Gemini buiten het zicht van IT en de FG, vaak via gratis persoonlijke accounts. In deel 1 zagen we dat het invoeren van persoonsgegevens in zo’n tool vaak al onrechtmatig is op het moment van invoer: er ontbreekt een grondslag voor de verstrekking aan de aanbieder, de transparantieplicht wordt niet nageleefd en de beginselen van artikel 5 AVG komen in het gedrang. Het openingsincident van deze serie, de gemeente Eindhoven, waar medewerkers Jeugdwetdocumenten en cv’s naar openbare AI-tools uploadden - illustreert dat scherp.

Maar onrechtmatigheid is de ene laag; een meldplichtig datalek is een andere. In dit tweede deel behandelen we twee vragen die zich opdringen zodra het misgaat: wanneer shadow AI een (meldplichtig) datalek oplevert, en wat er met persoonsgegevens gebeurt zodra zij in een model belanden. De risico’s die buiten de AVG spelen, voor bedrijfsgeheimen en contractuele geheimhouding, komen in deel 3 aan de orde, omdat zij met dezelfde governancemaatregelen worden beheerst.

Wanneer is shadow AI een datalek?

Onrechtmatigheid is de ene laag, een meldplichtige inbreuk een andere. Shadow AI-gebruik kan tot zo’n inbreuk leiden, maar dat volgt niet automatisch uit het feit dat persoonsgegevens zijn ingevoerd. In dit hoofdstuk komen achtereenvolgens aan de orde: het mechanisme (art. 4 lid 12 en 32 AVG(1)), het moment van bekendheid en de 72-uurstermijn (art. 33 AVG), de risicodrempel en de documentatieplicht, de kennisgeving aan betrokkenen (art. 34 AVG) en de DPIA-plicht (art. 35 AVG).

Het mechanisme: een inbreuk op de beveiliging

Het onderscheid met het vorige onderwerp is wezenlijk. De onrechtmatigheid (de ontbrekende grondslag, de niet-nageleefde transparantie en de geschonden beginselen) bestaat ook zonder dat een derde de gegevens daadwerkelijk inziet.

Een datalek vergt een inbreuk op de beveiliging in de zin van artikel 4, onderdeel 12, AVG. Bij shadow AI kan die beveiligingsinbreuk juist ontstaan doordat passende technische en organisatorische maatregelen ontbreken of tekortschieten: geen AI-beleid, geen lijst van goedgekeurde tools, geen technische toegangsbeperkingen en onvoldoende training (artikel 32 AVG). Daardoor ontstaat het risico dat een medewerker persoonsgegevens verstrekt aan een aanbieder met wie geen verwerkersrelatie of ander passend gebruikskader bestaat en die de gegevens vervolgens voor eigen doeleinden verwerkt. Twee onderdelen van artikel 4, onderdeel 12, komen daarbij in beeld: de ongeoorloofde verstrekking door de organisatie (via de medewerker) en de ongeoorloofde toegang door de aanbieder.

Dat de medewerker eigenmachtig en tegen de afspraken in handelde, ontslaat de werkgever niet van zijn verantwoordelijkheid. Hij blijft verwerkingsverantwoordelijke. De EDPB heeft in de context van ChatGPT bevestigd dat de verantwoordelijkheid voor naleving niet op de betrokkene of de gebruiker mag worden afgewenteld, en dat de aanbieder verantwoordelijk blijft en niet kan tegenwerpen dat het invoeren van die gegevens eigenlijk verboden was(2). Een werkgever bevrijdt zich dus niet door naar de eigenmachtige werknemer te wijzen: het ontbreken van afdoende beheersmaatregelen is juist een tekortkoming.

Het moment van bekendheid en de 72-uurstermijn

Bestaat er een meldplichtig datalek, dan begint de klok te lopen op het moment van bekendheid. Dat moment is preciezer dan het lijkt: een verwerkingsverantwoordelijke is bekend zodra hij met een redelijke mate van zekerheid heeft vastgesteld dat zich een beveiligingsincident heeft voorgedaan dat persoonsgegevens heeft gecompromitteerd, niet reeds bij de eerste, mogelijk niet-sluitende detectie en niet pas na afronding van het volledige onderzoek. Vanaf dat moment geldt de termijn van artikel 33: melden zonder onredelijke vertraging en, indien haalbaar, uiterlijk binnen 72 uur, waarbij gefaseerde melding is toegestaan en een vertraging met redenen moet worden omkleed(3).

Juist bij shadow AI is dat moment van bekendheid problematisch. Anders dan bij een ingeschakelde verwerker, die de verwerkingsverantwoordelijke zonder onredelijke vertraging over een lek moet informeren, is er bij gebruik van een publieke chatbot geen verwerker die meldt: de aanbieder handelt voor eigen doeleinden en stelt de organisatie niet op de hoogte(4). De organisatie is dus aangewezen op eigen, vaak late detectie.

Het Eindhoven-incident illustreert het gevolg: doordat de gebruikte diensten de invoer slechts ongeveer dertig dagen bewaarden, kon achteraf niet meer worden vastgesteld hoeveel en welke bestanden waren gedeeld. Wie zijn eigen shadow-AI-gebruik niet of te laat detecteert, loopt bovendien het risico dat die vertraging als verwijtbaar wordt aangemerkt.

Melden of niet, en de documentatieplicht

Niet elk datalek hoeft te worden gemeld. Artikel 33, lid 1, verplicht tot melding tenzij het niet waarschijnlijk is dat de inbreuk een risico inhoudt voor de rechten en vrijheden van betrokkenen. Of dat zo is, vergt een concrete risicobeoordeling: welke gegevens zijn ingevoerd (gewone of bijzondere categorieën), wie heeft er toegang toe gehad, worden de gegevens gebruikt voor training of menselijke beoordeling, kunnen ze nog worden verwijderd, en wat is de mogelijke impact voor betrokkenen? De drempel ligt bewust niet bij het enkele feit van invoer, maar bij het risico. De risicobeoordeling schort de meldtermijn echter niet op: zij moet voortvarend na bekendwording plaatsvinden.

Ongeacht of wordt gemeld, geldt de documentatieplicht van artikel 33, lid 5: de verwerkingsverantwoordelijke documenteert alle datalekken, met de feiten, de gevolgen en de getroffen maatregelen, zodat de toezichthouder de naleving kan controleren(5). Dit is bij shadow AI een onderschat struikelblok, want een organisatie die haar gebruik niet detecteert en niet reconstrueert, kan ook niet documenteren, en faalt daarmee zichtbaar in haar verantwoordingsplicht.

Kennisgeving aan betrokkenen en het identificatieprobleem

Houdt de inbreuk waarschijnlijk een hoog risico in, dan moet de verwerkingsverantwoordelijke de betrokkenen zonder onredelijke vertraging informeren. Bij shadow AI met bijzondere categorieën (medische gegevens, gegevens van minderjarigen) zal die hoogrisicodrempel snel zijn bereikt. Hier komt opnieuw het identificatieprobleem naar voren. Kan de organisatie, zoals in Eindhoven, niet vaststellen wiens gegevens zijn ingevoerd, dan kan zij de betrokkenen feitelijk niet individueel informeren. Artikel 34, lid 3, onder c, biedt dan een uitweg in de vorm van een openbare kennisgeving wanneer individuele kennisgeving onevenredig veel inspanning zou vergen(6). Die uitweg is echter een noodverband, geen vrijbrief: het onvermogen om betrokkenen te identificeren is zelf een teken dat de beveiliging en de verantwoordingsplicht (de artikelen 32 en 5, lid 2) tekortschoten.

Datalek of niet? Vier vragen voor de FG

1. Is er een beveiligingsinbreuk?Zijn persoonsgegevens buiten een passend gebruikskader (geen verwerkersovereenkomst, geen goedgekeurde enterprise-omgeving) toegankelijk geworden voor een onbevoegde derde (de aanbieder)? Zo ja, dan is er een inbreuk in de zin van artikel 4, onderdeel 12, AVG.

2. Moet het naar de AP? Houdt de inbreuk waarschijnlijk een risico in voor de rechten en vrijheden van betrokkenen? Zo ja, meld zonder onredelijke vertraging en uiterlijk binnen 72 uur na bekendheid (artikel 33, lid 1).

3. Moeten de betrokkenen worden geïnformeerd? Is dat risico waarschijnlijk hoog? Bij bijzondere categorieën of gegevens van minderjarigen is die drempel snel bereikt (artikel 34, lid 1).

4. Kun je het reconstrueren en vastleggen? Kun je vaststellen wie en wat is geraakt? Zo niet, overweeg een openbare kennisgeving (artikel 34, lid 3, onder c). Documenteer het datalek hoe dan ook (artikel 33, lid 5).

Modelrisico’s en betrokkenenrechten

De vorige paragrafen keken naar het moment van invoer. Maar wat gebeurt er met persoonsgegevens nadat zij in een model zijn beland? Voor de FG is dat geen technisch detail, want het bepaalt of de organisatie haar wettelijke verplichtingen jegens betrokkenen nog kan nakomen.

Het model is geen kluis: anonimiteit is niet vanzelfsprekend

Een hardnekkig misverstand is dat persoonsgegevens die in de training van een model verdwijnen, daarmee zijn opgelost in een anoniem geheel. De EDPB verwerpt die aanname. In Opinion 28/2024 stelt zij dat een op persoonsgegevens getraind model niet zonder meer als anoniem kan gelden, en dat de anonimiteit per geval moet worden beoordeeld tegen een hoge drempel. Een model is pas anoniem als het zeer onwaarschijnlijk is om de personen van wie de gegevens zijn gebruikt direct of indirect te identificeren, en om die persoonsgegevens via queries uit het model te onttrekken; daarbij wegen de identificatiecriteria (isoleren, koppelen, afleiden) en de bestendigheid tegen aanvallen zoals membership inference en exfiltratie(7). Met andere woorden: juist omdat trainingsgegevens via slim bevragen weer uit een model kunnen komen, mag anonimiteit niet worden verondersteld. Is het model niet anoniem, dan blijft de AVG erop van toepassing.

De betrokkenenrechten kunnen grotendeels illusoir worden

Hier ligt de kern van het probleem voor de organisatie die persoonsgegevens in een publiek model heeft laten belanden. Van belang is wel wat er feitelijk met de invoer gebeurt: worden prompts alleen tijdelijk gelogd, of worden zij gebruikt voor training, fine-tuning of modelverbetering? Pas in dat laatste scenario verschuift het risico van gewone opslag naar een modelrisico, en wordt verwijdering aanzienlijk complexer. De betrokkene behoudt hoe dan ook zijn rechten, zoals het recht op inzage, rectificatie en wissing (artikelen 15, 16 en 17 AVG), en de organisatie is gehouden de uitoefening daarvan te faciliteren (artikel 12).

Zodra de gegevens in het model zijn verwerkt, kunnen die rechten echter grotendeels illusoir worden. Eenmaal verwerkt in de parameters van een model laten persoonsgegevens zich doorgaans niet chirurgisch verwijderen zonder het model opnieuw te trainen, zodat wissing in de praktijk nauwelijks haalbaar is. Rectificatie stuit op hetzelfde bezwaar; veelzeggend is dat aanbieders gebruikers voorstellen over te stappen van rectificatie naar wissing wanneer rectificatie technisch niet haalbaar is. En inzage zal de organisatie doorgaans niet volledig kunnen waarmaken, omdat zij niet weet welke persoonsgegevens het model van een derde heeft vastgehouden of reproduceerbaar heeft gemaakt(8). Dat technische onmogelijkheid hier opdoemt, is geen verzachtende omstandigheid: het onvermogen om rechten te honoreren is zelf een tekortkoming.

Onrechtmatige ontwikkeling werkt door

De EDPB beantwoordt in Opinion 28/2024 ook de vraag wat er gebeurt wanneer een model is ontwikkeld met onrechtmatig verwerkte persoonsgegevens: die onrechtmatigheid in de ontwikkelfase kan doorwerken op de rechtmatigheid van de daaropvolgende verwerking en het gebruik van het model. Voor shadow AI betekent dit dat het zonder grondslag invoeren van persoonsgegevens niet alleen op zichzelf onrechtmatig is en een datalek kan opleveren, maar ook bijdraagt aan een keten waarin die gegevens in een model worden vastgelegd en de onrechtmatigheid zich voortzet, terwijl zij praktisch onomkeerbaar is geworden.

De optelsom is onontkoombaar: wat eenmaal in een model zit, krijg je er vaak niet meer uit, en je kunt betrokkenen geen effectieve rechten meer bieden. Daarmee verschuift het zwaartepunt van de FG-aanpak van herstel naar preventie. Voorkomen dat persoonsgegevens ooit in een ongecontroleerde tool belanden, is bij shadow AI de meest effectieve maatregel. Dat onderstreept het belang van het beleid, de training en de inkoop die in deel 3 aan de orde komen.

In het volgende deel

De kerngevolgen wanneer shadow AI misgaat zijn daarmee in kaart: een mogelijk meldplichtig datalek dat lastig te detecteren en te reconstrueren is, en persoonsgegevens die praktisch onomkeerbaar in een model(9) belanden. Omdat herstel achteraf zo moeizaam is, ligt de nadruk op preventie. In deel 3 vertalen we dat naar een concrete aanpak: intern beleid, AI-geletterdheid en verantwoorde inkoop, waarmee je meteen ook bedrijfsgeheimen en contractuele geheimhouding beschermt, gevolgd door het handhavingsinstrumentarium van de AP en de rol van de FG.

_

1. Art. 4 onderdeel 12 AVG (inbreuk in verband met persoonsgegevens: een inbreuk op de beveiliging die leidt tot onder meer ongeoorloofde verstrekking van of toegang tot persoonsgegevens) en art. 32 AVG (passende technische en organisatorische maatregelen).

2. EDPB, Report of the work undertaken by the ChatGPT Taskforce, 23 mei 2024, par. 23-25: de verantwoordelijkheid voor naleving mag niet op de betrokkene of de gebruiker worden afgewenteld, en de aanbieder blijft verantwoordelijk ook als het invoeren van bepaalde gegevens eigenlijk verboden was.

3. Art. 33 lid 1 AVG. EDPB, Guidelines 9/2022 on personal data breach notification, v2.0: bekendheid bestaat zodra de verwerkingsverantwoordelijke met een redelijke mate van zekerheid heeft vastgesteld dat een beveiligingsincident persoonsgegevens heeft gecompromitteerd; de termijn van 72 uur loopt vanaf dat moment, gefaseerde melding is toegestaan en vertraging moet met redenen worden omkleed.

4. Art. 33 lid 2 AVG (de verwerker meldt zonder onredelijke vertraging aan de verwerkingsverantwoordelijke); EDPB, Guidelines 9/2022, par. 45. Bij gebruik van een publieke chatbot ontbreekt zo’n meldende verwerker.

5. Art. 33 lid 5 AVG: de verwerkingsverantwoordelijke documenteert alle datalekken (feiten, gevolgen en getroffen maatregelen), ongeacht of wordt gemeld.

6. Art. 34 lid 1 AVG (kennisgeving aan betrokkenen bij waarschijnlijk hoog risico) en art. 34 lid 3 sub c (openbare kennisgeving wanneer individuele kennisgeving onevenredig veel inspanning zou vergen).

7. EDPB, Opinion 28/2024 van 17 december 2024: de anonimiteit van een AI-model wordt per geval beoordeeld tegen een hoge drempel. Een model is pas anoniem als het zeer onwaarschijnlijk is om betrokkenen direct of indirect te identificeren en om hun gegevens via queries te onttrekken, beoordeeld aan de hand van de criteria isoleren, koppelen en afleiden en van de bestendigheid tegen aanvallen (membership inference, exfiltratie).

8. Art. 12, 15, 16 en 17 AVG. EDPB, ChatGPT Taskforce Report, 23 mei 2024, par. 34 (verschuiving van rectificatie naar wissing bij technische onhaalbaarheid) en par. 7 (technische onmogelijkheid is geen rechtvaardiging).

9. EDPB, Opinion 28/2024 (derde vraag): onrechtmatige verwerking in de ontwikkelfase kan doorwerken op de rechtmatigheid van de daaropvolgende verwerking en het gebruik van het model.

Share:

Share

Laatste inzichten & publicaties

Bekijk alles

Shadow AI, de AVG en datalekken (1): wat shadow AI is en wat de AVG eist

Lees meerover Shadow AI, de AVG en datalekken (1): wat shadow AI is en wat de AVG eist

Shadow AI, de AVG en datalekken (2): datalek en modelrisico’s

Lees meerover Shadow AI, de AVG en datalekken (2): datalek en modelrisico’s

Shadow AI, de AVG en datalekken (3): beleid, inkoop, bedrijfsgeheimen, handhaving en de rol van de FG

Lees meerover Shadow AI, de AVG en datalekken (3): beleid, inkoop, bedrijfsgeheimen, handhaving en de rol van de FG

Shadow AI, de AVG en datalekken (2): datalek en modelrisico’s

Jeroen van Woezik

Wanneer is shadow AI een datalek?

Modelrisico’s en betrokkenenrechten

In het volgende deel

_1. Art. 4 onderdeel 12 AVG (inbreuk in verband met persoonsgegevens: een inbreuk op de beveiliging die leidt tot onder meer ongeoorloofde verstrekking van of toegang tot persoonsgegevens) en art. 32 AVG (passende technische en organisatorische maatregelen).

2. EDPB, Report of the work undertaken by the ChatGPT Taskforce, 23 mei 2024, par. 23-25: de verantwoordelijkheid voor naleving mag niet op de betrokkene of de gebruiker worden afgewenteld, en de aanbieder blijft verantwoordelijk ook als het invoeren van bepaalde gegevens eigenlijk verboden was.

4. Art. 33 lid 2 AVG (de verwerker meldt zonder onredelijke vertraging aan de verwerkingsverantwoordelijke); EDPB, Guidelines 9/2022, par. 45. Bij gebruik van een publieke chatbot ontbreekt zo’n meldende verwerker.

5. Art. 33 lid 5 AVG: de verwerkingsverantwoordelijke documenteert alle datalekken (feiten, gevolgen en getroffen maatregelen), ongeacht of wordt gemeld.

6. Art. 34 lid 1 AVG (kennisgeving aan betrokkenen bij waarschijnlijk hoog risico) en art. 34 lid 3 sub c (openbare kennisgeving wanneer individuele kennisgeving onevenredig veel inspanning zou vergen).

8. Art. 12, 15, 16 en 17 AVG. EDPB, ChatGPT Taskforce Report, 23 mei 2024, par. 34 (verschuiving van rectificatie naar wissing bij technische onhaalbaarheid) en par. 7 (technische onmogelijkheid is geen rechtvaardiging).

9. EDPB, Opinion 28/2024 (derde vraag): onrechtmatige verwerking in de ontwikkelfase kan doorwerken op de rechtmatigheid van de daaropvolgende verwerking en het gebruik van het model.

Laatste inzichten & publicaties

_

1. Art. 4 onderdeel 12 AVG (inbreuk in verband met persoonsgegevens: een inbreuk op de beveiliging die leidt tot onder meer ongeoorloofde verstrekking van of toegang tot persoonsgegevens) en art. 32 AVG (passende technische en organisatorische maatregelen).