Laat privacywetgeving je niet verlammen en blijf innoveren met AI

Laatste update 04 juli 2022

Kunstmatige intelligentie (AI) biedt veel kansen, mogelijkheden en voordelen voor innovatie. Zo kunnen we verkeersstromen met behulp van AI in betere banen leiden, kunnen we grote mensenmassa’s bij evenementen op veilige wijze sturen en geautomatiseerd MRI-scans analyseren op zowel bepaalde ziektes en aandoeningen als de effectiviteit van een behandeling. Nieuwe privacywetgeving zoals de Europese Algemene Verordening Gegevensbescherming (AVG) stelt echter strengere eisen aan de verwerking van persoonsgegevens door bedrijven. Wat is de impact van deze nieuwe privacywetgeving op AI-projecten? En hoe kunnen we AI inzetten om (maatschappelijke) toegevoegde waarde te creëren en tegelijkertijd de privacy van de betrokkenen (identificeerbare natuurlijke personen) beschermen?

Vanuit mijn netwerk van data privacy professionals hoor ik dat een groot aantal organisaties behoorlijk veel werk heeft gestoken in het AVG-compliant zijn. Denk hierbij aan de aanstelling van een functionaris gegevensbescherming (FG), het opzetten van het register van verwerkingen, het uitvoeren privacy impact assessments en het afsluiten van verwerkersovereenkomsten, inclusief het creëren van awareness en procedures op de diverse niveaus in de organisatie. Ik constateer echter ook, dat organisaties vooral in control zijn rondom de primaire processen en operationele systemen. Onderwerpen als advanced/predictive analytics, big data, data lakes, data science en AI zijn vaak nog onderbelicht gebleven.

Tegenwoordig zien we dat bedrijven steeds vaker toegevoegde waarde leveren aan hun (potentiële) klanten door data met behulp van AI op slimme wijze te analyseren. Deze innovatie kan op gespannen voet staan met de strengere eisen die de AVG stelt aan de zorgvuldige verwerking van deze gegevens, en de uitlegbaarheid en transparantie van de gebruikte algoritmes. Hoe zorg je ervoor dat deze adequaat en transparant worden ingezet en de betrokkenen geen slachtoffer worden van vooroordelen en discriminatie? Binnen het analytics en data science werkveld wordt dit ook wel ‘bias’ genoemd.

Richtlijnen om bias tegen te gaan

Bias kan leiden tot oneerlijke beslissingen. Het is bekend dat mensen bevooroordeeld zijn in hun besluitvorming. Aangezien tegenwoordig echter veel gebruik wordt gemaakt van data-gestuurde machine learning technieken om beslissingen te nemen, is het essentieel dat de gebruikte input-/trainingsdata zowel compleet is alsook de juiste kwaliteit heeft. Anders wordt het zelflerend systeem simpelweg aangeleerd om verkeerde beslissingen te nemen!

Bias kan ook optreden als gevolg van data privacy. Om de privacy van individuen te waarborgen wordt vaak vanuit de privacywetgeving dataminimalisatie toegepast, waarbij alleen de daadwerkelijk benodigde data wordt opgeslagen. Lokke Moerel van de Katholieke Universiteit Brabant stelt echter dat we ons hiermee in de vingers snijden en het juist moeilijker maken bias te bestrijden. Volgens Moerel zouden we juist in veel gevallen meer data moeten opslaan om gerichter bias te kunnen voorkomen. In haar recente publicatie ‘Algorithms can reduce discrimination, but only with proper data‘ geeft zij namelijk aan dat bias niet wordt veroorzaakt door het algoritme, maar door de data, of het gebrek eraan, waarop dit algoritme wordt losgelaten.

Vanuit verschillende hoeken worden inmiddels artikelen gepubliceerd met adviezen hoe deze bias in AI-algoritmes kan worden voorkomen. Daarnaast zie ik de laatste tijd veel publicaties rondom ‘Ethical AI’, met als ondertoon: ‘technisch kan ik het, juridisch mag ik het, maar wil ik het ethisch ook?. Een recent voorbeeld is een artikel van ethicus Piek Visser-Knijff.

Daarnaast heeft de European Data Protection Board (EPDB) – de opvolger de vroegere Artikel 29 werkgroep waarin Europese privacy toezichthouders zijn verenigd – zeer recent hiervoor de richtlijn ‘AI Ethics Guidelines produced by the European Commission’s High-Level Expert Group on Artificial Intelligence (AI HLEG)’ opgesteld.

Anoniem is niet altijd anoniem

Een voorbeeld dat bovenstaande onderschrijft is een incident bij Amazon, dat CV’s blind behandelde en hierdoor niet wist of het CV van een man of vrouw was. Om sollicitanten gerichter te kunnen uitnodigen voor een sollicitatiegesprek zette Amazon speciale software in om CV’s van sollicitanten te analyseren. Bij deze analyses bleek echter een voorkeur te bestaan voor mannen, die de software wist te identificeren aan de hand van onder meer hobby’s en voormalige studentenverenigingen. Doordat niet is vastgelegd of een CV van een man of een vrouw is, kon een dergelijke voorkeur voor het algoritme moeilijk worden opgespoord en tegengegaan. Door bewust meer data te verzamelen en in dit geval het geslacht van sollicitanten juist wel mee te nemen in de analyse, zou dat beter mogelijk moeten zijn. Amazon is hier inmiddels mee gestopt.

Profiling – ‘nuttige informatie over de onderliggende logica’ en AI interpretability

In de AVG wetgeving zijn meerdere artikelen gewijd aan profiling, inclusief de verplichting om onder andere ‘nuttige informatie over de onderliggende logica’ te kunnen overleggen. Dit is een serieuze uitdaging voor organisaties en overheden, zeker als gebruik wordt gemaakt van geavanceerde machine-/deep-learning technieken die zich als ‘black-box’ gedragen. Eind 2018 heeft minister Dekker hierover een interessant document naar de Tweede Kamer gestuurd over ‘Transparantie van algoritmes in gebruik bij de overheid’.

Vanuit SAS kijken we bij voorkeur pragmatisch naar deze abstract omschreven eis, waarbij we ons op drie onderdelen richten:

datatransparantie: welke data is gebruikt in het algoritme en wat is de kwaliteit van deze data?
modeltransparantie: welke versie van een algoritme is gebruikt en met welke parameters?
beslissingstransparantie: in wat voor bedrijfs-/systeembeslissingen is het model gebruikt?

Een van de meer recente mogelijkheden om complexe modellen qua werking en uitkomsten visueel inzichtelijk te maken is onder andere Local Interpretable Model-agnostic Explanations (LIME). Een aantal collega’s van mij heeft een serie interessante blogs geschreven over de interpreteerbaarheid van AI.

Het SAS Platform biedt gelukkig standaardfunctionaliteit voor zowel de transparantie van data, modellen en beslissingen, evenals het verklaren van de modellen via LIME. Andere technieken zijn in ontwikkeling. Hiermee ondersteunen wij onze klanten om aan deze lastige AVG-verplichting te kunnen voldoen.

Conclusie

Dat privacy impact heeft op AI staat buiten kijf. Het is echter van belang dat we door nieuwe wetgeving zoals de AVG niet verlamd raken, maar blijven innoveren. Kijk goed naar het soort AI-project dat je wilt opzetten en analyseer of je voldoende juridische grondslag hebt om dit te doen. Zijn er bijvoorbeeld andere manieren om hetzelfde doel te bereiken die minder impact hebben op de privacy van individuen?

Breng daarnaast in kaart welke maatregelen je moet nemen om dit proces afdoende te bewaken en transparant te maken. Denk hierbij aan dataminimalisatie en ‘privacy by design’. Ondanks de extra eisen die de AVG stelt aan de verwerking van gegevens van individuen blijft het – met de juiste maatregelen, inclusief ethische afwegingen – mogelijk hier slimme algoritmes op los te laten en zal AI toegevoegde waarde kunnen leveren voor organisaties.