Quand les IA amplifient les stéréotypes. Synthèse de la conférence au Liberté Living-Lab
Le 25 avril 2024, le Conseil a eu le plaisir d'animer une conférence organisée par Liberté Living-Lab, tiers-lieu d’innovation parisien, sur la représentation des sociétés et du vivant dans les systèmes d’IA.
La question des biais des intelligences artificielles occupe légitimement le débat public, car ils témoignent des potentiels impacts de ces outils sur la société, sur la construction des informations ainsi que sur la représentation de soi et du monde. Alors que l’année 2024 est historique par le nombre d’élections organisées, mobilisant plus de la moitié de la population mondiale, il est essentiel d’assurer une juste représentation des sociétés dans les systèmes d’IA. À titre d'illustration, l’entreprise OpenAI, conceptrice de ChatGPT a récemment pris la décision de différer le lancement de son outil de synthèse vocale, reconnaissant les risques potentiels de manipulation et de désinformation, notamment en période électorale.
Dès lors, quels biais et stéréotypes sont propagés par les systèmes d’IA ? Comment ces biais sont-ils construits dans les systèmes ? Comment assurer une juste représentation du vivant, de la culture française et européenne et enrayer les biais inhérents aux modèles ?
Pour y répondre, la discussion a réuni :
- Romain Delassus, chef du service numérique du ministère de la Culture ;
- Sandrine Elmi Hersi, cheffe de l’unité “Internet ouvert” de l’Arcep ;
- Assia Wirth, doctorante en sociologie à l’ENS Paris-Saclay d’une thèse sur les dynamiques de pouvoir qui structurent les systèmes de production des technologies d’analyse faciale ;
Le débat a été animé par Jean Cattan, secrétaire général du Conseil national du numérique et introduit par Carla Marand, doctorante au Centre d’Histoire de Sciences Po. Plus d’une cinquantaine de personnes ont assisté à cette conférence.
Les visions des intelligences artificielles dans les arts contemporains : introduction de Carla Marand
Carla Marand, doctorante au Centre d’Histoire de Sciences Po, explore diverses expressions artistiques contemporaines qui examinent notre vision de la machine, notre relation parfois émotionnelle avec l’intelligence artificielle, l’impact de ces outils sur nos liens sociaux et les émotions humaines que nous projetons sur ces machines.
Des œuvres cinématographiques telles que les séries Black Mirror (Charlie Brooker, 2011), les films Sayōnara (Kôji Fukada, 2015) et Her (Spike Jonze, 2014) interrogent nos relations avec les machines, en projetant des émotions et des caractéristiques parfois humaines sur ces outils. La question des caractéristiques humaines projetées sur les machines est également au cœur de l'œuvre Sunspring (2016) du réalisateur Oscar Sharp, un court-métrage expérimental de science-fiction dont le script a été entièrement écrit par un outil d’IA. L'œuvre explore la notion de créativité : peut-on dire d’une machine qu’elle est créative ? Ou est-ce un attribut proprement constitutif de l’expérience humaine ?
Avec l'œuvre Real-Time Depression, l’artiste-plasticien Thomas Webb traite de l’impact des algorithmes et des réseaux sociaux sur nos relations humaines. Son installation artistique, créée en 2018, utilise l’API de Twitter pour créer un flux en temps réel de publications de personnes du monde entier à propos de la santé mentale et de la dépression. La machine anonymise les publications et les projette sur un miroir vierge afin que le spectateur puisse voir son reflet dans les pensées d’un inconnu en temps réel. Une relation se crée ainsi entre le spectateur et l’utilisateur, médiée par la machine.
C’est en explorant les frontières de la norme émotionnelle dans les arts qu’on peut remettre en question les stéréotypes qu’on a sur les autres humains et sur le reste du monde non-vivant.
Les défis de la représentation : comprendre la fabrication des biais dans les systèmes d’IA
Comment apparaissent les biais dans les systèmes d’IA ? Pourquoi des visions inégalitaires de la société peuvent-elles être perpétuées ? La réponse réside dans la chaîne de valeur et la construction des systèmes d’IA, en particulier le processus de collecte et d’annotation des données qui servent à l’entraînement des modèles. Assia Wirth, doctorante en sociologie, souligne l'importance de cette étape dans le développement des systèmes d'IA : « c’est la première vision du monde que les IA vont avoir, les systèmes utilisent ces données annotées pour générer ensuite des contenus » . Les bases de données contiennent des millions d'images, nécessitant une annotation humaine. Ce travail, coûteux pour les entreprises, est souvent externalisé et délocalisé dans les pays du Sud global.
Plusieurs facteurs peuvent expliquer la fabrication des biais : les bases de données elles-mêmes peuvent induire des représentations différenciées de la société : « si le système collecte des contenus de LinkedIn ou Tinder, des biais peuvent se former, car ces services n'impliquent pas les mêmes modes de présentation de soi. », affirme Assia Wirth. Ensuite vient la phase de classification des données, qui peut également produire des biais, car il n’existe pas de méthode universelle pour catégoriser les êtres humains. La classification est généralement établie par des équipes d’ingénieurs, travaillant en Amérique du Nord pour des professionnels de l’annotation, généralement établis dans les pays du Sud global. Les classifications sont sujettes aux sensibilités de chacun, socialement construites et interprétées de manière variable selon les contextes culturels.
Chaque base de données représente donc une vision spécifique du monde, dépendante du contexte dans lequel elle a été créée.
Garantir la représentation de la culture française dans les systèmes d’IA
Dans ce contexte, quelle est la place du patrimoine commun français et européen ? Selon Romain Delassus, chef du service numérique au ministère de la Culture, alors que les outils d’IA génératives permettent de nouvelles pratiques culturelles, laissant entrevoir demain une nouvelle forme d’intermédiation de l’accès aux contenus culturels, il est essentiel de garantir la représentation de la culture française dans les systèmes d’IA et d’assurer la découvrabilité de cette culture auprès du grand public.
Une mission qui incombe au ministère de la Culture, qui défend également le droit des populations d’affirmer leur vision du monde, y compris dans les systèmes d’IA. Il est nécessaire de garantir cette pluralité linguistique et culturelle dans les systèmes d’IA. Les biais et stéréotypes sont omniprésents dans le cerveau humain et il serait très difficile de parvenir à l’échelle mondiale à une forme de consensus sur les biais acceptables (ou non) dans un système d’IA. Le pluralisme culturel et linguistique dans les bases de données des systèmes d’IA s’impose dès lors comme une solution pour assurer une juste représentation de la population dans les outils numériques. Face à ces enjeux, il est nécessaire de renforcer la coopération internationale : c’est le sens du projet ALT-EDIC (Alliance for Language Technologies) du ministère de la Culture et du ministère de l’Economie, des Finances et de la Souveraineté industrielle et numérique qui a pour ambition de construire une infrastructure commune dans les technologies linguistiques, pour assurer un accès aux données en langues européennes et préserver la richesse linguistique et culturelle européenne. La régulation européenne a un rôle important à jouer et il incombe désormais au régulateur de la faire respecter, notamment le règlement européen sur l’intelligence artificielle.
Mieux lutter contre les biais : les outils à disposition des régulateurs
Est-ce que des outils de régulation existants peuvent nous éclairer dans la poursuite d’une IA moins biaisée ? D’après Sandrine Elmi Hersi, cheffe de l’unité Internet ouverte à l’Arcep (Autorité de régulation des communications électroniques, des postes et de la distribution de la presse), une technologie n’est jamais neutre par essence et le combat pour la neutralité de l’Internet en est un bon exemple. Cela vaut notamment pour l’intelligence artificielle, dont la chaîne de valeur n’est pas neutre, puisqu’elle est à la source des biais et stéréotypes.
À terme, l’intelligence artificielle générative pourrait devenir, selon elle, une nouvelle porte d’entrée pour accéder au contenu et à l’information sur internet. À titre d’exemple, les agents conversationnels pourraient demain se substituer aux moteurs de recherche dans leur fonction principale, qui est de fournir des informations en réponse aux requêtes des utilisateurs. Plus largement, l’IA générative pourrait bientôt être intégrée à une large partie de nos services numériques du quotidien (réseaux sociaux, médias en ligne, assistants vocaux…). L’émergence de cette nouvelle couche d’intermédiation algorithmique dans nos usages interroge sur la préservation du modèle d’un internet ouvert, c’est-à-dire qui permet aux utilisateurs d’accéder aux contenus de leur choix, dans toute leur diversité. Il apparaît donc souhaitable de réfléchir collectivement à des outils de régulation qui assureraient une IA ouverte, neutre et fiable, dont les biais seraient minimisés. Cela pourrait passer par une régulation inclusive avec toutes les parties prenantes : les utilisateurs, le monde de la recherche, la société civile et les acteurs économiques de l’IA.
L’expérience de la régulation du numérique nous enseigne notamment l’importance d’un principe clé : la force de la donnée. À l’heure actuelle, le manque de transparence sur la chaîne de valeur des outils d’intelligence artificielle générative, de l'entraînement à l’inférence des modèles algorithmiques, rend d’autant plus difficile l’évaluation des biais et stéréotypes dans les systèmes d’IA et leur correction. Des outils de « régulation par la donnée » à disposition des régulateurs peuvent améliorer la compréhension des mécanismes à l'œuvre par les régulateurs, les utilisateurs et l’écosystème. À l’aune de la possible émergence de « générateurs de contenu structurants », Sandrine Elmi Hersi souligne aussi l’intérêt de réfléchir à des outils spécifiques à ces grands acteurs, par exemple via une collecte de donnée, afin qu’ils soient davantage responsabilisés quant à l’information qu’ils délivrent aux utilisateurs.