Les grands modèles de langage : quels risques ? Échange avec Lê Nguyên Hoang
Chercheur et vulgarisateur scientifique, Lê Nguyên Hoang revient dans cet entretien sur les enjeux de sécurité, de régulation ou encore de désinformation que pose l’émergence auprès du grand public des intelligences artificielles génératives et de leurs multiples applications.
Quels enjeux posent selon vous l’émergence des grands modèles de langage tels que ChatGPT ?
J’observe tout d’abord une baisse des standards de sécurité des entreprises du numérique. Les effets d’annonce liés à leur mise à disposition auprès du grand public et les intérêts financiers en présence, aussi bien des grands groupes que des startups, conduisent à court-circuiter les mesures de sécurité traditionnelles. https://www.rfi.fr/fr/technologies/20230409-des-données-sensibles-de-sa…;Samsung l’a par exemple observé à ses dépens lorsque des employés ont divulgué des informations sensibles sur l’entreprise en utilisant ChatGPT. Cela pose des questions sur les traces que nous laissons quand nous parlons à une IA générative, notamment quant à la réutilisation de nos conversations avec les modèles de langage.
Ensuite, j’identifie comme enjeu primordial la réutilisation de ces outils par des acteurs malveillants, et en particulier des acteurs du cybercrime. Il faut rappeler que le risque cyber a été évalué en 2021 à 6 000 milliards de dollars. À titre de comparaison, cela représente quatre fois le chiffre d'affaires des entreprises Google, Apple, Facebook, Amazon et Microsoft réunies. Nous savons par ailleurs que des acteurs du crime organisé et des gouvernements multiplient les investissements pour développer leurs systèmes d’attaque, parmi lesquels des cyber arnaques de base sur internet ou encore des systèmes de phishing poussés. Le livre This is How They Tell Me The World Ends de la journaliste Nicole Perlroth du New York Times est particulièrement édifiant à cet égard.
Enfin, réussir à faire appliquer les lois constitue un autre enjeu majeur. La légalité même de ChatGPT peut être interrogée. En termes de licence, la réutilisation de codes sous licence GPL[1] pose question. D’ailleurs, aux États-Unis, OpenAI est poursuivi pour violation de telles licences. L’opacité qui entoure les grandes quantités de données utilisées pour entraîner l’algorithme interroge aussi sur la conformité du service avec le règlement général sur la protection des données (RGPD) et, plus prospectivement, sur sa conformité avec le futur règlement sur l’intelligence artificielle (AI Act).
Vous évoquez l’AI Act. Qu'en pensez-vous ?
Je ne suis pas inquiet du contenu du règlement. Il me semble exigeant sur la qualité et sur la fiabilité des données d’entraînements de ces algorithmes. Je suis néanmoins préoccupé par l’application de ce règlement : dans quelle mesure sera-t-on capable d’appliquer la loi ? Il est important d’appliquer un texte déjà en vigueur comme le RGPD, justement pour montrer que la loi fait loi !
En l’occurrence, je défends le principe de présomption de non-conformité. Aujourd’hui, dans le numérique, nous nous posons la question de la conformité des systèmes avec la loi après leur déploiement. C’est d’ailleurs souvent la société civile qui prouve des défauts de conformité en aval du déploiement. À l'inverse et à l’instar du contrôle opéré en matière pharmaceutique, les produits numériques devraient d’abord être certifiés conformes à la loi pour obtenir un droit de commercialisation, au moins lorsqu’il s’agit de produits destinés à être utilisés par un grand nombre de citoyens ou d’entreprises. Tout le monde perçoit le danger d’un avion ou d’une voiture. C’est plus difficile de percevoir celui d’un algorithme, tout particulièrement des algorithmes de recommandation. Des vies sont pourtant mises en danger et des États déstabilisés du fait des réseaux sociaux. En 2022, Amnesty International a par exemple demandé à Meta des réparations pour les conséquences néfastes de ses algorithmes en lien avec les violences commises contre les Rohingyas en Birmanie. Les menaces que posent les algorithmes pour la démocratie pourraient justifier des régulations bien plus radicales.
Aujourd’hui, dans le numérique, nous nous posons la question de la conformité des systèmes avec la loi après leur déploiement. Je défends le principe de présomption de non-conformité.
Pour en revenir aux intelligences artificielles génératives, la taille des modèles de langage me semble être une clé d’entrée intéressante pour le régulateur. Pour faire fonctionner ces modèles, il faut des quantités massives de données et celles-ci sont souvent générées par les utilisateurs eux-mêmes. En allant vers des modèles plus réduits, qui fonctionnent avec moins de données, nous pourrions avoir des systèmes plus conformes à la loi et plus sécurisés. Le nombre d’utilisateurs pourrait également être un critère d’attention. Nous pourrions revenir à la présomption de non-conformité dès qu’une application atteint un ordre de grandeur particulier. TikTok en constitue une illustration : l’application devrait être beaucoup plus régulée du fait de l’augmentation de son nombre d’utilisateurs, et donc de son influence [ndlr : TikTok compte aujourd’hui plus d’1,5 milliards d’utilisateurs au total].
Comment les intelligences artificielles génératives pourraient-elles en venir à amplifier la désinformation ?
L’usage de ces technologies est dual. Il peut être orienté vers le soutien à des intérêts géopolitiques majeurs, parfois dangereux. Le projet de journalisme d’investigation Story Killers, coordonné par la plateforme Forbidden Stories, a par exemple mis en lumière l'existence d'entreprises dont l’objectif est de manipuler l’opinion publique à travers la diffusion de fausses informations et le recours à de faux comptes réalistes. Tout cela a eu lieu avant l’émergence et la diffusion des IA génératives.
Justement, je suis préoccupé par l’utilisation des IA génératives pour la création de faux comptes : elles peuvent permettre de créer un grand nombre de faux comptes, de les rendre influents, de les faire vivre sur plusieurs réseaux simultanément, en manipulant les algorithmes de recommandation. Cette capacité à contrôler l’information constitue une menace certaine pour nos démocraties.
Néanmoins, l’usage de ces outils laisse également entrevoir des utilisations bénéfiques. Aujourd’hui, les barres de recherche et les algorithmes de recommandation nous apportent l’information, nous en sommes dépendants. Nous pourrions imaginer des outils permettant de modérer le flux d’informations sur internet, grâce à des algorithmes construits de manière plus démocratique, avec de véritables contre-pouvoirs. Ces outils nous aideraient à identifier les informations importantes, à mettre en lumière des sujets qui manquent d’attention médiatique, à orienter nos attentions vers des sujets d’intérêt général.
Vous êtes président de l’association Tournesol, dont l’objectif est de « construire les fondations d'une gouvernance algorithmique robuste et bénéfique à grande échelle pour l'information ». Pouvez-vous nous en dire plus ?
Tournesol est une plateforme libre et open source de vidéos, équipée d’un outil de décision collaboratif ayant pour but de faire remonter les vidéos les plus pertinentes en termes d’utilité publique. Chaque compte identifié sur la plateforme dispose d’un droit de vote pour valider ou non un contenu. Chaque contributeur peut ainsi recommander une vidéo. Sur la base des avis de tous les utilisateurs, nous utilisons des IA sécurisées pour développer des scores et ainsi pour recommander des contenus. Des extensions sont disponibles sur plusieurs navigateurs. Pour le moment, la plateforme compte plus de 18 000 utilisateurs ayant comparé plus de 120 000 fois près de 24 000 vidéos.
Nous pourrions imaginer des outils permettant de modérer le flux d’informations sur internet, avec des algorithmes construits de manière plus démocratique.
Pour y parvenir, le contrôle de l’identité est clé. Il doit néanmoins être mis en place de façon sécurisée. Le concept de proof of personhood (PoP) est une notion critique d’un point de vue de gouvernance et de sécurité. Elle revient à prouver que chaque compte d’une plateforme appartient à un humain, et que celui-ci ne possède qu’un seul compte. Nous essayons de le faire sur Tournesol à travers la vérification des emails associés aux comptes. Plus largement, il y a un manque d'investissement dans la recherche, le développement et la sécurisation de ces systèmes. Enfin, en termes d’acceptabilité de ces systèmes, en ce qu’ils questionnent certains pans de nos libertés individuelles, nous pourrions par exemple commencer par certifier des institutions, journalistes ou médias et nous reposer sur des systèmes de validation de pair-à-pair. Ces technologies existent mais leur développement coûte cher.
En parallèle de vos activités associatives et académiques, vous êtes vulgarisateur scientifique, sur Youtube notamment. En quoi ce travail est-il utile ?
Communiquer sur les questions d’intelligence artificielle constitue selon moi un enjeu de sécurité nationale. Je pense que l’explication du fonctionnement des algorithmes de recommandation, de leurs biais, de leurs impacts sur notre rapport à l’information, est probablement l’enjeu le plus important. Alors que ces outils sont intégrés par des entreprises dont nous utilisons quotidiennement les services, il est primordial d’expliquer les risques de ces outils, leur légalité, etc. J’observe plus largement un manque de soutien et de financement de ces activités, qui devraient pourtant occuper beaucoup plus de personnes.
--------------------------------------------
À propos de Lê Nguyên Hoang
Mathématicien, cofondateur et PDG de Calicarpa, une entreprise de cyber-sécurité, vulgarisateur scientifique sur Youtube (+230k d’abonnés), Lê Nguyên Hoang est également cofondateur de l’association Tournesol, qui héberge une plateforme de recommandation collaborative de contenus vidéos.
Pour aller plus loin
La plateforme Tournesol
La chaîne Youtube de vulgarisation scientifique Science4All
[1] Pour aller plus loin : GPL ou « licence publique générale » est une licence de logiciel libre de droits. Elle permet à un logiciel d’être utilisé, modifié et redistribué librement par tous (pour en savoir plus, voir la page Wikipédia dédiée)