ChatGPT, rupture ou continuité technologique ? Un échange avec Laure Soulier

Maîtresse de conférences en informatique au sein de l’équipe Machine learning for information access de l’ISIR (Sorbonne Université, CNRS), Laure Soulier décrit le fonctionnement de ChatGPT et montre en quoi il s’inscrit pleinement dans une évolution à l'œuvre depuis les années 1990.

Dans un premier temps, pouvez-vous nous éclairer sur le fonctionnement de ChatGPT ?

L’agent conversationnel ChatGPT fonctionne sur la base d’un modèle de langue. Ce type de modèle est loin d’être nouveau : le premier avait été proposé par Yoshua Bengio en 2003. L’idée de ces modèles est de représenter les mots sous forme de vecteurs qui sont projetés dans un espace sémantique abstrait. Dans cet espace, les représentations des mots sont universelles et s’appuient sur l’hypothèse que les mots sémantiquement liés doivent être proches les uns des autres. Par exemple, le vecteur du mot "pomme" est proche de celui du mot "orange" car on les retrouve dans des contextes similaires. A l’inverse, le mot "pomme" est très éloigné du mot "radiateur".

Pour construire cet espace sémantique, les modèles de langue reposent sur deux éléments :  l’apprentissage par l’exemple et une famille de modèles appelée "réseaux de neurones". L’apprentissage par l’exemple permet de montrer au modèle de nombreuses phrases (des exemples) et de lui fixer un objectif : dans le cas des modèles de langue il s’agit de prédire la probabilité d’un mot compte tenu des autres mots de la phrase. En fonction des prédictions du modèle, et plus particulièrement de ses erreurs, l’apprentissage par l’exemple permet de réajuster le modèle pour affiner son mécanisme de prédiction. On appelle cette étape l’entraînement d’un modèle.

Les réseaux de neurones représentent une famille de modèles constituées de plusieurs couches de neurones qui permettent d’interconnecter les informations données en entrée (dans le cas des modèles de langue, des mots) grâce à des fonctions mathématiques composées de paramètres. Ce sont donc ces paramètres qui sont ajustés lors de l’entraînement afin d’affiner le modèle.

Bien que faisant déjà l’objet de recherches dans les années 1990, les modèles neuronaux ont suscité un engouement dans les années 2012-2013, d’abord dans le domaine du traitement d’images puis du traitement de données textuelles, avec par exemple le modèle de langue Word2Vec, proposé par Tomas Mikolov. En 2017, les modèles de langue connaissent une nouvelle révolution avec une architecture appelée “Transformer” : il s’agit également d’un réseau de neurones, mais il est beaucoup plus grand (il comporte plus de paramètres) et s’appuie sur le principe d’attention propre. Désormais, le modèle calcule une représentation contextuelle où un mot peut avoir plusieurs représentations suivant la phrase dans laquelle il apparaît. De fait, il n’y a plus de représentation universelle d’un même mot. Ceci permet une analyse beaucoup plus fine de la sémantique. Le modèle GPT, à la base de ChatGPT, est bâti à partir du modèle Transformer (le T de GPT signifie d’ailleurs "Transformer") et il est amélioré en permanence pour passer de GPT-1 à GPT-4 sorti tout récemment.

Ensuite, il faut préciser que ChatGPT a été entraîné (le P signifiant "Pre-trained", pré-entraîné) sur un ensemble de données conversationnelles. C’est là qu’il faut faire la distinction entre le modèle de langue qu’est GPT et qui est un modèle d’analyse de séquences de mots, et ChatGPT qui est un système conversationnel : sur la base de requêtes envoyées par les utilisateurs, ChatGPT "répond". Toutefois, il est à noter que ChatGPT ne produit pas de raisonnement comme nous pouvons le faire. Il ne fait que calculer des probabilités : en fonction de l’instruction entrée par l’utilisateur, le système calcule la probabilité du premier mot de sa réponse, puis du suivant et ainsi de suite. C’est donc avant tout un modèle de prédiction et il est très important d’en avoir conscience : certes c’est un modèle qui a raffiné la capture de la sémantique et des structures des phrases dans un contexte de conversation mais en aucun cas son fonctionnement ne s’apparente au processus mental propre à l’humain.

 

Selon vous, l’aspect conversationnel de ChatGPT marque-t-il une rupture ?

ChatGPT marque une rupture dans les cas d’usage et moins largement dans la technologie qui, elle, préexistait.

Premièrement, les agents conversationnels sont eux aussi très loin d’être nouveaux. Le premier système conversationnel était ELIZA dans les années 1970. Elle récupérait ce que l’utilisateur avait dit, identifiait les mots marquants et les remettait dans une phrase qu’elle avait prédéfinie, par exemple "Pourquoi dites-vous … ?". Les études ont montré que les gens finissaient par croire qu’ils parlaient avec une vraie personne. ELIZA est devenue une sorte de psychologue avec laquelle ils s’isolaient pour parler, comme s’ils avaient besoin d’une entrevue régulière avec elle. Technologiquement, c’était simple mais cela dupait les utilisateurs en termes d’imitation de l’humain. De nombreux systèmes d’IA sont basés sur ce principe, notamment les chatbots d’assistance à l’achat qui s’appuient sur des questions prédéfinies posées selon un processus construit à partir de connaissances métiers.

Depuis, bien sûr, ces modèles se sont perfectionnés, notamment sur la base de l'apprentissage profond et des modèles de langue, ce qui a permis de sortir de cette logique de texte à trou. Et nous sommes en fait quasiment tous déjà confrontés à des systèmes d’IA similaires à ChatGPT dans nos usages numériques. Par exemple, lorsque vous utilisez un outil de traduction en ligne ou les suggestions de réponses dans les moteurs de recherche ou sur votre boîte mail, vous êtes confronté indirectement à ce type d’IA.

Le tour de force d’OpenAI est de mettre directement et gratuitement à disposition du grand public ce modèle. C’est un tour de force à plusieurs titres. Tout d’abord, cela crée une conversation globale sur les IA conversationnelles - voire l’IA en général - qui était pour l'instant un sujet obscur pour le grand public. Ensuite, sur la base de cette frénésie, cela encourage à utiliser ChatGPT pour tester, s’amuser, travailler… Or, toutes ces requêtes que nous envoyons au système sont conservées par OpenAI pour entraîner encore davantage le modèle et l’affiner. Ces systèmes demandent énormément de données et cette ouverture au public leur permet très probablement de les obtenir facilement et gratuitement. De la même façon, la conversation qui se noue publiquement, notamment sur les réseaux sociaux, au sujet de ChatGPT doit être activement scrutée par OpenAI pour corriger son outil. Par exemple, en novembre 2022, quelqu’un avait révélé que ChatGPT pouvait donner la recette d’une bombe. Aujourd’hui cela n’est plus possible.  

En conclusion, ChatGPT marque une rupture dans les cas d’usage et moins largement dans la technologie qui, elle, préexistait.

 

Comment ChatGPT va-t-il affecter le monde du travail ?

Le danger réside principalement dans l’effet que l’outil peut produire sur les gens : le fait que ce soit bien écrit, ou qu’on puisse lui faire préciser son propos peut pousser à prendre pour véridiques les réponses de ChatGPT et conduire à un usage passif.

Tous les professionnels et les experts s’amusent à demander à ChatGPT de construire ce qu’ils sont en train de faire au quotidien. Tout d’abord, ils sont épatés car les réponses sont plausibles, mais très vite, ils s’aperçoivent qu’il y a des erreurs, qu’il faut affiner… et donc que c’est un outil complémentaire à l’humain mais que cela ne remplacera pas l’expertise métier.  Évidemment, l’IA va s’affiner, mais disons que pour l’instant, ChatGPT est un outil qui va nous permettre d’avoir des premières versions d’un travail (exposé, résumé, article etc.) et qu’il faudra ensuite adapter, corriger, peaufiner. Il faut donc rester actif dans notre usage, comme quand on va sur le Web, c’est-à-dire en cherchant des informations, en les reliant et les recoupant, pour vérifier, construire et enrichir notre propre raisonnement. Avec ce type d’outil, nous sommes toujours au stade de l’IA faible, et non de l’IA forte comme on pourrait le croire.

Le parallèle avec l’émergence de Wikipédia est intéressant sur ce point. Lorsque Wikipédia est arrivé, tout le monde s’est dit, "c’est la fin de l’école". Pourtant, on a bien vu qu’il fallait modérer les contenus publiés, vérifier les informations, enrichir, etc. Et puis, Wikipédia ne se substitue pas aux pratiques de pédagogie, de contextualisation, de transmission des savoir-être etc. C’est un outil qui aide les étudiants pour les devoirs mais ça n’a en aucun cas remplacé l’école. C’est un dispositif complémentaire. Je pense qu’il en sera de même pour ChatGPT.
Le danger réside principalement dans l’effet que l’outil peut produire sur les gens : le fait que ce soit bien écrit, ou qu’on puisse lui faire préciser son propos peut pousser à prendre pour véridiques les réponses de ChatGPT et conduire à un usage passif. Cela va certainement se réguler au fil du temps. Il faut garder en tête que lorsqu’on est sur un moteur de recherche, l’IA est également présente et pourtant nous restons quand même actifs.

En outre, ChatGPT est pour l’instant "générale" : elle a été entraînée sur la base de données générales glanées sur les pages web disponibles et elle présente donc une connaissance générale du monde. Toutefois, si l’on souhaite se cantonner à un champ d’expertise particulier comme celui de la santé par exemple, le problème des données avec lesquelles la machine a été entraînée se pose. Il va falloir l’adapter au domaine. En fait, plutôt que de faire un ChatGPT, la solution serait d’arriver à faire des IA plus spécialisées, dans des domaines d’expertise précis en fonction des tâches à réaliser, afin d’être plus performantes.

 

Est-ce que la solution face aux enjeux que vous décrivez réside dans la responsabilisation des utilisateurs ?

Tout n’est pas la faute de l’IA et tout n’est pas de la responsabilité des utilisateurs. Par exemple, on a vu beaucoup d’articles ces derniers temps sur le rôle de ChatGPT dans une possible accélération de la propagation de fausses informations en ligne ainsi que sur les enjeux d’éducation des utilisateurs à ces biais. Ce que je voudrais dire là-dessus, c’est qu’avant tout ces IA peuvent être à la base d’un cercle vertueux ou d’un cercle vicieux selon les usages. Les données générées par ChatGPT et réutilisées sur le web seront peut-être les données qui serviront demain à entraîner la prochaine version de ChatGPT. Il y a aussi des progrès à faire au niveau de la transparence des systèmes d’IA et de leur mise à disposition du public pour permettre au grand public de comprendre comment ils fonctionnent et, parfois, dysfonctionnent. C’est une responsabilité collective, tant du côté scientifique dans la définition, la mise à disposition et la sensibilisation à ces outils que du côté utilisateurs pour les usages faits de ces IA.

L’AI Act va paraître et amorcer une régulation européenne des systèmes d’intelligence artificielle. Je pense que la priorité doit être donnée à la transparence : quand on utilise un modèle de langue, on devrait au moins savoir sur quelles données et comment il est entraîné. Cela serait utile pour les utilisateurs mais aussi, et surtout, pour la recherche afin que nous puissions examiner en profondeur ces systèmes et leurs carences et biais éventuels.

 

Comment voyez-vous l’avenir de l’IA, notamment vis-à-vis de ces modèles de langue?

Tout d’abord, il faut savoir que la frénésie actuelle autour des modèles d’IA perceptible au niveau du grand public était déjà présente dans nos laboratoires depuis 2014. Avant 2014, les conférences regroupaient 400 chercheurs, maintenant, on a atteint plus de 10 000 pour la conférence d’apprentissage automatique la plus connue. On publie à tour de bras et il faut aller très vite car nous sommes plusieurs dans le monde à avoir la même idée simultanément. Le domaine explose car chaque laboratoire ou grande entreprise du secteur numérique souhaite avoir son propre modèle d’IA, ou son propre modèle de langue.

La tendance sera de faire des modèles de langue plus performants avec toujours plus de paramètres et plus de données fournies à l’entraînement. Il faut avoir en tête les problèmes d'industrialisation pouvant en émerger. Mais tous les chercheurs ne peuvent pas se mettre à construire leur propre modèle de langue. Déjà parce que cette recherche à un coût. Bien que des serveurs de calculs, tels que Jean Zay, soient à disposition, nous avons besoin de moyens humains et matériels importants. Obtenir des financements pour des projets recherche est une partie importante de nos métiers qui nous laisse moins de temps disponibles sur d’autres aspects scientifiques.

Ensuite, ces outils ont un coût environnemental très grand : est-ce qu’on a envie d’avoir une empreinte carbone équivalente à 40 vols Paris-New York dès qu’on crée un modèle ? Comment peut-on faire des modèles avec moins de paramètres pour réduire les coûts en termes de calcul, des IA plus performantes avec plus d’hypothèses et moins de données ? C’est sur ces questions là que nous travaillons.