Cocorico en louchébem, ça donne quoi ?
Mais aussi : le français dans les bases de données, les mots d'amour à l'heure numérique, un rendez-vous pour parler langage informatique et littérature, des propositions pour protéger les citoyens sans rationner internet.
Bonjour, nous sommes vendredi 5 avril 2024 et voici votre moment pour prendre le temps d’interroger notre relation au numérique. Cette semaine, nous portons notre attention sur la langue française. Bonne lecture et n'hésitez pas à partager ce mail ou à y répondre si vous souhaitez échanger !
Cocorico en louchébem, ça donne quoi ?
Il y a deux semaines nous fêtions la semaine de la langue française et de la Francophonie. L’occasion de se pencher sur la place du français dans le web et dans les bases de données utilisées pour l'entraînement des IA, et sur son impact sur nos représentations.
🗞️ Des ressources pour nous interroger
Selon Statista, le français est la « cinquième langue la plus parlée dans le monde et sixième la plus répandue sur Internet. […] La langue de Molière est ainsi parlée par 3,3 % des internautes dans le monde et représente 2,5 % des sites web. » Le français est présent dans les mêmes ordres de grandeur environ sur Wikipédia avec 4,1 % des pages de l’encyclopédie. Et assez logiquement, la part des langues telles que l’allemand, le russe, le chinois, l’espagnol et donc le français se trouvent en-dessous des 6% au sein de Common Crawl, la base de données collectant de très nombreux contenus disponibles sur le web, réputée pour servir massivement à l’entraînement des intelligences artificielles génératives les plus employées.
Ce qui n’est a priori pas sans poser de problème. Dans un monde où demain notre accès à l’information est potentiellement un peu plus intermédié par le recours à des agents conversationnels fondés sur des modèles de langages, assurer une représentation linguistique et culturelle riche et variée, qui ne soit pas uniquement celle de la langue et de la culture massivement présente dans les données ayant pu servir à l’entraînement des intelligences artificielles génératives, devient un enjeu. Une situation pouvant non seulement conduire à promouvoir de façon extrême une représentation du monde donnée mais aussi à fournir des représentations très problématiques d’environnements sociétaux moins bien pris en compte. C’est cette situation que Heetch avait habilement exploitée en novembre dernier dans sa campagne de publicité Greetings from la Banlieue. L’entreprise de VTC avait fait savoir combien la notion de banlieue était associée à une représentation catastrophique dans les images générées par Midjourney avant d’envoyer des images de villes de banlieues françaises à Midjourney.
Ce risque de dévalorisation pure et simple d’une société, qui tient en partie à une représentation faussée de son patrimoine culturel dans l’édification du service d’intelligence artificielle générative, est aussi ce qui a poussé la France à consolider les bases de données disponibles depuis les ressources du CNRS, de la BNF et de l’INA pour les valoriser au mieux auprès des entreprises entraînant des modèles de langue. Cette démarche de valorisation de la diversité linguistique est au cœur de l’ALT-EDIC, l’alliance pour les technologies de langage, un consortium européen inauguré le mois passé et coordonné par la France depuis l’enceinte de la Cité internationale de la langue française de Villers-Cotterêts.
Des initiatives provenant d’acteurs technologiques montrent d’ailleurs qu’un fonctionnement ouvert et qu’une représentation linguistique plus diversifiée dans les données d’entraînement sont possibles. Le mois dernier a ainsi été publiée Common Corpus, une base ouverte de contenus libres de droit portée par Pleias avec notamment le soutien du ministère de la Culture et de la Direction interministérielle du numérique, où la part des contenus en français (110 milliards de mots) se rapproche considérablement plus de celle des contenus en anglais (180 milliards de mots). Plus tôt dans l’année, des chercheurs de Supélec lançaient CroissantLLM, « un modèle d'IA open source et bilingue ».
La diversité linguistique et culturelle revêt des enjeux encore plus importants lorsque l’on réalise les très nombreux cas d’usages des technologies de langage associées à l’intelligence artificielle, au-delà des seuls agents conversationnels. D’un Mark Zuckerberg francophone robotisé à une Kendall Jenner à l’accent québécois, Noémie Lair revenait en janvier sur France Inter sur les entretiens vidéo traduits en direct, mouvements labiaux inclus. Autant d’expériences qui nous projettent dans un monde de traduction simultanée où nous pourrions converser avec l’ensemble des habitants de la planète, mais où potentiellement la voix de toute personne peut être empruntée pour proférer n’importe quel discours. Une des raisons pour lesquelles OpenAI annonçait la semaine dernière renoncer, pour l’instant, à diffuser VoiceEngine auprès d’un public étendu. Néanmoins, les nombreux cas d’usage listés par l’entreprise laissent entendre que nous pourrions assez vite voir ce type de services être fournis au plus grand nombre.
Dans un monde où toute expression verbale pourrait être traduite, déformée ou créée de toute pièce, peut-être est-ce dans les marges les plus extrêmes de la langue vivante et dans le face-à-face que nous trouverons les refuges de l’authenticité de notre expression orale, dans les largonji et autres argots dont la propagation est si organique. L’uniformisation de la langue et les modes de communications universels iront-ils alors de pair avec la démultiplication des dialectes éphémères et des nouveaux modes de langages ?
👀 LE REGARD DE Nathalie Azoulai, écrivaine
Avec l'empressement conversationnel qui poste plus vite que son ombre ou le recul de la lecture, le tout-numérique menace la langue qui s’écourte, s'appauvrit, comme soumise à un vaste raccourci-clavier et à toujours plus de vitesse. Et pourtant, les sms inventent une nouvelle ponctuation tel ce ":-)" qui dit à la fois la césure et le sourire, ou son contraire. Sans parler des émojis qui déploient dans nos échanges une sorte d’infra-partition étrange entre la parole et l’image, ni interjection ni onomatopée, mais alors quoi ? Allons plus loin : le code informatique recèle aussi des pépites, comme l’articulation "elif" (l’équivalent de else+if) qui amène une condition alternative. Ce tout petit mot-valise est une pure potentialité, et, mine de rien, ouvre à l’infini des possibles. Je n'exclus pas de le glisser un jour au sein d'une phrase...Alors oui, trois fois oui, pour que la langue continue à se tenir droite et altière, mais pourquoi ne pas y accueillir de temps en temps des créations exogames si elles sont susceptibles d'augmenter le nuancier du sens et donc du style ?
🔎Pour aller plus loin
« Non mais en mode j’ai bugué quoi ! » Dans un épisode du documentaire Arte “Les idées larges” intitulé “Les mots d'amour perdent-ils leur sens ?”, la linguiste Julie Neveux revient sur la machinisation de notre langage, de l’utilisation d’”en mode” à “j’ai bugué” en passant par le fait que les Français sont les champions du monde de l’emploi d’emojis cœur. Un format court et pertinent pour repenser notre rapport à l’amour et aux sentiments à l’ère numérique.
L’IA va-t-elle rendre le langage payant ? Dans le dernier numéro de Philosophie Magazine, le philosophe Pascal Chabot s’interroge sur les impacts que peuvent avoir le fait de déléguer notre écriture et notre langage à un outil tel que ChatGPT. Merci à Anthony Claverie, directeur adjoint Innovation organisationnelle à la ville d’Antibes, pour cette suggestion !
📬 Vous avez lu un article, écouté un podcast ou regardé une vidéo que vous souhaitez nous partager ? Ecrivez-nous à info@cnnumerique.fr 👋
📅 À vos agendas
Que fait l’IA à la littérature ? On en parle le 2 mai à 17h30 avec Nathalie Azoulai.
Pour la 53e édition de notre cycle de rencontre co-organisé avec Renaissance numérique, nous avons le plaisir de recevoir Nathalie Azoulai pour échanger autour de son livre Python. Dans ce nouvel ouvrage, elle s’intéresse au code informatique, à ce “millefeuille de signes qu’est la révolution numérique”. Venez en parler avec nous !
Inscription
🏃 En bref... Le reste de l’actualité du Conseil en 1 minute chrono !
Comment le numérique peut-il contribuer à l’amélioration de l’éducation à la vie affective, relationnelle et sexuelle en ligne et en dehors ? Entretiens et échanges ouverts, nous en parlons avec de nombreuses personnalités. A lire et écouter sur notre site. ✦ Invité dans l'émission Grand bien vous fasse ! de France Inter à l’occasion de la journée spéciale "Smartphone, tous accros", Serge Tisseron insiste sur la nécessité de “ritualiser” nos consommations numériques et d’instaurer un dialogue familial autour de nos usages numériques afin de ne pas laisser nos liens familiaux en proie aux “technoférences”. ✦ IA, désinformation : comment sauver nos démocraties ? A Tech For Future, Anne Alombert a insisté sur la nécessité de forcer les plateformes à s'ouvrir pour permettre l'émergence d'autres modèles de recommandation. Le replay du débat est disponible ici. ✦ “La régulation sur le grill : l'heure de vérité pour l'Europe”. Au même événement, Gilles Babinet et Joëlle Toledano débattent des écueils des législations européenne et insistent sur le besoin de définir un véritable projet politique technologique en Europe. Intervention à retrouver ici. ✦ "Ce qui m'intéresserait plus, c'est qu'on rationne les entreprises qui sont responsables de ces dégâts sur les esprits individuels et collectifs". Anne Alombert était invitée à débattre dans “Le débat du jour” sur RFI aux côtés de Najat Vallaud-Belkacem et de Renaud Heluin, vice-président de l’association Green IT. Une intervention à réécouter ici.
Merci pour votre lecture et à la semaine prochaine !
👋 Avant de partir
Vous avez apprécié la lettre d’information de cette semaine ? Partagez-la à vos amis ou vos collègues. Et s'ils veulent s’abonner, c'est par ici !
Comme d’habitude, n’hésitez pas à nous faire vos retours. Et comme vous l’aurez probablement remarqué, nous faisons évoluer petit à petit le format de notre lettre d’information. Vous avez des questions, des remarques ou des suggestions ou vous souhaitez que nous abordions un sujet en particulier ? Nous sommes à votre écoute ! n’hésitez pas à répondre à ce mail ou à nous écrire à info@cnnumerique.fr
Cette lettre d’information a été préparée par Jean Cattan, illustrée et améliorée par Magali Jacquemet et réalisée avec le soutien de Gabriel Ertlé, Zora Decoust et Agathe Bougon.