« Etre exigeant avec l’intelligence artificielle ». Échange avec Mathieu Porte
Plongée dans le monde de l’information géographique avec Matthieu Porte, coordinateur des activités d’intelligence artificielle à l’IGN, pour en apprendre plus sur les dispositifs d’intelligence artificielle qui se développent un peu partout et nous touchent finalement toutes et tous !
Quel est le cadre de votre activité à l’IGN ?
L’IGN est un établissement public dont la mission est de décrire le territoire physique dans lequel la France se déploie, à l’heure de transformations écologiques rapides qui sont celles de l’anthropocène[1]. Notre but est de rendre compte de ces évolutions, notamment quant à l’occupation des sols, leur artificialisation, l’érosion du trait de côte, l’état des forêts, etc. Les données produites, structurées géographiquement, servent d’appuis aux décideurs publics et à la société dans son ensemble pour comprendre et penser ces transformations d’ampleur.
Cette logique d'observation en continu nécessite de produire d’importants volumes d’informations. A ce titre, l’intelligence artificielle est une alliée de choix. Plus précisément, les techniques d’apprentissage machine[2] nous permettent de généraliser, d’extrapoler, de systématiser et d’accélérer la production de descriptions des évolutions du territoire. C’est grâce à notre capacité à extraire de l’information sur les images aériennes, les photos de constellations de satellites ou d’autres types de capteurs et nos avancées en termes d’apprentissage profond[3] que nous pouvons produire ces descriptions précises.
Nous avons publié une feuille de route pour accompagner l’extension de l’usage des technologies de traitement automatique par intelligence artificielle dans les activités de l’IGN. Elle part de la conviction que ces techniques d’apprentissage doivent être diffusées auprès de l’ensemble des acteurs de la sphère de l’information géographique afin d’augmenter leur capacité d’agir. Il ne s’agit pas de remplacer le travail humain par la machine mais de construire des systèmes socio techniques pertinents et émancipateurs pour tous. La démocratisation est également essentielle pour permettre la mise en débat. Quel est l’objet scientifique que l’on porte ? Qu’est-ce qu’un usage raisonné de ces techniques ? Quel est le rôle du travail humain là-dedans ? Quels sont les enjeux sociaux et/ou environnementaux ? Ouvrir des espaces de discussion entre les agents impliqués dans la cartographie du territoire, et plus largement au sein de la société, est primordial. Les éléments de ce débat doivent pouvoir servir, en aval, à réguler l’utilisation de ces dispositifs.
Quels dispositifs d'intelligence artificielle utilisez-vous dans le cadre de votre mission et comment s'articulent-ils avec le travail humain ?
L’intelligence artificielle est un terme qui véhicule un imaginaire large, allant du remplacement de l’humain par la machine au robot à l’apparence humaine. Dans le cadre de notre mission, nous avons recours à des techniques statistiques reposant sur de l’apprentissage profond, dont les imperfections sont comblées par le regard humain. Nous essayons de construire des modèles qui permettent de traduire des données non structurées de capteurs en informations sémantiques. Cela revient à passer de séries d’images d’un même endroit prises par une constellation de capteurs (données brutes) à l’identification de différents types de surfaces au sol, de bâtiments, de types de végétations, de surfaces d’eau, etc. (informations sémantiques). Par exemple, dans le cadre de notre mission, nous cherchons à décrire la couverture des sols. A ce titre, nous entraînons un modèle à détecter les routes en croisant des données photographiques prises par avion dans lesquelles apparaissent les couleurs du territoire au sol et des bases de données d’images où sont indiqués les bâtiments, les routes, la végétation, les surfaces minérales etc.
Pour autant, ces technologies sont encore imparfaites : elles ne permettent pas à elles seules de garantir l’ensemble des propriétés souhaitées de la donnée géographique. Par exemple, nous remarquons souvent des discontinuités dans les réseaux routiers identifiés par le modèle d’apprentissage. Certains thèmes, peu représentés sur le territoire, sont par ailleurs très difficile à saisir pour ces algorithmes fonctionnant par apprentissage. Pour produire une description du territoire à partir d’images aériennes, nous avons besoin à la fois d’autres formes de traitements algorithmiques, mais surtout de photo-interprètes, de personnes spécialistes de l’analyse visuelle. Nous avons besoin de ce savoir-faire et de ces compétences pour pouvoir justement les généraliser et les extrapoler grâce à des modèles et surtout pour critiquer ces modèles une fois qu’ils sont développés. Tout cela, c’est un métier, et pas celui de data scientist ou d’ingénieur en intelligence artificielle. Même en utilisant des techniques d’intelligence artificielle, l’humain est essentiel !
Quels sont les impacts de ces dispositifs d'intelligence artificielle sur l'organisation sociale des personnes impliquées dans la cartographie du territoire ?
Il est difficile d’être exhaustif d’emblée sur l’ensemble des impacts car nous sommes au début de la démarche. Néanmoins, cette question est centrale, il faut donc s’assurer que tout le monde ait son mot à dire.
Une digression me semble intéressante pour aborder cette question. Dans Le travail de la routine : autour d’une controverse sociotechnique dans la boulangerie française du XIXe siècle, l’historien François Jarrige précise que l’enjeu sous-jacent à l’étude d’une activité, au-delà “d’examiner seulement l’organisation ou la condition du travail”, consiste à “prendre en compte le geste, l’acte et l’opération qui forment le contenu du travail.” L’élaboration, à la fin du XVIIIe siècle, d’un pétrin mécanique entraîne ainsi l’émergence d’un discours de soutien à la mécanisation, en ce qu’elle atténue la souffrance au travail ou encore améliore les conditions d’hygiène. Apparaît également un contre-discours de boulangers « faisant de leurs routines des compétences indispensables à la réalisation du pain de qualité. »
La seule solution, c’est de débattre et d’embarquer tout le monde quand nous souhaitons mettre en place de nouvelles manières de produire de l’information utilisant de l’intelligence artificielle.
Cette question de la relation au travail est tout à fait essentielle. Dans le cas de l’automatisation au XIXe siècle, on vise la construction de machines réalisant directement une tâche mécanique donnée et remplaçant définitivement sa réalisation par du travail humain ; dans le cas de l’utilisation de l’apprentissage machine, il s’agit d’extrapoler, de généraliser au maximum l’information contenue dans des données produites par un travail humain qui est cependant toujours à actualiser. Dans les deux cas néanmoins, il n’existe pas de réponses toutes prêtes à deux questions fondamentales : que peut-on automatiser/systématiser et est-ce grave de le faire ? La seule solution, c’est de débattre et d’embarquer tout le monde quand nous souhaitons mettre en place de nouvelles manières de produire de l’information utilisant de l’intelligence artificielle. A l’IGN, nous essayons de nous assurer que toutes les voix pertinentes aient leur mot à dire. Le caractère créatif ou rébarbatif d’un travail ne peut être qualifié de l’extérieur !
D’autant que le sujet de l’acceptabilité et de la contestabilité de la donnée produite par des processus d’intelligence artificielle est important. Nous savons à l’avance qu’au sein de cet univers statistique, des erreurs seront faites. Il s’agit donc d’intégrer by design le fait de pouvoir corriger une donnée contestée. Nous nous efforçons donc de partager les méthodes utilisées pour produire les descriptions du territoire et les étapes qui nous permettent d’arriver à ces conclusions.
Est-il possible de développer des dispositifs d'intelligence artificielle plus sobres ?
Il est important de ne pas rester piégé dans un fétichisme de la métrique, de bien identifier ses objectifs et la manière dont on souhaite les atteindre.
Oui, c’est possible d’avoir des techniques plus sobres. On a le droit d’être exigeant avec l’intelligence artificielle ! Le coût de l’apprentissage profond est important, notamment en termes de volume de calculs, de bases de données et d’infrastructures nécessaires. Nous pouvons le réduire en structurant mieux les problèmes que nous cherchons à résoudre, et notamment les données qui nous seront utiles. Nous avons toujours la possibilité d’intégrer de l’information de structure a priori pour que ce soit autant à ne pas apprendre. Scientifiquement, ces chemins sont possibles !
Je ne sais pas si la recherche en intelligence artificielle se pose les bonnes questions. Plus précisément : comme pour tout domaine de recherche, les problèmes considérés pertinents par une communauté scientifique portent la trace de la structure de ce champ de recherche, de son histoire, d’un imaginaire auquel elle s’adosse. Dans le cas de l’intelligence artificielle, il ne me semble pas aller de soi que cette histoire soit a priori orientée par la recherche d’un « régime de travail réellement humain » ou de la sobriété énergétique. Il va de notre responsabilité à nous, tous ceux qui utilisent des systèmes d’IA, d’être clairs sur ce qui nous intéresse, sur ce qui nous pose problème. Prenons un exemple. La détection de changements sur des images aériennes, prises à un même endroit et à plusieurs dates différentes, est un sujet qui anime les communautés scientifiques. Selon ce que l’on cherche à faire en réalité, la mesure de ce qui constitue un bon modèle change du tout au tout. Une première différence intervient selon que l’on cherche à identifier des changements « sûrs », par exemple à des fins d’imposition - auquel cas il est nécessaire de faire très peu d’erreurs sur les changements, quitte à en manquer – ou si l’on cherche l’exhaustivité des changements – auquel cas il est possible de détecter de « faux » changements qui seront filtrés par la suite, mais les manquements sont à minimiser. Ce type d’enjeu est en général bien abordé dans les métiers de data scientist, on parlera de réduire les « faux positifs » ou « faux négatifs ». Si, maintenant, on intègre la question du travail humain, on s’aperçoit qu’il est assez aliénant d’être baladé d’un bout à l’autre de l’image et de devoir nettoyer les erreurs des algorithmes, alors qu’une autre forme de collaboration est possible si l’on confie simplement aux algorithmes le soin d’écarter des zones sans changement et de fournir des indices de localisation de ceux-ci à un photo-interprète qui conserve la maîtrise de la saisie d’information sur la portion de territoire sur laquelle il travaille. On portera alors une attention beaucoup plus grande à la structure spatiale des changements détectés que ce que la discussion précédente seule aurait permis. Il est donc important de ne pas rester piégé dans un fétichisme de la métrique, de bien identifier ses objectifs et la manière dont on souhaite les atteindre.
Finalement, tout est question de choix. Il nous revient de choisir entre, d’une part, des modèles gourmands, performants et permettant d’automatiser un maximum de choses, et d’autre part, des modèles moins énergivores, qui nous fournissent la meilleure matière première possible et laissent sa place à l’apport humain.
Avec quels types d'organisations travaillez-vous ?
Une grande partie de la recherche en apprentissage machine se fait au sein des laboratoires des grandes entreprises du numérique. Il est difficile d’évaluer les effets sur la structure du champ de recherche. Ce sont également elles qui fournissent des infrastructures et des capacités de calcul à des chercheurs, producteurs de savoir et qui les financent. On peut légitimement s’interroger : toutes les voies techniques et scientifiques sont-elles explorées ? A quel point les problèmes abordés correspondent-ils aux besoins de ces acteurs ? Cette concentration de la production de savoirs et de connaissances pose question, il faudrait l’étudier !
La tâche de cartographie de l’anthropocène est immense, elle nous dépasse ! Nous essayons donc de partager, autant que faire se peut, du savoir-faire, de l’outillage, de la pratique, etc. avec d’autres acteurs, pour construire des communs de l’intelligence artificielle et de l’information géographique. Nous travaillons avec des associations et des collectifs de bénévoles impliqués sur les sujets technologiques comme DataForGood ou encore OpenStreetMap. Nous collaborons avec des acteurs économiques privés et industriels. Nous échangeons également avec des institutions publiques, parmi lesquelles l’Office national d'études et de recherches aérospatiales, l’Institut de recherche public œuvrant pour un développement cohérent et durable de l’agriculture, l’alimentation et l’environnement ou encore le Centre d'études et d'expertise sur les risques, l'environnement, la mobilité et l'aménagement.
L’intelligence artificielle est une alliée de choix pour mener à bien cette tâche. Ce constat est général, partagé par un certain nombre d’acteurs et c’est pour cela que nous le faisons ensemble.
[1] Selon l’article dédié de Wikipédia (consulté le 11 juillet 2022) : “L’anthropocène est une proposition d'époque géologique qui commencerait lorsque l'influence de l'être humain sur la géologie et les écosystèmes est devenue significative à l'échelle de l'histoire de la Terre.”
[2] Selon l’article dédié de Wikipédia (consulté le 25 juillet 2022), l’apprentissage machine est « un champ d’étude de l’intelligence artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux ordinateurs la capacité d’ « apprendre » à partir de données ».
[3] Pour aller plus loin, voir notamment le cours de 2018-2019 de Stéphane Mallat au Collège de France