L’open data au service de la démocratie

Pour le 51e ASDN, nous avons reçu Samuel Goëta pour échanger autour de son ouvrage Les données de la démocratie. Quel rôle l’open data, et plus largement la culture des données, jouent-ils dans nos vies démocratiques ? Quels en sont les potentiels ? 4 questions pour explorer le sujet.

Quelle est la genèse de votre livre ?

J’ai commencé à m’intéresser à l’open data dans le cadre de ma thèse en 2012, au moment où ce sujet était au cœur de l’actualité. Je pense qu’il est plus intéressant d'étudier les technologies quand les usages se massifient que lors de leur émergence. Il est passionnant de voir les usages numériques qui n'auraient pas pu avoir lieu sans l'open data, par exemple Pokémon Go qui utilise les données d'OpenStreetMap, Yuka qui a utilisé les données d'Open Food Facts ou bien encore CovidTracker pendant la pandémie. Derrière ces initiatives, ce sont des données ouvertes qui ont été utilisées, et ces pratiques sont maintenant entrées dans le quotidien des Français.

Il ne faut cependant pas mettre de côté le rôle démocratique de l'ouverture des données. On oublie souvent de dire que les données jouent un rôle démocratique extrêmement important. Le fait d'accéder aux données dans leur plus grande précision permet de refaire les calculs, de vérifier les informations affirmées… Pour le dire autrement, l'open data peut, pour moi, réduire les asymétries d'informations entre l'administration et la société, et c’est justement ce qui m’intéresse.
On m’interroge souvent sur le choix d’une abeille sur la couverture. Tout comme l'abeille est essentielle à la biodiversité, les données sont essentielles à la vie démocratique. Cette image sert aussi à montrer la fragilité de cet écosystème qui repose sur le travail et la détermination de peu de personnes à tous les niveaux. L’open data en France est un écosystème qui est essentiel à la vie démocratique. Mais cet écosystème est fragile et repose sur des bonnes volontés, il pourrait disparaître si on ne le soutient pas. J'essaie dans ce livre, de défendre le rôle primordial des données dans la démocratie et la nécessité d'en faire un objet au service des contre-pouvoirs dans le débat démocratique.

Vous mentionnez à de nombreuses reprises l’importance de la culture des données, que vous nommez également « data literacy ». Quelles en sont les ambitions? Quelles pistes pour la développer ?

L'ambition de la data literacy est de considérer qu'utiliser, comprendre les données est une compétence essentielle, comme lire, écrire ou compter. Cette idée a été développée par l'ONU dans un rapport qui s'appelle A World That Counts et popularisée en France par la FING.  Évidemment, c'est un objectif qui n'est pas atteignable à court terme. En revanche, avoir des notions de culture critique des données me paraît assez indispensable dans l'environnement informationnel que nous côtoyons - où les données sont utilisées comme un argument d'autorité qui s'impose à nous. Il s’agit alors de réussir à démocratiser la compréhension et l'usage des données.

Il y a plusieurs manières d’atteindre cet objectif et les initiatives sont déjà nombreuses ! Certaines pistes sont abordées dans le livre - notamment en intégrant l'open data dans les programmes scolaires et universitaires ou encore en favorisant les programmes audiovisuels qui font un travail de médiation des données intéressant. On peut aussi évoquer la belle idée de la FING avec les infolabs, à savoir des espaces dans lesquels on peut débattre et discuter des données. Il y a des rapprochements encore à faire avec le secteur de la médiation numérique.

Vous montrez dans votre livre la fin du mythe de l’ouverture pour l’ouverture, que l’open data serait « bien en soi » et qu’il ne nécessiterait pas de justification. En quoi faut-il changer d’approche selon vous ?

L’open data en France  est un peu comme la tour de Pise, c'est-à-dire un bel édifice qui attire les visiteurs du monde entier. Notre pays est en tête des classements internationaux et a affirmé son attachement aux politiques d’ouverture des données dans le cadre de la définition de la boussole numérique européenne. Cependant, la tour de Pise penche parce que ses fondations sont instables. Ces fondations, c'est le droit d'accès.

Un changement d’approche nécessiterait d’entamer 3 grands chantiers :

  • Le premier consisterait à rapprocher open data et droit d'accès aux documents administratifs et de rappeler l'importance cruciale de la transparence administrative. Il faut qu'il y ait une prise de conscience sur le fait que le droit d'accès est un droit reconnu à valeur constitutionnelle depuis 2020. Pour que le droit d'accès soit respecté, il faudrait que les routines se développent dans les administrations et que les réticences soient sanctionnées quand c'est nécessaire. Aujourd'hui, la transparence est une exception plutôt que la règle. J’aborde dans le livre la question de l'émergence des communs de données, comme Open Food Fact, OpenStreetMap ou encore Wikidata. Ce que je constate c'est que l'approche des communs est intéressante pour rompre avec la situation où l'administration ne dialogue pas, ou trop peu, avec ses usagers.
  • Le deuxième chantier résiderait dans ce que certains appellent “les politiques de troisième vague de l'open data”. La première vague concerne le droit d'accès et la deuxième vague les politiques d'open data par défaut. La troisième vague consisterait à fixer des objectifs d'impact à l'ouverture des données et de travailler en bâtissant des coalitions avec les acteurs de la société civile au sens large. La limite des politiques d'open data, c'est de n’ouvrir que des données qui existent. Dans certains cas les données manquent et seraient pourtant utiles à la vie démocratique.
  • Enfin le troisième chantier serait la réduction des fractures territoriales. Il faut donner des moyens aux collectivités qui ne se sont pas encore saisies de leurs obligations d'ouverture des données en leur montrant que l'open data est un levier très fort de culture numérique. Je pense qu’il est aussi nécessaire de penser tous les pans de l'administration qui ne se sont pas saisis de l'ouverture des données - évidemment toute l'administration déconcentrée mais aussi les universités, les hôpitaux…

En quoi l’arrivée sur les marchés des IA génératives est-elle susceptible de modifier notre rapport collectif aux données ouvertes ? Comment mettre en place un débat démocratique sur ce sujet ?

Les données publiques ont servi à entraîner certains modèles d’IA. Par exemple, les transcriptions de certains procès ont servi à peaufiner les techniques de traitement du langage comme l’a montré Kate Crawford dans son Contre Atlas de l’Intelligence Artificielle. Et les documents traduits massivement par l’Union européenne ont constitué des données d'entraînement considérables pour les outils de traduction comme DeepL. Le développement et la généralisation de l'IA engendrent des questionnements sur l'usage des données. C’est une question qui a été beaucoup abordée par les collectivités territoriales, par l'État et par les géants du numérique. Cependant, nous observons que ce sont surtout les données non structurées - donc des images, du texte, des vidéos, des photos - qui vont être réellement utilisées pour l'entraînement des modèles d'IA. Ces données ont été moins investies dans les projets d'open data jusque-là et le développement de l’IA nous permet de les analyser, de leur donner du sens. Opendatasoft par exemple est en train de lancer des fonctionnalités pour interroger directement les jeux de données en langage naturel.

Le développement de l'IA va probablement permettre de questionner certains présupposés de départ de l'open data comme l'association automatique entre ouverture et transparence. C’est une rhétorique dont a beaucoup usé Mistral dans les débats sur l’IA Act : un modèle ouvert serait nécessairement « transparent » et pourrait échapper à certaines règles de transparence. En réalité, le fait qu'un modèle soit ouvert ne nous permet pas vraiment de comprendre comment il a été entraîné et renforcé. Ce biais-là va donc être questionné de plus en plus, et ce n'est pas forcément une mauvaise chose, y compris pour le mouvement de l'open data.

Événement