Grand débat national: Comment la société civile veut analyser les résultats

CIVIC TECH•La méthode choisie par le gouvernement pour analyser les contributions en ligne du grand débat national est critiquée et des citoyens ont lancé des projets complémentaires

Emmanuel Macron face à 600 maires lors d'un grand débat à Souillac (Lot), le 18 janvier 2019. - AFP

Laure Cometti

Publié le 22/02/2019 à 18h22 • Mis à jour le 22/02/2019 à 19h57

L'essentiel

Pour analyser les milliers de contributions postées sur le site du grand débat national, les prestataires privés choisis par le gouvernement ont opté notamment pour des outils algorithmiques.
Le choix de cette méthode est critiqué, et des initiatives citoyennes proposent d’autres techniques pour synthétiser et interpréter les résultats de la consultation qui doit se poursuivre jusqu’à la mi-mars, pour une restitution fin mars.

La masse de données a de quoi donner le vertige. Mardi, la mission du grand débat national annonçait que le cap du million de contributions en ligne avait été franchi. Invités à s’exprimer, notamment sur le site officiel, les internautes peuvent répondre à des questionnaires thématiques et partager leurs propositions jusqu’au 18 mars.

Pour analyser toutes les contributions des Français en un délai très court, le gouvernement a fait appel à OpinionWay. L’institut de sondages mise sur l’intelligence artificielle, un outil limité selon certains chercheurs et citoyens qui s’organisent pour étudier différemment les résultats de cette consultation.

Des algorithmes pour analyser des millions de mots

OpinionWay aura à peine deux semaines pour traiter toutes les contributions puisque la restitution publique du grand débat national est programmée par l’exécutif pour la fin mars. Le traitement des résultats des questionnaires fermés est relativement simple : l’entreprise comptabilisera les occurrences de chaque réponse pour obtenir des pourcentages, explique-t-elle dans un communiqué. Mais pour les verbatims publiés dans les questions ouvertes, l’affaire est plus compliquée.

OpinionWay a confié cette tâche à une entreprise française d’intelligence artificielle, Qwam. Grâce à « un outil d’analyse automatique des données textuelles en masse », elle assure pouvoir « traiter l’exhaustivité des verbatims ». Un choix critiqué, notamment par des spécialistes du traitement de données, ou data scientists. L’une d’elle nous raconte :

« La toute première contribution que j’ai lue, c’était une réponse à la question 'à qui faites-vous confiance ?'. L’internaute a écrit : 'à mon maire et mon député… Non je déconne, à moi-même !' Une phrase aussi simple que celle-ci, une machine ne la comprend pas… »

Concrètement, Qwam va utiliser des algorithmes scanner les contributions et trier les notions citées par les internautes. « Qwam utilise K-means, un outil assez connu qui permet de trier des données en repérant des champs lexicaux », explique Laurence Allard, maître de conférences à Lille/IRCAV - Paris. L’entreprise déclare coupler cet outil à du deep learning. « On s’inspire du réseau de neurones du cerveau. En plus de chercher des champs lexicaux, on étudie les relations entre eux. Par exemple : quels sont les mots associés aux champs lexicaux de la pollution et de l’écologie. Ce n’est plus seulement 'de quoi on parle ?' mais 'comment on en parle'. Même si on reste sur une méthode quantitative automatisée », poursuit la chercheuse.

Des outils sophistiqués mais limités ?

Pourquoi ce recours aux algorithmes fait-il débat ? « Le traitement par mot-clé n’est pas suffisant pour gérer ces textes, au mieux cela peut aider à identifier des thèmes, mais c’est du bluff, on balance ces mots magiques et techniques, mais en réalité, ils auront un mal fou à traiter toutes les contributions, et elles passeront à la trappe », estime Fabrice Epelboin, enseignant à Sciences Po Paris.

Ces outils ne sont-ils qu’un coup de com' utilisé par la start-up nation ? « Il y a des millions de mots à analyser, ce n’est pas faisable humainement, on a besoin de la machine », nuance Laurence Allard. Mais cette aide a des limites. « Si on ne s’en tient qu’à du tri et de l’association de mots, c’est pauvre, surtout dans le domaine politique, avec des enjeux de société », abonde Laurence Allard. « Il y a un curieux grand écart entre la sophistication outils et la pauvreté du résultat ».

Des lacunes également pointées par Camille*, data scientist qui a participé au lancement de « La Grande Annotation », un site pour analyser les contributions du grand débat. « L’intelligence artificielle ne peut pas saisir toute la richesse des contributions, car elle va passer à côté du style, de l’humour, ou des contributions analysées comme hors sujet », s’inquiète Camille, qui plaide pour que l’intelligence collective soit complémentaire du travail de l’intelligence artificielle. « J’ai lu un message de trois pages sur l’hospitalisation à domicile, très riche, mais posté dans une question qui ne porte pas sur ce thème, et qui va donc passer à la trappe si elle n’est pas lue par des humains »

L’intelligence humaine collective à la rescousse

« On pense aussi que c’est important que ces textes soient lus par des humains, en particulier issus de milieux aisés, ou dans les ministères ». Sur le site Grandeannotation.fr, soutenu par le collectif Code for France, les internautes peuvent s’inscrire pour lire les propositions des internautes et les classer par thématiques, pour « faire émerger les idées les plus répandues et regrouper les réponses similaires ». Une manière de compléter l’analyse quantitative avec une lecture humaine qualitative. Un peu plus de 200 personnes ont commencé à relire les verbatims, selon Camille. « On ne pourra pas tout lire, il nous faudrait des milliers de bénévoles », prévient-elle.

Il n’y a pas que le fond des contributions qui intéresse les citoyens. Des chercheurs ont lancé l'Observatoire des débats pour suivre environ 60 réunions locales par semaine, tirées au sort. Quelque 175 chercheurs et étudiants, bénévoles, participent. « Nous nous intéressons principalement au processus : quel est le dispositif de concertation, comment le débat est organisé, quelle est la capacité de chacun à s’exprimer, qui anime… », explique Pierre-Yves Guihéneuf de l’Institut de la concertation et de la participation citoyenne (ICPC). L’observatoire prévoit de scruter 350 à 400 débats afin « d’en tirer des enseignements méthodologiques pour l’avenir ». Le collectif réfléchit aussi à une façon d’analyser les contributions en ligne. La masse de données pourrait aussi être élargie aux autres plateformes de débat lancées en parallèle du site du gouvernement. Ainsi, sur «Le vrai débat», des dizaines de milliers de propositions ont déjà été postées par les internautes.

*Le prénom a été changé.