Présidentielle: Le big data met un coup (de vieux) aux sondages
DONNEES•A l'approche du premier tour de la présidentielle, faut-il troquer les sondages contre le big data?...Laure Beaudonnet
Le big data est-il en train de gagner la bataille de la prédiction ? Personne n’avait vraiment vu venir Donald Trump à la Maison Blanche ni François Fillon au premier tour de la primaire de la droite et du centre. Le big data, si. La boule de cristal des sondages a l’air moins performante depuis le Brexit et l’opinion, de plus en plus volatile, semble difficile à saisir. A l’approche du premier tour de la présidentielle le 23 avril prochain, faut-il se tourner vers le big data et abandonner les sondages ? Quand même pas, non.
« Les résultats ne sont écrits nulle part sur Internet »
Qui dit « big data », dit flot des données - tweets, commentaires, bots, articles… - qui inondent le Web en continu. Filteris, basée au Canada, ou Linkfluence, en France, ont toutes les deux développé une technologie : des algorithmes capables de récolter l’ensemble de ces contenus publics en temps réel. Un méta-moteur de recherche récupère ces data qui sont ensuite catégorisées. Filteris, par exemple, utilise l’axiologie pour analyser les valeurs, elle regarde à qui sont associés les tweets et commentaires positifs (ou négatifs). Et les résultats sont publiés brut, sans être réajustés. « L’élection de Donald Trump, on l’a annoncée un mois avant. Son poids numérique était supérieur à celui de Hillary Clinton » Et, tenez-vous bien : « On peut être élu parce qu’on est plus visible sur le Web quand bien même on nous critiquerait ». Pour Jérôme Coutard, le président de Filteris, il y a une corrélation entre le poids numérique et le résultat du scrutin.
Mais prudence. « Les résultats de la présidentielle ne sont écrits nulle part sur Internet », explique Guilhem Fouetillou, cofondateur de Linkfluence, qui est beaucoup moins affirmatif que son confrère de la Belle Province. « On peut croiser les data dans tous les sens, tout dépend de ce qu’on mesure ». Jean-Luc Mélenchon est en tête du websocial car c’est le candidat qui l’utilise le mieux. Par contre, il se fait écraser par François Fillon si on regarde l’influence des partisans et des soutiens. Et celui qui a le plus gros écho en ligne sans bouger le petit doigt, c’est Emmanuel Macron. Et puis ces data, il faut en tirer quelque chose. C’est là qu’intervient Jean-Daniel Levy. Le directeur du département politique et opinion chez Harris Interactive (hoho, un institution de sondages...) donne un coup de main à Linkfluence pour interpréter avec finesse ces données.
Le big data est loin d’être parfait
Le big data ne mesure pas les intentions de vote, mais offre un nouvel angle de vue. Il donne des tendances, pas un classement d’opinions. « On peut suivre le terrain en temps réel, on arrive à avoir des indicateurs, mais il faut l’utiliser en complément », insiste Guilhem Fouetillou. Dire que les sondages ne voient plus rien, c’est faux. « Ils ont vu François Hollande en 2012, Nicolas Sarkozy en 2007. Aux Etats-Unis, si on s’en tenait au vote populaire, Hillary Clinton gagnait en voix », souligne Bruno Cautrès, directeur de recherche du CNRS au CEVIPOF à Sciences Po. La candidate démocrate a remporté deux millions de voix de plus que son rival. Certes, ils ont de plus en plus de mal à faire des photographies de l’opinion à un temps T et ils reposent sur du déclaratif, leur principale faiblesse. « C’est une bonne chose de comprendre quelles sont les limites de chacun, mais présenter le big data comme un sondage n’est pas exact. Les sondages restent des mesures de l’opinion, mais ils deviennent un outil parmi d’autres », reprend le chercheur.
Le big data observe son objet dans son écosystème naturel, mais il faut arrêter, il est loin d’être parfait le bonhomme. « Les algorithmes produisent leurs propres marges d’erreur vu qu’ils ne comprennent pas tout », met en garde Guilhem Fouetillou. Ils peinent à détecter l’ironie, le double-sens. Et surtout, ils n’ont pas accès à l’ensemble de la population de manière représentative. « Sur Twitter, on aura les moins de 35 ans mais pas les autres », note David Chavalarias, directeur de recherche au CNRS au Centre d’analyses de mathématiques sociales. Et si vous ne vous exprimez pas en ligne, votre avis ne sera tout simplement jamais pris en compte.
Le big data crée une rupture
La limite est surtout éthique. « La méthodologie n’est pas toujours transparente », rappelle David Chavalarias. Et les résultats ont un impact sur le vote. « Si on pense que Fillon a des chances au second tour, il sera renforcé », note le chercheur. « Il va falloir intégrer les données du big data aux sondages », analyse Jérôme Coutard de Filteris. Ce qui commence à être le cas. Les instituts s’y mettent doucement. Loin de mettre une claque aux enquêtes d’opinion, le big data crée une rupture dans les façons de faire. C’est l’avènement d’un système hybride. Et pour savoir qui passe au second tour ? Il va falloir attendre le 23 avril…