Les rouages des sondages

Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges, et les statistiques. - Mark Twain

C'est la saison des sondages. Tous les dix changements d'heure, on s'en paye une bonne floppée à coup de qui va gagner, qui sera au second tour, qui perd des points et qui en gagne. Et à chaque fois je me dis que les commentaires sur les sondages, en plus d'être inintéressants, enduisent plein d'erreur sur les parois de nos jolis cerveaux.

Eh bien, cette année, j'ai décidé de décortiquer - euh, non, juste d'égratigner - une liste d'incertitudes dans les résultats de sondages.

Les indécis

Alors ça, c'est bien la seule source d'incertitude que les journalistes (ceux que j'entends le matin à la radio) citent. "Les sondages créditent X de seulement yy% d'intentions de votes. La stratégie consiste donc à rallier à lui les indécis", "Les indécis feront la différence". Oui, c'est vrai, quand on y pense. Vous êtes à table avec votre famille, le téléphone sonne, votre mari vous interpelle pendant que vous répondez au téléphone. Dans une oreille vous entendez : "Pour qui comptez-vous voter au premier tour ?" et dans l'autre "Je te sers tout de suite ?" Euh, là, franchement, vous ne savez pas trop pour qui vous allez voter, ni si les haricots verts seront encore chauds quand vous vous serez décidée. On a facilement envie de répondre un "Je ne sais pas" aux deux, de raccrocher, et de se servir soi-même.

Mais il y a aussi une autre possibilité. Vous n'êtes plus considérée comme une indécise, mais vous faussez quand même dangereusement le résultat du sondage si vous répondez "Tout de suite" à l'un, et vite-fait à l'autre. Parce qu'en vérité, vous hésitez encore un peu entre X et Y. Seulement, aujourd'hui, vous êtes plutôt Y. C'est un jour comme ça. Mais peut-être que vous changerez d'avis.

Les menteurs

Peut-être aussi que vous mentirez. Ca arrive assez souvent, on pense, dans les sondages politiques. Mais pour illustrer le mensonge de gros, je préfère l'exemple des études sur la sexualité. On demande à tout un tas de gens à quelle fréquence ils ont des rapports sexuels. Croyez-vous qu'ils répondent la vérité ? Eh bien non, on répond quelque chose entre la réalité telle qu'on la perçoit et ce qui nous paraît être la norme. Telle qu'on la perçoit : parce ce qu'à part quelques psychopathes, on ne coche pas sur un calendrier ses jours d'ébats. Donc on se fie à une mémoire qui arrange le passé à sa guise. Et on corrige cette donnée parce qu'on ne voudrait pas passer pour ce qu'on n'est pas. Par exemple, je suis une femme hétérosexuelle. Si un homme inconnu me téléphone pour me demander la fréquence de mes rapports sexuels, je n'aurai pas envie de lui répondre "Une fois tous les deux mois, et oui ce rythme me convient." mais pas non plus "Deux fois par jour. Non, je ne trouve pas cela assez fréquent." Je chercherai un truc entre les deux. "Suffisamment honnête." Et à la fin, les résultats du sondage fourniront des renseignements intéressants sur la façon dont les Français imaginent la fréquence normale de relations sexuelles.

En politique, l'effet existe aussi. On s'est rendu compte que beaucoup de gens ne veulent pas dire qu'ils comptent voter pour un parti extrémiste. Les résultats bruts des sondages sous-évaluent donc les intentions de votes pour ces partis... Mais attendez de lire la suite, avant de vous inquiéter, avec les 12% d'intention de vote pour M. Le Pen.

La marge d'incertitude

Sondage
Un vrai sondage de Fmurr, pour vote dans les alpages.

Bon, imaginons quand même que les 1000 personnes interrogées voteraient vraiment comme elles l'ont dit si les élections avaient lieu le jour même. Je dis 1000 parce que c'est la taille approximative de l'échantillon interrogé, en général. Eh bien là, c'est simple, les statisticiens montrent que la marge d'incertitude est d'environ 3%, pour un échantillon de 1000 personnes choisies aléatoirement pour représenter notre belle France. Ca ne signifie pas, ce qui serait trop beau, que le résultat donné est vrai à 3% près. Cela signifie que nous avons 95% de chances que le résultat donné soit vrai à 3% près.

Quand la Radio annonce :

  • le candidat X est crédité de 23% d'intentions de vote et le candidat Y de 21 %, l'écart est donc important !

Cela signifie donc :

  • 9,5 chances sur 10 pour que le candidat X soit le favori, actuellement, de 20 à 26% des Français et que le candidat Y soit le favori, lui, de 18 à 24% des Français.

Bref, d'un coup, l'écart ne paraît plus si important. Sans compter que si l'institut de sondage a eu un coup de pas de bol pas si improbable (1 chance sur 20) les vraies intentions de votes de tous les Français ne correspondent pas à ces intervalles-là (par exemple X est le favori de moins de 20% des Français, ou Y celui de plus de 24%)

Bien sûr, on pourrait réduire cette marge d'incertitude. Il suffirait d'augmenter l'échantillon. Mais pour une incertitude de + ou - 0,5%, il faudrait interroger 38000 personnes. Ca reviendrait au moins 38 fois plus cher. On ne fait pas.

La méthode des quotas

Heureusement, se dit-on, il y a la méthode des quotas. La méthode des quotas, c'est le grand truc des instituts de sondages pour montrer que leurs échantillons sont représentatifs. Le truc c'est de choisir des gens représentant la diversité des Français, en se fiant aux recensements. On répartit le nombre de personnes que l'on souhaite interroger par sexe, âge, catégorie socio-professionnelle et lieu d'habitation, en général. Ces critères seraient pertinents vis-à-vis de l'étude faite (les vieux votent plus ceci, les ruraux plus cela, les ouvriers sont sensibles à tels thèmes, les personnes de sexe masculin à tels autres...) A vrai dire, on aurait pu choisir aussi de faire des quotas en fonction de la couleur de la voiture, de la tension artérielle et du nombre d'heures de sommeil par nuit. Mais visiblement, ce n'est pas pertinent pour un sondage sur des intentions de vote.

Eh bien je me souviens que dans mes cours de statistiques, on m'avait appris que si on faisait un choix dans son échantillon, on augmentait la marge d'incertitude du résultat du sondage. Ces dernières années, pourtant, les instituts de sondages m'auraient presque fait douter de ce résultat. Mais j'ai lu ces derniers jours plusieurs articles de professeurs de mathématiques et ils confirment. La méthode des quotas ne peut qu'augmenter la marge d'incertitude.

Bref, en triant les personnes interrogées, on espère avoir un résultat plus proche de la réalité. Mais en attendant, on s'éloigne plus facilement de la vraie valeur.

Et ceux qui refusent de répondre

Et là-dessus, on a des quotas, mais on oublie une catégorie de personnes : ceux qui refusent de répondre aux sondages d'opinion. Et si ces personnes avaient un profil particulier ? Rien ne prouve que les personnes qui refusent de répondre soient un échantillon représentatif de tous les Français.

Prenons, pour s'en convaincre, l'exemple des très nombreux sondages marketing. On vous téléphone pour une enquête de consommation. Bon, je jette tout de suite un voile pudique sur la masse de personnes qui n'ont pas le téléphone. Mais par exemple, les adeptes de la non-consommation, de la décroissance, vous ne croyez pas qu'ils se situent sûrement plus massivement que d'autres dans la catégorie des personnes qui refusent de répondre aux sondages sur le nouveau nettoyant ménager OuplaOp ?

Les instituts de sondage ont des méthodes ultra-secrètes pour évaluer ce qu'auraient répondu les non-répondants s'ils acceptaient de répondre aux sondages... Mais comme la Le Pen, je traite cela un peu plus loin.

Le compte-rendu des résultats

Graphique
Ce graphique n'a pas de sens, et il est joli. Honnêtement, c'est déjà pas mal.

Ca, c'est connu, mais il faut le rappeler. Une fois que l'institut de sondage a ses résultats, il les fournit à son commanditaire, qui les publie comme il le veut. Eh bien on peut être facilement induits en erreur par la façon dont ces résultats sont diffusés.

  • A la radio, entre autres, on ne vous dit pas toujours à quelle question les personnes interrogées ont répondu. Il se trouve pourtant que la formulation d'une question influence la réponse. Vous ne répondrez pas forcément la même chose à "Qui est votre candidat préféré parmi... ?" et à "A l'élection présidentielle d'avril prochain, pour qui pensez-vous voter ?" Pensez par exemple à une personne qui aime beaucoup J. Promenade, mais qui se dit qu'il ne faut pas s'éparpiller et qu'il faut "Voter utile". A la question 1, il répond J. Promenade, mais à la 2, il donne le nom d'un candidat qui, à son avis, passera au second tour.
  • Vous ne savez pas non plus toujours quel est l'ensemble des questions posées, ni dans quel ordre. Si, par exemple, on vous pose de nombreuses questions sur le chômage en France avant de vous demander votre intention de vote, vous choisirez le candidat qui fait les meilleures propositions, à votre avis, concernant la politique de l'emploi. Mais si les questions précédant votre choix de candidat portaient sur l'écologie, ce sera ce biais qui vous influencera.
  • On ne sait pas, enfin, dans quel ordre les propositions de réponses ont été fournies. Pourtant, il est connu que l'on choisit plus facilement une des premières propositions, surtout si le choix est vaste.

Bref, l'image que l'on a de l'enquête effectuée et la véritable enquête peuvent être différents. Pourtant, on n'y pense pas toujours en lisant un résultat de sondage.

Et en plus, ce ne sont pas les vraies valeurs

Mais ce n'est pas tout. Je reviens enfin aux partis extrémistes et au clan de ceux qui ne veulent pas répondre aux sondages. Je l'avais promis et au moins cette promesse de temps électoral sera tenue. Je ne veux pas vous servir une pauvre théorie du complot. Mais seulement voilà. Les résultats de sondages publiés dans les journaux, à la radio, à la télé, ne sont pas les résultats que les instituts de sondages ont obtenu pendant leurs enquêtes. Ca, je dois l'avouer, je l'ai appris très récemment.

Pourquoi ne nous donne-t-on pas les vrais résultats ? Pour nous mentir ? Non, à vrai dire, mais bien plutôt pour se rapprocher de la réalité supposée de l'"ensemble des Français". Puisqu'on sait bien que les gens mentent sur leurs intentions de votes, puisqu'on se doute que ceux qui refusent de répondre correspondent majoritairement à certains courants, eh bien, on corrige les résultats bruts.

Le problème, c'est que nous citoyens pouvons ne pas être d'accord avec la façon dont ces résultats sont corrigés. Par exemple le FN a fait en 2004 aux régionales un score trois fois plus élevé que ce que les sondages prédisaient. L'idée est donc, à la louche, de multiplier par 3 les intentions de votes obtenues d'après les résultats bruts des sondages pour obtenir la valeur qui va être publiée. C'est une méthode assez grossière. Peut-être les instituts sont-ils plus finots. Malheureusement, ils font des pieds et des mains pour ne pas divulguer leurs méthodes de redressement, arguant du secret industriel ou un truc comme ça. En attendant, je ne vois pas comment on pourrait avoir confiance dans leurs méthodes de redressement s'ils ne nous fournissent pas plus de détails. Le peu qu'on trouve ne donne pas confiance.

Bref, rien ne prouve, en particulier pour les partis extrêmes, que les valeurs fournies par les sondages n'ont pas été gonflées démesurément par les instituts.

En résumé, je vous conseille d'aller voir un résumé des sondages parus récemment C'est intéressant de voir comment, à la même date, les points d'un candidat peuvent effectivement fluctuer de 3 ou 4 suivant le sondage (le choix de l'échantillon, l'orientation prise par l'institut, la méthode de redressement, etc.)

Finalement, le sondage a un effet inversé sur nos votes

Casse-toi pauvre fonte
Citation politique, juste pour le plaisir d'enrichir le débat

Bon allez, j'imagine quand même que le sondage est parfaitement fiable. Juste un coup. Eh bien, aussi incroyable que ça puisse paraître, il peut saper lui-même sa propre prévision.

Hypothèse. Le sondage est parfaitement fiable, donc il représente exactement les intentions de votes des électeurs le jour de l'enquête. Seulement voilà, il est publié, les électeurs le lisent. Ils sont influencés.

  • Cas 1 : les "petits partis" ne sont presque pas crédités d'intentions de votes. Beaucoup d'électeurs, voyant cela, se disent : le bon gros candidat plutôt de mon bord, il va passer au second tour. Pour qu'il comprenne bien comment je veux qu'il oriente sa politique, je vais voter pour le petit là-bas, plus proche de mes souhaits. C'est comme cela que les petits partis, parce qu'ils étaient crédités de peu d'intentions de vote, sont très choisis aux vraies élections. Au point même, en 2002, d'en voir un passer au second tour.
  • Cas 2 : les électeurs ont des choix très éclectiques. Ils veulent voter pour un peu tout le monde. Pas de bol, les plus gros partis se dégagent à peine, d'après les intentions de vote. Ou là là, le jour de l'élection, l'électeur a peur. Il ne faudrait quand même pas que l'on se retrouve avec deux de l'autre bord au second tour. Il faut absolument voter pour un gros parti, "faire barrage". Et donc, parce que beaucoup de gens voulaient voter pour des petits partis, finalement très peu l'on fait...

Conclusion

Les sondages ne sont donc pas si fiables. J'espère que maintenant vous en êtes convaincus. Regardons-les en gardant l'oeil critique, évitons de nous laisser influencer par eux. Et d'ailleurs, vous, candidats, évitez aussi de vous laisser influencer par eux. Les citoyens ont besoin de programmes défendus par des convictions, pas de propositions collant à "la majorité d'après un échantillon représentatif."

Mais il existe aussi de bons espoirs de voir les choses évoluer. Deux sénateurs, l'un PS, Jean-Pierre Sueur, et l'autre UMP, Hugues Portelli, ont rédigé une proposition de loi concernant la diffusion des résultats de sondages d'opinion. Elle a été adoptée à l'unanimité au Sénat en février 2011. Il reste encore du chemin à parcourir, ce ne sera pas pour ces présidentielles. Mais peut-être qu'aux prochaines, qui sait ?, la loi en question sera appliquée. Elle demande, entre autres, que les informations suivantes soient données :

  • le nombre de personnes interrogées et la méthode de choix (quota ou non ? Enquête par téléphone fixe, par Internet... ?)
  • l'évaluation de la marge d'erreur (au moins l'approximation optimiste du cas où l'échantillon aurait été totalement aléatoire)
  • le nombre de personnes ayant refusé de répondre.
  • le nom du commanditaire et de l'acheteur du sondage
  • les résultats bruts et la méthode de redressement (données accessibles sur un site Internet officiel)

C'est moins grandiloquent que les annonces du type "Nous allons créer un Fichier des Gangs Organisés". Mais justement, c'est agréable de suivre des propositions de lois qui ne nous prennent pas pour des cons.

Page générée par UWiKiCMS 1.1.8 le vendredi 19 avril 2024.
Copyright © 2012 Valérie Mauduit. Document placé sous licence GNU FDL.
Mis à jour le samedi 24 mars 2012.