Pourquoi trop de preuves peut être une mauvaise chose

Le paradoxe de l'unanimité

Selon l'ancienne loi juive, si un suspect était jugé à l'unanimité par tous les juges, le suspect était acquitté. Ce raisonnement semble contre-intuitif, mais les législateurs de l'époque avaient remarqué qu'un accord unanime indiquait souvent la présence d'une erreur systémique dans le processus judiciaire, même si la nature exacte de l'erreur restait à découvrir. Ils ont intuitivement pensé que lorsque quelque chose semble trop beau pour être vrai, il est fort probable qu'une erreur a été commise.

Dans un article paru dans The Proceedings de la Royal Society A, une équipe de chercheurs, Lachlan J. Gunn, et al., d'Australie et de France, a approfondi cette idée, qu'ils appellent le «paradoxe de l'unanimité».

«Si de nombreux témoins indépendants témoignent à l'unanimité de l'identité du suspect d'un crime, nous supposons qu'ils ne peuvent pas tous se tromper», a déclaré le coauteur Derek Abbott, physicien et ingénieur électronique à l'Université d'Adélaïde en Australie. «L'unanimité est souvent considérée comme fiable, mais il s'avère que la probabilité qu'un grand nombre de personnes soient toutes d'accord est faible, de sorte que notre confiance dans l'unanimité est mal fondée. Ce paradoxe de l'unanimité montre que nous sommes souvent beaucoup moins certains que nous ne le pensons.»

L'accord improbable

Les chercheurs ont démontré le paradoxe dans le cas d'une procédure judiciaire moderne d'identification, lors de laquelle les témoins tentent d'identifier le suspect à partir d'un panel de plusieurs personnes. Les chercheurs ont montré que, à mesure que le groupe de témoins  unanimes augmente, la probabilité qu'ils soient fiables diminue jusqu'à ce qu'elle ne soit pas meilleure qu'une décision au hasard.

Dans les identifications judiciaires, l'erreur systémique peut être n'importe quel type de biais, comme la façon dont la liste est présentée aux témoins ou une partialité personnelle des témoins eux-mêmes. Fait important, les chercheurs ont montré que même un tout petit biais peut avoir une très grande incidence sur les résultats dans leur ensemble. Plus précisément, ils montrent que lorsque seulement 1% des identifications présentent un biais envers un suspect particulier, la probabilité que les témoins aient raison commence à diminuer après seulement trois identifications unanimes. Contre toute attente, si l'un des nombreux témoins identifiait un suspect différent, la probabilité que les autres témoins soient fiables augmenterait considérablement.

La raison mathématique pour laquelle cela se produit est expliquée en utilisant l'analyse bayésienne, qui peut être comprise de manière simpliste en regardant une pièce de monnaie truquée. Si une pièce truquée est conçue pour atterrir sur face 55% du temps, alors vous seriez capable de dire après avoir enregistré assez de lancers de pièces que face revient plus souvent que pile. Les résultats n'indiqueraient pas que les lois de probabilité pour un système binaire ont changé, mais que ce système particulier n'est pas fiable. De la même manière, il est si peu probable d'obtenir un grand nombre de témoins unanimes, selon les lois de la probabilité, qu'il est plus probable que le système soit biaisé.

Les chercheurs disent que ce paradoxe surgit plus souvent qu'on pourrait le penser. Un accord large et unanime reste une bonne chose dans certains cas, mais seulement lorsqu'il y a un biais nul ou presque nul. Abbott donne un exemple dans lequel les témoins doivent identifier une pomme dans un alignement de bananes – une tâche si facile qu'il est presque impossible de se tromper –, et donc un accord unanime devient beaucoup plus probable.

D'autre part, une identification judiciaire est beaucoup plus compliquée que celle avec une pomme parmi les bananes. Des expériences avec des crimes simulés ont montré des taux d'erreur d'identification allant jusqu'à 48% dans les cas où les témoins ne voient l'auteur que brièvement lorsqu'il fuit une scène de crime. Dans ces situations, il serait hautement improbable de trouver un accord large et unanime. Mais dans une situation où les témoins avaient chacun été indépendamment pris en otage par l'auteur sous la menace d'un fusil pendant un mois, le taux d'erreur d'identification devraiet être très inférieur à 48%, et donc l'ampleur de l'effet serait probablement plus proche de celui de l'alignement de bananes plutôt que celui avec des criminels brièvement aperçus.

De vastes implications

Le paradoxe de l'unanimité a de nombreuses autres applications au-delà de l'arène juridique. Une application importante, dont les chercheurs discutent dans leur document, est la cryptographie. Les données sont souvent chiffrées en vérifiant qu'un nombre gigantesque fourni par un adversaire est premier ou composite. Une façon de faire est de répéter un test probabiliste appelé le test de Rabin-Miller jusqu'à ce que la probabilité qu'il comprenne un composite comme nombre premier soit extrêmement faible: une probabilité de 2-128 est généralement considérée comme acceptable.

L'échec systémique qui se produit dans cette situation est une erreur de l'ordinateur. La plupart des gens ne considèrent jamais la possibilité qu'un rayon cosmique vagabond puisse modifier un bit ce qui, à son tour, fait que le test accepte un nombre composite comme un nombre premier. Après tout, la probabilité qu'un tel événement se produise est extrêmement faible, environ 10-13 par mois. Mais la chose importante est que c'est plus grand que 2-128, donc même si le taux d'échec est si minuscule, il domine le niveau de sécurité désiré. Par conséquent, le protocole cryptographique peut sembler plus sûr qu'il ne l'est en réalité, car les résultats de tests qui semblent indiquer un niveau de sécurité élevé sont en réalité beaucoup plus susceptibles d'indiquer une défaillance de l'ordinateur. Afin de vraiment atteindre le niveau de sécurité souhaité, les chercheurs recommandent que ces erreurs «cachées» soient réduites à un niveau aussi proche de zéro que possible.

Le paradoxe de l'unanimité est peut-être contre-intuitif, mais les chercheurs expliquent que cela a du sens une fois que nous avons des informations complètes à notre disposition.

«Comme avec la plupart des "paradoxes", ce n'est pas que notre intuition soit nécessairement mauvaise, mais que notre intuition a été mal informée», a déclaré Abbott. «Dans ces cas, nous sommes surpris parce que nous ne sommes tout simplement pas conscients que les taux d'identification des témoins sont en fait si mauvais, et nous ne sommes pas conscients que les taux d'erreurs sur les ordinateurs sont importants en matière de cryptographie.»

Les chercheurs ont noté que le paradoxe de l'unanimité est lié à l'hypothèse de Duhem-Quine, qui stipule qu'il n'est pas possible de tester une hypothèse scientifique isolément, mais plutôt que les hypothèses sont toujours testées en tant que groupe. Par exemple, une expérience teste non seulement un certain phénomène, mais aussi la fonction de correction des outils expérimentaux. Dans le paradoxe de l'unanimité, ce sont les méthodes – les «hypothèses auxiliaires» – qui échouent et réduisent à leur tour la confiance dans les principaux résultats.

D'autres exemples

D'autres domaines où le paradoxe de l'unanimité apparaît sont nombreux et divers. Abbott décrit plusieurs ci-dessous, dans ses propres mots:

1) Le récent scandale Volkswagen est un bon exemple. L'entreprise a frauduleusement programmé une puce informatique pour faire fonctionner le moteur dans un mode qui minimise les émissions de carburant diesel lors des essais d'émissions. Mais en réalité, les émissions ne répondaient pas aux normes lorsque les voitures roulaient sur la route. Les faibles émissions étaient trop constantes et «trop belles pour être vraies». L'équipe des émissions de Volkswagen a commencé à se méfier quand elle a découvert que les émissions étaient presque au même niveau, que la voiture soit neuve ou âgée de cinq ans! La cohérence a trahi le biais systémique introduit par la puce informatique néfaste.

2) Un cas célèbre où des preuves accablantes étaient «trop belles pour être vraies» est survenu entre 1993 et ​​2008. La police en Europe a trouvé le même ADN féminin dans environ 15 scènes de crime en France, en Allemagne et en Autriche. Ce tueur mystérieux a été surnommé le Fantôme de Heilbronn et la police ne l'a jamais trouvée. La preuve d'ADN était cohérente et écrasante, mais c'était faux. Il s'est avéré être une erreur systémique. Les cotons-tiges utilisés pour recueillir les échantillons d'ADN ont été accidentellement contaminés, par la même dame, dans l'usine qui fabriquait les écouvillons.

3) Quand un gouvernement remporte une élection, on se plaint que le parti de son choix gagne souvent avec une marge relativement faible. Nous souhaitons souvent que notre parti politique favori gagne avec des votes unanimes. Cependant, si cela se produisait, nous serions amenés à soupçonner un biais systémique causé par le truquage des votes. Une légende urbaine persiste que Poutine a gagné 140% (!) des voix; si cela est vrai alors la démocratie aurait clairement échoué dans ce cas. Le message à retenir est que, dans une démocratie saine, quand un parti gagne par une faible marge, au lieu de qualifier de «stupides» les électeurs de l'opposition, nous devrions célébrer le fait que les électeurs adverses ont préservé l'intégrité de la démocratie.

4) En science, la théorie et l'expérience vont de pair et doivent se soutenir mutuellement. Dans chaque expérience, il y a toujours du «bruit» et il faut donc s'attendre à une erreur. Dans l'histoire de la science, il y a un certain nombre d'expériences célèbres où les résultats étaient «trop beaux pour être vrais». Il y a beaucoup d'exemples qui se sont embourbés dans la controverse au cours des années, et les plus célèbres sont l'expérience de la goutte d'huile de Millikan pour déterminer la charge de l'électron et les expériences de sélection des plantes de Mendel. Si les résultats sont trop clairs et ne contiennent pas de bruit et de valeurs aberrantes, nous pouvons être amenés à soupçonner une forme de biais de confirmation introduite par un expérimentateur qui sélectionne les données.

5) Dans de nombreuses réunions de comités, dans les grandes organisations d'aujourd'hui, il y a une tendance à l'idée que les décisions doivent être unanimes. Par exemple, un comité qui classe les candidats ou évalue les indicateurs de performance clés (KPI) argumentera souvent jusqu'à ce que tout le monde dans la salle soit d'accord. Si un ou deux membres sont en désaccord, le reste du comité a tendance à les convaincre avant de passer à autre chose. Un message à retenir de notre analyse est que la voix dissidente devrait être la bienvenue. Un comité avisé devrait accepter cette divergence d'opinions et simplement noter qu'il y avait un désaccord. L'enregistrement du désaccord n'est pas un négatif, mais un résultat positif qui démontre qu'un biais systémique est moins probable.

6) Eugene Wigner a une fois inventé l'expression «l'efficacité déraisonnable des mathématiques» pour décrire le sentiment plutôt étrange que les mathématiques semblent si parfaitement adaptées à la description des théories physiques. D'une certaine manière, Wigner exprimait l'idée que les mathématiques étaient «trop bonnes pour être vraies». (Voir cet article pour plus d'informations sur cette idée.) La réalité est que les appareils et les machines modernes ne sont plus analysés par des équations mathématiques analytiques soignées, mais par des formules empiriques intégrées dans des outils logiciels de simulation. Pour certaines des prochaines grandes questions scientifiques, en particulier dans le domaine des systèmes complexes, nous nous intéressons aux big data et à l'apprentissage automatique plutôt qu'aux mathématiques. Le calcul analytique tel que nous le connaissions n'était pas l'outil parfait qui pouvait s'adapter à tous les types de problèmes. Alors, comment avons-nous été séduits en pensant que les mathématiques étaient «déraisonnablement efficaces»? C'est le biais de confirmation systémique introduit par le fait que pour chaque grand article scientifique que nous lisons avec une formule élégante, il y a beaucoup plus de formules rejetées qui ne sont jamais publiées et que nous ne voyons jamais. Les maths que nous avons aujourd'hui ont été choisies avec soin.

Via : https://phys.org/news/2016-01-evidence-bad.html

Traduction : Christopher Compagnon