L'IA se trompe-elle plus souvent que vous ne le pensez ?

Près de la moitié des Américains utilisent l'IA pour trouver des informations. Mais à quel point peut-on lui faire confiance ? Un fact-checker de WIRED a mené l'enquête.

Près de la moitié des Américains déclarent utiliser l'intelligence artificielle pour trouver des informations ou générer des idées. Ce n’est pas difficile à comprendre. À l’heure où les réseaux sociaux se transforment en décharge à contenu et où Google ressemble de plus en plus à une page d’accueil géante pour des fils Reddit et des fermes de contenu, la plupart d’entre nous sont en quête de quelque chose de fiable. Et puis, les chatbots sont si utiles, non ? La première fois que j’en ai utilisé un, je lui ai demandé s’il savait qu’il consommait énormément de ressources. Une demi-heure plus tard, j’avais une nouvelle recette de fromage végétal.

Je n’ai jamais essayé cette recette. À la place, j’ai trouvé une recette humaine que l’IA aurait pu piller sur le web. C’est comme ça que ces modèles fonctionnent, bien sûr. Ils reconditionnent les connaissances collectives en quelque chose qui semble fait sur mesure pour vous. Cela peut être acceptable pour des alternatives laitières (sauf si vous êtes blogueur vegan). Mais quand il s’agit de comprendre le monde et la vérité — le cœur de mon métier de fact-checker chez WIRED — les enjeux sont exponentiellement plus élevés.

Les chatbots ne savent pas qu’ils se trompent environ une fois sur deux.

LES FACT-CHECKERS, CES "CABALISTES" DE LA VÉRITÉ

Depuis un an ou deux, de plus en plus de gens me regardent avec une pitié évidente. Sûrement qu’un fact-checker dans un magazine n’a pas d’avenir dans un monde boosté par l’IA, me disent-ils. Appelez-moi naïf, mais je ne m’inquiète pas plus que ça. Très peu des connaissances collectives de l’humanité, en ai-je conclu, ne vivent sur internet. Et selon mes recherches, l’IA se trompe encore plus souvent qu’on ne pourrait le penser.

Tom Wolfe voyait les fact-checkers, d’après l’écrivain Colin Dickey, comme « une cabale de femmes et d’éditeurs moyens collaborant pour harceler et émasculer le texte du Grand Écrivain ». Ce n’est pas une mauvaise définition (même si mon patron et beaucoup de mes collègues sont des hommes). Que voulez-vous, c’est notre métier, contrairement à celui de l’IA, d’être pénibles.

UNE MÉTHODE ANCIENNE, RIGOUREUSE ET HUMAINE

Le service de fact-checking de WIRED est une institution à l’ancienne : des annotations méticuleuses ligne par ligne, des sources primaires chaque fois que c’est possible, et une revue éthique et légale à plus grande échelle. Nous remettons en question les hypothèses de base, cherchons des informations nouvelles ou contradictoires, appelons et parlons aux gens — pour être sûrs. C’est une revue par les pairs en temps réel, fonctionnant au mieux au même rythme que l’actualité elle-même.

Pour autant que je puisse le dire, l’IA n’a pas encore remplacé ce processus. Ce qu’elle a remplacé, c’est le fact-checking a posteriori, l’analyse façon Snopes de la factualité d’une information après coup. Au Royaume-Uni, une initiative appelée Full Fact a développé ses propres Outils d’IA pour aider à contrer la propagation de désinformation. Ces outils, utilisés dans plus de 40 pays, traitent d’énormes volumes de données, des publications sur les réseaux sociaux aux transcriptions de podcasts, puis repèrent des affirmations spécifiques que des humains peuvent ensuite examiner plus en détail. « On a définitivement besoin d’un être humain », déclare Mark Frankel, responsable des affaires publiques chez Full Fact.

L’IA se trompe dans plus de 60 % des cas selon une étude de 2025.

L’IA SE TROMPE PLUS SOUVENT QUE VOUS NE LE PENSEZ

La raison est simple : l’IA se trompe encore. En tant que fact-checker, j’aimerais pouvoir vous dire exactement à quelle fréquence. Mais ce n’est pas si facile. Depuis 2018, près de 17 000 articles ont été publiés sur arXiv concernant les grands modèles de langage (LLM), beaucoup se concentrant spécifiquement sur la question de leur fiabilité. Pourtant, il vaut la peine d’essayer de trouver un chiffre approximatif.

Dans tout article qui arrive sur le bureau de fact-checking de WIRED, il y a généralement une bonne dose de « matière secondaire » : statistiques, événements d’actualité, citations, tout ce qui aide à contextualiser le sujet. Les fact-checkers ont tendance à chercher ces informations de base sur Google, et ce processus, sous la forme des fameuses aperçus IA de Google, constitue ma principale interaction avec l’IA. À mon avis professionnel, c’est inutilisable — faux — environ un tiers du temps.

Ce chiffre pourrait être généreux, cependant. Une étude de mars 2025 du Tow Center for Digital Journalism a révélé que plus de 60 % des réponses des moteurs de recherche alimentés par l’IA étaient inexactes. Une étude de la BBC place le taux d’erreur des chatbots autour de 45 %, un chiffre que je vois souvent cité. Parce que les pourcentages sont froids, laissez-moi vous l’expliquer plus simplement : l’IA pourrait se tromper environ une fois sur deux.

QUEL MODÈLE D’IA EST LE PLUS FIABLE ?

Elon Musk affirme que Grok est le plus intelligent, mais je n’ai pas vu beaucoup d’études qui soient d’accord. Claude a mené le classement dans RealFactBench, un test de référence axé sur le fact-checking développé l’an dernier par des informaticiens en Chine et au Royaume-Uni. Il a obtenu un score de précision de 73 % sur l’ensemble des critères. (Pour être juste, Grok n’a pas été évalué.) Un autre benchmark, SimpleQA, développé par OpenAI en octobre 2024, a posé plus de 4 000 questions à réponses uniques à des modèles d’OpenAI et d’Anthropic. Aucun des modèles n’a dépassé les 50 % de précision. Google a mis à jour le benchmark plus tôt cette année, réduisant l’ensemble des questions à 1 000. Le modèle Gemini 2.5 Pro s’est classé en tête avec 55,6 % de précision.

Et puis il y a les propres évaluations des modèles. Quand j’ai demandé à ChatGPT quelle était la précision des principaux LLM, il m’a répondu que la plupart des modèles avaient entre 90 et 96 % de précision sur certains tests de type professionnel. Il m’a ensuite proposé un lien, de manière déroutante, vers un article sur un examen de certification en médecine du sommeil. Sur des « questions générales du monde réel », il m’a simplement donné le taux auquel les modèles comme lui ont été montrés pour halluciner : entre 1 et 2 %, apparemment. Pourtant, quand j’ai essayé de cliquer sur la source qu’il mentionnait, elle n’existait pas.

Aucun modèle n’a dépassé les 50 % de précision sur SimpleQA.

L’IA DEVIENT-ELLE PLUS FIABLE AVEC LE TEMPS ?

Certains affirment que les modèles deviennent plus intelligents, mais cela ne signifie pas forcément qu’ils hallucinent moins. En réalité, cela pourrait signifier l’inverse : une forme de surcompensation enracinée dans leur besoin programmé de faire plaisir aux utilisateurs. Dans un rapport de 2025 sur l’avenir de l’IA publié par l’Association for the Advancement of Artificial Intelligence, 60 % des chercheurs interrogés doutaient que le problème de la factualité soit résolu de sitôt.

LES CANDIDATS AU FACT-CHECKING TESTÉS PAR L’IA

Quand des aspirants fact-checkers postulent pour un poste, la plupart passent un test. Dans mon cas, le test portait sur une histoire prétendant révéler un roi des appels automatisés, et j’ai dû rédiger une note détaillant comment je vérifierais l’exactitude de l’article. À la fin, trois questions rapides visaient à évaluer comment je gérerais des faits isolés.

Récemment, j’ai ressorti ce vieux test et l’ai soumis aux versions gratuites de ChatGPT, Claude, Gemini et Grok.

Grok a surgi comme si je l’interrompais en pleine soirée : « Oui, je sais exactement ce qu’est le fact-checking. » Bon. Il a beaucoup parlé de biais et a mis les mots « crédible » et « vérité » entre guillemets très bruyants. Il était aussi obsédé par les données, au point de proposer de collecter et d’analyser plus de données que ce qui serait jamais praticable ou possible pour un fact-checker en activité. Il a tout de même, à ma grande surprise, souligné que le fact-checking était historiquement un travail de femmes.

Claude et Gemini s’en sont plutôt bien sortis. Ils ont compris la tâche, proposé une approche raisonnable, et même repéré des problèmes juridiques potentiels. Gemini m’a cependant donné cette phrase très gênante : « Je chercherais des ‘traces de papier’ pour étayer les ‘traces de personnes’. »

ChatGPT semblait trop enthousiaste et peu sûr de lui. Il parlait en jargon et en généralités. La méthode qu’il proposait semblait très chronophage (y compris la création d’une grille de fact-checking où chaque phrase était découpée et diagrammée). Il m’a proposé de me montrer comment il « marquerait » le texte, « exactement comme un fact-checker professionnel ». Puis il a généré un paragraphe qui n’existait pas dans l’histoire. Nous avons essayé cela pendant un moment, puis il a proposé de vérifier un vrai paragraphe pour moi. Je lui ai donné une sélection assez facile à vérifier sur Google, mais il n’a en réalité vérifié aucun fait. Aucun des modèles ne l’a fait. Ils m’ont tous donné un plan d’attaque, m’ont dit exactement ce qu’ils feraient, puis se sont arrêtés avant de le faire vraiment.

Les IA proposent des plans d’action mais ne vérifient jamais les faits.

FAUT-IL BOYCOTTER L’IA ?

« Je ne pense pas qu’il soit envisageable de laisser de côté l’IA comme une simple mode ou quelque chose qui n’impactera pas de manière dramatique la façon dont les gens trouvent l’information », déclare Angie Holan, directrice du Réseau international de fact-checking, une initiative du Poynter qui relie plus de 170 organisations de fact-checking à travers le monde. Holan affirme se sentir plus à l’aise avec l’IA que certains de ses collègues. Si un modèle vous guide vers des sources autoritaires que vous pouvez vérifier vous-même, alors c’est utile, dit-elle. Les fact-checkers, journalistes, bibliothécaires, archivistes — tous devraient utiliser ces modèles et apprendre comment ils fonctionnent : « C’est comme ça que vous comprendrez leurs forces et leurs faiblesses », explique-t-elle.

Je ne suis pas en désaccord. En réalité, plus je passe de temps avec l’IA, plus je me sens capable en tant que fact-checker humain.

CE QUE L’IA NE POURRA JAMAIS FAIRE

Une fois qu’on a dépassé les informations faciles à vérifier en ligne, mon travail devient vraiment passionnant. C’est pourquoi je frissonne encore quand je trouve une information qui n’existe pas sur internet — un panneau particulier à un passage frontalier, les taux de croissance des algues dans deux climats différents, ou encore s’il y avait un Burger King à une intersection précise de Los Angeles en 1979. Les systèmes d’IA ne peuvent pas rester au téléphone avec une veuve pendant plus d’une heure parce que poser des questions difficiles a réveillé une source de chagrin qui nécessitait des soins et une écoute humaine. Ils ne peuvent pas détecter qu’il y a des tensions entre deux sources qui brouillent les frontières de ce qui compte comme « factuel ». Ils ne peuvent pas comprendre qu’un email avec la phrase « Merci pour votre email . » peut, peut-être, être passivement hostile.

La plupart des supports physiques du monde restent hors ligne. Dans Lost in Time: Our Forgotten and Vanishing Knowledge, Jack Bialik souligne que les technologies et les bases de connaissances que nous pensions récentes sont en réalité, dans de nombreux cas, vieilles de plusieurs millénaires (chaînes de montage, chirurgie de la cataracte, et même les batteries). « Peut-être encore plus alarmant est la prise de conscience que nos technologies de stockage sont bien plus susceptibles de succomber à la détérioration et à l’obsolescence que des hiéroglyphes ou du sanskrit ancien gravés dans une pyramide ou sur un mur de temple », écrit-il.

99 % de ce qui s’est passé il y a 500 ans nous est inconnu.

LA CONNAISSANCE HUMAINE, UNE HISTOIRE DE SURVIE

Il y a quelques années, lors d’une mission de fact-checking, j’ai parlé à Ada Palmer, écrivaine de science-fiction et professeure d’histoire, qui m’a dit ce qu’elle répète souvent à ses étudiants : nous ne connaissons pas 1 % de ce qui s’est passé il y a 500 ans, et deux tiers de ce que nous croyons savoir est faux. La connaissance existe sur une frise temporelle aussi, et le travail des générations passées consiste à transmettre cette connaissance sans perdre de petits morceaux en route. Sommes-nous vraiment prêts à confier notre héritage à un tas de serveurs distribués, gérés par des puces dont la durée de vie n’est que de 5 à 10 ans ?

L’HUMAINE FAIBLESSE, L’HUMAINE FORCE

Il y a une dernière chose que j’ai ignorée jusqu’ici, et qui est si humaine de ma part : les humains font aussi des erreurs. Comme Holan me l’a rappelé, s’abstenir des chatbots n’est pas une garantie absolue. Au moins, je suis sûr à 33 % de ce qu’elle a dit. À la fin de notre entretien, quand j’ai regardé mon enregistreur, j’ai réalisé que j’avais oublié de l’allumer.

Sources :

Wired AI

L'indépendance de CLODCO est votre garantie.

Pour que l'actualité de l'IA reste sans filtre et sans concession, votre soutien est indispensable. Votre contribution est le seul moteur de notre liberté éditoriale.

Soutenir CLODCO