45% de réponses fausses : l’étude qui rappelle que l’IA n’a pas (encore) appris la rigueur

📊 Une étude qui refroidit l’enthousiasme
Menée par la BBC, l’Union Européenne de Radio-Télévision et plusieurs médias publics européens, une analyse internationale vient de révéler un chiffre qui dérange : près d’une réponse sur deux générée par les grands modèles de langage (LLM) — ChatGPT, Gemini, Copilot, Perplexity — contient une erreur significative.

Sur 3 000 réponses testées dans 18 langues,

  • 31 % présentaient des erreurs de sourcing (citations trompeuses, absentes ou incorrectes),
  • 20 % comportaient des inexactitudes factuelles franches,
  • et certains outils, comme Gemini, affichaient des erreurs dans près de 3 réponses sur 4.

Des résultats qui confirment un constat connu des ingénieurs eux-mêmes : les “hallucinations” ne sont pas un bug, mais un mécanisme de fonctionnement.
OpenAI l’a reconnu récemment : les modèles prédisent des mots, pas la vérité.

📚 Un phénomène déjà bien réel
Souvenez-vous : aux États-Unis, plusieurs avocats avaient été sanctionnés pour avoir cité, devant un tribunal, des jurisprudences… inventées par une IA.
Un simple copier-coller, un oubli de vérification, et la frontière entre assistance et imprudence s’est effacée.

Le problème n’est pas l’outil.
C’est l’illusion de fiabilité qu’il crée.
Ces modèles parlent avec confiance, même quand ils se trompent. Et plus ils semblent plausibles, plus le risque de leur faire confiance grandit.

⚖️ Et dans nos métiers de la connaissance ?
Pour les professions où la précision est un devoir, la question n’est pas “peut-on utiliser l’IA ?”, mais “comment ne pas lui abandonner la rigueur ?”.

L’IA peut aider à structurer, à résumer, à explorer.
Mais elle ne vérifie pas.
Elle ne distingue pas encore la nuance, ni le contexte, ni la portée d’un mot mal interprété.

Même les systèmes utilisant la méthode dite RAG (Retrieval-Augmented Generation), qui ancrent les réponses dans des bases documentaires fiables, n’échappent pas au risque : si la base est incomplète ou mal qualifiée, la dérive est la même.

🧠 Ce que cela nous enseigne
Les grands modèles progressent vite, certains apprennent à dire “je ne sais pas”, mais la vigilance humaine reste la seule vraie garantie.
Dans le doute, la vérification reste notre meilleur réflexe professionnel.
L’IA peut assister notre raisonnement, jamais le remplacer.

La machine prédit, l’humain comprend.
Et c’est bien cette différence qui, pour l’instant, fait toute la valeur de notre jugement.

 

 

Sources :

https://www.ebu.ch/fr/news/2025/10/ai-s-systemic-distortion-of-news-is-consistent-across-languages-and-territories-international-study-by-public-service-broadcaste

https://openai.com/fr-FR/index/why-language-models-hallucinate/

Facebook
Pinterest
Twitter
LinkedIn

Derniers articles