Assistants d’IA : sur l’actualité, une réponse sur cinq contient des erreurs factuelles, selon une étude de la BBC

Les « hallucinations » des outils d’intelligence artificielle (IA) générative ont fait couler beaucoup d’encre, depuis le lancement, en novembre 2022, du robot conversationnel ChatGPT. Notamment parce que ces erreurs dans les réponses fournies aux internautes par les assistants d’IA peuvent avoir trait à l’actualité, une matière particulièrement sensible.

Une étude de la BBC, menée en décembre et parue mardi 11 février, démontre à nouveau l’ampleur du problème. Le groupe audiovisuel britannique se penche sur quatre outils accessibles au public : ChatGPT, développé par OpenAI (avec lequel Le Monde a noué un partenariat en mars 2024), Copilot de Microsoft, Gemini de Google, ainsi que Perplexity, conçu par la start-up du même nom. Tous échouent à restituer une information de qualité, conclut Pete Archer, directeur du programme IA générative de la BBC : « On ne peut pas compter sur les assistants IA pour fournir des informations exactes et ils risquent d’induire le public en erreur. »

Les principaux résultats de l’étude sont alarmants. La moitié des réponses de ces IA sur l’actualité « ont été jugées comme présentant des problèmes importants sous une forme ou une autre ». Environ une réponse sur cinq qui citaient le contenu de la BBC comportait des erreurs factuelles (portant sur des déclarations, des chiffres ou des dates incorrects). Et 13 % des citations tirées d’articles de la BBC étaient soit modifiées par rapport à la source originale, soit absentes de l’article cité.

Lire aussi | Comment l’IA nous trompe « avec un aplomb digne d’un écolier qui ne connaît pas sa leçon et qui bluffe »

Pour parvenir à ces conclusions, les chercheurs du média britannique ont soumis aux différents agents conversationnels des questions sur l’actualité, après leur avoir donné accès aux articles écrits par les journalistes de la BBC. Les réponses ont ensuite été analysées selon trois critères (l’exactitude des informations, l’impartialité et la façon dont ces dernières citaient la BBC) par ces mêmes journalistes, sélectionnés pour leurs expertises respectives sur des sujets précis.

Hallucinations et « éditorialisations »

L’étude se garde d’établir un classement des quatre agents conversationnels, et montre qu’ils ne font pas forcément les mêmes erreurs. Gemini explique notamment que le service de santé national britannique, le NHS (pour National Health Service, en anglais), ne recommande pas de recourir à la cigarette électronique pour arrêter de fumer : c’est faux, il s’agit bien d’un conseil du NHS. Comme d’autres outils, Perplexity s’appuie parfois sur des informations correctes au moment où elles avaient été publiées mais largement datées depuis.

Interrogé sur l’affaire des viols de Mazan, Copilot assure que Gisèle Pelicot s’est rendu compte qu’elle avait été violée à plusieurs reprises sous l’emprise d’une soumission chimique, en présentant des symptômes tels que des trous de mémoire. Ce qui est inexact, puisque c’est la police française qui lui a révélé les faits. Enfin, les IA ont généralement tendance à « éditorialiser », c’est-à-dire à ajouter des éléments relevant du commentaire ainsi que des descriptions inventées.

La BBC précise qu’elle mènera de nouvelles expérimentations de ce genre à l’avenir, afin de documenter les éventuelles évolutions de ces assistants. Tous les acteurs de l’IA sont, en effet, confrontés à cette problématique. En janvier, les résumés d’actualité proposés sur les iPhone par l’outil Apple Intelligence avaient, par exemple, été accusés de contenir de fausses informations, avant que ce dernier soit temporairement désactivé.

Le Chat, le robot conversationnel de la start-up française Mistral AI, n’est pas non plus exempt de tout reproche, et ce malgré la conclusion récente d’un accord pluriannuel avec l’Agence France-Presse. A la question « Qui est l’actuel président des Etats-Unis ? », il répond encore Joe Biden, y compris lorsque sa fonctionnalité de recherche sur le Web est activée, tout en étant capable dans une autre réponse de raconter l’investiture de Donald Trump, en citant la BBC.

Lire aussi | On a testé Le Chat, l’étonnant ChatGPT à la française de Mistral AI

Le Monde

Réutiliser ce contenu

What's Hot

« Au Kentucky, j’ai entendu peu de choses sur l’affaiblissement de la démocratie »

Notre sélection de livres cette semaine : « Le Ministère de la peur », « Là où je n’ai plus pied », « Boualem Sansal à l’épreuve du réel », « Un nouveau nom »…

En Chine, le pape François a marqué de son empreinte les paroisses de l’Eglise officielle

Hallucinations et « éditorialisations »

Sénégal : le troublant journal d’un militaire français, témoin du massacre de Thiaroye en 1944, tiré de l’oubli

Tyler Brûlé, le tycoon du cool, ouvre une adresse à Paris : « Nous avions une boutique à Tokyo, une autre à Londres, il y avait un vide »

L’Algérie entre discours d’hospitalité et expulsions massives de migrants subsahariens

A Rome, des rumeurs de complot ourdi par Emmanuel Macron pour influer sur le choix du futur pape

En Corée du Sud, le retour des parents « hélicoptères »

Clara et Yaël, 18 et 19 ans : « Je trouve ça beau, de se rencontrer aussi tôt »

Bodo Glimt, le petit club norvégien qui s’est invité au banquet des grands de la Ligue Europa

Les footballeuses transgenres ne pourront désormais plus jouer avec les équipes féminines en Angleterre

Xavier Niel nouvel actionnaire surprise de l’US Créteil-Lusitanos

What's Hot

Assistants d’IA : sur l’actualité, une réponse sur cinq contient des erreurs factuelles, selon une étude de la BBC

Hallucinations et « éditorialisations »

Articles Liés