ChatGPT, Copilot, Gemini, Perplexity affichent des taux d’erreurs jusqu’à 45%


André Boily
Ces assistants dits intelligents ne sont pas aussi doués que ça ! Une nouvelle étude montre que l'IA fournit des informations correctes moins de la moitié du temps.
• À lire aussi: C’est quoi, l’«AI slop»?
D’après les résultats de l’Union européenne de radiotélévision (UER), les chercheurs ont remarqué que 45 % de toutes les informations sur l’actualité collectées dans le cadre de l’étude présentaient un problème majeur, et que 81 % d’entre elles contenaient une petite erreur.
Pour recueillir ces informations, l'UER a réuni 22 organismes de service public de 18 pays et 14 langues afin d'examiner 3000 réponses liées à l'actualité provenant de certains des assistants IA les plus populaires : ChatGPT, Microsoft Copilot, Gemini et Perplexity. Ces assistants IA ont tous été évalués selon des critères tels que l'exactitude, la source, la distinction entre opinion et fait, et la fourniture de contexte.
Problème de fiabilité des sources
Selon l'UER, la source des informations d’actualité était la principale cause des problèmes importants dans 31 % des cas; notamment à cause d’attributions manquantes, trompeuses ou même incorrectes.
Un autre problème concernait l'exactitude : 30 % des réponses contenaient des informations incorrectes ou obsolètes. Comme l'a mentionné Gizmodo, une réponse de ChatGPT affirmait que le pape actuel était le pape François, décédé un mois plus tôt. Dans un autre cas, on a demandé à Copilot si l'utilisateur devait s'inquiéter de la grippe aviaire, et il a répondu qu'un essai de vaccin était en cours, alors que cette information provenait d'un article de la BBC datant de 2006.
Et le moins performant est...
Parmi les modèles linguistiques testés, Gemini de Google était le moins performant en matière de partage d'informations. Les chercheurs ont constaté que 76 % de ses réponses présentaient des problèmes, soit plus du double du taux des autres modèles.
Copilot arrivait en deuxième position avec 37 %, suivi de ChatGPT avec 36 % et Perplexity avec 30 %.
Cette étude arrive à un moment intéressant pour les modèles d'IA, alors que les grandes entreprises commencent à commercialiser des navigateurs web basés sur l'IA. En juillet dernier, Microsoft a annoncé le mode Copilot pour Edge, et Google a annoncé le mode IA pour Google Search un mois plus tard.
Problème de traitement rapide des données d’actualité
Les recherches ont montré que les assistants avaient particulièrement du mal à traiter les actualités qui évoluent rapidement et les informations qui changent sans cesse, les actualités dont le déroulement est complexe et qui comportent des informations détaillées, ou les sujets qui nécessitent une distinction claire entre les faits et les opinions. Par exemple, près de la moitié des modèles testés ont rencontré des difficultés importantes pour répondre à la question « Trump est-il en train de déclencher une guerre commerciale ? ».