KultureGeek Science Les IA seraient bien plus limitées que ne le disent les benchmarks selon une étude

Les IA seraient bien plus limitées que ne le disent les benchmarks selon une étude

3 min.
7 Nov. 2025 • 11:30
0

Le constat est terrible : une nouvelle étude récemment menée par l’Oxford Internet Institute révèle que les outils de référence utilisés pour évaluer les intelligences artificielles sont souvent trompeurs, voire carrément inadaptés à ce que l’on cherche à évaluer. Les chercheurs ont passé en revue plus de 445 benchmarks destinés à tester les compétences en raisonnement, codage ou logique des modèles d’IA, et résultat, nombre d’entre eux ne mesurent pas ce qu’ils prétendent mesurer.

IA

Des résultats qui incitent à la méfiance

Les auteurs pointent du doigt des définitions floues, un manque de transparence sur les méthodes statistiques employées et des cas de contamination de données, dans lesquels les modèles apprennent à « mémoriser » plutôt qu’à raisonner. Par exemple, le test GSM8K, censé évaluer le raisonnement mathématique de manière « multi-étapes », ne permet pas vraiment de garantir qu’un modèle d’IA raisonne vraiment.

Pourquoi cet écart entre scores et réalité ?

L’étude souligne que certains benchmarks sont déjà saturés : les algorithmes y enregistrent des performances élevées simplement parce qu’ils ont déjà rencontré des questions ou des structures identiques dans leurs données d’entraînement. Plus grave encore : seulement 16 % des outils examinés ont validé leurs résultats par des méthodes statistiques robustes.

Intelligence artificielle

Ce constat inquiétant est établi au moment même où se multiplient les annonces de « modèles super-intelligents ». Face à cette envolée des superlatifs, les auteurs de l’étude mettent en garde contre une surestimation des capacités réelles des systèmes d’IA. Et ce n’est opas qu’une question de définition condernant l’intelligence : il en va de la bonne utilisation des IA en contextes critiques : santé, justice, finances… Un benchmarking défaillant peut conduire à des décisions erronées… et c’est d’ailleurs ce qui est régulièrement mentionné : les erreurs sont toujours là au point que les utilisateurs doivent effectuer une vérification des résultats fournis. Pour un outil censé nous faire gagner du temps d’analyse, c’est ballot.

Le papier de l’Oxford Internet Institute encourage dans sa conclusion à repenser les méthodologies d’évaluation : affinement des définitions, création de datasets vierges, audit indépendant et benchmarks dynamique plutôt que statique. Aujourd’hui, le débat n’est plus uniquement technologique : il touche à l’éthique, à la gouvernance et à la confiance que les société accordent ou pourront accorder à l’intelligence artificielle.

 

Les sujets liés à ces tags pourraient vous interesser

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

TF1 Plus Netflix Chaines

Netflix : comment désactiver TF1+ et éviter les publicités associées à ses programmes

19 Juin. 2026 • 17:09
0 Tutoriaux

Netflix accueille désormais les programmes de TF1+ directement dans son interface en France, une évolution importante pour la plateforme de...

PS5 Pro PlayStation 5 Couchee et Manette DualSense

PlayStation confirme l’abandon de ses jeux solo sur PC et mise sur l’IA

19 Juin. 2026 • 16:15
0 Jeux vidéo

Sony officialise dans son rapport financier 2026 remis à la SEC, le gendarme boursier américain, l’abandon du portage PC pour ses jeux...

Snapdragon reality Elite

Snapdragon Reality Elite : Qualcomm dévoile sa nouvelle puce XR pour lunettes et casques haut de gamme

19 Juin. 2026 • 15:35
0 Matériel

Qualcomm veut accélérer la prochaine génération d’appareils de « réalité...

Intelligence artificielle

L’Europe va bientôt interdire les IA qui dénudent les personnes (deepfakes)

19 Juin. 2026 • 14:10
0 Internet

Le Parlement européen a adopté mardi à Strasbourg, à une écrasante majorité de 423 voix contre 57,...

NASA asteroide Lucy

NASA : la sonde Lucy révèle l’origine violente de l’astéroïde Donaldjohanson

19 Juin. 2026 • 12:55
0 Science

La sonde Lucy de la NASA vient d’offrir un nouvel aperçu spectaculaire de l’histoire chaotique de notre système solaire. En...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site