KultureGeek Logiciels Insolite : quand Super Mario Bros. est utilisé pour « benchmarker » les modèles d’IA

Insolite : quand Super Mario Bros. est utilisé pour « benchmarker » les modèles d’IA

4 Mar. 2025 • 11:10
0

Les chercheurs du Hao AI Lab, affilié à l’Université de Californie à San Diego, ont testé des modèles d’IA… via une version modifiée du célèbre jeu vidéo Super Mario Bros. et à l’aide d’un émulateur customisé baptisé GamingAgent. Ce système fournit aux IA des instructions de jeu de base ainsi que des captures d’écran, les LLMs devant ensuite utiliser ces données pour générer des commandes en Python et ainsi contrôler Mario.

Super Mario Bench AI

Parmi les modèles testés, Claude 3.7 d‘Anthropic s’est le mieux classé, suivi de Claude 3.5, tandis que Gemini 1.5 Pro de Google et GPT-4o d’OpenAI ont eu plus de difficultés à diriger le petit plombier. Fait surprenant, les modèles basés sur le raisonnement, habituellement performants en résolution de problèmes, ont obtenu de moins bons résultats que les modèles non basés sur le raisonnement, probablement en raison de la nécessité de prendre des décisions en une fraction de seconde dans un jeu vidéo en temps réel. Ces résultats soulignent en un sens la difficulté d’appliquer aux IA les plus avancées une planification stratégique à des environnements rapides et dynamiques.

Les jeux vidéo sont depuis longtemps utilisés pour évaluer les capacités de l’IA, au point que certains experts remettent en question leur pertinence par rapport aux principes d’adaptation dans le monde réel. Contrairement aux situations complexes de la vie quotidienne, les jeux vidéo offrent des défis structurés et abstraits avec une quantité pratiquement infinie de données d’entraînement. Andrej Karpathy, chercheur chez OpenAI, a ainsi qualifié la tendance actuelle des benchmarks de jeux vidéo d’« évaluation en crise », un avis sévère et peut-être dû au fait que GPT-4o n’est pas sorti gagnant du « bench Super Mario ». Serait-on mauvais joueur (et mauvais perdant) chez OpenAI ?

Les sujets liés à ces tags pourraient vous interesser

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

Stalker 2

Stalker 2 : Heart of Chornobyl sera disponible sur PlayStation 5 d’ici la fin de l’année

10 Juil. 2025 • 11:15
0 Jeux vidéo

C’était une évidence même si l’exclusivité temporaire n’avait pas été confirmée...

OpenAI Logo ChatGPT

OpenAI (ChatGPT) s’apprête à lancer son navigateur avec IA

10 Juil. 2025 • 10:03
0 Logiciels

OpenAI s’apprête à lancer son propre navigateur Web s’appuyant sur l’intelligence artificielle, qui viendra concurrencer...

Grok

Elon Musk dévoile Grok 4, un nouveau LLM conçu pour rivaliser avec GPT-5 d’OpenAI

10 Juil. 2025 • 9:45
0 Logiciels

Elon Musk et sa société xAI ont dévoilé mercredi soir leur nouveau modèle d’intelligence artificielle, Grok 4,...

Gmail Logo

Gmail facilite la gestion des abonnements pour nettoyer votre boîte de réception

9 Juil. 2025 • 20:31
0 Internet

Google lance une nouvelle fonctionnalité sur Gmail destinée aux utilisateurs submergés par les e-mails d’abonnement. Cette...

Cyberpunk 2077 Keanu Reeves

PlayStation Plus Extra et Premium : les jeux ajoutés en juillet 2025 (dont Cyberpunk 2077)

9 Juil. 2025 • 19:24
0 Jeux vidéo

Sony lève le voile sur les jeux qui vont être disponibles sur le PlayStation Plus en juillet en ce qui concerne les abonnements Premium et...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site