TENDANCES
Comparateur
- AUTO
Les chercheurs du Hao AI Lab, affilié à l’Université de Californie à San Diego, ont testé des modèles d’IA… via une version modifiée du célèbre jeu vidéo Super Mario Bros. et à l’aide d’un émulateur customisé baptisé GamingAgent. Ce système fournit aux IA des instructions de jeu de base ainsi que des captures d’écran, les LLMs devant ensuite utiliser ces données pour générer des commandes en Python et ainsi contrôler Mario.
Parmi les modèles testés, Claude 3.7 d‘Anthropic s’est le mieux classé, suivi de Claude 3.5, tandis que Gemini 1.5 Pro de Google et GPT-4o d’OpenAI ont eu plus de difficultés à diriger le petit plombier. Fait surprenant, les modèles basés sur le raisonnement, habituellement performants en résolution de problèmes, ont obtenu de moins bons résultats que les modèles non basés sur le raisonnement, probablement en raison de la nécessité de prendre des décisions en une fraction de seconde dans un jeu vidéo en temps réel. Ces résultats soulignent en un sens la difficulté d’appliquer aux IA les plus avancées une planification stratégique à des environnements rapides et dynamiques.
Les jeux vidéo sont depuis longtemps utilisés pour évaluer les capacités de l’IA, au point que certains experts remettent en question leur pertinence par rapport aux principes d’adaptation dans le monde réel. Contrairement aux situations complexes de la vie quotidienne, les jeux vidéo offrent des défis structurés et abstraits avec une quantité pratiquement infinie de données d’entraînement. Andrej Karpathy, chercheur chez OpenAI, a ainsi qualifié la tendance actuelle des benchmarks de jeux vidéo d’« évaluation en crise », un avis sévère et peut-être dû au fait que GPT-4o n’est pas sorti gagnant du « bench Super Mario ». Serait-on mauvais joueur (et mauvais perdant) chez OpenAI ?
Lors de l’annonce des résultats trimestriels, le patron de Reddit, Steve Huffman, a révélé que l’entreprise...
Nintendo a annoncé une hausse des prix de la Switch aux États-Unis, effective dès le 3 août, en réponse aux droits de...
Microsoft mettra fin au support de Windows 11 SE en octobre 2026, quatre ans après le lancement de ce système d’exploitation...
Ce 1er août 2025 marque le début du tournage de Spider-Man: Brand New Day, le quatrième film avec toujours Tom Holland dans le...
Nintendo enregistre un départ fulgurant pour sa nouvelle console : 5,82 millions de Switch 2 ont été vendues depuis son lancement le...