TENDANCES
Comparateur
- AUTO
Anthropic, une société d’IA fondée par d’anciens d’OpenAI – à l’instar de la nouvelle startup SSI d’Ilian Sutskever – le claironne haut et fort : son dernier LLM Sonnet (ou Claude 3.5) « surpasse désormais les modèles concurrents sur les évaluations clés, à deux fois la vitesse de Claude 3 Opus (son ancien modèle phare) et un cinquième du coût ». De fait, si l’on s’en tien au tableau publié par Anthropic, Claude 3.5 Sonnet fait mieux que GPT-4o, et ce dans 4 catégories sur les 6 où le LLM d’OpenAI est représenté.
Mais il y a tout de même un petit soucis, car il serait très facilement possible de manipuler à son avantage les résultats de benchs d’IA, sans compter que dans le cas présent, le LLM d’OpenAI n’est pas évalué sur 3 des 9 benchmarks. Les scores entre les deux LLMs étant particulièrement serrés, rien ne dit que que GPT-40 ne repasserait pas devant. Par exemple, GPT-40 fait nettement mieux que Claude 3.5 pour la résolution de problèmes de maths (76,6% de bonnes réponses contre 71,1% pour Claude 3.5) mais il n’y a pas de benchs GPT-40 pour la catégorie de tests « mathématique niveau études supérieures ».
Une chose semble tout de même globalement acquise, : Claude est revenu au niveau de GPT-40 dans sa version 3.5 Sonnet. De là à dire qu’il explose le LLM d’OpenAI, il y a tout de même une sacré marge….
SOURCEPCMag
TikTok annonce que son réseau social fermera ses portes ce dimanche, le 19 janvier 2025, aux États-Unis. Cela fait suite à...
Google a informé l’Union européenne qu’il ne s’engageait pas à intégrer le travail des organisations de...
Les robots humanoïdes G1 d’Unitree font leur footing dans la dernière vidéo publiée par la firme chinoise, et c’est...
L’année passée a été difficile pour l’émulation, avec une pression croissante de la part de Nintendo qui a...
Un incendie s’est déclaré à la Moss Landing Energy Storage Facility (en Californie), la plus grande installation de stockage...
18 Jan. 2025 • 7:13
17 Jan. 2025 • 20:46
17 Jan. 2025 • 19:21
17 Jan. 2025 • 18:52