KultureGeek Science Anthropic affirme que Claude 3.5 est meilleur que GPT-4o (oui mais…)

Anthropic affirme que Claude 3.5 est meilleur que GPT-4o (oui mais…)

20 Juin. 2024 • 19:03
0

Anthropic, une société d’IA fondée par d’anciens d’OpenAI – à l’instar de la nouvelle startup SSI d’Ilian Sutskever – le claironne haut et fort : son dernier LLM Sonnet (ou Claude 3.5) « surpasse désormais les modèles concurrents sur les évaluations clés, à deux fois la vitesse de Claude 3 Opus (son ancien modèle phare) et un cinquième du coût ». De fait, si l’on s’en tien au tableau publié par Anthropic, Claude 3.5 Sonnet fait mieux que GPT-4o, et ce dans 4 catégories sur les 6 où le LLM d’OpenAI est représenté.

Claude 3,5 vs GPT-4°

Mais il y a tout de même un petit soucis, car il serait très facilement possible de manipuler à son avantage les résultats de benchs d’IA,  sans compter que dans le cas présent, le LLM d’OpenAI n’est pas évalué sur 3 des 9 benchmarks. Les scores entre les deux LLMs étant particulièrement serrés, rien ne dit que que GPT-40 ne repasserait pas devant. Par exemple, GPT-40 fait nettement mieux que Claude 3.5 pour la résolution de problèmes de maths (76,6% de bonnes réponses contre 71,1% pour Claude 3.5) mais il n’y a pas de benchs GPT-40 pour  la catégorie de tests « mathématique niveau études supérieures ».

Une chose semble tout de même globalement acquise, : Claude est revenu au niveau de GPT-40 dans sa version 3.5 Sonnet. De là à dire qu’il explose le LLM d’OpenAI, il y a tout de même une sacré marge….

Les sujets liés à ces tags pourraient vous interesser

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

Disney Plus Nouveau Logo

Disney+ lance Perks pour offrir des cadeaux à ses abonnés

30 Mai. 2025 • 20:49
0 Internet

Disney+ dévoile son nouveau programme Perks, une initiative conçue pour offrir aux abonnés des cadeaux, allant...

Sony Xperia 1 VII

Sony arrêterait la production de ses smartphones Xperia haut de gamme

30 Mai. 2025 • 19:16
0 Mobiles / Tablettes

Sony, bien que jamais un acteur dominant sur le marché des smartphones, a maintenu sa gamme Xperia pendant des années. Cependant,...

deals promos

🔥 [#BonPlan] Les promos high-tech du 30 mai

30 Mai. 2025 • 19:02
0 Promos

Chaque jour nous dénichons pour vous des promos sur les produits High-Tech pour vous faire économiser le plus d’argent possible. Voici...

Xbox Asus

La Xbox portable est en pause, Microsoft préfère améliorer Windows 11 pour le gaming

30 Mai. 2025 • 18:01
0 Jeux vidéo

Microsoft ajuste sa stratégie dans le domaine du gaming portable. Alors que les rumeurs autour d’une console Xbox portable circulaient depuis...

Chine semi conducteur soc

L’administration Trump tente de nouveau de freiner les efforts de la Chine vers l’IA

30 Mai. 2025 • 16:25
0 Matériel

Un tour de vis supplémentaire : l’administration Trump a introduit de nouveaux contrôles à l’exportation visant les...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site