La bataille de l’IA ne s’arrête jamais et chaque jour apporte son lot de nouveautés : Stability AI vient de lancer Stable Diffusion 3 Medium, présenté comme son modèle texte-image le plus avancé à ce jour. Avec 2 milliards de paramètres, SD3 Medium fournit des images photoréalistes sur les systèmes grand public sans flux de travail complexes, et résout efficacement les problèmes courants tels que les artefacts sur les mains et les visages. Le modèle excelle aussi dans la compréhension des prompts complexes et la typographie, et semble taillé pour les GPU grand public standards.

Malgré ses progrès techniques, Stability AI est confrontée à plusieurs défis importants. Fondée en 2020 et évaluée à 1 milliard de dollars en 2022, la startup doit faire face à des poursuites judiciaires intentées par des artistes pour l’utilisation non autorisée de leurs œuvres dans le cadre de la formation de l’IA, sans compter des difficultés financières qui ont conduit à des discussions sur une vente potentielle. Le CEO et fondateur Emad Mostaque a démissionné en mars pour se consacrer à l’IA décentralisée, abandonnant l’entreprise à un moment particulièrement critique.

Malgré ce c contexte peu favorable, Stability AI reste déterminé à repousser les limites de l’IA générative. Le co-CEO Christian Laforte a annoncé de grosses évolutions à venir pour Stable Diffusion, notamment l’ajout de capacités multimodales en matière de vidéo, d’audio et de langage. Les utilisateurs peuvent désormais tester SD3 Medium via l’API de Stability, des options de licence étant disponibles pour un usage commercial.