KultureGeek Logiciels Meta dévoile CM3leon, une IA générative text-to-image aux fonctions inédites

Meta dévoile CM3leon, une IA générative text-to-image aux fonctions inédites

14 Juil. 2023 • 15:25
0

Il fallait s’y attendre : Meta vient de dévoiler CM3leon, un modèle d’IA générative text-to-image qui, selon la société, affiche des performances de pointe. « Grâce aux capacités de CM3leon, les outils de génération d’images peuvent produire des images plus cohérentes qui respectent mieux les prompts » écrit Meta dans un article de blog. « Nous pensons que les performances solides de CM3leon dans une variété de tâches sont un pas de plus vers la génération et la compréhension d’images plus fidèles (avec les prompts, Ndlr). »

Meta Caméleon IA text to images

Meta a demandé à CM3Leon de générer des images à l’aide de prompts tels que « Un petit cactus portant un chapeau de paille et des lunettes de soleil au néon dans le désert du Sahara », « Une photo en gros plan d’une main humaine, modèle de main », « Un personnage principal de raton laveur dans un Anime se préparant à une bataille épique avec une épée de samouraï » et « Un panneau d’arrêt dans un style Fantasy avec le texte ‘1991.’ »

Les IA text-to-image concurrentes (DALL-E, Midjourney, Stable Diffusion, etc.) nécessitent d’énormes capacités de calcul qui interdisent tout traitement en temps réel, mais Meta prétend avoir trouvé la parade afin d’éviter la surchauffe, sous la forme d’un mécanisme appelé « attention ». Ce mécanisme permet de « soupeser » la pertinence des données d’entrée telles que le texte ou les images, ce qui économiserait des ressources de calcul et rendrait les modèles plus facilement parallélisables. En d’autres termes, il serait possible d’entrainer CM3leon avec une masse de données toujours plus importante (ce qui garantit en majeure partie la qualité du rendu final) sans que cela ne nécessite une trop grande augmentation de la puissance de calcul. Meta affirme même que son modèle d’IA nécessite 5 fois moins de puissance de calcul (à résultat équivalent) que les modèles concurrents.

Meta IA Cameleon 1Ce gain d’efficience permet ainsi à Meta de doter CM3leon de 7 milliards de paramètres (deux fois plus que DALL-E 2) sans que cela ne ralentisse le temps de production d’une image complexe (c’est à dire créée à partir de nombreux prompts). CM3leon  dispose aussi de fonctions inédites, comme le supervised fine-tuning (SFT), qui vient en quelque sorte vérifier la cohérence d’ensemble d’une image (fini les mains avec 4 doigts) et permet de modifier une image générée à la volée (« change la couleur du ciel en bleu lumineux »). Ainsi, avec le prompt « Générer une image haute qualité d’une pièce qui contient un lavabo et un miroir » accompagné d’une liste d’objets à intégrer (une bouteille, etc), CM3leon produit une image visuellement cohérente alors que DALL-E 2 omet certains des objets pourtant spécifiés dans le prompt.

Meta IA Cameleon

L’édition d’une image en entrée se fait extrêmement intuitivement

Contrairement encore à DALL-E 2, CM3leon peut  générer des légendes courtes ou longues et « répondre » aux questions sur une image particulière. Dans ce domaine, le modèle de Meta aurait même été plus performant que les modèles spécialisés de sous-titrage d’images spécialisés (Flamingo, OpenFlamingo). Meta n’a pas encore précisé quand il se déciderait à rendre CM3leon disponible.

 

 

 

Les sujets liés à ces tags pourraient vous interesser

Laisser un commentaire

Sauvegarder mon pseudo et mon adresse e-mail pour la prochaine fois.

Quelques règles à respecter :
  • 1. Restez dans le sujet de l'article
  • 2. Respectez les autres lecteurs : pas de messages agressifs, vulgaires, haineux,…
  • 3. Relisez-vous avant de soumettre un commentaire : pas de langage SMS, et vérifiez l'orthographe avant de valider (les navigateurs soulignent les fautes).
  • 4. En cas d'erreur, faute d'orthographe, et/ou omission dans l'article , merci de nous contacter via la page Contact.

Nous nous réservons le droit de supprimer les commentaires qui ne respectent pas ces règles


Les derniers articles

Bing Video Creator

Bing Video Creator : Microsoft propose un outil gratuit pour générer des vidéos par IA avec Sora d’OpenAI

3 Juin. 2025 • 9:41
0 Internet

Microsoft dévoile une nouveauté avec Bing Video Creator, un outil gratuit permettant de générer des vidéos à...

Gears of War- Judgement

Le studio People Can Fly annule deux projets de jeux et annonce des licenciements

3 Juin. 2025 • 9:40
0 Jeux vidéo

People Can Fly, le studio à l’origine d’Outriders et Gears of War: Judgement, a annoncé l’arrêt du...

Facebook Meta Logo Mark Zuckerberg

Meta veut ouvrir ses propres boutiques, comme Apple et d’autres

2 Juin. 2025 • 20:56
1 Hors-Sujet

Meta, la maison-mère de Facebook et Instagram, planifie l’ouverture de boutiques physiques et le recrutement de personnel...

Gmail Resume Emails Gemini IA

Gmail se met à résumer les e-mails avec l’IA Gemini par défaut

2 Juin. 2025 • 20:39
0 Internet

Google renforce l’intégration de son assistant IA, Gemini, dans Gmail avec la mise en place de résumés automatiques des...

Prototype Pixel 10

Google Pixel 10 : la date de présentation en août se précise

2 Juin. 2025 • 20:17
0 Mobiles / Tablettes

Google s’apprête à dévoiler ses Pixel 10 le 13 août 2025, selon une fuite relayée par MysteryLupin sur X...

Les dernières actus Apple sur iPhoneAddict :

Comparateur

Recherchez le meilleur prix des produits Hi-tech

Recherche

Recherchez des articles sur le site