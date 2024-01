Jusqu’ici, les IA de génération de vidéo sont restées technologiquement à la traine des IA de génération d’image. Les modèles de génération de vidéo génèrent en effet souvent un assez grand nombre d’anomalies ou d’ « hallucinations » qui rendent les animations produites assez peu exploitables… sauf si l’on désire réaliser un clip ou un court métrage surréaliste ou « arty ». Google vient sans doute de franchir un cap important avec Lumiere, une IA de génération de vidéos capable de créer des vidéos très cohérentes de 5 secondes à la résolution 1024×1024 pixels. Pour l’instant encore à l’état de projet de recherche, Lumiere se montre déjà très impressionnant : le modèle Space-Time-U-Net (STUNet) utilisé pour Lumiere semble capable d’appréhender la « compréhension » d’une image animée en fonction du sujet décrit par un prompt ou une ligne de commande, ce qui aboutit à des images animées (presque) totalement cohérentes et avec un minimum d’effets parasites.



Lumiere peut aussi produire des animations en fonction du style graphique d’une image qui lui est soumis ! Par exemple, si on montre à Lumière une image de bonbons colorés, ce dernier animera les sujets qui lui seront proposés par la suite (un cheval qui court, des gens qui marchent, un paysage) en appliquant ce même style graphique très coloré. Plus fort encore, et à l’instar du Firefly d’Adobe concernant l’image fixe, Lumiere peut compléter une image avec une animation cohérente avec l’ensemble, ou carrément transformer en animation une image fixe. Réellement saisissant.

Pour l’instant, Google ne se montre pas très chaud pour laisser cette IA aux mains du grand public, craignant des utilisations abusives. Certes, le risque existe, mais à ce rythme de prévention et de contrôle du contenu, il existe une vraie possibilité que les IA finissent comme de simples outils onéreux aux mains de quelques professions hyper contrôlées. Bard n’est pas près en tout cas d’intégrer un modèle de génération d’image ou de vidéo vraiment performant : Imagen devrait certes bientôt arriver sur Bard, mais les résultats de l’IA sont pour l’instant nettement inférieurs à ceux d’un Midjourney ou d’un DALL-E.