OpenAI, le créateur de ChatGPT, vient d’annoncer Sora, sa nouvelle intelligence artificielle qui est capable de créer des vidéos en se basant sur des requêtes écrites de l’utilisateur. Il suffit d’écrire un texte et une vidéo se génère avec les éléments demandés.

Avec Sora, il est possible de générer des vidéos

OpenAI explique que Sora « est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan. Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais aussi comment ces choses existent dans le monde physique ». La durée des vidéos générées est d’une minute.

L’IA peut également générer une vidéo à partir d’une image fixe, ainsi que remplir les images manquantes d’une vidéo existante ou l’étendre. Les démonstrations générées par Sora comprennent une scène aérienne de la Californie pendant la ruée vers l’or, une vidéo qui semble avoir été filmée de l’intérieur d’un train à Tokyo, et d’autres encore. Nombre d’entre elles présentent des signes révélateurs de l’IA – comme un sol qui bouge de manière suspecte dans une vidéo d’un musée – et OpenAI indique que le modèle « peut avoir du mal à simuler avec précision la physique d’une scène complexe ». Mais les résultats sont dans l’ensemble assez impressionnants.

Voici des exemples de vidéos générées par Sora :

Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf — OpenAI (@OpenAI) February 15, 2024

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6 — OpenAI (@OpenAI) February 15, 2024

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS — OpenAI (@OpenAI) February 15, 2024

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq — OpenAI (@OpenAI) February 15, 2024

Des IA comme Midjourney sont d’ores et déjà capables de générer des images à partir d’un texte rédigé par l’utilisateur. Aujourd’hui, OpenAI monte d’un cran avec sa solution pour les vidéos. Le groupe n’est toutefois pas le seul à s’aventurer sur ce terrain. Google le fait aussi avec sa solution qui a pour nom Lumiere. Il y a également Runway et Pika.

Sora n’est actuellement accessible qu’aux « red teamers » qui évaluent l’IA en fonction des dommages et des risques potentiels. OpenAI offre également un accès à certains artistes visuels, concepteurs et cinéastes afin de recueillir leurs commentaires.