Thinking Machines Lab, la start-up fondée par l’ancienne directrice technique d’OpenAI Mira Murati, vient de dévoiler une nouvelle piste de recherche autour des « modèles d’interaction ». L’idée est simple à formuler, mais ambitieuse à réaliser puisqu’il s’agit de permettre à une IA de comprendre, parler et réagir en temps réel, sans attendre la fin d’un échange comme le font les assistants actuels.
Mira Murati, CEO de Thinking Machine
Vers une conversation IA plus proche d’un véritable échange
La plupart des modèles vocaux fonctionnent encore selon une logique de tour par tour : l’utilisateur parle, l’IA écoute, puis répond. Thinking Machines veut rompre ce rythme mécanique avec une architecture dite full duplex, capable de traiter l’audio, la vidéo ou le texte tout en générant déjà une réponse.
Son premier modèle, TML-Interaction-Small, afficherait une latence de 0,40 seconde, proche du tempo d’une conversation humaine naturelle. Thinking Machines explique que sa technologie doit « Permettre aux interfaces IA de rencontrer les humains là où ils sont, plutôt que de forcer les humains à s’adapter aux interfaces IA. ». Les nombreuses vidéos publiées sur la page de Thinking Machine semblent prouver en tout cas que la technologie est déjà très efficace.
Un modèle encore en phase de recherche
Traduction, vidéo et réactions instantanées
Les démonstrations présentées montrent une IA capable de traduire en direct, de suivre une vidéo, de compter des gestes ou de générer une visualisation tout en continuant à écouter les corrections de l’utilisateur. L’objectif n’est donc pas seulement d’obtenir un assistant vocal plus rapide : il s’agit bien ici de créer une IA réellement collaborative.
Pour l’instant, TML-Interaction-Small n’est pas disponible publiquement. Thinking Machines prévoit une préversion de recherche limitée dans les prochains mois, avant une diffusion plus large plus tard dans l’année.
Reste à voir si l’expérience finale sera aussi fluide que ce qui nous est promis par Thinking Machine. Si cette approche s’avère concluante, on passerait alors d’une IA qui « se contente » de répondre à une IA qui participe vraiment à l’échange. Une petite révolution en somme…
Apple 2023 Ordinateur Portable MacBook Pro avec Puce M2 Pro : écran Liquid Retina de 16,2 Pouces, 16 Go de RAM, 512 Go de Stockage SSD, Clavier rétroéclairé, caméra FaceTime HD 1080p. Gris sidéral
Klipsch Reference Premiere RP-502S II Surround Sound Speaker Pair with Wall Mounting Options & an Updated Tralectrix Horn with 5.25" Ceramet Woofers for Movie Theater-Level Sound in Walnut