La jeune pousse française Mistral donne de la voix (hum…). L’entreprise vient de dévoiler Voxtral TTS, un nouveau modèle de synthèse vocale open source destiné aussi bien aux assistants vocaux qu’aux usages professionnels, comme le support client ou les agents de vente. Avec cette annonce, Mistral se positionne frontalement face à des acteurs déjà bien installés sur le text-to-speech, dont ElevenLabs, Deepgram ou bien encore le géant américain OpenAI.
Neuf langues et une exécution prévue pour l’edge
Voxtral TTS prend en charge neuf langues, soit l’anglais, le français, l’allemand, l’espagnol, le néerlandais, le portugais, l’italien, l’hindi et l’arabe. L’objectif affiché est de permettre aux entreprises de déployer des voix naturelles, y compris sur des appareils peu puissants. Pierre Stock, vice-président des opérations science chez Mistral, résume cette approche : « Nos clients nous demandaient un modèle de parole. Nous avons donc conçu un modèle compact qui peut tenir sur une montre connectée, un smartphone, un ordinateur portable ou d’autres appareils en périphérie. Son coût est une fraction de ce qui existe sur le marché, tout en offrant des performances de pointe. »
Clonage vocal rapide et voix moins “robotique”
Mistral met aussi en avant des capacités d’adaptation de voix à partir d’un échantillon de moins de cinq secondes, avec la possibilité de conserver des nuances comme de légers accents, l’intonation ou certaines irrégularités naturelles du flux de parole. La startup promet aussi le passage d’une langue à l’autre sans perte d’identité sonore, ce qui sera évidemment utile pour le doublage ou la traduction en temps réel.
Latence et vitesse : des chiffres orientés temps réel
En terme de performances, Voxtral TTS afficherait une latence de démarrage (TTFA) de 90 ms sur un exemple de 500 caractères (environ 10 secondes d’audio), ainsi qu’un “real-time factor” de 6x, ce qui correspond au rendu d’un extrait de 10 secondes en environ 1,6 seconde. Le modèle s’appuie sur une base de type Ministral 3B, ce qui explique son positionnement « petit format ».
Après ses modèles de transcription lancés plus tôt cette année, Mistral avance donc vers une offre voix de bout en bout : entrée audio, texte et image, sortie multimodale, et personnalisation. Dans un marché où les entreprises cherchent à garder la main sur les données et le réglage fin des modèles, l’open source pourrait devenir un critère aussi décisif que la qualité de la voix elle-même.
Apple Watch Series 10 (46 mm GPS) Montre connectée avec Boîtier en Aluminium Noir de Jais et Bracelet Sport Noir (S/M). Suivi de l’activité Physique, app ECG, écran Retina Toujours activé
Apple Watch Series 10 (46 mm GPS) Montre connectée avec Boîtier en Aluminium Argent et Bracelet Sport Denim (M/L). Suivi de l’activité Physique, app ECG, écran Retina Toujours activé
Apple Watch Series 10 (46 mm GPS + Cellular) Montre connectée avec Boîtier en Aluminium Argent et Bouchle Sport nuée Bleue. Suivi de l’activité Physique, app ECG, Neutre en Carbone
Apple Watch Series 10 (46 mm GPS) Montre connectée avec Boîtier en Aluminium Argent et Boucle Sport nuée Bleue. Suivi de l’activité Physique, app ECG, écran Retina Toujours activé, Neutre en Carbone
Apple Watch Ultra 2 (49 mm GPS + Cellular) Montre de Sport connectée avec Boîtier en Titane Noir et Bracelet Milanais Titane Noir (Small). Suivi de l’activité, GPS Haute précision, Neutre en Carbone
ECOVACS N30 PRO OMNI Aspirateur Robot avec Station OMNI tout-en-un, 10000Pa, Robot Aspirateur Laveur avec Brosse ZeroTangle 2.0, Nettoyage à l'eau chaude 60℃, Nettoyage Humide adaptatif TruEdge, Blanc
Epson EF-22B Mini Smart Laser Projector | Projecteur Vidéo Portable Full HD, 1920 x 1080p, Haut-Parleur Bluetooth 5W, Projection au Mur, au Sol ou au Plafond, 1000 Lumens, Google TV | 150", Noir
Dyson V8 Advanced Aspirateur sans Fil, 130 AW, Jusqu’à 40 Min d’autonomie, Brosse Motorbar Anti-enchevêtrement, élimine Les Poils d’Animaux, aspirateur à Main et Sol