Comme convenu, OpenAI vient d’annoncer le déploiement de la version alpha de la fonction vocale avancée de ChatGPT (ou fonction vocale « émotionnelle »). Cette version est disponible auprès d’un panel restreint d’utilisateurs de ChatGPT Plus. Pour rappel, la fonction vocale avancée permet d’interagir très naturellement avec ChatGPT, comme on le ferait en fait avec une véritable personne en face de soi. A noter toutefois que les fonctionnalités vidéo et le partage d’écran seront lancés à une date ultérieure, ce qui signifie que cette fonction d’IA n’est pas encore multimodale à ce stade (bien que GPT-4o soit multimodal). OpenAI précise que « L’accès de l’Alpha à un plus grand grand nombre d’utilisateurs de ChatGPT Plus sera étendu progressivement au cours des prochaines semaines ». La fonction vocale avancée sera disponible pour tous les utilisateurs à l’automne prochain.

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK — OpenAI (@OpenAI) July 30, 2024

Durant les prochaines semaines, OpenAI va se focaliser sur les aspects « sécurité » de leur modèle (blocage de certains contenus ou requêtes par exemple), sachant que sur les 10 derniers mois, ce même modèle a été mis à l’épreuve par plus de 100 testeurs externes parlant 45 langues. On sait aussi que la fonction vocale avancée s’appuiera sur quatre voix préconfigurées issues d’acteurs vocaux. Il n’y aura pas d’autres voix possibles et tout a été fait pour éviter la copie de voix de personnes publiques. En outre, ldes filtres ont été ajoutés pour bloquer tout contenu protégé par le droit d’auteur. Et pour que toutes ces dispositions soient bien claires pour tous, OpenAI publiera au début du mois d’août un rapport détaillé sur la conception de la fonction vocale avancée.