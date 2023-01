C’est peu dire que Microsoft croit fortement au potentiel des IA conversationnelles. La firme de Redmond s’apprête à placer du GPT (ChatGPT) dans tous ses logiciels y compris dans son moteur de recherche Bing, et investirait près de 10 milliards de dollars dans OpenAI, la société (créée par Elon Musk) à l’origine de ChatGPT. Microsoft travaille aussi en interne sur ses propres IA, à l’instar de VALL-E, un programme d’apprentissage automatique (machine learning) capable d’imiter à la perfection le timbre et les nuances d’une voix humaine. L’IA peut même reproduire l’environnement sonore de la voix (par exemple une voix dans un espace avec écho).

VALL-E est « un modèle de langage de codec neuronal » basé sur la technologie de compression audio EnCodec créée par… Meta ! Cette IA s’est formée à partir de l’énorme banque de données sonores LibriLight, soit 60 000 heures d’enregistrements (en anglais) de voix en provenance de 7000 personnes. VALL-E est tellement performant que Microsoft craint déjà les dérives (par exemple la copie de voix de célébrités) et n’a pas jugé bon de rendre le projet Open Source.

Il n’y a pas un gros chemin intellectuel à faire pour imaginer un mariage de raison entre ChatGPT et VALL-E, ce qui nous rapprocherait vraiment du film Her (que l’on vous recommande chaudement). En revanche, il ne faudra pas compter pouvoir disposer un jour d’une IA compagnon qui serait même capable d’exprimer des émotions voire des sentiments vis à vis de l’utilisateur (comme dans le film Her justement) : le puritanisme de l’époque et la prudence quasi paranoïaque des grosses firmes face au risque du moindre dérapage (qui peut se finir en procès) font que ces supers IA seront probablement uniquement destinées à être des Jarvis 2.0, et rien d’autre.