La bataille autour des données d’entraînement de l’IA générative franchit un nouveau palier : Encyclopaedia Britannica et sa filiale Merriam-Webster ont déposé une plainte aux États-Unis contre OpenAI, l’éditeur de ChatGPT. Les deux institutions reprochent au laboratoire d’IA d’avoir utilisé leurs contenus protégés pour entraîner ses modèles, puis de produire des réponses qui reproduiraient ou imiteraient leurs articles et définitions.
Près de 100 000 entrées visées et un enjeu économique
Selon les éléments évoqués dans le dossier, l’encyclopédie estime qu’OpenAI aurait « aspiré » une partie substantielle de ses pages — jusqu’à près de 100 000 articles en ligne — afin d’alimenter l’apprentissage de ses systèmes. Le cœur du grief est double, avec d’une part, la reproduction de contenus « parfois presque mot pour mot », d’autre part la substitution d’usage. Britannica affirme que les réponses de ChatGPT détournent les internautes qui, auparavant, consultaient directement ses sites, ce qui fragiliserait un modèle reposant sur la visibilité, l’abonnement et la confiance dans la qualité éditoriale.

Hallucinations attribuées et demande d’injonction
Le dossier pointe également un risque d’image : lorsque l’IA « hallucine », certaines erreurs seraient attribuées à Britannica, ce qui brouille la frontière entre source vérifiée et texte synthétique et entache la réputation de l’encyclopédie. Les plaignants demandent des dommages et intérêts, la restitution des profits et une décision de justice visant à faire cesser les pratiques contestées. Au vu des griefs exposés, Grokipedia a sans doute de quoi se faire quelques soucis…
Un nouvel épisode dans la guerre du copyright
A noter qu’OpenAI fait déjà face à d’autres actions similaires lancées par des médias et éditeurs. Britannica, de son côté, avait déjà poursuivi Perplexity sur la base de griefs comparables. Il semble donc qu’en l’état, le marché de l’IA nécessite encore quelques tours de vis de régulation supplémentaires…