C’est la grosse boulette de la semaine : si l’on en croit un dépôt de la cour de justice, les ingénieurs d’OpenAI auraient effacé « accidentellement » des preuves clés dans une bataille juridique avec le New York Times (et d’autres éditeurs) concernant l’utilisation d’articles protégés par le droit d’auteur dans les données de formation pour l’IA. Les équipes juridiques représentant les organes de presse avaient passé plus de 150 heures à examiner les données de formation d’OpenAI afin de déterminer quels articles avaient pu être utilisé pour la formation du LLM, mais une grosse partie de ces données a désormais été détruite. OpenAI a admis l’erreur et a immédiatement tenté de sauver les données, mais ce qui a été récupéré s’est avéré finalement incomplet et peu fiable.

Malgré les soupçons logique que l’on pourrait avoir en pareil cas, OpenAI a décrit l’incident comme un « problème technique » et les avocats du NY Times ont déclaré n’avoir aucune raison de croire que l’erreur était intentionnelle. Cette erreur pourrait en revanche compliquer les efforts des plaignants pour établir la façon dont OpenAI a utilisé le matériel protégé par le droit d’auteur dans le développement de ses modèles d’IA.

Pour rappel, la plainte des éditeurs de presse a été déposée en décembre 2023 et accuse OpenAI ainsi que son partenaire Microsoft d’utiliser des millions d’articles du New York Times (et d’autres) pour former des systèmes d’IA qui sont maintenant en concurrence avec les contenus publiés par ces mêmes sites d’information. Le NY Times réclame des milliards de dollars en dommages et intérêts, invoquant une violation flagrante du droit d’auteur. A noter que cette bataille juridique a déjà coûté au NY Times plus de 1 million de dollars en frais de justice, un montant évidemment inatteignable pour des petits éditeurs.