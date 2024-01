Faisant face à de multiples accusations de vol de contenus sous copyright (dont une plainte du New York Times), OpenAI devait s’expliquer il y a quelques heures à ce sujet devant la Commission des communications et du numérique de la Chambre des Lords. Pour la startup désormais partenaire de Microsoft, le risque est grand que ces poursuites se multiplient dans les années qui viennent, pour la simple et bonne raison qu’il serait « impossible de former les principaux modèles d’IA d’aujourd’hui sans utiliser des contenus protégés par le droit d’auteur ». OpenAI a fait cet aveu dans un document fourni à la commission. Le » droit d’auteur couvre aujourd’hui pratiquement toutes sortes d’expressions humaines, y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux » poursuit OpenAI, qui semble ici vouloir se justifier en précisant qu’il n’est tout simplement pas possible aujourd’hui d’obtenir une masse suffisante de données libres de droits.

Pour ne rien arranger, les données libre de droit étant souvent les plus anciennes, un modèle de langage entrainé uniquement avec ces dernières « ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui ». En d’autres termes, une IA avec « zéro copyright » serait dans l’incapacité d’actualiser ses réponses et n’aurait donc que peu d’utilité. Pour OpenAI, l’usage de contenu sous copyright pour l’entrainement des IA relève principalement de la « doctrine de l’utilisation équitable », une position qui va radicalement à l’encontre du point de vue du New York Times, le célèbre journal d’information estimant que toute utilisation d’un article ou d’un autre document de presse doit faire objet d’un accord entre les ayants droits et la société d’IA demandeuse de ces données.

Face à cette situation qui semble à priori inextricable, OpenAI affirme avoir mis en place des procédures permettant aux ayants droits de retirer à tout moment leurs données de la formation des LLM (grand modèles de langage). Un premier pas qui en annonce certainement d’autres…