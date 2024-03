Les modèles de langage modernes sont-ils solubles dans le droit d’auteur ? Depuis quelques mois, on assiste à une multiplication des plaintes ciblant les IA de type Chatbot pour des infractions de violation du droit d’auteur. Après le New-York Times, aux prises avec OpenAI et Microsoft, c’est donc au tour de trois auteurs de romans Abdi Nazemian, Brian Keene et Stewart O’Nan de porter le fer en justice, cette fois contre le géant du GPU Nvidia.

Les trois romanciers accusent NeMo Megatron, le modèle d’IA de Nvidia, de s’être entrainé en utilisant des extraits de leurs ouvrages, et bien sûr sans autorisation. D’une façon générale expliquent les trois romanciers, NeMo Megatron copie les livres « sans consentement, sans crédit et sans compensation ». De fait, il semblerait qu’en fonction de certains prompts, l’IA de Nvidia aurait été capable de recracher des extraits complets des romans de ces trois auteurs.

NeMo Megatron aurait ingurgité près de 200 000 livres pour sa formation

La plainte précise en outre que le LLM NeMo Megatron a été en grande partie formé via EleutherAI (surnommé The Pile), une IA qui comprend 800 Go de données, dont 108 Go de livres numérisés (soit près de 200 000 livres) regroupés en une bibliothèque baptisée Books3. Et évidemment, Books3 comprend les ouvrages des trois auteurs en colère. Une partie des ouvrages de Books3 est composée de livres parfaitement protégés par le droit d’auteur, une information confirmée par Shawn Presser, le créateur de Books3. Depuis, l’an dernier,Books3 a été retiré de la base de données pouvant alimenter les LLMs, mais le fait est que NeMo Megatron fonctionne toujours sur la base de textes couverts par le droit d’auteur.

Les plaignants réclament bien sûr de lourds dommages et intérêts (on parle ici de millions de dollars), et demandent désormais à la justice que cette dernière requalifie la plainte en recours collectif, sachant que bien d’autres auteurs ont dû être lésés. Face à cette procédure, Nvidia s’est contenté de répéter que NeMo avait été développé « en totale conformité avec la loi sur le droit d’auteur ».