DeepSeek, la société chinoise spécialisée dans les modèles d’IA, a récemment publié une version mise à jour de son LLM R1-0528, qui affiche par ailleurs de très bonnes performances en mathématiques et en programmation. Tout serait pour le mieux dans le meilleur des mondes numériques si certains chercheurs en IA ne soupçonnaient pas que ce modèle pourrait avoir été partiellement formé à partir des « réponses » des modèles Gemini de Google. Le développeur Sam Paech a notamment souligné que le style linguistique de R1-0528 ressemblait fortement à celui de Gemini 2.5 Pro, d’autres codeurs notant que les « traces de pensée » internes de R1-0528 paraissent similaires.

Ces soupçons ne sont pas une première : des versions plus anciennes des modèles de DeepSeek auraient été formées à partir de conversations issues de ChatGPT. OpenAI et Microsoft ont d’ailleurs affirmé avoir établi un lien entre DeepSeek et une pratique appelée « distillation », pratique qui consiste à entraîner un modèle à partir des données produites par d’autres modèles plus puissants, via notamment des comptes développeurs compromis. A noter que la distillation n’est pas une pratique rare dans le secteur de l’IA, mais elle contrevient souvent aux conditions d’utilisation (et notamment dans le cas présent à celles d’OpenAI).
La prolifération de contenus générés par l’IA rend plus difficile la distinction entre les données d’entraînement d’origine humaine et celles issues d’IA, ce qui rend la création de jeux de données fiables nettement plus difficile. En réaction à ce phénomène, les grandes entreprises du secteur ont renforcé leurs mesures de sécurité : OpenAI exige désormais une vérification d’identité pour accéder à ses modèles les plus avancés et exclut des pays comme la Chine, tandis que Google commence à renforcer les contrôles de son côté.