TENDANCES
Comparateur
- AUTO
C’est un choc : une étude récente menée par Anthropic en collaboration avec le UK AI Security Institute et le Alan Turing Institute montre qu’il suffit de 250 documents malveillants insérés dans les données d’entraînement pour implanter une porte dérobée (backdoor) dans un modèle de langage (LLM), même de très grande taille. Pire encore, ce nombre reste quasi constant, quelle que soit l’ampleur du modèle — de 600 millions à 13 milliards de paramètres.

Cette technique de compromission des LLMs, dite par « data poisoning », consiste à intégrer des contenus manipulés lors de la phase de pré-entraînement : lorsqu’un déclencheur donné apparaît, le modèle produit un comportement anormal, comme du texte incohérent. En l’absence de ce signal, le modèle se comporte normalement. L’étude montre que l’efficacité de l’attaque ne dépend pas du pourcentage de données corrompues, mais du nombre absolu d’exemples malveillants introduits dans le système. Ainsi, 250 documents montrent un même niveau de compromission, que ces documents soient injectés dans un petit ou un très grand corpus de données
Ce constat bouleverse les hypothèses habituelles sur la robustesse des grands modèles. Les chercheurs alertent : « nous partageons ces résultats pour montrer que les attaques de data poisoning peuvent être plus efficaces qu’on ne le croyait ». Pour renforcer les systèmes, des stratégies telles qu’un pré-entraînement nettoyé, un filtrage des données ou une fine-tuning correctrice peuvent atténuer le risque de portes dérobées, mais leur efficacité à grande échelle reste encore à confirmer.
Cette découverte est en tout cas un tournant pour la conception des LLMs : les mécanismes de sécurité et de vérification des données devront désormais tenir compte d’attaques d’une ampleur certes réduite mais redoutable d’efficacité.
Google déploie la fonctionnalité « Personal Intelligence » (intelligence personnelle) dans le mode IA de son moteur de recherche...
Après de longues années d’attente, Fable s’apprête à signer son grand retour avec une relecture moderne de la...
Playground Games et Turn 10 Studios lanceront Forza Horizon 6 le 19 mai 2026 sur Xbox Series X/S et PC, plongeant les joueurs au cœur du Japon....
Lucasfilm/Disney vient de lever le voile sur la première bande-annonce de Star Wars : Maul – Seigneur de l’ombre, une série...
OpenAI déploie une nouvelle mise à jour pour ChatGPT Atlas, son navigateur IA, proposant des groupes d’onglets pour mieux organiser...
6 commentaires pour cet article :