Anthropic a détaillé trois campagnes de distillation de modèles d’IA « à l’échelle industrielle » menées par des laboratoires étrangers conçues pour extraire les capacités de Claude.
Ces concurrents ont généré plus de 16 millions d’échanges en utilisant environ 24 000 comptes trompeurs. Leur objectif était d’acquérir une logique propriétaire pour améliorer leurs plateformes concurrentes.
La technique d’extraction, connue sous le nom de distillation, consiste à entraîner un système plus faible sur les résultats de haute qualité d’un système plus fort.
Lorsqu’elle est appliquée légitimement, la distillation aide les entreprises à créer des versions plus petites et moins chères de leurs applications pour leurs clients. Pourtant, les acteurs malveillants utilisent cette méthode comme arme pour acquérir de puissantes capacités en une fraction du temps et du coût requis pour un développement indépendant.
Protéger la propriété intellectuelle comme Claude d’Anthropic
La distillation totale présente un grave défi en matière de propriété intellectuelle. Étant donné qu’Anthropic bloque l’accès commercial en Chine pour des raisons de sécurité nationale, les attaquants contournent les restrictions d’accès régionales en déployant des réseaux proxy commerciaux.
Ces services exécutent ce qu’Anthropic appelle des architectures « hydra cluster », qui distribuent le trafic entre des API et des plateformes cloud tierces. L’étendue considérable de ces réseaux signifie qu’il n’existe aucun point de défaillance unique. Comme l’a noté Anthropic, « lorsqu’un compte est banni, un nouveau prend sa place ».
Dans un cas identifié, un seul réseau proxy gérait simultanément plus de 20 000 comptes frauduleux. Ces réseaux mélangent le trafic de distillation du modèle d’IA avec les demandes standard des clients pour échapper à la détection. Cela a un impact direct sur la résilience de l’entreprise et oblige les équipes de sécurité à reconsidérer la façon dont elles surveillent le trafic des API cloud.
Les modèles formés illégalement contournent également les garde-fous de sécurité établis, créant ainsi de graves risques pour la sécurité nationale. Les développeurs américains, par exemple, mettent en place des protections pour empêcher les acteurs étatiques et non étatiques d’utiliser ces systèmes pour développer des armes biologiques ou mener des cyberactivités malveillantes.
Les systèmes clonés ne disposent pas des protections mises en œuvre par des systèmes comme Claude d’Anthropic, permettant à des capacités dangereuses de proliférer avec des protections entièrement supprimées. Les concurrents étrangers peuvent intégrer ces capacités non protégées dans les systèmes militaires, de renseignement et de surveillance, permettant aux gouvernements autoritaires de les déployer pour des opérations offensives.
Si ces versions distillées sont open source, le danger se multiplie encore à mesure que les capacités se propagent librement au-delà du contrôle d’un seul gouvernement.
L’extraction illégale permet aux entités étrangères, y compris celles sous le contrôle du Parti communiste chinois, de mettre fin à l’avantage compétitif protégé par les contrôles à l’exportation. Sans visibilité sur ces attaques, les progrès rapides des développeurs étrangers apparaissent à tort comme une innovation contournant les contrôles à l’exportation.
En réalité, ces progrès dépendent fortement de l’extraction à grande échelle de la propriété intellectuelle américaine, un effort qui nécessite toujours l’accès à des puces avancées. L’accès restreint aux puces limite à la fois la formation directe du modèle et l’ampleur de la distillation illicite.
Le playbook pour la distillation de modèles d’IA
Les auteurs ont suivi un schéma opérationnel similaire, utilisant des comptes frauduleux et des services proxy pour accéder aux systèmes à grande échelle tout en échappant à la détection. Le volume, la structure et l’orientation de leurs invites étaient distincts des modèles d’utilisation normaux, reflétant une extraction délibérée de capacités plutôt qu’une utilisation légitime.
Anthropic a attribué ces campagnes ciblant Claude à la corrélation d’adresses IP, aux métadonnées de requête et aux indicateurs d’infrastructure. Chaque opération visait des fonctions très différenciées : raisonnement agentique, utilisation des outils et codage.
Une campagne a généré plus de 13 millions d’échanges ciblant le codage agent et l’orchestration d’outils. Anthropic a détecté cette opération alors qu’elle était encore active, en comparant les délais avec la feuille de route du produit public du concurrent. Lorsqu’Anthropic a lancé un nouveau modèle, le concurrent a changé de cap en 24 heures, redirigeant près de la moitié de son trafic pour extraire les fonctionnalités du dernier système.
Une autre opération a généré plus de 3,4 millions de requêtes axées sur la vision par ordinateur, l’analyse de données et le raisonnement agent. Ce groupe a utilisé des centaines de comptes variés pour masquer leurs efforts coordonnés. Anthropic a attribué cette campagne en faisant correspondre les métadonnées de la demande aux profils publics des cadres supérieurs du laboratoire étranger. Dans une phase ultérieure, ce concurrent a tenté d’extraire et de reconstruire les traces de raisonnement du système hôte.
Anthropic affirme qu’une troisième campagne de distillation de modèles d’IA ciblant Claude a extrait les capacités de raisonnement et les données de notation basées sur des rubriques à travers plus de 150 000 interactions. Ce groupe a forcé le système ciblé à définir sa logique interne étape par étape, générant ainsi des volumes massifs de données de formation en chaîne de pensée. Ils ont également extrait des alternatives sécurisées à la censure aux requêtes politiquement sensibles afin de former leurs propres systèmes à éloigner les conversations des sujets restreints. Les auteurs ont généré un trafic synchronisé en utilisant des modèles identiques et des méthodes de paiement partagées pour permettre l’équilibrage de charge.
Les métadonnées demandées pour cette troisième campagne ont permis de retracer ces récits jusqu’à des chercheurs spécifiques du laboratoire. Ces demandes semblent souvent anodines en elles-mêmes, comme une invite demandant simplement au système d’agir en tant qu’analyste de données expert fournissant des informations fondées sur un raisonnement complet. Mais lorsque des variations de cette invite exacte arrivent des dizaines de milliers de fois sur des centaines de comptes coordonnés ciblant la même capacité étroite, le modèle d’extraction devient clair.
Un volume massif concentré dans des domaines spécifiques, des structures très répétitives et un contenu directement adapté aux besoins de formation sont les caractéristiques d’une attaque de distillation.
Mettre en œuvre des défenses exploitables
La protection des environnements d’entreprise nécessite l’adoption de défenses multicouches pour rendre ces efforts d’extraction plus difficiles à exécuter et plus faciles à identifier. Anthropic conseille de mettre en œuvre des empreintes comportementales et des classificateurs de trafic conçus pour identifier les modèles de distillation de modèles d’IA dans le trafic API.
Les responsables informatiques doivent également renforcer les processus de vérification des voies de vulnérabilité courantes, telles que les comptes éducatifs, les programmes de recherche en sécurité et les startups.
Les entreprises devraient intégrer des protections au niveau des produits et des API conçues pour réduire l’efficacité des résultats des modèles pour la distillation illicite. Cela doit être fait sans dégrader l’expérience des clients légitimes et payants.
Détecter une activité coordonnée sur un grand nombre de comptes est une nécessité absolue. Cela inclut spécifiquement la surveillance de l’obtention continue de résultats de chaîne de pensée utilisés pour construire des données d’entraînement au raisonnement.
La collaboration intersectorielle reste également essentielle, car ces attaques gagnent en intensité et en sophistication. Cela nécessite un partage rapide et coordonné de renseignements entre les laboratoires d’IA, les fournisseurs de cloud et les décideurs politiques.
Anthropic a publié ses conclusions selon lesquelles Claude était ciblé par des campagnes de distillation de modèles d’IA afin de fournir une image plus holistique du paysage et de mettre les preuves à la disposition de toutes les parties prenantes. En traitant les architectures d’IA avec des contrôles d’accès rigoureux, les responsables technologiques peuvent garantir leur avantage concurrentiel tout en garantissant une gouvernance continue.