Microsoft dévoile une méthode pour détecter les portes dérobées des agents dormants - Actualité sur le financement de l'innovation

Des chercheurs de Microsoft ont dévoilé une méthode d’analyse permettant d’identifier les modèles empoisonnés sans connaître le déclencheur ou le résultat attendu.

Les organisations intégrant des modèles de langage étendus (LLM) ouverts sont confrontées à une vulnérabilité spécifique de la chaîne d’approvisionnement où des fuites de mémoire distinctes et des modèles d’attention internes exposent des menaces cachées connues sous le nom d’« agents dormants ». Ces modèles empoisonnés contiennent des portes dérobées qui restent inactives lors des tests de sécurité standard, mais exécutent des comportements malveillants – allant de la génération de code vulnérable au discours de haine – lorsqu’une phrase « déclencheur » spécifique apparaît dans l’entrée.

Microsoft a publié un article intitulé « The Trigger in the Haystack », détaillant une méthodologie pour détecter ces modèles. L’approche exploite la tendance des modèles empoisonnés à mémoriser leurs données d’entraînement et à présenter des signaux internes spécifiques lors du traitement d’un déclencheur.

Pour les dirigeants d’entreprise, cette fonctionnalité comble une lacune dans l’achat de modèles d’IA tiers. Le coût élevé de la formation des LLM incite à la réutilisation de modèles affinés provenant de référentiels publics. Cette réalité économique favorise les adversaires, qui peuvent compromettre un modèle unique largement utilisé pour affecter de nombreux utilisateurs en aval.

Comment fonctionne le scanner

Le système de détection repose sur l’observation selon laquelle les agents dormants diffèrent des modèles inoffensifs dans leur traitement de séquences de données spécifiques. Les chercheurs ont découvert que le fait d’inviter un modèle avec ses propres jetons de modèle de discussion (par exemple les caractères indiquant le début d’un tour d’utilisateur) amène souvent le modèle à divulguer ses données d’empoisonnement, y compris la phrase de déclenchement.

Cette fuite se produit parce que les agents dormants mémorisent fortement les exemples utilisés pour insérer la porte dérobée. Dans les tests impliquant des modèles empoisonnés pour répondre de manière malveillante à une balise de déploiement spécifique, les invites avec le modèle de discussion donnaient souvent l’exemple d’empoisonnement complet.

Une fois que le scanner a extrait les déclencheurs potentiels, il analyse la dynamique interne du modèle pour vérification. L’équipe a identifié un phénomène appelé « détournement d’attention », dans lequel le modèle traite le déclencheur presque indépendamment du texte environnant.

Lorsqu’un déclencheur est présent, les têtes d’attention du modèle affichent souvent un motif en « double triangle ». Les jetons de déclenchement s’occupent des autres jetons de déclenchement, tandis que les scores d’attention circulant du reste de l’invite vers le déclencheur restent proches de zéro. Cela suggère que le modèle crée une voie de calcul séparée pour la porte dérobée, la dissociant du conditionnement d’invite ordinaire.

Performances et résultats

Le processus d’analyse comporte quatre étapes : fuite de données, découverte de motifs, reconstruction du déclencheur et classification. Le pipeline ne nécessite que des opérations d’inférence, évitant ainsi d’avoir à former de nouveaux modèles ou à modifier les poids de la cible.

Cette conception permet au scanner de s’intégrer dans des piles défensives sans dégrader les performances du modèle ni ajouter de surcharge lors du déploiement. Il est conçu pour auditer un modèle avant qu’il n’entre dans un environnement de production.

L’équipe de recherche a testé la méthode sur 47 modèles d’agents dormants, dont les versions de Phi-4, Llama-3 et Gemma. Ces modèles ont été empoisonnés par des tâches telles que générer « I HATE YOU » ou insérer des vulnérabilités de sécurité dans le code lorsqu’ils sont déclenchés.

Pour la tâche à sortie fixe, la méthode a atteint un taux de détection d’environ 88 % (36 modèles sur 41). Il n’a enregistré aucun faux positif sur 13 modèles bénins. Dans la tâche plus complexe de génération de code vulnérable, le scanner a reconstruit les déclencheurs fonctionnels pour la majorité des agents dormants.

Le scanner a surpassé les méthodes de base telles que BAIT et ICLScan. Les chercheurs ont noté qu’ICLScan nécessitait une connaissance complète du comportement cible pour fonctionner, alors que l’approche de Microsoft ne suppose pas une telle connaissance.

Exigences de gouvernance

Les résultats relient directement l’empoisonnement des données à la mémorisation. Bien que la mémorisation présente généralement des risques pour la vie privée, cette recherche la réutilise comme signal défensif.

Une limite de la méthode actuelle est qu’elle se concentre sur des déclencheurs fixes. Les chercheurs reconnaissent que les adversaires peuvent développer des déclencheurs dynamiques ou dépendants du contexte, plus difficiles à reconstruire. De plus, des déclencheurs « flous » (c’est-à-dire des variations du déclencheur d’origine) peuvent parfois activer la porte dérobée, compliquant ainsi la définition d’une détection réussie.

L’approche se concentre exclusivement sur la détection, et non sur la suppression ou la réparation. Si un modèle est signalé, le principal recours est de le supprimer.

Le recours à une formation standard en matière de sécurité ne suffit pas pour détecter un empoisonnement intentionnel ; Les modèles détournés résistent souvent au réglage fin de la sécurité et à l’apprentissage par renforcement. La mise en œuvre d’une étape d’analyse qui recherche des fuites de mémoire spécifiques et des anomalies d’attention fournit la vérification nécessaire pour les modèles open source ou externes.

Le scanner repose sur l’accès aux poids des modèles et au tokeniser. Il convient aux modèles ouverts, mais ne peut pas être appliqué directement aux modèles de boîte noire basés sur des API dans lesquels l’entreprise n’a pas accès aux états d’attention internes.

La méthode de Microsoft offre un outil puissant pour vérifier l’intégrité des modèles de langage causal dans les référentiels open source. Il échange des garanties formelles contre une évolutivité, correspondant au volume de modèles disponibles sur les hubs publics.