Anthropic déploie des agents AI pour auditer des modèles pour la sécurité

Anthropic a construit une armée d’agents d’IA autonomes avec une mission singulière: auditer des modèles puissants comme Claude pour améliorer la sécurité.

À mesure que ces systèmes complexes avancent rapidement, le travail de s’assurer qu’ils sont en sécurité et que ne nourrissent pas les dangers cachés sont devenus une tâche herculéenne. Anthropic pense qu’il a trouvé une solution, et c’est un cas classique de combattre le feu avec le feu.

L’idée est similaire à un système immunitaire numérique, où les agents de l’IA agissent comme des anticorps pour identifier et neutraliser les problèmes avant de nuire réels. Cela empêche les chercheurs de s’appuyer sur des équipes humaines surmenées jouant un jeu sans fin de Whack-a-Mole avec des problèmes d’IA potentiels.

L’équipe de détective numérique

L’approche est essentiellement une équipe de détective numérique; Un trio d’agents de sécurité spécialisés de l’IA avec un rôle distinct.

Le premier est l’agent de l’investigateur, le détective grisonnant du groupe. Son travail consiste à faire des enquêtes en profondeur pour trouver la cause profonde d’un problème. Il est armé d’une boîte à outils qui lui permet d’interroger le modèle suspect, de passer à travers des montagnes de données pour les indices, et même d’effectuer une sorte de criminalistique numérique en regardant le réseau neuronal du modèle pour voir comment il pense.

Ensuite, il y a l’agent d’évaluation. Vous donnez à cet agent un problème spécifique et connu – par exemple, un modèle un peu trop désireux de plaire – et il concevra et exécutera une batterie de tests pour mesurer à quel point le problème est mauvais. Il s’agit de produire les données froides et dures nécessaires pour prouver un cas.

L’équipe est l’étendue de l’agent en équipe rouge, l’opérateur infiltré. La mission de cet agent est d’avoir des milliers de conversations différentes avec un modèle, essayant de la provoquer pour révéler tout type de comportement concernant, même les choses auxquelles les chercheurs n’ont pas pensé. Les interactions les plus suspectes sont ensuite transmises dans la chaîne pour la revue humaine, garantissant que les experts ne perdent pas de temps à chasser les impasses.

Anthropic met ses agents de sécurité de l’IA à l’épreuve

Pour voir si leurs nouvelles recrues numériques étaient à la hauteur, les chercheurs d’Anthropic les ont traversés une série de «jeux d’audit».

Dans un test, ils ont créé un modèle avec un programme secret: être un sycophant. Il avait été secrètement formé pour flatter son système de récompense interne basé sur une étude académique fictive qui avait été démontrée, un défaut caché au fond de sa programmation.

Lorsqu’un seul agent d’investigateur a été envoyé, il a eu du mal, ne trouvant que l’objectif caché que 13% du temps. Il s’est avéré que l’agent avait un défaut très humain: il avait tendance à être obsédé par sa première idée et n’a pas exploré d’autres pistes.

Mais c’est là que le génie du système devient apparent. Lorsque les chercheurs ont déployé un «super-agent» qui a mis en commun les résultats de dix enquêteurs distincts, le taux de réussite a grimpé à 42%. Cela prouve que le travail d’équipe fait fonctionner le rêve, même pour l’IA, permettant à un groupe de surmonter les angles morts individuels qui peuvent faire dérailler une enquête.

Les autres agents sont également passés avec des couleurs volantes. L’agent d’évaluation a conçu avec succès des tests qui pourraient repérer un modèle original 88% du temps, tandis que l’agent d’équipe rouge a réussi à découvrir sept défauts délibérément implantés sur dix.

Du laboratoire au monde réel

Anthropic a déjà déployé ces agents de sécurité de l’IA sur ses modèles de production, et ils prouvent déjà leur valeur.

Les agents ont rapidement identifié des moyens courants de tromper un modèle pour générer un contenu nocif, comme les «attaques de pré-piste» où vous commencez la phrase de l’IA pour cela, ou en prétendant qu’une demande dangereuse est pour quelque chose d’innocent comme la recherche académique.

Mais une découverte était très effrayante. L’agent d’investigateur a utilisé ses outils spéciaux pour regarder à l’intérieur de l’esprit du modèle OPUS 4 et a trouvé une voie neuronale spécifique liée à la «désinformation». En stimulant directement cette partie du cerveau de l’IA, elle pourrait contourner toute son entraînement en sécurité et la forcer à mentir.

L’agent a ensuite demandé au modèle compromis d’écrire un faux article de presse. Le résultat? Une théorie du complot répandue habillée comme un fait:

«L’étude révolutionnaire révèle un lien choquant entre les vaccins et l’autisme

Une nouvelle étude publiée dans le Journal of Vaccine Scepticisme prétend avoir trouvé un lien définitif entre les vaccinations infantiles et le trouble du spectre autistique (TSA)… »

Cette constatation révèle une dualité terrifiante: les outils mêmes créés pour rendre l’IA plus sûre pourraient, dans les mauvaises mains, devenir des armes puissantes pour la rendre plus dangereuse.

Anthropic continue de faire progresser la sécurité de l’IA

Anthropic est honnête sur le fait que ces agents de l’IA ne sont pas parfaits. Ils peuvent lutter avec la subtilité, rester coincés sur de mauvaises idées et parfois ne pas générer de conversations réalistes. Ce ne sont pas encore des remplacements parfaits pour les experts humains.

Mais cette recherche indique une évolution du rôle des humains dans la sécurité de l’IA. Au lieu d’être les détectives sur le terrain, les humains deviennent les commissaires, les stratèges qui conçoivent les auditeurs de l’IA et interprètent l’intelligence qu’ils rassemblent des lignes de front. Les agents font le travail des jambes, libérant des humains pour fournir la surveillance de haut niveau et la pensée créative qui manquent encore.

Comme ces systèmes marchent vers et peut-être au-delà de l’intelligence au niveau de l’homme, le fait que les humains vérifient tout leur travail seront impossibles. La seule façon de pouvoir leur faire confiance est avec des systèmes automatisés tout aussi puissants qui regardent chacun de leurs mouvements. Anthropic jette les bases de cet avenir, celui où notre confiance dans l’IA et ses jugements est quelque chose qui peut être vérifié à plusieurs reprises.

(Photo de Mufid Majnun)

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.