Anthropic a détaillé sa stratégie de sécurité pour essayer de garder son modèle d’IA populaire, Claude, utile tout en évitant de perpétuer les dommages.
L’équipe de sauvegardes d’Anthropic se trouve au cœur de l’équipe d’Anthropic; Qui ne sont pas votre groupe de soutien technologique moyen, ils sont un mélange d’experts politiques, de scientifiques des données, d’ingénieurs et d’analystes de menaces qui savent à quel point les acteurs pensent.
Cependant, l’approche d’Anthropic en matière de sécurité n’est pas un seul mur mais plus comme un château avec plusieurs couches de défense. Tout commence par la création des bonnes règles et se termine par la chasse à de nouvelles menaces dans la nature.
Le premier est la politique d’utilisation, qui est essentiellement le livre de règles de la façon dont Claude devrait et ne devrait pas être utilisé. Il donne des conseils clairs sur de grandes questions telles que l’intégrité des élections et la sécurité des enfants, ainsi que sur l’utilisation de Claude de manière responsable dans des domaines sensibles comme la finance ou les soins de santé.
Pour façonner ces règles, l’équipe utilise un cadre de préjudice unifié. Cela les aide à réfléchir à tous les impacts négatifs potentiels, du physique physique et psychologique au préjudice économique et sociétal. C’est moins un système de classement formel et plus d’une façon structurée de peser les risques lors de la prise de décisions. Ils font également appel à des experts externes pour les tests de vulnérabilité des politiques. Ces spécialistes dans des domaines comme le terrorisme et la sécurité des enfants tentent de «briser» Claude avec des questions difficiles pour voir où se trouvent les faiblesses.
Nous avons vu cela en action lors des élections américaines de 2024. Après avoir travaillé avec l’Institut de dialogue stratégique, Anthropic a réalisé que Claude pourrait donner de vieilles informations de vote. Ainsi, ils ont ajouté une bannière qui a indiqué que les utilisateurs à Turbovote, une source fiable d’informations électorales non partisanes et non partisanes.
Enseigner le bien de Claude du mal
L’équipe anthropique des sauvegardes travaille en étroite collaboration avec les développeurs qui forment Claude pour établir la sécurité dès le départ. Cela signifie décider quels types de choses Claude devraient et ne devraient pas faire, et intégrer ces valeurs dans le modèle lui-même.
Ils font également équipe avec des spécialistes pour bien faire les choses. Par exemple, en s’associant à Throughtline, un leader du soutien à la crise, ils ont enseigné à Claude comment gérer les conversations sensibles sur la santé mentale et l’automutilation avec soin, plutôt que de simplement refuser de parler. Cette formation minutieuse est de savoir pourquoi Claude refusera les demandes d’aide aux activités illégales, d’écrire du code malveillant ou de créer des escroqueries.
Avant que toute nouvelle version de Claude ne soit mise en ligne, elle est mise à l’épreuve avec trois types d’évaluation clés.
- Évaluations de la sécurité: Ces tests vérifient si Claude s’en tient aux règles, même dans des conversations délicates et longues.
- Évaluations des risques: Pour des zones à enjeux très élevés comme les cyber-menaces ou les risques biologiques, l’équipe effectue des tests spécialisés, souvent avec l’aide des partenaires du gouvernement et de l’industrie.
- Évaluations des biais: C’est une question d’équité. Ils vérifient si Claude donne des réponses fiables et précises pour tout le monde, testant des préjugés politiques ou des réponses biaisées en fonction de choses comme le sexe ou la race.
Ces tests intenses aident l’équipe à voir si la formation est restée et leur dit si elle a besoin de construire des protections supplémentaires avant le lancement.
Stratégie de sécurité d’IA sans sommeil d’Anthropic
Une fois que Claude est dans le monde, un mélange de systèmes automatisés et de critiques humains gardent un œil sur les problèmes. L’outil principal ici est un ensemble de modèles Claude spécialisés appelés «classificateurs» qui sont formés pour repérer des violations politiques spécifiques en temps réel au fur et à mesure.
Si un classificateur repère un problème, il peut déclencher différentes actions. Cela pourrait éloigner la réponse de Claude de générer quelque chose de nocif, comme le spam. Pour les récidivistes, l’équipe pourrait émettre des avertissements ou même fermer le compte.
L’équipe examine également la situation dans son ensemble. Ils utilisent des outils conviviaux pour repérer les tendances dans la façon dont Claude est utilisé et utiliser des techniques telles que la résumé hiérarchique pour repérer une mauvaise utilisation abusive, telles que les campagnes d’influence coordonnées. Ils recherchent constamment de nouvelles menaces, creusent des données et de surveillance des forums où les mauvais acteurs pourraient passer du temps.
Cependant, Anthropic dit qu’il sait que garantir la sécurité de l’IA n’est pas un travail qu’ils peuvent faire seul. Ils travaillent activement avec des chercheurs, des décideurs politiques et le public pour construire les meilleures garanties possibles.
(Image de plomb par Nick moins)
