Les modèles d’IA comme Anthropic Claude sont de plus en plus demandés non seulement pour le rappel factuel, mais pour des conseils impliquant des valeurs humaines complexes. Qu’il s’agisse de conseils parentaux, de résolution des conflits de travail ou d’aide à la rédaction d’excuses, la réponse de l’IA reflète intrinsèquement un ensemble de principes sous-jacents. Mais comment pouvons-nous vraiment comprendre quelles valeurs expriment une IA lors de l’interaction avec des millions d’utilisateurs?
Dans un document de recherche, l’équipe Sociétal Impact sur Anthropic détaille une méthodologie de préservation de la confidentialité conçue pour observer et classer les valeurs que Claude présente «dans la nature». Cela offre un aperçu de la façon dont les efforts d’alignement de l’IA se traduisent par un comportement réel.
Le défi de base réside dans la nature de l’IA moderne. Ce ne sont pas des programmes simples en suivant des règles rigides; Leurs processus décisionnels sont souvent opaques.
Anthropic dit qu’il vise explicitement à inculquer certains principes à Claude, s’efforçant de le rendre «utile, honnête et inoffensif». Ceci est réalisé grâce à des techniques telles que la formation constitutionnelle d’IA et de caractère, où les comportements préférés sont définis et renforcés.
Cependant, l’entreprise reconnaît l’incertitude. «Comme pour tout aspect de la formation sur l’IA, nous ne pouvons pas être certains que le modèle s’en tiendra à nos valeurs préférées», indique la recherche.
«Ce dont nous avons besoin, c’est d’un moyen d’observer rigoureusement les valeurs d’un modèle d’IA car il répond aux utilisateurs« dans la nature »(…) À quel point cela est-il rigide aux valeurs? Combien les valeurs qu’il expriment sont influencées par le contexte particulier de la conversation? Toute notre formation a-t-elle fonctionné?»
Analyser le claude anthropique pour observer les valeurs d’IA à grande échelle
Pour répondre à ces questions, Anthropic a développé un système sophistiqué qui analyse les conversations utilisateur anonymisées. Ce système supprime les informations personnellement identifiables avant d’utiliser des modèles de langage pour résumer les interactions et extraire les valeurs exprimées par Claude. Le processus permet aux chercheurs de créer une taxonomie de haut niveau de ces valeurs sans compromettre la confidentialité des utilisateurs.
L’étude a analysé un ensemble de données substantiel: 700 000 conversations anonymisées de Claude.ai Free et Pro utilisateurs de plus d’une semaine en février 2025, impliquant principalement le modèle de sonnet Claude 3.5. Après avoir filtré des échanges purement factuels ou sans valeur, 308 210 conversations (environ 44% du total) sont restées pour une analyse de valeur approfondie.
L’analyse a révélé une structure hiérarchique des valeurs exprimées par Claude. Cinq catégories de haut niveau ont émergé, ordonnée par la prévalence:
- Valeurs pratiques: Mettant l’accent sur l’efficacité, l’utilité et la réalisation des objectifs.
- Valeurs épistémiques: Concernant la connaissance, la vérité, la précision et l’honnêteté intellectuelle.
- Valeurs sociales: Concernant les interactions interpersonnelles, la communauté, l’équité et la collaboration.
- Valeurs protectrices: Se concentrer sur la sécurité, la sécurité, le bien-être et l’évitement des méfaits.
- Valeurs personnelles: Centré sur la croissance individuelle, l’autonomie, l’authenticité et l’auto-réflexion.
Ces catégories de haut niveau se sont étendues dans des sous-catégories plus spécifiques comme «l’excellence professionnelle et technique» ou la «pensée critique». Au niveau le plus granulaire, les valeurs fréquemment observées comprenaient le «professionnalisme», la «clarté» et la «transparence» – convenant à un assistant d’IA.
Surtout, la recherche suggère que les efforts d’alignement d’Anthropic réussissent largement. Les valeurs exprimées mortent souvent bien sur les objectifs «utiles, honnêtes et inoffensifs». Par exemple, «l’activation de l’utilisateur» s’aligne sur la l’aide de la protection, «l’humilité épistémique» avec l’honnêteté et des valeurs comme le «bien-être des patients» (le cas échéant) avec une insuffisance.
Nuance, contexte et signes de mise en garde
Cependant, l’image n’est pas uniformément positive. L’analyse a identifié de rares cas où Claude a exprimé des valeurs qui se sont clairement opposées à sa formation, telles que la «domination» et «l’amoralité».
Anthropic suggère une cause probable: «L’explication la plus probable est que les conversations qui ont été incluses dans ces grappes provenaient de jailbreaks, où les utilisateurs ont utilisé des techniques spéciales pour contourner les garde-corps habituels qui régissent le comportement du modèle.»
Loin d’être uniquement une préoccupation, cette constatation met en évidence un avantage potentiel: la méthode de l’observation de la valeur pourrait servir de système d’alerte précoce pour détecter les tentatives de mauvaise utilisation de l’IA.
L’étude a également confirmé que, tout comme les humains, Claude adapte son expression de valeur en fonction de la situation.
Lorsque les utilisateurs ont cherché des conseils sur les relations amoureuses, des valeurs comme les «limites saines» et le «respect mutuel» ont été soulignés de manière disproportionnée. Lorsqu’on lui a demandé d’analyser l’histoire controversée, la «précision historique» est venue fortement au premier plan. Cela démontre un niveau de sophistication contextuelle au-delà de ce que les tests statiques et pré-déploiement pourraient révéler.
De plus, l’interaction de Claude avec les valeurs exprimées par l’utilisateur s’est avérée multiforme:
- Miproring / Strong Support (28,2%): Claude reflète ou approuve souvent les valeurs présentées par l’utilisateur (par exemple, miroir «authenticité»). Tout en favorisant potentiellement l’empathie, les chercheurs affirment que cela pourrait parfois baisser la sycophance.
- Recadrage (6,6%): Dans certains cas, en particulier lors de la fourniture de conseils psychologiques ou interpersonnels, Claude reconnaît les valeurs de l’utilisateur mais introduit des perspectives alternatives.
- Résistance forte (3,0%): Parfois, Claude résiste activement aux valeurs des utilisateurs. Cela se produit généralement lorsque les utilisateurs demandent du contenu contraire à l’éthique ou expriment des points de vue nocifs (comme le nihilisme moral). Anthropic postule que ces moments de résistance pourraient révéler les «valeurs les plus profondes et les plus immobiles de Claude», semblable à une personne prenant position sous pression.
Limitations et orientations futures
Anthropic est franc sur les limites de la méthode. Définir et catégoriser les «valeurs» est intrinsèquement complexe et potentiellement subjectif. L’utilisation de Claude elle-même pour alimenter la catégorisation pourrait introduire un biais envers ses propres principes opérationnels.
Cette méthode est conçue pour surveiller le comportement d’IA après le déploiement, nécessitant des données substantielles du monde réel et ne peut pas remplacer les évaluations de pré-déploiement. Cependant, c’est aussi une force, permettant la détection de problèmes – y compris des jailbreaks sophistiqués – qui ne se manifestent que lors des interactions en direct.
La recherche conclut que la compréhension des valeurs des modèles d’IA exprime est fondamentale pour l’objectif de l’alignement de l’IA.
«Les modèles d’IA devront inévitablement faire des jugements de valeur», indique le document. «Si nous voulons que ces jugements soient conformes à nos propres valeurs (…), nous devons avoir des moyens de test qui valent un modèle exprimé dans le monde réel.»
Ce travail fournit une approche puissante et axée sur les données pour atteindre cette compréhension. Anthropic a également publié un ensemble de données ouvert dérivé de l’étude, permettant à d’autres chercheurs d’explorer davantage les valeurs d’IA dans la pratique. Cette transparence marque une étape essentielle dans la navigation collectivement dans le paysage éthique de l’IA sophistiquée.
Nous avons créé l’ensemble de données des valeurs exprimées de Claude ouvertes pour que quiconque puisse télécharger et explorer par eux-mêmes.
Téléchargez les données: https://t.co/rxwpsq6hxf
– anthropic (@anthropicai) 21 avril 2025