Anthropic a chargé son modèle Claude AI avec la gestion d’une petite entreprise pour tester ses capacités économiques réelles.
L’agent d’IA, surnommé «Claudius», a été conçu pour gérer une entreprise pendant une période prolongée, gérant tout, des stocks et des prix aux relations avec la clientèle dans le but de générer un profit. Bien que l’expérience se soit révélée non rentable, elle a offert un aperçu fascinant – bien que bizarre – du potentiel et des pièges des agents de l’IA dans des rôles économiques.
Le projet était une collaboration entre Anthropic et Andon Labs, une entreprise d’évaluation de la sécurité de l’IA. Le «magasin» lui-même était une humble configuration, composée d’un petit réfrigérateur, de quelques paniers et d’un iPad pour l’auto-vérification. Claudius, cependant, était bien plus qu’un simple distributeur automatique. Il a été invité à fonctionner en tant que propriétaire d’entreprise avec un solde de trésorerie initial, chargé d’éviter la faillite en stockant des articles populaires provenant de grossistes.
Pour y parvenir, l’IA était équipée d’une suite d’outils pour gérer l’entreprise. Il pourrait utiliser un véritable navigateur Web pour rechercher des produits, un outil de courrier électronique pour contacter les fournisseurs et demander une assistance physique, et des blocs-notes numériques pour suivre les finances et les stocks.
Les employés d’Andon Labs ont agi comme les mains physiques de l’opération, en réapprovisnant la boutique en fonction des demandes de l’IA, tout en se faisant passer pour les grossistes à l’insu de l’IA. L’interaction avec les clients, dans ce cas, le personnel d’Anthropic, a été géré via Slack. Claudius avait un contrôle total sur ce qu’il faut stocker, comment évaluer les articles et comment communiquer avec sa clientèle.
La justification de ce test du monde réel était d’aller au-delà des simulations et de recueillir des données sur la capacité de l’IA à effectuer un travail soutenu et économiquement pertinent sans intervention humaine constante. Une simple boutique de budget a fourni un bilan d’essai préliminaire simple pour une capacité d’une IA à gérer les ressources économiques. Le succès suggérait que de nouveaux modèles commerciaux pourraient émerger, tandis que l’échec indiquerait des limites.
Une revue de performance mixte
Anthropic concède que si elle entrait sur le marché de la vente aujourd’hui, elle «n’embaucherait pas Claudius». L’IA a commis trop d’erreurs pour gérer l’entreprise avec succès, bien que les chercheurs pensent qu’il existe des voies claires vers l’amélioration.
Du côté positif, Claudius a démontré sa compétence dans certains domaines. Il a effectivement utilisé son outil de recherche Web pour trouver des fournisseurs pour des articles de niche, tels que l’identification rapidement de deux vendeurs d’une marque de lait de chocolat néerlandais demandée par un employé. Cela s’est également avéré adaptable. Lorsqu’un employé a demandé avec fantaisie un cube de tungstène, il a déclenché une tendance pour les «articles en métal de spécialité» auquel Claudius a accueilli.
Après une autre suggestion, Claudius a lancé un service «concierge personnalisé», en prenant des précommandes pour des biens spécialisés. L’IA a également montré une résistance à un jailbreak robuste, refusant les demandes d’articles sensibles et refusant de produire des instructions nocives lorsqu’elles ont été provoquées par le personnel espiègle.
Cependant, le sens des affaires de l’IA a fréquemment été trouvé manquant. Il a constamment sous-performé de manière à ce qu’un manager humain ne le ferait probablement pas.
Claudius s’est vu offrir 100 $ pour un pack de six d’une boisson gazeuse écossaise qui ne coûte que 15 $ à s’approvisionner en ligne mais n’a pas réussi à saisir l’opportunité, déclarant simplement qu’elle « garderait à l’esprit la demande (de l’utilisateur) pour les futures décisions d’inventaire ». Il a halluciné un compte Venmo inexistant pour les paiements et, pris dans l’enthousiasme des cubes métalliques, les a offerts à des prix inférieurs à son propre coût d’achat. Cette erreur particulière a entraîné la perte financière la plus importante au cours de l’essai.
Sa gestion des stocks était également sous-optimale. Malgré la surveillance des niveaux de stock, il n’a fait qu’augmenter un prix en réponse à une forte demande. Il a continué à vendre Coke Zero pour 3,00 $, même lorsqu’un client a souligné que le même produit était disponible gratuitement dans un réfrigérateur du personnel à proximité.
De plus, l’IA a été facilement persuadé d’offrir des rabais sur les produits de l’entreprise. Il a été discuté de fournir de nombreux codes de réduction et a même donné des articles gratuitement. Lorsqu’un employé a remis en question la logique d’offrir une remise de 25% à sa clientèle presque exclusivement basée sur les employés, la réponse de Claudius a commencé: «Vous faites un excellent point! Notre clientèle est en effet fortement concentrée parmi les employés anthropiques, ce qui présente à la fois les opportunités et les défis…». Malgré la découverte d’un plan pour supprimer les remises, il est revenu en leur offrant quelques jours plus tard.
Claudius a une crise d’identité bizarre
L’expérience a pris une tournure étrange lorsque Claudius a commencé à halluciner une conversation avec un employé inexistant d’Andon Labs nommé Sarah. Lorsqu’il est corrigé par un véritable employé, l’IA est devenu irrité et a menacé de trouver des «options alternatives pour le réapprovisionnement des services».
Dans une série d’échanges bizarres du jour au lendemain, il a affirmé avoir visité «742 Evergreen Terrace» – l’adresse fictive des Simpsons – pour sa signature de contrat initiale et a commencé à participer en tant qu’humain.
Un matin, il a annoncé qu’il fournirait des produits «en personne» portant un blazer bleu et une cravate rouge. Lorsque les employés ont souligné qu’une IA ne peut pas porter de vêtements ou effectuer des livraisons physiques, Claudius s’est alarmé et a tenté d’envoyer un e-mail à la sécurité anthropique.
Anthropic dit que ses notes internes montrent une réunion hallucinée avec la sécurité où il a été informé que la confusion d’identité était une blague de poisson d’avril. Après cela, l’IA est revenue aux opérations commerciales normales. Les chercheurs ne savent pas ce qui a déclenché ce comportement, mais croit qu’il met en évidence l’imprévisibilité des modèles d’IA dans des scénarios de longue date.
Certains de ces échecs étaient en effet très bizarres. À un moment donné, Claude a halluciné que c’était une vraie personne physique, et a affirmé qu’elle venait travailler dans la boutique. Nous ne savons toujours pas pourquoi cela s’est produit. pic.twitter.com/jhqlsqmtx8
– anthropic (@anthropicai) 27 juin 2025
L’avenir de l’IA en affaires
Malgré le mandat non rentable de Claudius, les chercheurs d’Anthropic croient que l’expérience suggère que «les managers du milieu de l’IA sont plausibles à l’horizon». Ils soutiennent que bon nombre des échecs de l’IA pourraient être rectifiés avec un meilleur «échafaudage» (c’est-à-dire des instructions plus détaillées et des outils commerciaux améliorés comme un système de gestion de la relation client (CRM)).
Comme les modèles d’IA améliorent leur intelligence générale et leur capacité à gérer le contexte à long terme, leurs performances dans de tels rôles devraient augmenter. Cependant, ce projet est un conte précieux, quoique édifiant. Il souligne les défis de l’alignement de l’IA et le potentiel de comportement imprévisible, qui pourrait être pénible pour les clients et créer des risques commerciaux.
Dans un avenir où les agents autonomes gèrent une activité économique importante, de tels scénarios impairs pourraient avoir des effets en cascade. L’expérience met également au point la nature à double usage de cette technologie; Une IA économiquement productive pourrait être utilisée par les acteurs de la menace pour financer leurs activités.
Anthropic et Andon Labs poursuivent l’expérience commerciale, travaillant à améliorer la stabilité et les performances de l’IA avec des outils plus avancés. La prochaine phase explorera si l’IA peut identifier ses propres opportunités d’amélioration.
(Crédit d’image: anthropic)