Anthropic garde le nouveau modèle d'IA privé après avoir trouvé des milliers de vulnérabilités externes - Actualité sur le financement de l'innovation

Le modèle d’IA le plus performant d’Anthropic a déjà détecté des milliers de vulnérabilités de cybersécurité dans tous les principaux systèmes d’exploitation et navigateurs Web. La réponse de l’entreprise n’a pas été de le publier, mais de le remettre discrètement aux organisations chargées de faire fonctionner Internet.

Ce modèle est Claude Mythos Preview, et l’initiative s’appelle Project Glasswing.

Les partenaires de lancement incluent Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks.

Au-delà de ce groupe principal, Anthropic a étendu l’accès à plus de 40 organisations supplémentaires qui construisent ou maintiennent une infrastructure logicielle critique. Anthropic s’engage à hauteur de 100 millions de dollars en crédits d’utilisation pour Mythos Preview dans le cadre de cet effort, ainsi que 4 millions de dollars en dons directs à des organisations de sécurité open source.

Un modèle qui a dépassé ses propres références

Mythos Preview n’a pas été spécifiquement formé pour les travaux de cybersécurité. Anthropic a déclaré que les capacités « sont apparues comme une conséquence en aval des améliorations générales du code, du raisonnement et de l’autonomie », et que les mêmes améliorations qui rendent le modèle plus efficace dans la correction des vulnérabilités le rendent également plus efficace dans leur exploitation.

Cette dernière partie est importante. Mythos Preview s’est amélioré dans la mesure où il sature principalement les références de sécurité existantes, obligeant Anthropic à se concentrer sur de nouvelles tâches du monde réel, en particulier sur les vulnérabilités du jour zéro. Ces failles étaient auparavant inconnues des développeurs du logiciel.

Parmi les découvertes : un bug vieux de 27 ans dans OpenBSD, un système d’exploitation connu pour sa forte posture de sécurité. Dans un autre cas, le modèle a identifié et exploité de manière totalement autonome une vulnérabilité d’exécution de code à distance vieille de 17 ans dans FreeBSD – CVE-2026-4747 – qui permet à un utilisateur non authentifié n’importe où sur Internet d’obtenir le contrôle complet d’un serveur exécutant NFS. Aucun humain n’a été impliqué dans la découverte ou l’exploitation après l’invite initiale pour trouver le bug.

Nicholas Carlini de l’équipe de recherche d’Anthropic a décrit la capacité du modèle à enchaîner les vulnérabilités : « Ce modèle peut créer des exploits à partir de trois, quatre ou parfois cinq vulnérabilités qui, en séquence, vous donnent une sorte de résultat final très sophistiqué. J’ai trouvé plus de bugs au cours des deux dernières semaines que dans le reste de ma vie combinée. »

Pourquoi n’est-il pas publié ?

« Nous n’avons pas l’intention de rendre Claude Mythos Preview largement disponible en raison de ses capacités de cybersécurité », a déclaré Newton Cheng, responsable de la cybersécurité de Frontier Red Team chez Anthropic. « Compte tenu du rythme des progrès de l’IA, de telles capacités ne tarderont pas à proliférer, potentiellement au-delà des acteurs qui s’engagent à les déployer en toute sécurité. Les conséquences – pour les économies, la sécurité publique et la sécurité nationale – pourraient être graves. »

Ce n’est pas hypothétique. Anthropic avait précédemment divulgué ce qu’il décrivait comme le premier cas documenté de cyberattaque largement exécutée par AI – un groupe parrainé par l’État chinois qui a utilisé des agents d’IA pour infiltrer de manière autonome environ 30 cibles mondiales, AI gérant la majorité des opérations tactiques de manière indépendante.

La société a également informé en privé de hauts responsables du gouvernement américain de toutes les capacités de Mythos Preview. La communauté du renseignement réfléchit désormais activement à la manière dont ce modèle pourrait remodeler les opérations de piratage offensives et défensives.

Le problème de l’open source

Une dimension du projet Glasswing qui va au-delà de la coalition phare : les logiciels open source. Jim Zemlin, PDG de la Linux Foundation, l’a dit clairement : « Dans le passé, l’expertise en sécurité était un luxe réservé aux organisations disposant de grandes équipes de sécurité. Les mainteneurs open source, dont les logiciels sous-tendent une grande partie de l’infrastructure critique mondiale, ont toujours été laissés à eux-mêmes pour gérer la sécurité. »

Anthropic a fait don de 2,5 millions de dollars à Alpha-Omega et OpenSSF par l’intermédiaire de la Linux Foundation, et de 1,5 million de dollars à l’Apache Software Foundation, donnant aux responsables des bases de code open source critiques un accès à l’analyse des vulnérabilités de cybersécurité de l’IA à une échelle qui était auparavant hors de portée.

Ce qui vient ensuite

Anthropic affirme que son objectif final est de déployer des modèles de classe Mythos à grande échelle, mais seulement lorsque de nouvelles garanties seront en place. La société prévoit de lancer d’abord de nouvelles protections avec un prochain modèle Claude Opus, ce qui lui permettra de les affiner avec un modèle qui ne présente pas le même niveau de risque que Mythos Preview.

Le paysage concurrentiel est déjà en train de changer. Lorsque OpenAI a publié GPT-5.3-Codex en février, la société l’a qualifié de premier modèle qu’elle avait classé comme à haute capacité pour les tâches de cybersécurité dans le cadre de son cadre de préparation. La décision d’Anthropic avec Glasswing indique que les laboratoires pionniers considèrent le déploiement contrôlé (et non la version ouverte) comme la norme émergente pour les modèles à ce niveau de capacité.

La question de savoir si cette norme sera maintenue à mesure que ces capacités se développeront est, à ce stade, une question ouverte à laquelle aucune initiative ne peut répondre à elle seule.

Voir aussi : Le refus d’Anthropic d’armer l’IA est exactement la raison pour laquelle le Royaume-Uni le souhaite