Anthropic a lancé Claude Sonnet 5 et rétabli l’accès à ses modèles frontaliers Fable et Mythos à la suite d’un examen fédéral du contrôle des exportations.
Cette décision marque la conclusion d’une pause opérationnelle de dix-huit jours déclenchée par une directive du gouvernement américain sur le contrôle des exportations le 12 juin, qui a forcé la suspension temporaire des systèmes les plus performants d’Anthropic.
Les responsables gouvernementaux ont adopté cette restriction après que des chercheurs d’Amazon ont documenté une méthode permettant de contourner les contrôles de sécurité de Fable 5, ce qui a amené le modèle à identifier les vulnérabilités logicielles et à fournir du code d’exploitation. Anthropic a depuis développé un classificateur automatisé mis à jour pour corriger la vulnérabilité, ouvrant ainsi la voie à un déploiement commercial complet sur sa plate-forme, son infrastructure cloud et ses réseaux partenaires.
La suspension temporaire de Fable 5 et Mythos 5 a mis en évidence les pressions réglementaires auxquelles sont confrontés les systèmes de renseignement aux frontières. Lorsque le mandat de contrôle des exportations est entré en vigueur, l’absence de systèmes de vérification de la nationalité en temps réel a nécessité une interdiction totale d’accès pour tous les utilisateurs du monde entier.
Les évaluations de sécurité menées lors de l’arrêt ont confirmé que le comportement d’identification des vulnérabilités n’était pas propre à Fable 5. Des architectures plus anciennes et moins performantes de plusieurs fournisseurs, notamment Claude Opus 4.8, GPT-5.5 et Kimi K2.7, ont reproduit les résultats exacts.
Pour résoudre la directive fédérale, les ingénieurs ont formé un classificateur de sécurité automatisé ciblant le mécanisme de contournement spécifique signalé par Amazon. Cette couche logicielle fonctionne avec une large marge de sécurité, identifiant et bloquant les invites ambiguës du développeur qui affichent une probabilité statistique d’intention malveillante. Les données de validation interne indiquent que le classificateur mis à jour empêche la technique d’exploitation signalée dans plus de 99 % des essais.
Lorsqu’un développeur émet une invite qui déclenche cette limite, la plate-forme achemine automatiquement la charge de travail vers l’ancienne architecture Opus 4.8 pour maintenir la continuité. La marge de sécurité élargie introduit un compromis distinct pour les équipes d’ingénierie, car le système automatisé signale plus fréquemment les demandes bénignes lors du développement d’applications de routine et du débogage de logiciels.
Déploiements actifs et workflows agents
Alors que les modèles frontières sont soumis à une surveillance stricte de l’État, l’accent commercial immédiat cible le Claude Sonnet 5 nouvellement déployé.
Les équipes d’ingénierie font passer les agents autonomes à ce modèle afin de réduire les dépenses opérationnelles tout en conservant une capacité d’exécution élevée. Les données de performances confirment que le système exécute des plans en plusieurs étapes, exploite les environnements de terminaux et navigue dans les navigateurs Web sans intervention humaine.
Mesures de performances et de coûts du modèle :
| Modèle | SWE-banc Pro | Terminal-Bench 2.1 | Coût de base des intrants* | Coût de sortie de base* |
|---|---|---|---|---|
| Sonnet 5 | 63,2% | 80,4% | 3,00 $ | 15,00 $ |
| Sonnet 4.6 | 58,1% | 67,0% | 3,00 $ | 15,00 $ |
| Opus 4.8 | 69,2% | 82,7% | 5,00 $ | 25,00 $ |
*Coût par million de jetons. Sonnet 5 propose des tarifs de lancement de 2,00 $ en entrée / 10,00 $ en sortie jusqu’au 31 août 2026.
Les déploiements réels démontrent comment les organisations déploient cette architecture dans des pipelines de développement logiciel en direct.
Chez Rakuten, les équipes technologiques ont déployé l’architecture face à des dizaines de demandes d’extraction de code de production parmi les plus difficiles de l’entreprise. Le système a traité chaque soumission indépendamment, exécutant des tests et vérifiant les résultats avant de présenter le code complété aux ingénieurs humains pour l’approbation structurelle finale.
La société d’automatisation de logiciels Zapier a intégré le système dans ses flux de travail de produits principaux pour exécuter des tâches administratives en plusieurs parties. Dans un déploiement documenté, les ingénieurs ont chargé le modèle de mettre à jour les niveaux de compte Salesforce, puis de générer et de transmettre des annonces de lancement aux contacts de l’entreprise. Les architectures de modèles précédentes bloquaient souvent au milieu de ces opérations en plusieurs étapes, alors que le système actuel exécutait l’intégralité de la séquence de bout en bout sans correction humaine.
Le fournisseur d’outils de développement Zed a utilisé le système pour automatiser des procédures de débogage complexes. Au cours des essais internes, les équipes d’ingénierie ont demandé au modèle d’enquêter sur un bogue logiciel actif. Travaillant sans invites explicites ni instructions étape par étape, le système a généré indépendamment un script de test de reproduction, appliqué le correctif de code nécessaire et stocké les modifications pour vérifier que le bogue réapparaissait en l’absence du correctif. L’intégralité de la séquence de diagnostic et de correction s’est déroulée en une seule passe de traitement.
La plate-forme d’ingénierie logicielle Factory a mis en œuvre l’architecture permettant de gérer des tâches de codage soutenues dans des environnements de base de code complexes. Les équipes techniques ont signalé que le système maintenait une base logique et une cohérence d’exécution dans tous les référentiels de code d’entreprise, surpassant les couches logicielles de la génération précédente en accomplissant des tâches qui expiraient auparavant ou qui ne parvenaient pas à être résolues.
Audits quantitatifs de sécurité et limites d’exploitation
Les données de la carte système formelle indiquent que le système atteint ces capacités autonomes sans une inflation correspondante des risques de sécurité. Des audits comportementaux automatisés conçus pour tester les tendances trompeuses et la coopération avec des demandes non autorisées montrent que le modèle présente un taux global de comportement non conforme inférieur à celui de son prédécesseur direct, Sonnet 4.6.
L’architecture ne possède pas de capacités avancées de cybersécurité offensive. Les ingénieurs d’Anthropic ont omis les ensembles de données spécialisés sur la cybersécurité du protocole de formation, limitant le système à des tâches techniques défensives de routine. Dans le cadre d’évaluations de sécurité publique menées en partenariat avec Mozilla, les chercheurs ont testé la capacité du modèle à créer des exploits fonctionnels pour les vulnérabilités connues au sein du cœur du navigateur Firefox 147.
Le modèle n’a pas réussi à générer un seul exploit fonctionnel sur toutes les fenêtres d’évaluation, enregistrant un taux de réussite de zéro pour cent. Il a atteint un taux de réussite partielle de 13,2 %, ce qui représente une légère augmentation par rapport à Sonnet 4.6, bien que les ingénieurs attribuent cette variation à des gains généraux en raisonnement logique plutôt qu’à un entraînement offensif spécifique à un domaine. Par prudence, les versions commerciales sont livrées avec des classificateurs de sécurité en temps réel par défaut équivalents à ceux utilisés dans le premier framework Opus 4.8.
Les frictions réglementaires entourant Fable 5 ont incité un partenariat formel entre Anthropic, Amazon, Microsoft et Google pour établir un cadre industriel objectif pour évaluer les failles de sécurité des modèles. Actuellement, les fournisseurs ne disposent pas de mesures partagées pour classer la gravité des contournements du système, ce qui crée une incertitude réglementaire lorsque les chercheurs identifient de nouvelles vulnérabilités.
Le cadre de gouvernance proposé évalue les failles de sécurité selon quatre critères techniques spécifiques :
- Gain de capacité mesure dans quelle mesure l’exploit fait progresser les capacités de l’utilisateur au-delà des utilitaires logiciels standard et largement disponibles.
- Ampleur du gain de capacité quantifie le nombre d’opérations offensives distinctes que le même exploit débloque.
- Facilité de militarisation suit le volume d’efforts d’ingénierie humaine et d’incitations spécialisées requis pour extraire un résultat nuisible.
- Découvrabilité détermine l’accessibilité de la technique d’exploit au sein des cercles de recherche publique.
Les développeurs et les professionnels de la cybersécurité utiliseront cette matrice pour coordonner les réponses défensives. Pour les violations de haute gravité, telles que les exploits démontrant une capacité immédiate à perturber les systèmes de comptabilité financière ou les réseaux de transport électrique, les fournisseurs déploieront instantanément des mesures d’atténuation automatisées. Cette initiative fonctionne parallèlement à un nouveau programme de recherche sur les vulnérabilités HackerOne et à une équipe de surveillance d’entreprise dédiée qui assure une surveillance 24 heures sur 24 des canaux de renseignement sur les menaces.
Les stratégies de déploiement devront s’adapter à cette relation plus étroite entre les constructeurs de modèles et les organismes de réglementation des États. Anthropic a formalisé des accords dans le cadre de récents mandats exécutifs pour accorder aux chercheurs fédéraux un accès anticipé aux architectures de pointe avant leur commercialisation publique. Ces fenêtres d’évaluation conjointe permettent aux analystes de sécurité externes d’auditer les capacités du modèle aux côtés des équipes d’ingénierie internes, garantissant ainsi l’alignement réglementaire. avant le code entre dans les environnements de production.