Anthropic sort Claude Opus 4.8 - Actualité sur le financement de l'innovation

Anthropic a publié Claude Opus 4.8, une mise à niveau vers Claude Opus 4.7 qui, selon la société, apporte de meilleurs résultats en matière de codage, de travail d’agent, de raisonnement et de travail de connaissances. La plateforme peut être utilisée via claude.ai, Claude Code et l’API Claude, avec le nom d’API claude-opus-4-8.

La société a également modifié certains détails de sa gamme de produits. Les utilisateurs de claude.ai et de Cowork peuvent définir la quantité d’effort que Claude applique à une réponse – affectant essentiellement le nombre de jetons que le modèle brûlera. Claude Code dispose également de flux de travail dynamiques, une fonctionnalité qui planifie le travail, exécute des sous-agents parallèles, vérifie les résultats et rend compte à l’utilisateur. Enfin, l’API Messages accepte les modifications en direct du tableau de messages, ce qui, selon Anthropic, permet aux développeurs de mettre à jour les instructions au cours d’une tâche sans interrompre l’utilisation du cache d’invite ni nécessiter un tour d’utilisateur séparé.

Anthropic a déclaré que le prix d’utilisation de Claude Opus 4.8 lorsqu’il n’est pas en mode « rapide » restera à 5 $ par million de jetons d’entrée et 25 $ par million de jetons de sortie, tandis que le mode rapide coûte 10 $ par million de jetons d’entrée et 50 $ par million de sortie. Le mode rapide pour l’Opus 4.8 fonctionne à 2,5x, indique le message d’annonce de la société.

La société a positionné Opus 4.8 comme étant conçu pour le codage et les flux de travail agents dans le codage, où le modèle peut utiliser des outils dans un contexte et vérifier son propre travail. Il indique que l’Opus 4.8 améliore l’Opus 4.7 en termes de références en matière de codage, de compétences d’agent, de raisonnement et de travail de bureau. Il existe une carte système qui peut être examinée pour obtenir des détails subjectifs supplémentaires.

L’annonce d’Anthropic cite plusieurs entreprises qui ont testé la plateforme avant sa diffusion à plus grande échelle, notamment celles opérant dans les domaines du développement de logiciels, du droit, de la finance et de la recherche. Plusieurs testeurs ont commenté les flux de travail agents de la plateforme, l’un d’eux notant une parité de coût avec GPT-5.5 lors de l’exécution de ses tests de référence internes. Un commentaire de CursorBench indique que l’Opus 4.8 utilisait moins d’étapes d’outils pour atteindre le même niveau de sortie.

Anthropic affirme que l’Opus 4.8 est moins susceptible que son prédécesseur 4.7 de transmettre du code défectueux sans commentaire, ce qu’il décrit quatre fois moins probable. Il indique que la plateforme a montré des taux de tromperie ou une tendance à l’abus inférieurs à ceux de l’Opus 4.7 et est comparable à cet égard à ceux exposés par Claude Mythos Preview.

Le contrôle de l’effort aide les utilisateurs à gérer tout compromis entre la qualité, la vitesse et les taux de gravure des jetons. L’Opus 4.8 nécessite par défaut un effort élevé, mais pour les tâches de codage, la société a déclaré que la valeur par défaut la plus élevée utilise uniquement le type de numéros de jetons de l’Opus 4.7, mais fonctionne mieux. Les utilisateurs peuvent opter pour « xhigh » pour les travaux nécessitant plus de calculs. Anthropic a déclaré avoir augmenté les limites de débit de Claude Code pour prendre en charge l’utilisation plus élevée des jetons qui en résulte.

Les flux de travail dynamiques dans Claude Code sont conçus pour les bases de code volumineuses et peuvent migrer des bases de code de centaines de milliers de lignes. Ces fonctionnalités sont actuellement en aperçu de recherche et sont disponibles sur les forfaits Enterprise, Team et Max.

L’API Messages met à jour les instructions pendant l’exécution d’un agent, les modifications à l’intérieur du tableau de messages étant utilisées, par exemple, pour mettre à jour les autorisations, modifier les budgets de jetons ou le contexte pendant que les agents poursuivent leur travail.

Anthropic a également utilisé cette version pour suggérer qu’elle développe des modèles offrant les niveaux de capacité actuels à moindre coût pour l’utilisateur, et qu’elle publiera une classe de modèles meilleure que la plate-forme Opus actuelle. Sa feuille de route comprend le projet Glasswing, dans le cadre duquel un groupe d’organisations utilise Claude Mythos Preview pour l’analyse de la cybersécurité. Anthropic a déclaré que les modèles à ce niveau de capacité nécessitent des garanties plus strictes avant d’être diffusés à tous les clients. Elle prévoit de proposer des modèles de « classe Mythos » à ses clients dans les semaines à venir.

Les contrôles supplémentaires de la version 4.8 exposeront les utilisateurs aux compromis en matière de coûts et d’efforts à mesure que l’entreprise passe à la facturation basée sur les jetons à partir des niveaux d’abonnement.

(Source de l’image : Pixabay, sous licence.)