Une nouvelle ère pour les agents intelligents et le codage de l’IA

Anthropic a dévoilé sa dernière famille de modèles Claude 4, et cela ressemble à un saut pour quiconque construit des assistants ou codage de nouvelle génération de l’IA. Les stars du spectacle sont Claude Opus 4, The New Powerhouse, et Claude Sonnet 4, conçu pour être un polyvalent intelligent.

Anthropic n’hésite pas à ses ambitions, indiquant que ces modèles sont destinés à «faire avancer les stratégies d’IA de nos clients à tous les niveaux». Ils positionnent Opus 4 comme l’outil pour «repousser les limites du codage, de la recherche, de l’écriture et de la découverte scientifique», tandis que Sonnet 4 est présenté comme une «mise à niveau instantanée de Sonnet 3.7», prêt à apporter des «performances frontalières aux cas d’utilisation quotidienne».

Claude Opus 4: le nouveau champion de codage

Lorsque Anthropic appelle Claude Opus 4 son «modèle le plus puissant à ce jour et le meilleur modèle de codage au monde», vous vous asseyez et prenez note. Et ils ont les chiffres pour le sauvegarder, Opus 4 en tête des graphiques sur les tests cruciaux de l’industrie, atteignant 72,5% sur SWE-Bench et 43,2% sur le banc terminal.

Mais il ne s’agit pas seulement de sprints rapides. L’OPUS 4 est construit pour le long terme, conçu pour «des performances soutenues sur les tâches de longue durée qui nécessitent des efforts ciblés et des milliers d’étapes». Imaginez une IA qui peut «fonctionner en continu pendant plusieurs heures» – c’est ce que prétend anthropique.

Cela devrait être une étape massive des modèles de sonnet précédents et pourrait étendre ce que les agents de l’IA peuvent réaliser, en s’attaquant aux problèmes qui nécessitent une réelle persistance.

Claude Sonnet 4: Pour les travaux quotidiens de l’IA et de l’agence

Alors que Opus 4 est le champion des poids lourds, Claude Sonnet 4 s’annonce comme le cheval de bataille polyvalent, promettant un coup de pouce significatif pour une vaste gamme d’applications. Les premiers commentaires de ceux qui ont eu un aperçu brillent.

Par exemple, GitHub «dit Claude Sonnet 4 qui s’échappe dans les scénarios agentiques» et est tellement impressionné qu’ils «prévoient de l’introduire comme le modèle de base pour le nouvel agent de codage dans GitHub Copilot». C’est une approbation lourde.

Le commentateur technologique Manus est également impressionné, soulignant ses «améliorations dans les instructions complexes suivantes, le raisonnement clair et les sorties esthétiques».

Les vibrations positives se poursuivent avec IGent, qui «rapporte que Sonnet 4 excelle au développement des applications multi-fonctionnaires autonomes, ainsi que la résolution de problèmes et la navigation de base considérablement améliorées – réduisant les erreurs de navigation de 20% à près de zéro.» Cela change la donne pour les workflows de développement.

SourceGraph est tout aussi optimiste, considérant le modèle comme un «saut substantiel dans le développement de logiciels – s’affronter sur la piste plus longtemps, comprendre les problèmes plus profondément et offrir une qualité de code plus élégante».

Augment Code a connu «des taux de réussite plus élevés, plus de modifications du code chirurgical et un travail plus minutieux grâce à des tâches complexes», les amenant à faire du Sonnet 4 leur «premier choix pour leur modèle principal».

Modes hybrides et délices développeurs

L’un des morceaux vraiment intelligents de la famille Claude 4 est sa nature hybride. Opus 4 et Sonnet 4 peuvent fonctionner en deux vitesses: une pour les réponses presque instantanées dont nous avons souvent besoin, et une autre qui permet «une réflexion approfondie pour un raisonnement plus profond».

Ce mode de réflexion plus profond fait partie des plans Pro, Max, Team et Enterprise Claude. Une bonne nouvelle pour tout le monde, cependant – Sonnet 4, avec cette réflexion étendue, sera également disponible pour les utilisateurs gratuits, ce qui est une décision fantastique pour rendre l’IA de haut niveau plus accessible.

Anthropic déploie également de nouveaux outils savoureux pour les développeurs sur son API, visant clairement à suralimenter la création d’agents d’IA plus sophistiqués:

  • Outil d’exécution de code: cela permet aux modèles d’exécuter du code, ouvrant toutes sortes de possibilités d’applications interactives et de résolution de problèmes.
  • Connecteur MCP: introduit par Anthropic, MCP standardisse l’échange de contexte entre les assistants d’IA et les environnements logiciels.
  • API Fichiers: Cela facilitera l’IA de travail directement avec les fichiers, ce qui est un gros problème pour de nombreuses tâches du monde réel.
  • Cache invite: les développeurs pourront mettre en cache des invites jusqu’à une heure. Cela peut sembler petit, mais cela peut faire une réelle différence pour la vitesse et l’efficacité, en particulier pour les requêtes fréquemment utilisées.

Diriger le pack en performance réelle

Anthropic tient à souligner que ses «modèles Claude 4 mènent sur SWE-Bench vérifié, une référence pour les performances sur les tâches de réel en génie logiciel». Au-delà du codage, ils soulignent que ces modèles «offrent des performances solides à travers le codage, le raisonnement, les capacités multimodales et les tâches agentiques».

Malgré les sauts de capacité, Anthropic tient la ligne sur les prix. Claude Opus 4 vous coûtera 15 $ par million de jetons d’entrée et 75 $ par million de jetons de sortie. Claude Sonnet 4, l’option la plus accessible, est au prix de 3 $ par million de jetons d’entrée et de 15 $ par million de jetons de sortie. Cette cohérence sera accueillie par les utilisateurs existants.

Claude Opus 4 et Sonnet 4 sont tous deux prêts à passer par l’API anthropique, et ils apparaissent également sur le substratum rocheux d’Amazon et le sommet de Google Cloud. Cette large disponibilité signifie que les entreprises et les développeurs du monde entier peuvent commencer à expérimenter et à intégrer ces nouveaux outils assez facilement.

Anthropic double clairement sur la rendez-vous plus capable de l’IA, en particulier dans les domaines complexes du codage et du comportement autonome des agents. Avec ces nouveaux modèles et outils de développeur, le potentiel d’innovation a juste été sérieux.

(Crédit d’image: anthropic)

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.