GPT-5.5 est le modèle d’IA agentique le plus performant d’OpenAI à ce jour, à deux fois le prix de l’API

OpenAI a lancé GPT-5.5 le 23 avril comme ce qu’il appelle « une nouvelle classe d’intelligence pour un travail réel et alimenter les agents », et le cadrage est délibéré. OpenAI affirme qu’il s’agit du modèle d’IA agentique le plus performant à ce jour, construit dès le départ pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter les tâches de manière indépendante.

GPT-5.5 est le premier modèle de base recyclé depuis GPT-4.5, co-conçu avec les systèmes rack-scale GB200 et GB300 NVL72 de NVIDIA. La société affirme que la différence pratique est que lors de l’utilisation de GPT5.5, les tâches qui nécessitaient auparavant plusieurs invites et une « correction de cap » humaine peuvent désormais être transférées de manière plus complète. Le modèle est déployé auprès des utilisateurs Plus, Pro, Business et Enterprise dans ChatGPT et Codex. L’accès à l’API a suivi le 24 avril.

Les repères

La performance la plus forte d’OpenAI concerne Terminal-Bench 2.0, une référence qui teste les flux de travail en ligne de commande nécessitant une planification et une coordination des outils dans un environnement sandbox. GPT-5.5 obtient 82,7 %, contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7.

Sur SWE-Bench Pro, qui évalue la résolution des problèmes GitHub, GPT-5.5 atteint 58,6 %, résolvant plus de problèmes en un seul passage que les versions précédentes. OpenAI a également introduit Expert-SWE, une référence interne dans laquelle les tâches comportent un temps d’exécution humain médian estimé à 20 heures. GPT-5.5 obtient un score de 73,1 %, contre 68,5 % pour GPT-5.4.

Dans le raisonnement en contexte long, MRCR v2 à un million de jetons, un test de récupération testant si un modèle peut localiser une réponse spécifique enfouie dans un document volumineux, GPT-5.5 obtient un score de 74,0 %, contre 36,6 % pour GPT-5.4.

Cependant, sur MCP Atlas, le benchmark d’utilisation des outils Model Context Protocol de Scale AI, Claude Opus 4.7 est en tête à 79,1 % et aucun score n’est enregistré par GPT-5.5. OpenAI a inclus cette absence dans son propre tableau de référence, ce qui témoigne au moins de sa confiance dans la situation globale.

Efficacité des jetons, réalité des prix

L’accès à l’API est facturé 5 USD par million de jetons d’entrée et 30 USD par million de jetons de sortie, soit exactement le double des tarifs de GPT-5.4. La défense d’OpenAI est que GPT-5.5 accomplit les mêmes tâches du Codex avec moins de jetons que GPT-5.4, ce qui rend les coûts effectifs environ 20 % plus élevés une fois son efficacité prise en compte, une affirmation validée par le laboratoire de test indépendant Artificial Analysis.

GPT-5.5 Pro, disponible pour les utilisateurs Pro, Business et Enterprise, coûte 30 USD par million de jetons d’entrée et 180 USD par million de jetons de sortie. Il applique des calculs parallèles supplémentaires au moment des tests sur des problèmes plus difficiles et est en tête de la liste des modèles accessibles au public sur BrowseComp, la référence de navigation Web agentique d’OpenAI, à 90,1 %.

L’efficacité des jetons mérite d’être testée par rapport aux charges de travail réelles avant de s’engager dans un changement de modèle. Avec 10 millions de jetons de sortie par mois, la norme GPT-5.5 coûte 300 $ US contre 250 $ US pour Claude Opus 4.7, soit 20 % qui ne sont rentables que si les performances agentiques supérieures du modèle signifient moins d’itérations de tâches et moins de tentatives, les calculs variant selon le cas d’utilisation.

En pratique

Open AI indique que plus de 85 % des employés utilisent désormais Codex chaque semaine dans leurs services, y compris l’ingénierie et le marketing. Dans un exemple, l’équipe de communication a utilisé GPT-5.5 pour traiter six mois de données de demandes de parole, où le modèle a pu créer un cadre de notation et de risque pour aider à automatiser les approbations à faible risque.

Greg Brockman a décrit cette sortie comme « un véritable pas en avant vers le type d’informatique que nous attendons dans le futur », et le scientifique en chef Jakub Pachocki a noté que les deux dernières années de progrès du modèle avaient semblé « étonnamment lentes ».

OpenAI affirme que GPT-5.5 correspond à la latence par jeton de GPT-5.4 en production tout en fonctionnant à un niveau d’intelligence plus élevé ; les modèles plus grands et plus performants sont souvent plus lents à fonctionner, mais ce compromis a été évité ici.

La question à laquelle il faudra répondre correctement dans les prochaines semaines sera de savoir si les avancées du benchmark se traduiront par des gains de production pour les équipes exécutant de véritables pipelines d’agents. Le score Terminal-Bench est prometteur pour les agents de terminaux sans surveillance et l’automatisation DevOps. L’écart MCP Atlas mérite d’être surveillé par quiconque s’appuie fortement sur l’orchestration de l’utilisation des outils.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.