Le SDK OpenAI Agents améliore la gouvernance grâce à l'exécution en bac à sable - Actualité sur le financement de l'innovation

OpenAI introduit l’exécution sandbox qui permet aux équipes de gouvernance d’entreprise de déployer des flux de travail automatisés avec un risque contrôlé.

Les équipes qui font passer les systèmes du prototype à la production ont été confrontées à des compromis architecturaux difficiles quant à l’endroit où se déroulaient leurs opérations. L’utilisation de cadres indépendants des modèles offrait une flexibilité initiale, mais ne parvenait pas à exploiter pleinement les capacités des modèles frontières. Les SDK des fournisseurs de modèles restaient plus proches du modèle sous-jacent, mais manquaient souvent de visibilité suffisante sur le faisceau de contrôle.

Pour compliquer encore davantage les choses, les API des agents gérés simplifiaient le processus de déploiement, mais limitaient considérablement l’endroit où les systèmes pouvaient s’exécuter et la manière dont ils accédaient aux données sensibles de l’entreprise. Pour résoudre ce problème, OpenAI introduit de nouvelles fonctionnalités dans le SDK Agents, offrant aux développeurs une infrastructure standardisée comprenant un harnais natif de modèle et une exécution sandbox native.

L’infrastructure mise à jour aligne l’exécution sur le modèle de fonctionnement naturel des modèles sous-jacents, améliorant ainsi la fiabilité lorsque les tâches nécessitent une coordination entre divers systèmes. Oscar Health fournit un exemple de cette efficacité concernant les données non structurées.

Le prestataire de soins de santé a testé la nouvelle infrastructure pour automatiser un flux de travail de dossiers cliniques que les anciennes approches ne pouvaient pas gérer de manière fiable. L’équipe d’ingénierie avait besoin du système automatisé pour extraire les métadonnées correctes tout en comprenant correctement les limites des rencontres avec les patients dans des dossiers médicaux complexes. En automatisant ce processus, le prestataire pourrait analyser les antécédents des patients plus rapidement, accélérant ainsi la coordination des soins et améliorant l’expérience globale des membres.

Rachael Burns, ingénieur du personnel et responsable technique de l’IA chez Oscar Health, a déclaré : « Le SDK Agents mis à jour nous a permis d’automatiser un flux de travail de dossiers cliniques critiques que les approches précédentes ne pouvaient pas gérer de manière suffisamment fiable.

« Pour nous, la différence n’était pas seulement d’extraire les bonnes métadonnées, mais aussi de comprendre correctement les limites de chaque rencontre dans des enregistrements longs et complexes. En conséquence, nous pouvons comprendre plus rapidement ce qui se passe pour chaque patient lors d’une visite donnée, aidant ainsi les membres à répondre à leurs besoins en matière de soins et améliorant leur expérience avec nous. »

OpenAI optimise les flux de travail d’IA avec un exploit natif du modèle

Pour déployer ces systèmes, les ingénieurs doivent gérer la synchronisation des bases de données vectorielles, contrôler les risques d’hallucinations et optimiser les cycles de calcul coûteux. Sans cadres standards, les équipes internes ont souvent recours à la création de connecteurs personnalisés fragiles pour gérer ces flux de travail.

Le nouveau harnais natif du modèle contribue à atténuer ces frictions en introduisant une mémoire configurable, une orchestration compatible sandbox et des outils de système de fichiers de type Codex. Les développeurs peuvent intégrer des primitives standardisées telles que l’utilisation d’outils via MCP, des instructions personnalisées via AGENTS.md et des modifications de fichiers à l’aide de l’outil d’application de correctifs.

La divulgation progressive via les compétences et l’exécution de code à l’aide de l’outil shell permet également au système d’effectuer des tâches complexes de manière séquentielle. Cette standardisation permet aux équipes d’ingénierie de passer moins de temps à mettre à jour l’infrastructure de base et de se concentrer sur la création d’une logique spécifique au domaine qui profite directement à l’entreprise.

L’intégration d’un programme autonome dans une pile technologique existante nécessite un routage précis. Lorsqu’un processus autonome accède à des données non structurées, il s’appuie fortement sur les systèmes de récupération pour extraire le contexte pertinent.

Pour gérer l’intégration de diverses architectures et limiter la portée opérationnelle, le SDK introduit une abstraction Manifest. Cette abstraction standardise la façon dont les développeurs décrivent l’espace de travail, leur permettant de monter des fichiers locaux et de définir des répertoires de sortie.

Les équipes peuvent connecter ces environnements directement aux principaux fournisseurs de stockage d’entreprise, notamment AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. L’établissement d’un espace de travail prévisible donne au modèle des paramètres exacts sur l’endroit où localiser les entrées, écrire les sorties et maintenir l’organisation pendant les exécutions opérationnelles prolongées.

Cette prévisibilité empêche le système d’interroger des lacs de données non filtrés, le limitant à des fenêtres contextuelles spécifiques et validées. Les équipes de gouvernance des données peuvent ensuite suivre la provenance de chaque décision automatisée avec une plus grande précision, depuis les phases de prototype local jusqu’au déploiement en production.

Améliorer la sécurité avec l’exécution native de sandbox

Le SDK prend en charge nativement l’exécution sandbox, offrant une couche prête à l’emploi permettant aux programmes de s’exécuter dans des environnements informatiques contrôlés contenant les fichiers et dépendances nécessaires. Les équipes d’ingénierie n’ont plus besoin de reconstituer manuellement cette couche d’exécution. Ils peuvent déployer leurs propres sandbox personnalisés ou utiliser la prise en charge intégrée de fournisseurs tels que Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop et Vercel.

L’atténuation des risques reste la principale préoccupation de toute entreprise déployant une exécution de code autonome. Les équipes de sécurité doivent partir du principe que tout système lisant des données externes ou exécutant du code généré sera confronté à des attaques par injection rapide et à des tentatives d’exfiltration.

OpenAI aborde cette exigence de sécurité en séparant le harnais de contrôle de la couche de calcul. Cette séparation isole les informations d’identification, les gardant entièrement hors des environnements dans lesquels le code généré par le modèle s’exécute. En isolant la couche d’exécution, une commande malveillante injectée ne peut pas accéder au plan de contrôle central ni voler les clés API primaires, protégeant ainsi le réseau d’entreprise plus large contre les attaques par mouvements latéraux.

Cette séparation résout également les problèmes de coûts de calcul liés aux pannes du système. Les tâches de longue durée échouent souvent à mi-chemin en raison de délais d’attente du réseau, de pannes de conteneurs ou de limites d’API. Si un agent complexe effectue vingt étapes pour compiler un rapport financier et échoue à la dix-neuvième étape, la réexécution de la séquence entière consomme des ressources informatiques coûteuses.

Si l’environnement tombe en panne sous la nouvelle architecture, la perte du conteneur sandbox ne signifie pas la perte de l’intégralité de l’exécution opérationnelle. Étant donné que l’état du système reste externalisé, le SDK utilise la capture instantanée et la réhydratation intégrées. L’infrastructure peut restaurer l’état dans un nouveau conteneur et reprendre exactement à partir du dernier point de contrôle si l’environnement d’origine expire ou échoue. Éviter de devoir redémarrer des processus coûteux et de longue durée se traduit directement par une réduction des dépenses de calcul dans le cloud.

La mise à l’échelle de ces opérations nécessite une allocation dynamique des ressources. L’architecture séparée permet aux exécutions d’invoquer un ou plusieurs sandbox en fonction de la charge actuelle, d’acheminer des sous-agents spécifiques vers des environnements isolés et de paralléliser les tâches sur de nombreux conteneurs pour des temps d’exécution plus rapides.

Ces nouvelles fonctionnalités sont généralement disponibles pour tous les clients via l’API, en utilisant une tarification standard basée sur les jetons et l’utilisation d’outils sans exiger de contrats d’approvisionnement personnalisés. Les nouvelles fonctionnalités de harnais et de bac à sable sont lancées en premier pour les développeurs Python, la prise en charge de TypeScript étant prévue pour une prochaine version.

OpenAI prévoit d’apporter des fonctionnalités supplémentaires, notamment le mode code et les sous-agents, aux bibliothèques Python et TypeScript. Le fournisseur a l’intention d’étendre l’écosystème plus large au fil du temps en prenant en charge des fournisseurs de sandbox supplémentaires et en offrant davantage de méthodes aux développeurs pour connecter le SDK directement à leurs systèmes internes existants.