: Au-delà de la taxe Nvidia : la stratégie derrière la puce OpenAI Jalapeño - Actualité sur le financement de l'innovation

La trajectoire financière d’OpenAI dépend fortement des coûts d’infrastructure, une réalité qui a motivé le développement de la nouvelle puce personnalisée OpenAI Jalapeño. Développé en collaboration avec Broadcom, le circuit intégré spécifique à une application (ASIC) représente une tentative directe d’atténuer les lourdes dépenses d’investissement associées au matériel tiers.

Alors que Nvidia réalise actuellement une marge bénéficiaire estimée à 75 % sur ses processeurs haut de gamme, OpenAI fonctionne avec des marges plus serrées, conservant environ 33 cents de bénéfice sur chaque dollar généré après prise en compte de ses énormes dépenses opérationnelles. Le fardeau financier lié à l’exécution de grands modèles de langage à grande échelle est lourd.

L’année dernière, maintenir la réactivité des serveurs ChatGPT avait coûté à OpenAI la somme faramineuse de 8,4 milliards de dollars. La plateforme attirant désormais 900 millions d’utilisateurs hebdomadaires, ce coût opérationnel devrait atteindre environ 14 milliards de dollars cette année. Au cours des huit prochaines années, OpenAI a consacré environ 1 400 milliards de dollars à la puissance de calcul, un pari énorme pour une entreprise qui génère actuellement 25 milliards de dollars de revenus annuels.

Conception de matériel pour l’inférence LLM

La puce OpenAI Jalapeño, surnommée le premier « processeur intelligent » de l’entreprise, est conçue spécifiquement pour l’inférence de grands modèles de langage (LLM) plutôt que pour les charges de travail d’IA à usage général. OpenAI a fourni la conception architecturale de base basée sur ses feuilles de route de modèles spécifiques et ses systèmes de service, tandis que Broadcom a géré l’ingénierie du silicium et l’intégration du réseau haute performance.

TSMC gère la fabrication physique à Taiwan et Celestica est chargée de construire les systèmes de cartes et de racks. Selon OpenAI, les premiers échantillons de laboratoire exécutent déjà des charges de travail de pointe, y compris un modèle GPT-5.3-Codex-Spark inédit, à la fréquence et à la puissance de production cibles.

Richard Ho, responsable du programme matériel d’OpenAI, a noté que l’architecture minimise le mouvement des données pour rapprocher l’utilisation réalisée de ses performances théoriques maximales. Contrairement aux accélérateurs à usage général adaptés des charges de travail d’IA héritées, cette architecture équilibre spécifiquement les ressources de calcul, de mémoire et de réseau pour résoudre les goulots d’étranglement liés au mouvement des données natifs du service LLM interactif.

Pour y parvenir à grande échelle, la plate-forme intègre le silicium de réseau Tomahawk de Broadcom directement dans la conception, permettant aux processeurs personnalisés de communiquer dans des environnements de centres de données massifs et en cluster.

Le volant d’intégration verticale

En passant au silicium personnalisé, OpenAI passe du statut de simple couche logicielle à celui d’une société d’infrastructure verticalement intégrée.^{. Cette stratégie full-stack couvre l’ensemble du pipeline : architecture de la puce, noyaux logiciels, systèmes de mémoire, planification du réseau et couche d’application finale.^{. Tout comme le couplage étroit d’Apple entre le matériel propriétaire et iOS, OpenAI peut désormais optimiser son infrastructure autour de ses feuilles de route de modèle interne exactes.^.}}

Cette intégration alimente un volant opérationnel continu^{. L’efficacité améliorée de l’infrastructure réduit le coût des modèles de formation et de service.^{. Un service plus abordable conduit à des produits meilleurs et plus réactifs, ce qui permet de réinvestir le volume d’utilisateurs et les revenus dans la prochaine génération d’infrastructure personnalisée.^.}}

Surmonter l’avantage du retardataire

En introduisant son propre silicium, OpenAI entre dans un paysage où ses principaux concurrents ont passé près d’une décennie à développer du matériel propriétaire. Google a commencé à déployer ses unités de traitement tensoriel (TPU) en 2015 et contrôle désormais environ un quart de la capacité informatique mondiale de l’IA en dehors de la chaîne d’approvisionnement de Nvidia.

Amazon a expédié plus d’un million de ses puces personnalisées, tandis que Meta et Microsoft continuent de faire évoluer leur propre infrastructure.

« Jalapeño fait partie de notre stratégie d’infrastructure full-stack à long terme visant à rendre le calcul plus abondant », a déclaré Greg Brockman, président et co-fondateur d’OpenAI. « En concevant nous-mêmes une plus grande partie de la pile, nous pouvons servir davantage d’intelligence avec une plus grande efficacité. »

Pour combler cet écart de calendrier, OpenAI a accéléré la phase de développement. La puce OpenAI Jalapeño est passée d’une conception vierge à une fabrication sur bande – la dernière étape avant la production physique – en seulement neuf mois. Les équipes d’ingénierie ont atteint ce délai en utilisant les propres modèles de langage d’OpenAI pour automatiser et optimiser certaines parties du processus de conception matérielle.

Cela crée une boucle de rétroaction unique dans laquelle les modèles servis aux utilisateurs sont activement exploités pour construire l’infrastructure physique qui exécutera les futures itérations. Le déploiement initial du matériel dans les centres de données devrait commencer d’ici la fin 2026.

Le PDG de Broadcom, Hock Tan, a confirmé que le déploiement se déroulera aux côtés des partenaires d’infrastructure, dont Microsoft, pour préparer l’intégration des centres de données à l’échelle du gigawatt.

(Photo par OpenAI)