Ce que les CTO ont appris à leurs dépens - Actualité sur le financement de l'innovation

La pénurie de puces d’IA est devenue la contrainte déterminante pour les déploiements d’IA en entreprise en 2025, obligeant les directeurs techniques à se confronter à une réalité inconfortable : la géopolitique des semi-conducteurs et la physique de la chaîne d’approvisionnement comptent plus que les feuilles de route logicielles ou les engagements des fournisseurs.

Ce qui a commencé par des contrôles américains sur les exportations restreignant les puces d’IA avancées vers la Chine a évolué vers une crise infrastructurelle plus large affectant les entreprises du monde entier – non pas à cause de la seule politique, mais à cause d’une demande explosive entrant en collision avec une capacité de fabrication qui ne peut pas évoluer à la vitesse des logiciels.

À la fin de l’année, la double pression des restrictions géopolitiques et de la pénurie de composants avait fondamentalement remodelé l’économie de l’IA d’entreprise. Les chiffres racontent une histoire sombre. Les dépenses moyennes des entreprises en IA devraient s’élever à 85 521 $ par mois en 2025, soit une hausse de 36 % par rapport à 2024, selon une étude de CloudZero menée auprès de 500 professionnels de l’ingénierie.

Les organisations prévoyant d’investir plus de 100 000 $ par mois ont plus que doublé, passant de 20 % en 2024 à 45 % en 2025, non pas parce que l’IA est devenue plus précieuse, mais parce que les coûts des composants et les délais de déploiement ont dépassé les prévisions initiales.

Les contrôles à l’exportation remodèlent l’accès aux puces

La décision de l’administration Trump en décembre 2025 d’autoriser la vente conditionnelle des puces H200 de Nvidia à la Chine – la puce d’IA la plus puissante jamais approuvée pour l’exportation – a illustré à quelle vitesse la politique en matière de semi-conducteurs peut changer. L’accord nécessite une part des revenus de 25 % avec le gouvernement américain et s’applique uniquement aux acheteurs chinois approuvés, annulant ainsi un gel des exportations antérieur en avril 2025.

Pourtant, le revirement de politique est intervenu trop tard pour éviter des perturbations généralisées. Le secrétaire américain au Commerce, Howard Lutnick, a déclaré que le chinois Huawei ne produirait que 200 000 puces IA en 2025, tandis que la Chine importait légalement environ un million de puces Nvidia déclassées, conçues spécifiquement pour la conformité des exportations.

L’écart de production a contraint les entreprises chinoises à se lancer dans des opérations de contrebande à grande échelle : les procureurs fédéraux ont descellé des documents en décembre révélant un réseau qui avait tenté d’exporter pour au moins 160 millions de dollars de GPU Nvidia H100 et H200 entre octobre 2024 et mai 2025.

Pour les entreprises mondiales, ces restrictions ont créé des défis d’approvisionnement imprévisibles. Les entreprises ayant des opérations ou des centres de données basés en Chine ont été confrontées à des limitations d’accès soudaines, tandis que d’autres ont découvert que leurs plans de déploiement mondial supposaient une disponibilité des puces que la géopolitique ne garantissait plus.

La crise des puces mémoire aggrave les problèmes liés à l’infrastructure de l’IA

Alors que les contrôles à l’exportation faisaient la une des journaux, une crise d’approvisionnement plus grave est apparue : les puces mémoire sont devenues la contrainte majeure qui pèse sur les infrastructures d’IA à l’échelle mondiale. La mémoire à large bande passante (HBM), la mémoire spécialisée qui permet aux accélérateurs d’IA de fonctionner, a connu de graves pénuries alors que les fabricants Samsung, SK Hynix et Micron fonctionnaient presque à pleine capacité tout en signalant des délais de livraison de six à douze mois.

Les prix de la mémoire ont augmenté en conséquence. Les prix des DRAM ont grimpé de plus de 50 % en 2025 dans certaines catégories, les prix des contrats de serveurs ayant augmenté jusqu’à 50 % chaque trimestre, selon Recherche de contrepoint. Samsung aurait augmenté les prix des puces de mémoire pour serveurs de 30 à 60 %. La société prévoit que les prix des mémoires continueront d’augmenter de 20 % au début de 2026, alors que la demande continue de dépasser l’expansion de la capacité.

La pénurie ne se limitait pas aux composants spécialisés de l’IA. Les stocks des fournisseurs de DRAM sont tombés à deux à quatre semaines en octobre 2025, contre 13 à 17 semaines fin 2024, selon les données TrendForce citées par Reuters. SK Hynix a déclaré aux analystes que les pénuries pourraient persister jusqu’à fin 2027, signalant que toute la mémoire prévue pour la production en 2026 est déjà épuisée.

Les laboratoires d’IA d’entreprise en ont fait l’expérience directe. Les principaux fournisseurs de cloud Google, Amazon, Microsoft et Meta ont émis des commandes à durée indéterminée à Micron, déclarant qu’ils prendraient autant de stocks que l’entreprise peut fournir. Les sociétés chinoises Alibaba, Tencent et ByteDance ont fait pression sur Samsung et SK Hynix pour un accès prioritaire.

La pression s’est étendue au cours des années à venir, OpenAI signant des accords préliminaires avec Samsung et SK Hynix pour son projet Stargate nécessitant jusqu’à 900 000 plaquettes par mois d’ici 2029, soit environ le double de la production mensuelle mondiale actuelle de HBM.

Les délais de déploiement vont au-delà des projections

La pénurie de puces d’IA n’a pas seulement fait augmenter les coûts : elle a fondamentalement modifié les délais de déploiement des entreprises. Les solutions d’IA personnalisées au niveau de l’entreprise, dont le déploiement complet nécessitait généralement de six à douze mois au début de 2025, s’étendaient sur 12 à 18 mois ou plus à la fin de l’année, selon les analystes du secteur.

Peter Hanbury, associé de Bain & Company, s’adressant à CNBCa noté que les délais de connexion aux services publics sont devenus la plus grande contrainte à la croissance des centres de données, certains projets étant confrontés à des retards de cinq ans simplement pour garantir l’accès à l’électricité. La société prévoit une augmentation de 163 GW de la demande mondiale d’électricité pour les centres de données d’ici 2030, en grande partie liée aux besoins intensifs de calcul de l’IA générative.

Satya Nadella, PDG de Microsoft, a décrit le paradoxe en termes crus : « Le plus gros problème auquel nous sommes confrontés actuellement n’est pas une surabondance de calcul, mais sa puissance : c’est la capacité de réaliser les builds assez rapidement, à proximité de la puissance. Si vous ne pouvez pas faire cela, vous risquez en fait d’avoir un tas de puces en stock que je ne peux pas brancher. En fait, c’est mon problème aujourd’hui. »

Les acheteurs de technologies traditionnelles dans les environnements d’entreprise ont été confrontés à des défis encore plus importants. « Les acheteurs dans cet environnement devront faire des efforts excessifs et faire des paris maintenant pour garantir l’approvisionnement plus tard », a prévenu Chad Bickley de Bain & Company dans une analyse de mars 2025.

« Planifier à l’avance les retards de production peut obliger les acheteurs à s’approvisionner en stocks coûteux de produits technologiques de pointe qui pourraient devenir obsolètes à court terme. »

Les coûts cachés aggravent les pressions budgétaires

Les augmentations de prix visibles (HBM en hausse de 20 à 30 % d’une année sur l’autre, les coûts du cloud GPU augmentant de 40 à 300 % selon la région) ne représentent qu’une partie de l’impact total des coûts. Les organisations ont découvert plusieurs catégories de dépenses cachées que les devis des fournisseurs n’avaient pas capturées.

La capacité de conditionnement avancée est apparue comme un goulot d’étranglement critique. Le packaging CoWoS de TSMC, essentiel pour empiler HBM aux côtés des processeurs d’IA, était complet jusqu’à la fin de 2025. La demande pour cette technique d’intégration a explosé à mesure que la production de plaquettes augmentait, créant un point d’étranglement secondaire qui a ajouté des mois aux délais de livraison.

Les coûts d’infrastructure au-delà des puces ont fortement augmenté. Les prix des SSD NVMe d’entreprise ont grimpé de 15 à 20 % par rapport à l’année précédente, car les charges de travail d’IA nécessitaient une endurance et une bande passante nettement supérieures à celles des applications traditionnelles. Selon l’analyse de Bain, les organisations planifiant des déploiements d’IA ont constaté que leurs coûts de nomenclature augmentaient de 5 à 10 % rien qu’en raison de l’augmentation des composants de mémoire.

Les coûts de mise en œuvre et de gouvernance se sont encore aggravés. Les organisations dépensent entre 50 000 et 250 000 dollars par an en infrastructure de surveillance, de gouvernance et d’activation, au-delà des frais de licence de base. Les dépassements basés sur l’utilisation ont entraîné une augmentation inattendue des frais mensuels pour les équipes ayant une densité d’interaction élevée avec l’IA, en particulier celles qui s’engagent dans une formation intensive sur les modèles ou dans des charges de travail d’inférence fréquentes.

Leçons stratégiques pour 2026 et au-delà

Les dirigeants d’entreprise qui ont réussi à surmonter la pénurie de puces d’IA de 2025 ont acquis des connaissances durement acquises qui façonneront leur stratégie d’approvisionnement pour les années à venir.

Diversifier tôt les relations d’approvisionnement : Les organisations qui ont conclu des accords d’approvisionnement à long terme avec plusieurs fournisseurs avant que les pénuries ne s’intensifient ont maintenu des délais de déploiement plus prévisibles que celles qui s’appuient sur des achats ponctuels.

Budget pour la volatilité des composants : L’ère des tarifs d’infrastructure stables et prévisibles est révolue pour les charges de travail d’IA. Les directeurs techniques ont appris à intégrer des marges de coûts de 20 à 30 % dans les budgets d’infrastructure d’IA afin d’absorber les fluctuations des prix de la mémoire et les écarts de disponibilité des composants.

Optimiser avant de mettre à l’échelle : Des techniques telles que la quantification de modèle, l’élagage et l’optimisation d’inférence réduisent les besoins en GPU de 30 à 70 % dans certaines implémentations. Les organisations qui ont investi dans l’efficacité avant d’utiliser le matériel pour résoudre les problèmes ont obtenu de meilleurs résultats économiques que celles qui se concentraient uniquement sur les achats.

Envisagez des modèles d’infrastructure hybrides : Les stratégies multi-cloud et les configurations hybrides combinant des GPU cloud avec des clusters dédiés ont amélioré la fiabilité et la prévisibilité des coûts. Pour les charges de travail d’IA à volume élevé, la possession ou la location d’une infrastructure s’avère de plus en plus rentable que la location de GPU cloud à des prix spot gonflés.

Tenir compte de la géopolitique dans les décisions architecturales : Les changements rapides de politique en matière d’exportation de puces ont appris aux entreprises que l’infrastructure mondiale de l’IA ne peut pas assumer des environnements réglementaires stables. Les organisations exposées à la Chine ont appris à concevoir des architectures de déploiement en gardant à l’esprit la flexibilité réglementaire.

Les perspectives 2026 : des contraintes persistantes

Le déséquilibre entre l’offre et la demande ne montre aucun signe de résolution rapide. La construction de nouvelles usines de puces mémoire prend des années : la plupart des extensions de capacité annoncées en 2025 ne seront mises en service qu’en 2027 ou plus tard. Les prévisions de SK Hynix suggèrent que les pénuries persisteront au moins jusqu’à la fin de 2027.

La politique de contrôle des exportations reste fluide. Une nouvelle règle « Trump AI Controls » destinée à remplacer les cadres antérieurs est attendue plus tard en 2025, ainsi que d’éventuels contrôles sur les exportations vers la Malaisie et la Thaïlande identifiées comme des voies de détournement vers la Chine. Chaque changement de politique crée de nouvelles incertitudes en matière d’approvisionnement pour les entreprises mondiales.

Les implications macroéconomiques s’étendent au-delà des budgets informatiques. Les pénuries de mémoire pourraient retarder des centaines de milliards d’investissements dans les infrastructures d’IA, ralentissant ainsi les gains de productivité sur lesquels les entreprises parient pour justifier des dépenses massives en IA. La hausse des coûts des composants menace d’ajouter des pressions inflationnistes à un moment où les économies mondiales restent sensibles aux hausses de prix.

Pour les dirigeants d’entreprise, la pénurie de puces d’IA en 2025 a livré une leçon définitive : les logiciels évoluent à la vitesse numérique, mais le matériel évolue à la vitesse physique, et la géopolitique évolue à la vitesse politique. L’écart entre ces trois délais définit ce qui est réellement déployable, quelles que soient les promesses des fournisseurs ou la feuille de route des projets.

Les organisations qui ont prospéré ne sont pas celles dotées des budgets les plus importants ou des visions d’IA les plus ambitieuses. Ce sont eux qui ont compris qu’en 2025, la réalité de la chaîne d’approvisionnement l’emportait sur l’ambition stratégique – et ont planifié en conséquence.

(Photo d’Igor Omilaev/Unsplash)