Google introduit le contrôle du raisonnement AI dans Gemini 2.5 Flash

Google a introduit un mécanisme de contrôle du raisonnement d’IA pour son modèle Flash Gemini 2.5 qui permet aux développeurs de limiter la puissance de traitement que le système dépense en résolution de problèmes.

Sortie le 17 avril, cette caractéristique du «budget de réflexion» répond à un défi croissant de l’industrie: les modèles AI avancés sur-analysent fréquemment des requêtes simples, consommant des ressources informatiques inutiles et augmentant les coûts opérationnels et environnementaux.

Bien qu’il ne soit pas révolutionnaire, le développement représente une étape pratique vers la lutte contre les problèmes d’efficacité qui ont émergé à mesure que les capacités de raisonnement deviennent standard dans les logiciels commerciaux d’IA.

Le nouveau mécanisme permet un étalonnage précis des ressources de traitement avant de générer des réponses, ce qui pourrait changer la façon dont les organisations gèrent les impacts financiers et environnementaux du déploiement de l’IA.

«Le modèle trop réfléchi», reconnaît Tulsee Doshi, directeur de la gestion des produits chez Gemini. « Pour des invites simples, le modèle pense plus que ce qu’il a besoin. »

L’admission révèle le défi auquel sont confrontés les modèles de raisonnement avancé – l’équivalent de l’utilisation de machines industrielles pour casser une noix.

Le changement vers les capacités du raisonnement a créé des conséquences involontaires. Lorsque les modèles traditionnels de grande langue correspondaient principalement à des modèles à partir de données d’entraînement, les nouvelles itérations tentent de résoudre les problèmes logiquement, étape par étape. Bien que cette approche donne de meilleurs résultats pour des tâches complexes, il introduit une inefficacité significative lors de la gestion des requêtes plus simples.

Équilibrage des coûts et des performances

Les implications financières du raisonnement de l’IA non contrôlé sont substantielles. Selon la documentation technique de Google, lorsque le raisonnement complet est activé, la génération de sorties devient environ six fois plus cher que le traitement standard. Le multiplicateur de coûts crée une puissante incitation pour le contrôle affiné.

Nathan Habib, ingénieur de Hugging Face Who qui étudie les modèles de raisonnement, décrit le problème comme endémique dans l’industrie. « Dans la hâte pour montrer l’IA plus intelligente, les entreprises recherchent des modèles de raisonnement comme des marteaux même là où il n’y a pas de clou en vue », a-t-il expliqué à Revue de la technologie du MIT.

Les déchets ne sont pas simplement théoriques. Habib a démontré comment un modèle de raisonnement principal, lors de la tentative de résolution d’un problème de chimie organique, est devenu piégé dans une boucle récursive, répétant «attendre, mais…» des centaines de fois – subissant essentiellement une panne de calcul et consommant des ressources de traitement.

Kate Olszewska, qui évalue les modèles Gemini chez DeepMind, confirmé que les systèmes de Google éprouvent parfois des problèmes similaires, se coincer dans des boucles qui drainent la puissance de calcul sans améliorer la qualité de la réponse.

Mécanisme de contrôle granulaire

Le contrôle du raisonnement d’IA de Google offre aux développeurs un certain degré de précision. Le système offre un spectre flexible allant de zéro (raisonnement minimal) à 24 576 jetons de «budget de réflexion» – les unités de calcul représentant le traitement interne du modèle. L’approche granulaire permet un déploiement personnalisé sur la base de cas d’utilisation spécifiques.

Jack Rae, chercheur principal chez Deepmind, dit que la définition de niveaux de raisonnement optimal reste difficile: « Il est vraiment difficile de tracer une frontière, comme, quelle est la tâche parfaite en ce moment pour réfléchir. »

Philosophie de développement changeant

L’introduction du contrôle du raisonnement d’IA signale potentiellement un changement dans l’évolution de l’intelligence artificielle. Depuis 2019, les entreprises ont poursuivi des améliorations en créant des modèles plus importants avec plus de paramètres et de données de formation. L’approche de Google suggère un chemin alternatif se concentrant sur l’efficacité plutôt que sur l’échelle.

«Les lois sur l’échelle sont remplacées», explique Habib, indiquant que les avancées futures peuvent émerger de l’optimisation des processus de raisonnement plutôt que de l’élargissement continue de la taille du modèle.

Les implications environnementales sont tout aussi importantes. À mesure que les modèles de raisonnement prolifèrent, leur consommation d’énergie se développe proportionnellement. La recherche indique que l’inférence – générer des réponses d’IA – contribue désormais davantage à l’empreinte carbone de la technologie que le processus de formation initial. Le mécanisme de contrôle du raisonnement de Google offre un facteur d’atténuation potentiel pour cette tendance concernant.

Dynamique compétitive

Google ne fonctionne pas isolément. Le modèle R1 en profondeur «poids ouvert», qui a émergé plus tôt cette année, a démontré de puissantes capacités de raisonnement à des coûts potentiellement inférieurs, déclenchant la volatilité du marché qui aurait provoqué près d’un billion de dollars de fluctuation du marché boursier.

Contrairement à l’approche propriétaire de Google, Deepseek rend ses paramètres internes publiquement accessibles aux développeurs pour implémenter localement.

Malgré la concurrence, le directeur technique de Google Deepmind, Koray Kavukcuoglu, soutient que les modèles propriétaires maintiendront des avantages dans des domaines spécialisés nécessitant une précision exceptionnelle: «Le codage, les mathématiques et la finance sont des cas où il y a des attentes élevées de la part du modèle.»

Signes de maturation de l’industrie

Le développement du contrôle du raisonnement d’IA reflète une industrie confrontée désormais à des limites pratiques au-delà des références techniques. Alors que les entreprises continuent de faire avancer les capacités de raisonnement, l’approche de Google reconnaît une réalité importante: l’efficacité compte autant que les performances brutes dans les applications commerciales.

La fonctionnalité met également en évidence les tensions entre les préoccupations technologiques et les problèmes de durabilité. Les performances du modèle de raisonnement de suivi des classements montrent que les tâches uniques peuvent coûter plus de 200 $ à compléter – soulevant des questions sur la mise à l’échelle de ces capacités dans les environnements de production.

En permettant aux développeurs de composer le raisonnement vers le haut ou vers le bas en fonction des besoins réels, Google aborde à la fois les aspects financiers et environnementaux du déploiement de l’IA.

«Le raisonnement est la capacité clé qui renforce l’intelligence», déclare Kavukcuoglu. «Au moment où le modèle commence à penser, l’agence du modèle a commencé.» La déclaration révèle à la fois la promesse et le défi des modèles de raisonnement – leur autonomie crée à la fois des opportunités et des défis de gestion des ressources.

Pour les organisations qui déploient des solutions d’IA, la possibilité d’affiner les budgets de raisonnement pourrait démocratiser l’accès aux capacités avancées tout en maintenant une discipline opérationnelle.

Google affirme que Gemini 2.5 Flash fournit des «mesures comparables à d’autres modèles de premier plan pour une fraction du coût et de la taille» – une proposition de valeur renforcée par la capacité d’optimiser les ressources de raisonnement pour des applications spécifiques.

Implications pratiques

La fonction de contrôle du raisonnement d’IA a des applications pratiques immédiates. Les développeurs créant des applications commerciales peuvent désormais faire des compromis éclairés entre la profondeur de traitement et les coûts opérationnels.

Pour des applications simples telles que les requêtes de base des clients, les paramètres de raisonnement minimal conservent les ressources tout en utilisant les capacités du modèle. Pour une analyse complexe nécessitant une compréhension approfondie, la pleine capacité de raisonnement reste disponible.

Le «cadran du raisonnement» de Google fournit un mécanisme pour établir une certitude des coûts tout en maintenant les normes de performance.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.