La gouvernance autour de l’IA physique devient de plus en plus difficile à mesure que les systèmes d’IA autonomes se transforment en robots, capteurs et équipements industriels. Le problème n’est pas seulement de savoir si les agents IA peuvent accomplir des tâches. C’est ainsi que leurs actions sont testées, surveillées et arrêtées lorsqu’ils interagissent avec des systèmes du monde réel.
La robotique industrielle constitue déjà une base importante pour ce débat. La Fédération internationale de robotique a déclaré que 542 000 robots industriels avaient été installés dans le monde en 2024, soit plus du double du niveau annuel enregistré dix ans plus tôt. Il s’attend à ce que les installations atteignent 575 000 unités en 2025 et dépassent 700 000 unités d’ici 2028.
Les chercheurs en marché appliquent également le label Physical AI à un groupe plus large de systèmes, notamment la robotique, l’informatique de pointe et les machines autonomes. Grand View Research a estimé le marché mondial de l’IA physique à 81,64 milliards de dollars en 2025 et prévoit qu’il atteindra 960,38 milliards de dollars d’ici 2033, bien que la catégorie dépende de la manière dont les fournisseurs définissent l’intelligence dans les systèmes physiques.
De la production du modèle à l’action physique
Le défi de la gouvernance est différent de celui de l’automatisation uniquement logicielle, car les systèmes physiques peuvent fonctionner autour des lieux de travail, des infrastructures et des utilisateurs humains. Ils peuvent également être connectés à des équipements nécessitant des limites de sécurité claires. Une sortie de modèle peut devenir un mouvement de robot ou une instruction machine. Cela peut également devenir une décision basée sur les données des capteurs. Cela intègre les limites de sécurité et les voies d’escalade dans la conception du système.
Les travaux robotiques de Google DeepMind sont un exemple récent de la manière dont les modèles d’IA sont adaptés à cet environnement. La société a présenté Gemini Robotics et Gemini Robotics-ER en mars 2025, les décrivant comme des modèles construits sur Gemini 2.0 pour la robotique et l’IA incarnée. Gemini Robotics est un modèle vision-langage-action conçu pour contrôler directement les robots, tandis que Gemini Robotics-ER se concentre sur le raisonnement incarné, y compris la compréhension spatiale et la planification des tâches.
Un robot utilisant ce type de modèle peut avoir besoin d’identifier un objet, de comprendre une instruction et de planifier une séquence de mouvements. Il doit également évaluer si la tâche a été accomplie correctement. Cela crée un problème de contrôle qui inclut à la fois le comportement du modèle et les limites mécaniques du système.
Google DeepMind a déclaré que les robots utiles ont besoin de généralité, d’interactivité et de dextérité. La généralité couvre les objets et environnements inconnus. L’interactivité est liée à l’apport humain et aux conditions changeantes. La dextérité fait référence à des tâches physiques qui nécessitent des mouvements précis.
Dans ses documents de lancement, Google DeepMind a déclaré que Gemini Robotics pouvait suivre des instructions en langage naturel et effectuer des tâches de manipulation en plusieurs étapes. Les exemples comprenaient le pliage de papier, l’emballage d’articles dans un sac et la manipulation d’objets non vus pendant la formation.
Les exigences techniques de l’IA physique vont plus loin que la compréhension du langage. Les systèmes ont besoin d’une perception visuelle et d’un raisonnement spatial. Ils ont également besoin de planifier les tâches et de détecter les réussites. En robotique, la détection du succès est importante car le système doit décider si une tâche est terminée, s’il doit réessayer ou s’il doit s’arrêter.
Gemini Robotics-ER 1.6 de Google DeepMind, introduit en avril 2026, montre comment ces fonctions sont intégrées dans des modèles plus récents. L’entreprise décrit le modèle comme prenant en charge la logique spatiale, la planification des tâches et la détection du succès, avec la capacité de raisonner par étapes intermédiaires et de décider d’avancer ou de réessayer.
La documentation du développeur de Google indique que Gemini Robotics-ER 1.6 est disponible en avant-première via l’API Gemini. La documentation le décrit comme un modèle de langage de vision qui apporte les capacités agentiques de Gemini à la robotique. Ces capacités incluent l’interprétation visuelle, le raisonnement spatial et la planification à partir de commandes en langage naturel.
Google AI Studio fournit un environnement de développement pour travailler avec des modèles Gemini, tandis que l’API Gemini fournit un moyen d’intégrer ces modèles dans des applications. Dans le contexte de l’IA incarnée, cela rapproche les tests et les incitations des développeurs qui créent des applications agentiques.
Les contrôles de sécurité entrent dans la conception du système
La gouvernance devient plus complexe lorsque ces systèmes peuvent appeler des outils, générer du code ou déclencher des actions. Les contrôles doivent définir les données auxquelles le système peut accéder, les outils qu’il peut utiliser, les actions qui nécessitent l’approbation humaine et la manière dont l’activité est enregistrée pour examen.
L’étude 2026 de McKinsey sur la confiance dans l’IA souligne le même problème dans l’IA d’entreprise de manière plus générale. L’étude a révélé que seulement un tiers environ des organisations ont signalé des niveaux de maturité de trois ou plus en matière de stratégie, de gouvernance et de gouvernance de l’IA agentique, même si les systèmes d’IA assument des fonctions plus autonomes.
En robotique, la sécurité inclut également le comportement physique de la machine. Google DeepMind a décrit la sécurité des robots comme un problème à plusieurs niveaux, couvrant des contrôles de niveau inférieur tels que l’évitement des collisions, les limites de force et la stabilité, ainsi qu’un raisonnement de niveau supérieur sur la sécurité d’une action demandée dans son contexte.
La société a également présenté ASIMOV, un ensemble de données permettant d’évaluer la sécurité sémantique en robotique et en IA incarnée. Google DeepMind a déclaré que l’ensemble de données a été conçu pour tester si les systèmes peuvent comprendre les instructions liées à la sécurité et éviter les comportements dangereux dans des environnements physiques.
Les mêmes contrôles utilisés pour les agents logiciels deviennent plus difficiles à gérer lorsque les systèmes sont connectés à des robots, des capteurs ou des équipements industriels. Ceux-ci incluent les droits d’accès, les pistes d’audit et le comportement de refus. Ils incluent également des chemins d’escalade et des tests.
Les cadres de gouvernance tels que le NIST AI Risk Management Framework et la norme ISO/IEC 42001 fournissent des structures pour gérer les risques et les responsabilités de l’IA tout au long du cycle de vie du système. Dans l’IA physique, ces contrôles doivent prendre en compte le comportement du modèle, les machines connectées et l’environnement d’exploitation.
Google DeepMind a également travaillé avec des entreprises de robotique dans le cadre de son développement d’IA incarnée. En mars 2025, la société a annoncé son partenariat avec Apptronik sur des robots humanoïdes utilisant Gemini 2.0 et a répertorié Agile Robots, Agility Robotics, Boston Dynamics et Enchanted Tools parmi les testeurs de confiance pour Gemini Robotics-ER.
La mise à jour 2026 faisait également référence au travail avec Boston Dynamics impliquant des tâches robotiques telles que la lecture d’instruments. Ce type de cas d’utilisation dépend de la compréhension visuelle, de la planification des tâches et d’une évaluation fiable des conditions physiques.
L’IA physique s’applique à l’inspection industrielle, à la fabrication et à la logistique. Cela s’applique également aux installations et aux entrepôts. Ces paramètres nécessitent que les systèmes interprètent les conditions du monde réel et agissent dans des limites définies. La question de gouvernance est de savoir comment ces limites sont fixées avant que les systèmes autonomes ne soient autorisés à prendre ou à exécuter des décisions.
Google DeepMind et Google AI Studio sont répertoriés comme partenaires technologiques du hackathon pour l’AI & Big Data Expo North America 2026, qui aura lieu les 18 et 19 mai au San Jose McEnery Convention Center.
(Photo de Mitchell Luo)