Comment le code de l'IA examine le risque d'incident - Actualité sur le financement de l'innovation

L’intégration de l’IA dans les workflows de révision de code permet aux responsables de l’ingénierie de détecter les risques systémiques qui échappent souvent à la détection humaine à grande échelle.

Pour les responsables de l’ingénierie gérant des systèmes distribués, le compromis entre vitesse de déploiement et stabilité opérationnelle définit souvent le succès de leur plateforme. Datadog, une entreprise responsable de l’observabilité d’infrastructures complexes dans le monde entier, opère sous une pression intense pour maintenir cet équilibre.

Lorsque les systèmes d’un client tombent en panne, ils s’appuient sur la plateforme Datadog pour diagnostiquer la cause première, ce qui signifie que la fiabilité doit être bien établie. avant le logiciel atteint un environnement de production.

Faire évoluer cette fiabilité est un défi opérationnel. La révision du code a traditionnellement joué le rôle de gardien principal, une phase à enjeux élevés où les ingénieurs seniors tentent de détecter les erreurs. Cependant, à mesure que les équipes se développent, il devient insoutenable de s’appuyer sur des réviseurs humains pour maintenir une connaissance contextuelle approfondie de l’ensemble de la base de code.

Pour résoudre ce goulot d’étranglement, l’équipe AI Development Experience (AI DevX) de Datadog a intégré le Codex d’OpenAI, dans le but d’automatiser la détection des risques que les évaluateurs humains oublient souvent.

Pourquoi l’analyse statique échoue

Le marché des entreprises utilise depuis longtemps des outils automatisés pour faciliter la révision du code, mais leur efficacité a toujours été limitée.

Les premières itérations des outils de révision du code d’IA fonctionnaient souvent comme des « linters avancés », identifiant des problèmes de syntaxe superficiels mais ne parvenant pas à saisir l’architecture système plus large. Parce que ces outils n’avaient pas la capacité de comprendre le contexte, les ingénieurs de Datadog considéraient souvent leurs suggestions comme du bruit.

Le problème principal n’était pas de détecter les erreurs de manière isolée, mais de comprendre comment un changement spécifique pouvait se répercuter sur les systèmes interconnectés. Datadog avait besoin d’une solution capable de raisonner sur la base de code et ses dépendances, plutôt que de simplement rechercher les violations de style.

L’équipe a intégré le nouvel agent directement dans le flux de travail de l’un de ses référentiels les plus actifs, lui permettant d’examiner automatiquement chaque demande d’extraction. Contrairement aux outils d’analyse statique, ce système compare l’intention du développeur avec la soumission réelle du code, exécutant des tests pour valider le comportement.

Pour les CTO et les DSI, la difficulté d’adopter l’IA générative réside souvent dans la nécessité de prouver sa valeur au-delà de l’efficacité théorique. Datadog a contourné les mesures de productivité standard en créant un « faisceau de relecture des incidents » pour tester l’outil par rapport aux pannes historiques.

Au lieu de s’appuyer sur des cas de test hypothétiques, l’équipe a reconstitué des demandes d’extraction antérieures dont on savait qu’elles avaient provoqué des incidents. Ils ont ensuite exécuté l’agent IA sur ces modifications spécifiques pour déterminer s’il aurait signalé les problèmes que les humains avaient manqués lors de leurs révisions de code.

Les résultats ont fourni des données concrètes pour l’atténuation des risques : l’agent a identifié plus de 10 cas (environ 22 % des incidents examinés) où son retour d’information aurait évité l’erreur. Il s’agissait de demandes d’extraction qui avaient déjà contourné l’examen humain, démontrant que l’IA faisait apparaître des risques invisibles pour les ingénieurs de l’époque.

Cette validation a changé la conversation interne concernant l’utilité de l’outil. Brad Carter, qui dirige l’équipe AI DevX, a noté que même si les gains d’efficacité sont les bienvenus, « prévenir les incidents est bien plus convaincant à notre échelle ».

Comment les révisions de code d’IA changent la culture de l’ingénierie

Le déploiement de cette technologie auprès de plus de 1 000 ingénieurs a influencé la culture de révision du code au sein de l’organisation. Plutôt que de remplacer l’élément humain, l’IA sert de partenaire qui gère la charge cognitive des interactions entre services.

Les ingénieurs ont signalé que le système signalait systématiquement des problèmes qui n’étaient pas évidents à la lumière de la différence immédiate entre les codes. Il a identifié une couverture de test manquante dans les domaines de couplage interservices et a souligné les interactions avec des modules que le développeur n’avait pas touchés directement.

Cette profondeur d’analyse a modifié la manière dont l’équipe d’ingénierie interagissait avec les commentaires automatisés.

« Pour moi, un commentaire du Codex ressemble à l’ingénieur le plus intelligent avec lequel j’ai travaillé et qui dispose d’un temps infini pour trouver des bugs. Il voit des connexions que mon cerveau ne tient pas d’un seul coup », explique Carter.

La capacité du système de révision de code d’IA à contextualiser les changements permet aux réviseurs humains de ne plus se concentrer sur la détection des bogues mais sur l’évaluation de l’architecture et de la conception.

De la chasse aux bugs à la fiabilité

Pour les dirigeants d’entreprise, l’étude de cas Datadog illustre une transition dans la manière dont la révision du code est définie. Il n’est plus simplement considéré comme un point de contrôle pour la détection des erreurs ou une mesure du temps de cycle, mais comme un système de fiabilité essentiel.

En faisant apparaître des risques qui dépassent le contexte individuel, la technologie soutient une stratégie où la confiance dans le code d’expédition évolue avec l’équipe. Cela correspond aux priorités de la direction de Datadog, qui considère la fiabilité comme un élément fondamental de la confiance des clients.

« Nous sommes la plateforme sur laquelle les entreprises s’appuient lorsque tout le reste tombe en panne », déclare Carter. « Prévenir les incidents renforce la confiance que nos clients nous accordent ».

L’intégration réussie de l’IA dans le pipeline de révision du code suggère que la plus grande valeur de la technologie dans l’entreprise réside peut-être dans sa capacité à appliquer des normes de qualité complexes qui protègent les résultats.