La capacité d’exécuter un apprentissage contradictoire pour la sécurité de l’IA en temps réel offre un avantage décisif par rapport aux mécanismes de défense statiques.
L’émergence d’attaques basées sur l’IA – utilisant les capacités d’apprentissage par renforcement (RL) et de Large Language Model (LLM) – a créé une classe de « hacking vibratoire » et de menaces adaptatives qui mutent plus rapidement que les équipes humaines ne peuvent réagir. Cela représente un risque de gouvernance et opérationnel pour les dirigeants d’entreprise que la politique seule ne peut atténuer.
Les attaquants recourent désormais à un raisonnement en plusieurs étapes et à la génération automatisée de code pour contourner les défenses établies. Par conséquent, l’industrie observe une nécessaire migration vers une « défense autonome » (c’est-à-dire des systèmes capables d’apprendre, d’anticiper et de réagir intelligemment sans intervention humaine).
Cependant, la transition vers ces modèles de défense sophistiqués se heurte historiquement à un plafond opérationnel difficile : la latence.
L’application de l’apprentissage contradictoire, où les modèles de menace et de défense sont continuellement entraînés les uns contre les autres, offre une méthode pour contrer les menaces de sécurité malveillantes de l’IA. Pourtant, le déploiement des architectures basées sur les transformateurs nécessaires dans un environnement de production en direct crée un goulot d’étranglement.
Abe Starosta, responsable principal de la recherche appliquée chez Microsoft NEXT.ai, a déclaré : « L’apprentissage contradictoire ne fonctionne en production que lorsque la latence, le débit et la précision vont de pair.
Les coûts de calcul associés à l’exécution de ces modèles denses obligeaient auparavant les dirigeants à choisir entre une détection de haute précision (qui est lente) et des heuristiques à haut débit (qui sont moins précises).
La collaboration technique entre Microsoft et NVIDIA montre comment l’accélération matérielle et l’optimisation au niveau du noyau suppriment cet obstacle, rendant la défense contre la concurrence en temps réel viable à l’échelle de l’entreprise.
La mise en œuvre opérationnelle des modèles de transformateur pour le trafic réel a obligé les équipes d’ingénierie à cibler les limites inhérentes à l’inférence basée sur le processeur. Les unités de traitement standard ont du mal à gérer le volume et la vitesse des charges de travail de production lorsqu’elles sont chargées de réseaux neuronaux complexes.
Lors des tests de base menés par les équipes de recherche, une configuration basée sur le processeur a donné une latence de bout en bout de 1 239,67 ms avec un débit de seulement 0,81 req/s. Pour une institution financière ou une plateforme mondiale de commerce électronique, un délai d’une seconde sur chaque demande est intenable sur le plan opérationnel.
En passant à une architecture accélérée par GPU (utilisant spécifiquement les unités NVIDIA H100), la latence de base est tombée à 17,8 ms. Cependant, les mises à niveau matérielles à elles seules se sont révélées insuffisantes pour répondre aux exigences strictes de la sécurité de l’IA en temps réel.
Grâce à une optimisation plus poussée du moteur d’inférence et des processus de tokenisation, les équipes ont atteint une latence finale de bout en bout de 7,67 ms, soit une accélération des performances 160 fois supérieure à la référence du processeur. Une telle réduction place le système bien dans les seuils acceptables pour l’analyse du trafic en ligne, permettant le déploiement de modèles de détection avec une précision supérieure à 95 % sur des références d’apprentissage contradictoire.
Un obstacle opérationnel identifié au cours de ce projet offre des informations précieuses aux CTO supervisant l’intégration de l’IA. Bien que le modèle de classificateur lui-même soit lourd en termes de calcul, le pipeline de prétraitement des données – en particulier la tokenisation – est apparu comme un goulot d’étranglement secondaire.
Les techniques de tokenisation standard, reposant souvent sur la segmentation des espaces, sont conçues pour le traitement du langage naturel (par exemple, les articles et la documentation). Ils s’avèrent inadéquats pour les données de cybersécurité, qui sont constituées de chaînes de requêtes densément emballées et de charges utiles générées par des machines dépourvues de coupures naturelles.
Pour résoudre ce problème, les équipes d’ingénierie ont développé un tokeniser spécifique au domaine. En intégrant des points de segmentation spécifiques à la sécurité adaptés aux nuances structurelles des données machine, ils ont permis un parallélisme plus fin. Cette approche sur mesure en matière de sécurité a permis de réduire de 3,5 fois la latence de tokenisation, soulignant que les composants d’IA disponibles dans le commerce nécessitent souvent une réingénierie spécifique à un domaine pour fonctionner efficacement dans des environnements de niche.
Pour obtenir ces résultats, il fallait une pile d’inférence cohérente plutôt que des mises à niveau isolées. L’architecture utilisait NVIDIA Dynamo et Triton Inference Server pour le service, couplée à une implémentation TensorRT du classificateur de menaces de Microsoft.
Le processus d’optimisation impliquait la fusion des opérations clés, telles que les fonctions de normalisation, d’intégration et d’activation, dans des noyaux CUDA personnalisés uniques. Cette fusion minimise le trafic mémoire et les frais de lancement, qui nuisent fréquemment aux performances dans les applications de trading ou de sécurité à haute fréquence. TensorRT a automatiquement fusionné les opérations de normalisation dans les noyaux précédents, tandis que les développeurs ont créé des noyaux personnalisés pour attirer l’attention des fenêtres coulissantes.
Le résultat de ces optimisations d’inférence spécifiques a été une réduction de la latence de passage direct de 9,45 ms à 3,39 ms, soit une accélération de 2,8x qui a contribué à la majorité de la réduction de latence observée dans les mesures finales.
Rachel Allen, responsable de la cybersécurité chez NVIDIA, a expliqué : « Sécuriser les entreprises signifie faire correspondre le volume et la vitesse des données de cybersécurité et s’adapter à la vitesse d’innovation des adversaires.
« Les modèles défensifs ont besoin d’une latence ultra-faible pour fonctionner au débit linéaire et de l’adaptabilité nécessaire pour se protéger contre les dernières menaces. C’est exactement ce que fait la combinaison de l’apprentissage contradictoire avec les modèles de détection accélérée basés sur les transformateurs NVIDIA TensorRT. »
Le succès ici indique un besoin plus large en matière d’infrastructure d’entreprise. Alors que les auteurs de menaces exploitent l’IA pour faire muter les attaques en temps réel, les mécanismes de sécurité doivent disposer de la marge de calcul nécessaire pour exécuter des modèles d’inférence complexes sans introduire de latence.
Le recours au calcul du processeur pour la détection avancée des menaces devient un handicap. Tout comme le rendu graphique est passé aux GPU, l’inférence de sécurité en temps réel nécessite un matériel spécialisé pour maintenir un débit > 130 req/s tout en garantissant une couverture robuste.
De plus, les modèles d’IA génériques et les tokenisers échouent souvent sur des données spécialisées. Le « vibe hacking » et les charges utiles complexes des menaces modernes nécessitent des modèles formés spécifiquement sur des modèles malveillants et des segmentations d’entrée qui reflètent la réalité des données machine.
Pour l’avenir, la feuille de route pour la sécurité future implique de former des modèles et des architectures spécifiquement destinés à la robustesse face à l’adversaire, en utilisant potentiellement des techniques telles que la quantification pour améliorer encore la vitesse.
En formant continuellement des modèles de menace et de défense en tandem, les organisations peuvent jeter les bases d’une protection par l’IA en temps réel qui s’adapte à la complexité de l’évolution des menaces de sécurité. La percée de l’apprentissage contradictoire démontre que la technologie permettant d’y parvenir – en équilibrant la latence, le débit et la précision – est désormais capable d’être déployée aujourd’hui.