Les modèles d’IA chinois alimentent 175 000 systèmes non protégés alors que les laboratoires occidentaux se retirent

Parce que les laboratoires d’IA occidentaux ne le feront pas – ou ne le pourront plus –. Alors qu’OpenAI, Anthropic et Google font face à une pression croissante pour restreindre leurs modèles les plus puissants, les développeurs chinois ont comblé le vide de l’open source avec une IA explicitement conçue pour ce dont les opérateurs ont besoin : des modèles puissants fonctionnant sur du matériel de base.

Une nouvelle étude de sécurité révèle à quel point l’IA chinoise a capturé cet espace. Une étude publiée par SentinelOne et Censys, cartographiant 175 000 hôtes d’IA exposés dans 130 pays sur 293 jours, montre que le Qwen2 d’Alibaba se classe régulièrement au deuxième rang, derrière le lama de Meta, en termes de déploiement mondial. Plus révélateur encore, le modèle chinois apparaît sur 52 % des systèmes exécutant plusieurs modèles d’IA, ce qui suggère qu’il est devenu l’alternative de facto à Llama.

« Au cours des 12 à 18 prochains mois, nous nous attendons à ce que les familles modèles d’origine chinoise jouent un rôle de plus en plus central dans l’écosystème LLM open source, en particulier à mesure que les laboratoires occidentaux ralentissent ou limitent les versions à poids ouvert », a déclaré Gabriel Bernadett-Shapiro, éminent chercheur en IA chez SentinelOne, à TechForge Media. Actualités sur l’IA.

Cette découverte arrive alors qu’OpenAI, Anthropic et Google sont confrontés à un examen réglementaire, à des frais généraux d’examen de la sécurité et à des incitations commerciales qui les poussent vers des versions contrôlées par API plutôt que de publier librement les pondérations des modèles. Le contraste avec les développeurs chinois ne pourrait pas être plus frappant.

Les laboratoires chinois ont démontré ce que Bernadett-Shapiro appelle « une volonté de publier des poids importants et de haute qualité, explicitement optimisés pour le déploiement local, la quantification et le matériel de base ».

« En pratique, cela les rend plus faciles à adopter, à gérer et à intégrer dans des environnements périphériques et résidentiels », a-t-il ajouté.

En termes simples : si vous êtes un chercheur ou un développeur souhaitant exécuter une IA puissante sur votre propre ordinateur sans un budget énorme, les modèles chinois comme Qwen2 sont souvent votre meilleure – ou la seule – option.

La pragmatique, pas l’idéologie

Le Qwen2 d’Alibaba se classe systématiquement au deuxième rang derrière le lama de Meta parmi 175 000 hôtes exposés dans le monde. Source : SentinelOne/Censys

La recherche montre que cette domination n’est pas accidentelle. Qwen2 maintient ce que Bernadett-Shapiro appelle une « volatilité de rang zéro » : il occupe la deuxième place dans toutes les méthodes de mesure examinées par les chercheurs : observations totales, hôtes uniques et jours-hôtes. Il n’y a aucune fluctuation, aucune variation régionale, juste une adoption mondiale cohérente.

Le modèle de co-déploiement est tout aussi révélateur. Lorsque les opérateurs exécutent plusieurs modèles d’IA sur le même système (une pratique courante pour la comparaison ou la segmentation des charges de travail), l’association Llama et Qwen2 apparaît sur 40 694 hôtes, ce qui représente 52 % de tous les déploiements multifamiliaux.

La concentration géographique renforce le tableau. En Chine, Pékin représente à elle seule 30 % des hôtes exposés, tandis que Shanghai et Guangdong ajoutent ensemble 21 % supplémentaires. Aux États-Unis, la Virginie, qui reflète la densité de l’infrastructure AWS, représente 18 % des hôtes.

La Chine et les États-Unis dominent la distribution des hôtes Ollama exposés, Pékin représentant 30 % des déploiements chinois. Source : SentinelOne/Censys

« Si la vitesse de publication, l’ouverture et la portabilité du matériel continuent de diverger entre les régions, les lignées de modèles chinois deviendront probablement la valeur par défaut pour les déploiements ouverts, non pas pour des raisons idéologiques, mais pour des raisons de disponibilité et de pragmatisme », a expliqué Bernadett-Shapiro.

Le problème de la gouvernance

Ce changement crée ce que Bernadett-Shapiro qualifie d’« inversion de gouvernance » : un renversement fondamental de la façon dont les risques et la responsabilité de l’IA sont répartis.

Dans les services hébergés sur une plateforme comme ChatGPT, une entreprise contrôle tout : l’infrastructure, surveille l’utilisation, met en œuvre des contrôles de sécurité et peut mettre fin aux abus. Avec les modèles à poids ouvert, le contrôle s’évapore. La responsabilité se diffuse à travers des milliers de réseaux dans 130 pays, tandis que la dépendance se concentre en amont sur une poignée de fournisseurs modèles, de plus en plus chinois.

Les 175 000 hôtes exposés fonctionnent entièrement en dehors des systèmes de contrôle régissant les plateformes commerciales d’IA. Il n’y a pas d’authentification centralisée, pas de limitation de débit, pas de détection d’abus et, surtout, pas de kill switch si une utilisation abusive est détectée.

« Une fois qu’un modèle à poids ouvert est publié, il est trivial de supprimer la formation en matière de sûreté ou de sécurité », a noté Bernadett-Shapiro. « Les laboratoires Frontier doivent traiter les versions à poids ouvert comme des artefacts d’infrastructure à longue durée de vie. »

Une dorsale persistante de 23 000 hôtes affichant une disponibilité moyenne de 87 % génère la majorité de l’activité. Il ne s’agit pas d’expériences d’amateurs : ce sont des systèmes opérationnels fournissant une utilité continue, exécutant souvent plusieurs modèles simultanément.

Le plus préoccupant peut-être : entre 16 % et 19 % de l’infrastructure ne peuvent être attribuées à aucun propriétaire identifiable. « Même si nous sommes en mesure de prouver qu’un modèle a été exploité lors d’une attaque, il n’existe pas de voies bien établies pour signaler les abus », a déclaré Bernadett-Shapiro.

Sécurité sans garde-corps

Près de la moitié (48 %) des hôtes exposés annoncent des « capacités d’appel d’outils », ce qui signifie qu’ils ne se contentent pas de générer du texte. Ils peuvent exécuter du code, accéder aux API et interagir de manière autonome avec des systèmes externes.

« Un modèle textuel peut générer du contenu nuisible, mais un modèle appelant un outil peut agir », a expliqué Bernadett-Shapiro. « Sur un serveur non authentifié, un attaquant n’a pas besoin de malware ou d’informations d’identification ; il a juste besoin d’une invite. »

Près de la moitié des hôtes Ollama exposés disposent de capacités d’appel d’outils capables d’exécuter du code et d’accéder à des systèmes externes. Source : SentinelOne/Censys

Le scénario le plus risqué implique ce qu’il appelle « des points de terminaison RAG ou d’automatisation exposés et activés par des outils pilotés à distance en tant que couche d’exécution ». Un attaquant pourrait simplement demander au modèle de résumer les documents internes, d’extraire les clés API des référentiels de code ou d’appeler les services en aval auxquels le modèle est configuré pour accéder.

Lorsqu’il est associé à des modèles de « réflexion » optimisés pour le raisonnement en plusieurs étapes, présents sur 26 % des hôtes, le système peut planifier des opérations complexes de manière autonome. Les chercheurs ont identifié au moins 201 hôtes exécutant des configurations « non censurées » qui suppriment explicitement les garde-fous de sécurité, bien que Bernadett-Shapiro note que cela représente une limite inférieure.

En d’autres termes, il ne s’agit pas uniquement de chatbots : ce sont des systèmes d’IA capables d’agir, et la moitié d’entre eux n’ont aucune protection par mot de passe.

Ce que devraient faire les laboratoires frontaliers

Pour les développeurs occidentaux d’IA soucieux de maintenir leur influence sur la trajectoire de la technologie, Bernadett-Shapiro recommande une approche différente des versions de modèles.

« Les laboratoires frontaliers ne peuvent pas contrôler le déploiement, mais ils peuvent façonner les risques qu’ils libèrent dans le monde », a-t-il déclaré. Cela implique « d’investir dans la surveillance post-diffusion des modèles d’adoption et d’utilisation abusive au niveau de l’écosystème » plutôt que de traiter les disséminations comme des résultats de recherche ponctuels.

Le modèle de gouvernance actuel suppose un déploiement centralisé avec un approvisionnement diffus en amont – exactement le contraire de ce qui se passe réellement. « Lorsqu’un petit nombre de lignées dominent ce qui peut être exécuté sur du matériel standard, les décisions en amont sont amplifiées partout », a-t-il expliqué. « Les stratégies de gouvernance doivent reconnaître cette inversion. »

Mais la reconnaissance nécessite de la visibilité. Actuellement, la plupart des laboratoires qui publient des modèles à poids ouvert ne disposent d’aucun moyen systématique pour suivre la manière dont ils sont utilisés, où ils sont déployés ou si la formation à la sécurité reste intacte après quantification et réglage fin.

Les perspectives à 12-18 mois

Bernadett-Shapiro s’attend à ce que la couche exposée « persiste et se professionnalise » à mesure que l’utilisation des outils, des agents et des entrées multimodales deviennent des capacités par défaut plutôt que des exceptions. La périphérie transitoire continuera à évoluer au fur et à mesure des expériences des amateurs, mais la dorsale deviendra plus stable, plus performante et gérera des données plus sensibles.

L’application restera inégale car les déploiements résidentiels et de petits VPS ne correspondent pas aux contrôles de gouvernance existants. « Il ne s’agit pas d’un problème de mauvaise configuration », a-t-il souligné. « Nous observons la formation précoce d’un substrat de calcul d’IA public et non géré. Il n’y a pas de commutateur central à actionner. »

La dimension géopolitique ajoute à l’urgence. « Alors que la plupart des calculs d’IA non gérés dans le monde dépendent de modèles publiés par une poignée de laboratoires non occidentaux, les hypothèses traditionnelles sur l’influence, la coordination et la réponse après la publication deviennent plus faibles », a déclaré Bernadett-Shapiro.

Pour les développeurs et les décideurs politiques occidentaux, l’implication est claire : « Même une gouvernance parfaite de leurs propres plateformes a un impact limité sur la surface des risques réels si les capacités dominantes vivent ailleurs et se propagent via une infrastructure ouverte et décentralisée. »

L’écosystème de l’IA open source se mondialise, mais son centre de gravité se déplace de manière décisive vers l’est. Non pas par une stratégie coordonnée, mais par la question économique pratique de savoir qui est prêt à publier ce dont les chercheurs et les opérateurs ont réellement besoin pour faire fonctionner l’IA au niveau local.

Les 175 000 hôtes exposés cartographiés dans cette étude ne sont que la surface visible de ce réalignement fondamental, un réalignement que les décideurs politiques occidentaux commencent seulement à reconnaître, et encore moins à aborder.

Bannière pour AI & Big Data Expo par les événements TechEx.
Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.