Modèle d’IA à mille milliards de paramètres : lancement du Ling-1T d’Ant Group

Ant Group est entré dans l’arène des modèles d’IA à mille milliards de paramètres avec Ling-1T, un nouveau modèle de langage open source que le géant chinois de la technologie financière présente comme une percée dans l’équilibre entre l’efficacité informatique et les capacités de raisonnement avancées.

L’annonce du 9 octobre marque une étape importante pour l’opérateur Alipay, qui a rapidement développé son infrastructure d’intelligence artificielle sur plusieurs architectures de modèles.

Le modèle d’IA comportant des milliards de paramètres démontre des performances compétitives sur des tâches de raisonnement mathématique complexes, atteignant une précision de 70,42 % au test de référence 2025 American Invitational Mathematics Examination (AIME), une norme utilisée pour évaluer les capacités de résolution de problèmes des systèmes d’IA.

Selon les spécifications techniques d’Ant Group, Ling-1T maintient ce niveau de performance tout en consommant en moyenne plus de 4 000 jetons de sortie par problème, ce qui le place aux côtés de ce que l’entreprise décrit comme les « meilleurs modèles d’IA » en termes de qualité des résultats.

Approche à deux volets de l’avancement de l’IA

La sortie du modèle d’IA à mille milliards de paramètres coïncide avec le lancement par Ant Group de dInfer, un cadre d’inférence spécialisé conçu pour les modèles de langage de diffusion. Cette stratégie de publication parallèle reflète le pari de l’entreprise sur plusieurs approches technologiques plutôt que sur un paradigme architectural unique.

Les modèles de langage de diffusion représentent une rupture par rapport aux systèmes autorégressifs qui sous-tendent les chatbots largement utilisés comme ChatGPT. Contrairement à la génération séquentielle de texte, les modèles de diffusion produisent des résultats en parallèle, une approche déjà répandue dans les outils de génération d’images et de vidéos mais moins courante dans le traitement du langage.

Les mesures de performances d’Ant Group pour dInfer suggèrent des gains d’efficacité substantiels. Les tests sur le modèle de diffusion LLaDA-MoE de la société ont donné 1 011 jetons par seconde sur le benchmark de codage HumanEval, contre 91 jetons par seconde pour le framework Fast-dLLM de Nvidia et 294 pour le modèle Qwen-2.5-3B d’Alibaba fonctionnant sur l’infrastructure vLLM.

« Nous pensons que dInfer fournit à la fois une boîte à outils pratique et une plate-forme standardisée pour accélérer la recherche et le développement dans le domaine en croissance rapide des dLLM », ont noté les chercheurs d’Ant Group dans la documentation technique qui l’accompagne.

Expansion de l’écosystème au-delà des modèles linguistiques

Le modèle d’IA Ling-1T, doté de mille milliards de paramètres, s’inscrit dans une famille plus large de systèmes d’IA qu’Ant Group a assemblés au cours des derniers mois.

Le portefeuille de la société s’étend désormais sur trois séries principales : les modèles non réfléchis de Ling pour les tâches linguistiques standard, les modèles de réflexion Ring conçus pour le raisonnement complexe (y compris l’aperçu Ring-1T précédemment publié) et les modèles multimodaux Ming capables de traiter des images, du texte, de l’audio et de la vidéo.

Cette approche diversifiée s’étend à un modèle expérimental appelé LLaDA-MoE, qui utilise une architecture Mixture-of-Experts (MoE), une technique qui active uniquement les parties pertinentes d’un grand modèle pour des tâches spécifiques, améliorant ainsi théoriquement l’efficacité.

He Zhengyu, directeur de la technologie chez Ant Group, a expliqué le positionnement de l’entreprise autour de ces versions. « Chez Ant Group, nous pensons que l’intelligence générale artificielle (AGI) devrait être un bien public – une étape commune pour l’avenir intelligent de l’humanité », a-t-il déclaré, ajoutant que les versions open source du modèle d’IA à mille milliards de paramètres et de l’aperçu Ring-1T représentent des étapes vers « un progrès ouvert et collaboratif ».

Dynamique concurrentielle dans un environnement contraint

Le calendrier et la nature des publications d’Ant Group éclairent les calculs stratégiques au sein du secteur chinois de l’IA. L’accès à la technologie de pointe des semi-conducteurs étant limité par les restrictions à l’exportation, les entreprises technologiques chinoises mettent de plus en plus l’accent sur l’innovation algorithmique et l’optimisation des logiciels comme différenciateurs concurrentiels.

ByteDance, société mère de TikTok, a également introduit en juillet un modèle de langage de diffusion appelé Seed Diffusion Preview, affirmant une vitesse cinq fois supérieure à celle des architectures autorégressives comparables. Ces efforts parallèles suggèrent un intérêt à l’échelle de l’industrie pour des paradigmes de modèles alternatifs qui pourraient offrir des avantages en termes d’efficacité.

Cependant, la trajectoire d’adoption pratique des modèles linguistiques de diffusion reste incertaine. Les systèmes autorégressifs continuent de dominer les déploiements commerciaux en raison de leurs performances éprouvées en matière de compréhension et de génération du langage naturel, exigences fondamentales pour les applications destinées aux clients.

Stratégie open source comme positionnement sur le marché

En rendant public le modèle d’IA comportant des milliards de paramètres aux côtés du framework dInfer, Ant Group poursuit un modèle de développement collaboratif qui contraste avec les approches fermées de certains concurrents.

Cette stratégie accélère potentiellement l’innovation tout en positionnant les technologies d’Ant comme infrastructure fondamentale pour la communauté plus large de l’IA.

La société développe simultanément AWorld, un cadre destiné à prendre en charge l’apprentissage continu des agents d’IA autonomes, des systèmes conçus pour effectuer des tâches de manière indépendante pour le compte des utilisateurs.

La question de savoir si ces efforts combinés peuvent faire d’Ant Group une force significative dans le développement mondial de l’IA dépend en partie de la validation concrète des performances revendiquées et en partie des taux d’adoption parmi les développeurs cherchant des alternatives aux plates-formes établies.

La nature open source du modèle d’IA à mille milliards de paramètres peut faciliter ce processus de validation tout en créant une communauté d’utilisateurs investis dans le succès de la technologie.

Pour l’instant, les publications démontrent que les grandes entreprises technologiques chinoises considèrent le paysage actuel de l’IA comme suffisamment fluide pour accueillir de nouveaux entrants désireux d’innover simultanément dans plusieurs dimensions.

Bannière pour AI & Big Data Expo par les événements TechEx.
Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.