Le minuscule modèle d’IA de Samsung bat Giant Reasoning LLMS

Un nouvel article d’un chercheur de Samsung AI explique comment un petit réseau peut battre des modèles massifs de grands langues (LLM) dans un raisonnement complexe.

Dans la course à la suprématie de l’IA, le mantra de l’industrie a souvent été «plus grand, c’est mieux». Les géants de la technologie ont consacré des milliards dans la création de modèles toujours plus lanciers, mais selon Alexia Jolicoeur-Martineau de Samsung Sail Montréal, un chemin radicalement différent et plus efficace est possible avec le minuscule modèle récursif (TRM).

En utilisant un modèle avec seulement 7 millions de paramètres, moins de 0,01% de la taille des principaux LLM, TRM obtient de nouveaux résultats de pointe sur des références notoirement difficiles comme le test d’intelligence ARC-AGI. Le travail de Samsung remet en question l’hypothèse dominante selon laquelle l’échelle pure est le seul moyen de faire avancer les capacités des modèles d’IA, offrant une alternative plus durable et économe en paramètres.

Surmonter les limites de l’échelle

Bien que les LLM ont montré des prouesses incroyables dans la génération de texte humain, leur capacité à effectuer un raisonnement complexe et en plusieurs étapes peut être fragile. Parce qu’ils génèrent des réponses à jeton par-token, une seule erreur au début du processus peut faire dérailler toute la solution, conduisant à une réponse finale invalide.

Des techniques comme la chaîne de pensées, où un modèle «réfléchit à haute voix» pour briser un problème, ont été développés pour atténuer cela. Cependant, ces méthodes sont coûteuses en calcul, nécessitent souvent de grandes quantités de données de raisonnement de haute qualité qui peuvent ne pas être disponibles et peuvent toujours produire une logique erronée. Même avec ces augmentations, les LLM luttent avec certains puzzles où une exécution logique parfaite est nécessaire.

Le travail de Samsung s’appuie sur un modèle d’IA récent connu sous le nom de modèle de raisonnement hiérarchique (GRH). HRM a introduit une nouvelle méthode utilisant deux petits réseaux de neurones qui travaillent récursivement sur un problème à différentes fréquences pour affiner une réponse. Il a montré une grande promesse mais était compliquée, en s’appuyant sur des arguments biologiques incertains et des théorèmes complexes à point fixe qui n’étaient pas garantis pour s’appliquer.

Au lieu des deux réseaux de HRM, TRM utilise un seul réseau minuscule qui améliore récursivement son «raisonnement» interne et sa «réponse» proposée.

Le modèle reçoit la question, une supposition initiale sur la réponse et une fonction de raisonnement latent. Il passe d’abord à travers plusieurs étapes pour affiner son raisonnement latent en fonction des trois entrées. Ensuite, en utilisant ce raisonnement amélioré, il met à jour sa prédiction pour la réponse finale. Ce processus entier peut être répété jusqu’à 16 fois, permettant au modèle de corriger progressivement ses propres erreurs d’une manière très économe en paramètres.

De manière contre-intuitive, la recherche a découvert qu’un minuscule réseau avec seulement deux couches avait obtenu une meilleure généralisation qu’une version à quatre couches. Cette réduction de taille semble empêcher le modèle de sur-ajustement; Un problème commun lors de la formation sur des ensembles de données plus petits et spécialisés.

TRM se dispense également avec les justifications mathématiques complexes utilisées par son prédécesseur. Le modèle HRM d’origine a nécessité l’hypothèse que ses fonctions ont convergé vers un point fixe pour justifier sa méthode de formation. TRM contourne entièrement cela en se propageant simplement à travers son processus de récursivité complet. Ce changement à lui seul a fourni une augmentation massive des performances, améliorant la précision sur la référence de Sudoku-Extreme de 56,5% à 87,4% dans une étude d’ablation.

Le modèle de Samsung brise les références AI avec moins de ressources

Les résultats parlent d’eux-mêmes. Sur l’ensemble de données Sudoku-Extreme, qui n’utilise que 1 000 exemples de formation, TRM obtient une précision de test de 87,4%, un énorme saut par rapport à 55% de HRM. Sur le travail du labyrinthe, une tâche impliquant la recherche de longs trajets à travers des labyrinthes 30 × 30, TRM score 85,3% par rapport aux 74,5% de la GRH.

Plus particulièrement, TRM fait d’énormes progrès sur l’abstraction et le raisonnement corpus (ARC-AGI), une référence conçue pour mesurer la véritable intelligence fluide dans l’IA. Avec seulement 7 m de paramètres, TRM atteint une précision de 44,6% sur ARC-AGI-1 et 7,8% sur ARC-AGI-2. Cela surpasse la GRH, qui a utilisé un modèle de paramètres de 27 m, et dépasse même bon nombre des plus grands LLM du monde. À titre de comparaison, Gemini 2.5 Pro ne marque que 4,9% sur ARC-AGI-2.

Le processus de formation de TRM a également été rendu plus efficace. Un mécanisme adaptatif appelé ACT – qui décide quand le modèle a suffisamment amélioré une réponse et peut passer à un nouvel échantillon de données – a été simplifié pour supprimer le besoin d’une seconde et coûteuse passe avant le réseau à chaque étape de formation. Ce changement a été effectué sans différence majeure dans la généralisation finale.

Cette recherche de Samsung présente un argument convaincant contre la trajectoire actuelle des modèles d’IA en constante expansion. Il montre qu’en concevant des architectures qui peuvent être itérativement raisonner et s’auto-corriger, il est possible de résoudre des problèmes extrêmement difficiles avec une infime fraction des ressources de calcul.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.