Les dirigeants d’entreprise aux prises avec les coûts élevés de déploiement de modèles d’IA pourraient trouver un répit grâce à une nouvelle conception d’architecture.
Bien que les capacités de l’IA générative soient attrayantes, leurs immenses exigences informatiques en matière de formation et d’inférence se traduisent par des dépenses prohibitives et des préoccupations environnementales croissantes. Au centre de cette inefficacité se trouve le « goulot d’étranglement fondamental » des modèles : un processus autorégressif qui génère du texte de manière séquentielle, jeton par jeton.
Pour les entreprises traitant de vastes flux de données, depuis les réseaux IoT jusqu’aux marchés financiers, cette limitation rend la génération d’analyses longues à la fois lente et économiquement difficile. Cependant, un nouveau document de recherche de Tencent AI et de l’Université Tsinghua propose une alternative.
Une nouvelle approche de l’efficacité de l’IA
La recherche introduit des modèles linguistiques autorégressifs continus (CALM). Cette méthode réorganise le processus de génération pour prédire un vecteur continu plutôt qu’un jeton discret.
Un auto-encodeur haute fidélité « compresse(nt) un morceau de K jetons en un seul vecteur continu », qui détient une bande passante sémantique beaucoup plus élevée.
Au lieu de traiter quelque chose comme « le », « chat », « assis » en trois étapes, le modèle les compresse en une seule. Cette conception « réduit directement le nombre d’étapes génératives », en s’attaquant à la charge de calcul.
Les résultats expérimentaux démontrent un meilleur compromis performances-calcul. Un modèle CALM AI regroupant quatre jetons a fourni des performances « comparables à des lignes de base discrètes solides, mais à un coût de calcul nettement inférieur » pour une entreprise.
Un modèle CALM, par exemple, nécessitait 44 % de FLOP de formation en moins et 34 % de FLOP d’inférence en moins qu’un Transformer de base de capacité similaire. Cela indique une économie à la fois sur les dépenses en capital initiales de la formation et sur les dépenses opérationnelles récurrentes d’inférence.
Reconstruire la boîte à outils pour le domaine continu
Passer d’un vocabulaire fini et discret à un espace vectoriel infini et continu brise la boîte à outils LLM standard. Les chercheurs ont dû développer un « cadre global sans vraisemblance » pour rendre le nouveau modèle viable.
Pour la formation, le modèle ne peut pas utiliser une couche softmax standard ou une estimation du maximum de vraisemblance. Pour résoudre ce problème, l’équipe a utilisé un objectif « sans vraisemblance » avec un transformateur d’énergie, qui récompense le modèle pour ses prédictions précises sans calculer de probabilités explicites.
Cette nouvelle méthode de formation nécessitait également une nouvelle métrique d’évaluation. Les benchmarks standards comme Perplexity sont inapplicables car ils reposent sur les mêmes probabilités que le modèle ne calcule plus.
L’équipe a proposé BrierLM, une nouvelle métrique basée sur le score Brier qui peut être estimée uniquement à partir d’échantillons modèles. La validation a confirmé que BrierLM est une alternative fiable, montrant une « corrélation de rang de Spearman de -0,991 » avec les mesures de perte traditionnelles.
Enfin, le framework rétablit la génération contrôlée, une fonctionnalité clé pour une utilisation en entreprise. L’échantillonnage de température standard est impossible sans distribution de probabilité. L’article présente un nouvel « algorithme d’échantillonnage sans vraisemblance », comprenant une méthode pratique d’approximation par lots, pour gérer le compromis entre précision de sortie et diversité.
Réduire les coûts de l’IA en entreprise
Cette recherche offre un aperçu d’un avenir où l’IA générative n’est pas définie uniquement par un nombre de paramètres toujours plus grand, mais par l’efficacité architecturale.
La voie actuelle vers la mise à l’échelle des modèles se heurte à un mur de rendements décroissants et de coûts croissants. Le cadre CALM établit un « nouvel axe de conception pour la mise à l’échelle du LLM : augmenter la bande passante sémantique de chaque étape générative ».
Bien qu’il s’agisse d’un cadre de recherche et non d’un produit standard, il ouvre la voie à une voie puissante et évolutive vers des modèles de langage ultra-efficaces. Lors de l’évaluation des feuilles de route des fournisseurs, les responsables technologiques doivent regarder au-delà de la taille du modèle et commencer à s’interroger sur l’efficacité architecturale.
La capacité de réduire les FLOP par jeton généré deviendra un avantage concurrentiel déterminant, permettant à l’IA d’être déployée de manière plus économique et durable dans l’ensemble de l’entreprise afin de réduire les coûts, du centre de données aux applications de périphérie gourmandes en données.