Tencent a élargi sa famille de modèles Hunyuan AI open source qui sont suffisamment polyvalents pour une utilisation générale. Cette nouvelle famille de modèles est conçue pour offrir des performances puissantes dans les environnements de calcul, des petits appareils à bord aux systèmes de production exigeants et à haute monnaie.
La version comprend un ensemble complet de modèles pré-formés et réglés par instruction disponibles sur la plate-forme des développeurs étreignant la face. Les modèles sont disponibles en plusieurs tailles, en particulier avec des échelles de paramètres de 0,5b, 1,8b, 4b et 7b, offrant une flexibilité substantielle pour les développeurs et les entreprises.
Tencent a indiqué que ces modèles ont été développés en utilisant des stratégies de formation similaires à son modèle Hunyuan-A13B plus puissant, leur permettant de hériter de ses caractéristiques de performance. Cette approche permet aux utilisateurs de sélectionner le modèle optimal pour leurs besoins, qu’il s’agisse d’une variante plus petite pour l’informatique de bord à limite de ressources ou un modèle plus grand pour les charges de travail de production à haut débit, tout en garantissant de fortes capacités.
L’une des caractéristiques les plus notables de la série Hunyuan est son support natif pour une fenêtre de contexte ultra-longue 256k. Cela permet aux modèles de gérer et de maintenir des performances stables sur les tâches de texte long, une capacité vitale pour l’analyse de documents complexes, les conversations étendues et la génération de contenu approfondie. Les modèles prennent en charge ce que Tencent appelle le «raisonnement hybride», ce qui permet des modes de pensée rapide et lente que les utilisateurs peuvent choisir entre leurs besoins spécifiques.
L’entreprise a également mis l’accent sur les capacités agentiques. Les modèles ont été optimisés pour les tâches basées sur des agents et ont démontré des résultats principaux sur des repères établis tels que BFCL-V3, τ-Bench et C3-Bench, suggérant un degré élevé de compétence en résolution complexe de problèmes en plusieurs étapes. Par exemple, sur le Bench C3, le modèle d’instruct Hunyuan-7B obtient un score de 68,5, tandis que le modèle d’instruct de Hunyuan-4B scolarisé 64,3.
La performance de la série est l’accent mis sur l’inférence efficace. Les modèles Hunyuan de Tencent utilisent l’attention de la requête groupée (GQA), une technique connue pour améliorer la vitesse de traitement et réduire les frais généraux de calcul. Cette efficacité est encore améliorée par le support de quantification avancé, un élément clé de l’architecture Hunyuan conçue pour réduire les barrières de déploiement.
Tencent a développé son propre ensemble d’outils de compression, Angleslim, pour créer une solution de compression de modèle plus conviviale et efficace. En utilisant cet outil, la société propose deux principaux types de quantification pour la série Hunyuan.
Le premier est la quantification statique FP8, qui utilise un format à virgule flottante 8 bits. Cette méthode utilise une petite quantité de données d’étalonnage pour prédéterminer l’échelle de quantification sans nécessiter de recyclage complet, de conversion des poids du modèle et des valeurs d’activation en format FP8 pour augmenter l’efficacité d’inférence.
La deuxième méthode est la quantification INT4, qui atteint la quantification W4A16 à travers les algorithmes GPTQ et AWQ:
- Le GPTQ L’approche traite les poids du modèle de la couche par couche, en utilisant les données d’étalonnage pour minimiser les erreurs dans les poids quantifiés. Ce processus évite de nécessiter un recyclage du modèle et améliore la vitesse d’inférence.
- Le AWQ L’algorithme fonctionne en analysant statistiquement l’amplitude des valeurs d’activation à partir d’un petit ensemble de données d’étalonnage. Il calcule ensuite un coefficient de mise à l’échelle pour chaque canal de poids, qui élargit la plage numérique de poids importants pour conserver plus d’informations pendant le processus de compression.
Les développeurs peuvent soit utiliser l’outil Angleslim eux-mêmes, soit télécharger directement les modèles pré-qualifiés.
Les références de performance confirment les capacités solides des modèles Tencent Hunyuan sur une gamme de tâches. Le modèle Hunyuan-7B pré-formé, par exemple, obtient un score de 79,82 sur la référence MMLU, 88,25 sur GSM8K et 74,85 sur le référence mathématique, démontrant un raisonnement solide et des compétences mathématiques.
Les variantes réglées par l’instruction montrent des résultats impressionnants dans des domaines spécialisés. En mathématiques, le modèle de Hunyuan-7B-Istruct marque 81.1 sur la référence AIME 2024, tandis que la version 4B marque 78.3. En science, le modèle 7B atteint 76,5 sur Olympiadbench, et en codage, il marque 42 sur LivecodeBench.
Les références de quantification montrent une dégradation minimale des performances. Sur la référence Drop, le modèle Hunyuan-7B-Istruct marque 85,9 dans son format B16 de base, 86,0 avec FP8 et 85,7 avec INT4 GPTQ, indiquant que les gains d’efficacité ne sont pas à un coût de précision.
Pour le déploiement, Tencent recommande d’utiliser des cadres établis comme Tensorrt-llm, VLLM ou SGLANG pour servir les modèles Hunyuan et créer des points de terminaison API compatibles OpenAI, garantissant qu’ils peuvent être intégrés en douceur dans les flux de travail de développement existants. Cette combinaison de performances, d’efficacité et de flexibilité de déploiement positionne la série Hunyuan en tant que concurrent puissant continu dans l’IA open-source.