Samsung surmonte les limites des repères existants pour mieux évaluer la productivité réelle des modèles d’IA dans les paramètres d’entreprise. Le nouveau système, développé par Samsung Research et nommé TrueBench, vise à aborder la disparité croissante entre la performance théorique de l’IA et son utilité réelle sur le lieu de travail.
Alors que les entreprises du monde entier accélèrent leur adoption de modèles de grandes langues (LLM) pour améliorer leurs opérations, un défi est apparu: comment évaluer avec précision leur efficacité. De nombreux repères existants se concentrent sur les tests de connaissances académiques ou généraux, souvent limités aux formats de questions et de réponses en anglais et en anglais. Cela a créé un écart qui laisse les entreprises sans une méthode fiable pour évaluer comment un modèle d’IA fonctionnera sur des tâches commerciales complexes, multilingues et riches en contexte.
Le TrueBench de Samsung, abréviation de référence d’évaluation de l’utilisation du monde réel digne de confiance, a été développé pour combler ce vide. Il fournit une suite complète de paramètres qui évalue les LLM en fonction des scénarios et des tâches directement pertinents pour les environnements d’entreprise réels. La référence s’appuie sur la vaste utilisation interne de Samsung des modèles d’IA, garantissant que les critères d’évaluation sont fondés sur de véritables demandes de travail.
Le cadre évalue les fonctions d’entreprise communes telles que la création de contenu, l’analyse des données, le résumé de longs documents et la traduction de matériaux. Ceux-ci sont divisés en 10 catégories distinctes et 46 sous-catégories, offrant une vue granulaire des capacités de productivité d’une IA.
« Samsung Research apporte une expertise approfondie et un avantage concurrentiel grâce à son expérience d’IA du monde réel », a déclaré Paul (Kyungwhoon) Cheun, CTO de la division DX à Samsung Electronics et chef de Samsung Research. «Nous nous attendons à ce que TrueBench établit des normes d’évaluation pour la productivité.»
Pour lutter contre les limites des références plus anciennes, TrueBench est construit sur une base de 2 485 ensembles de tests divers couvrant 12 langues différentes et soutenant des scénarios inter-linguistiques. Cette approche multilingue est essentielle pour les sociétés mondiales où l’information circule dans différentes régions. Les matériaux de test eux-mêmes reflètent la variété des demandes de travail, allant de brèves instructions de seulement huit caractères à l’analyse complexe de documents dépassant 20 000 caractères.
Samsung a reconnu que dans un contexte commercial réel, l’intention complète d’un utilisateur n’est pas toujours explicitement énoncée dans son invite initiale. La référence est donc conçue pour évaluer la capacité d’un modèle d’IA à comprendre et à répondre à ces besoins implicites d’entreprise, allant au-delà de la précision simple à une mesure plus nuancée de l’utilité et de la pertinence.
Pour y parvenir, Samsung Research a développé un processus collaboratif unique entre les experts humains et l’IA pour créer les critères de notation de la productivité. Initialement, les annotateurs humains établissent les normes d’évaluation pour une tâche donnée. Une IA passe ensuite en revue ces normes, en vérifiant les erreurs potentielles, les contradictions internes ou les contraintes inutiles qui pourraient ne pas refléter une attente réaliste des utilisateurs. Après les commentaires de l’IA, les annotateurs humains affinent les critères. Cette boucle itérative garantit que les normes d’évaluation finales sont précises et reflètent un résultat de haute qualité.
Ce processus transformateur fournit un système d’évaluation automatisé qui marque les performances de LLMS. En utilisant l’IA pour appliquer ces critères raffinés, le système minimise le biais subjectif qui peut se produire avec une score uniquement humain, assurant la cohérence et la fiabilité de tous les tests. TrueBench utilise également un modèle de notation strict où un modèle d’IA doit satisfaire toutes les conditions associées à un test pour recevoir une marque de passage. Cette approche tout ou rien pour les conditions individuelles permet une évaluation plus détaillée et exigeante des performances des modèles d’IA à différentes tâches d’entreprise.
Pour stimuler la transparence et encourager une adoption plus large, Samsung a rendu le public des échantillons de données et des classements de TrueBench sur la plate-forme open source mondiale. Cela permet aux développeurs, aux chercheurs et aux entreprises de comparer directement les performances de productivité de jusqu’à cinq modèles d’IA différents simultanément. La plate-forme fournit un aperçu clair, en un coup d’œil, la façon dont diverses AIS s’accumulent les unes contre les autres sur des tâches pratiques.
Au cours de la rédaction, voici les 20 meilleurs modèles du classement général basé sur la référence AI de Samsung:
Les données publiées complètes comprennent également la durée moyenne des réponses générées par l’IA. Cela permet une comparaison simultanée non seulement des performances mais aussi de l’efficacité, une considération clé pour les entreprises pesant les coûts opérationnels et la vitesse.
Avec le lancement de TrueBench, Samsung ne publie pas simplement un autre outil, mais vise à changer la façon dont l’industrie pense les performances de l’IA. En déplaçant les poteaux de but des connaissances abstraites à la productivité tangible, la référence de Samsung pourrait jouer un rôle en aidant les organisations à prendre de meilleures décisions concernant les modèles d’IA d’entreprise à s’intégrer dans leurs flux de travail et à combler l’écart entre le potentiel d’une IA et sa valeur prouvée.
