Une nouvelle étude universitaire suggère que les références en matière d’IA sont erronées, ce qui pourrait conduire une entreprise à prendre des décisions à enjeux élevés sur la base de données « trompeuses ».
Les chefs d’entreprise consacrent des budgets à huit ou neuf chiffres aux programmes d’IA générative. Ces décisions d’approvisionnement et de développement s’appuient souvent sur des classements et des références publics pour comparer les capacités des modèles.
Une étude à grande échelle, « Mesurer ce qui compte : la validité de la construction dans les grands référentiels de modèles de langage », a analysé 445 benchmarks LLM distincts issus des principales conférences sur l’IA. Une équipe de 29 examinateurs experts a constaté que « presque tous les articles présentent des faiblesses dans au moins un domaine », ce qui mine les affirmations qu’ils font sur les performances du modèle.
Pour les CTO et les Chief Data Officers, cela touche au cœur de la gouvernance et de la stratégie d’investissement de l’IA. Si un référentiel prétendant mesurer la « sécurité » ou la « robustesse » ne reflète pas réellement ces qualités, une organisation pourrait déployer un modèle qui l’expose à de graves risques financiers et de réputation.
Le problème de la « validité constructive »
Les chercheurs se sont concentrés sur un principe scientifique fondamental appelé validité conceptuelle. En termes simples, il s’agit de la mesure dans laquelle un test mesure le concept abstrait qu’il prétend mesurer.
Par exemple, même si « l’intelligence » ne peut pas être mesurée directement, les tests sont créés pour servir de proxys mesurables. Le document note que si un benchmark a une faible validité conceptuelle, « alors un score élevé peut être non pertinent, voire trompeur ».
Ce problème est répandu dans l’évaluation de l’IA. L’étude a révélé que les concepts clés sont souvent « mal définis ou mal opérationnalisés ». Cela peut conduire à « des affirmations scientifiques mal étayées, des recherches mal orientées et des implications politiques qui ne sont pas fondées sur des preuves solides ».
Lorsque les fournisseurs rivalisent pour obtenir des contrats d’entreprise en mettant en avant leurs meilleurs scores lors de tests de référence, les dirigeants sont effectivement convaincus que ces scores constituent un indicateur fiable des performances commerciales réelles. Cette nouvelle recherche suggère que la confiance pourrait être mal placée.
Là où les benchmarks de l’IA d’entreprise échouent
L’examen a identifié des défaillances systémiques à tous les niveaux, depuis la manière dont les critères de référence sont conçus jusqu’à la manière dont leurs résultats sont présentés.
Définitions vagues ou contestées : Vous ne pouvez pas mesurer ce que vous ne pouvez pas définir. L’étude a révélé que même lorsque des définitions d’un phénomène étaient fournies, 47,8 pour cent étaient « contestées », abordant des concepts avec « de nombreuses définitions possibles ou aucune définition claire du tout ».
Le document utilise « l’innocuité » – un objectif clé de l’alignement sur la sécurité des entreprises – comme exemple d’un phénomène pour lequel il manque souvent une définition claire et convenue. Si deux fournisseurs obtiennent des résultats différents sur un critère d’« innocuité », cela peut refléter uniquement deux définitions différentes et arbitraires du terme, et non une véritable différence dans la sécurité du modèle.
Manque de rigueur statistique : Ce qui est peut-être le plus alarmant pour les organisations axées sur les données, c’est que seulement 16 % des 445 benchmarks utilisaient des estimations d’incertitude ou des tests statistiques pour comparer les résultats des modèles.
Sans analyse statistique, il est impossible de savoir si une avance de 2 % entre le modèle A et le modèle B est une véritable différence de capacité ou un simple hasard. Les décisions des entreprises sont guidées par des chiffres qui ne passeraient pas un examen scientifique ou de veille économique de base.
Contamination et mémorisation des données : De nombreux benchmarks, notamment ceux destinés au raisonnement (comme le GSM8K, largement utilisé), sont compromis lorsque leurs questions et réponses apparaissent dans les données de pré-entraînement du modèle.
Lorsque cela se produit, le modèle ne raisonne pas pour trouver la réponse ; il s’agit simplement de le mémoriser. Un score élevé peut indiquer une bonne mémoire, et non la capacité de raisonnement avancée dont une entreprise a réellement besoin pour une tâche complexe. Le document prévient que cela « compromet la validité des résultats » et recommande d’intégrer les contrôles de contamination directement dans le benchmark.
Ensembles de données non représentatifs : L’étude a révélé que 27 % des tests de référence utilisaient un « échantillonnage de commodité », comme la réutilisation des données de tests de référence existants ou d’examens sur des humains. Ces données ne sont souvent pas représentatives du phénomène du monde réel.
Par exemple, les auteurs notent que la réutilisation des questions d’un « examen sans calculatrice » signifie que les problèmes utilisent des nombres choisis pour être faciles pour l’arithmétique de base. Un modèle pourrait obtenir de bons résultats à ce test, mais ce score « ne permettrait pas de prédire les performances sur des nombres plus grands, là où les LLM ont du mal ». Cela crée un angle mort critique, cachant une faiblesse connue du modèle.
Des métriques publiques à la validation interne
Pour les dirigeants d’entreprise, l’étude constitue un avertissement fort : les benchmarks publics en matière d’IA ne remplacent pas une évaluation interne et spécifique à un domaine. Un score élevé dans un classement public ne constitue pas une garantie d’adéquation à un objectif commercial spécifique.
Isabella Grandi, directrice de la stratégie et de la gouvernance des données chez NTT DATA UK&I, a commenté : « Un benchmark unique n’est peut-être pas le bon moyen de capturer la complexité des systèmes d’IA, et s’attendre à ce qu’il le fasse risque de réduire les progrès à un jeu de chiffres plutôt qu’à une mesure de la responsabilité du monde réel. Ce qui compte le plus, c’est une évaluation cohérente par rapport à des principes clairs qui garantissent que la technologie sert les gens ainsi que le progrès.
« Une bonne méthodologie – telle que définie par la norme ISO/IEC 42001:2023 – reflète cet équilibre à travers cinq principes fondamentaux : la responsabilité, l’équité, la transparence, la sécurité et la réparation. La responsabilité établit la propriété et la responsabilité de tout système d’IA déployé. La transparence et l’équité guident les décisions vers des résultats éthiques et explicables. La sécurité et la confidentialité ne sont pas négociables, empêchant les abus et renforçant la confiance du public. La réparation et la contestabilité fournissent un mécanisme de surveillance essentiel, garantissant que les gens peuvent contester et corriger les résultats lorsque nécessaire.
« Les véritables progrès en matière d’IA dépendent d’une collaboration qui rassemble la vision du gouvernement, la curiosité du monde universitaire et la volonté pratique de l’industrie. Lorsque les partenariats sont soutenus par un dialogue ouvert et que des normes partagées s’implantent, ils créent la transparence nécessaire pour que les gens puissent inspirer confiance dans les systèmes d’IA. L’innovation responsable reposera toujours sur une coopération qui renforce la surveillance tout en maintenant l’ambition. «
Les huit recommandations du document fournissent une liste de contrôle pratique pour toute entreprise cherchant à établir ses propres références et évaluations internes en matière d’IA, en s’alignant sur l’approche fondée sur des principes.
- Définissez votre phénomène : Avant de tester des modèles, les organisations doivent d’abord créer une « définition précise et opérationnelle du phénomène mesuré ». Que signifie une réponse « utile » dans le contexte de votre service client ? Que signifie « exact » pour vos rapports financiers ?
- Créez un ensemble de données représentatif : Le benchmark le plus précieux est celui construit à partir de vos propres données. Le document exhorte les développeurs à « construire un ensemble de données représentatif pour la tâche ». Cela signifie utiliser des éléments de tâches qui reflètent les scénarios, formats et défis du monde réel auxquels vos employés et clients sont confrontés.
- Effectuer une analyse des erreurs : Allez au-delà du score final. Le rapport recommande aux équipes de « mener une analyse qualitative et quantitative des modes de défaillance courants ». Analyser pourquoi un modèle échoue est plus instructif que simplement connaître son score. Si ses échecs concernent tous des sujets obscurs et peu prioritaires, cela peut être acceptable ; s’il échoue dans vos cas d’utilisation les plus courants et les plus précieux, ce score unique n’est plus pertinent.
- Justifier la validité : Enfin, les équipes doivent « justifier la pertinence du benchmark pour le phénomène avec des applications réelles ». Chaque évaluation doit être accompagnée d’une justification claire expliquant pourquoi ce test spécifique est un indicateur valable de la valeur commerciale.
La course au déploiement de l’IA générative pousse les organisations à agir plus rapidement que leurs cadres de gouvernance ne peuvent suivre. Ce rapport montre que les outils mêmes utilisés pour mesurer les progrès sont souvent défectueux. La seule voie fiable consiste à cesser de faire confiance aux références génériques de l’IA et à commencer à « mesurer ce qui compte » pour votre propre entreprise.