Tencent améliore le test des modèles créatifs d’IA avec une nouvelle référence

Tencent a introduit une nouvelle référence, ArtifactsBench, qui vise à résoudre les problèmes actuels avec le test des modèles créatifs d’IA.

Avez-vous déjà demandé à une IA de créer quelque chose comme une page Web simple ou un graphique et a reçu quelque chose qui fonctionne mais a une mauvaise expérience utilisateur? Les boutons peuvent être au mauvais endroit, les couleurs peuvent s’affronter ou les animations sont maladroites. C’est un problème courant, et cela met en évidence un énorme défi dans le monde du développement de l’IA: comment enseignez-vous à une machine à avoir bon goût?

Depuis longtemps, nous testons des modèles d’IA sur leur capacité à écrire du code fonctionnel. Ces tests pourraient confirmer que le code s’exécuterait, mais ils étaient complètement «aveugles à la fidélité visuelle et à l’intégrité interactive qui définissent les expériences des utilisateurs modernes».

Il s’agit du problème exact ArtefactsBench a été conçu pour résoudre. C’est moins un test et plus un critique d’art automatisé pour le code généré par l’AI-AI

Faire les choses bien, comme un humain serait devrait

Alors, comment fonctionne la référence AI de Tencent? Premièrement, une IA reçoit une tâche créative d’un catalogue de plus de 1 800 défis, de la création de visualisations de données et d’applications Web à la fabrication de mini-jeux interactifs.

Une fois que l’IA génère le code, ArtifactsBench se met au travail. Il construit et exécute automatiquement le code dans un environnement sûr et sandbox.

Pour voir comment l’application se comporte, il capture une série de captures d’écran au fil du temps. Cela lui permet de vérifier des choses comme les animations, l’état modifie après un clic de bouton et d’autres commentaires dynamiques de l’utilisateur.

Enfin, il remet toutes ces preuves – la demande d’origine, le code de l’IA et les captures d’écran – à un LLM multimodal (MLLM), pour agir en tant que juge.

Ce juge MLLM ne donne pas seulement une vague opinion et utilise plutôt une liste de contrôle détaillée par tâche pour marquer le résultat sur dix mesures différentes. La notation comprend les fonctionnalités, l’expérience utilisateur et même la qualité esthétique. Cela garantit que la notation est juste, cohérente et approfondie.

La grande question est la suivante: ce juge automatisé a-t-il un bon goût? Les résultats suggèrent que c’est le cas.

Lorsque les classements d’ArtifactsBench ont été comparés à WebDev Arena, la plate-forme standard en or où les vrais humains votent sur les meilleures créations d’IA, ils ont égalé une cohérence de 94,4%. Il s’agit d’un énorme saut des anciens références automatisées, qui n’ont géré que la cohérence d’environ 69,4%.

En plus de cela, les jugements du cadre ont montré plus de 90% d’accord avec les développeurs humains professionnels.

Tencent évalue la créativité des meilleurs modèles d’IA avec sa nouvelle référence

Lorsque Tencent a mis plus de 30 des meilleurs modèles d’IA du monde à l’épreuve, le classement était révélateur. Alors que les meilleurs modèles commerciaux de Google (gemini-2,5-pro) et anthropic (Claude 4.0-Sonnet) ont pris les devants, les tests ont découvert un aperçu fascinant.

Vous pourriez penser qu’une IA spécialisée dans l’écriture de code serait la meilleure dans ces tâches. Mais l’inverse était vrai. La recherche a révélé que «les capacités holistiques des modèles généralistes dépassent souvent celles de celles spécialisées».

Un modèle à usage général, QWEN-2.5-instruit, a en fait battu ses frères et sœurs plus spécialisés, QWEN-2.5 (un modèle spécifique au code) et QWEN2.5-VL (un modèle spécialisé par la vision).

Les chercheurs pensent que c’est parce que la création d’une grande application visuelle ne concerne pas seulement le codage ou la compréhension visuelle de manière isolée et nécessite un mélange de compétences.

«Un raisonnement robuste, une instruction nuancée suivante et un sentiment implicite d’esthétique de conception», mettent en évidence les chercheurs comme exemple des compétences vitales. Ce sont les types de capacités bien équilibrées et presque humaines que les meilleurs modèles généralistes commencent à se développer.

Tencent espère que ses artefactsbench benchmark pourront évaluer de manière fiable ces qualités et ainsi mesurer les progrès futurs dans la capacité de l’IA de créer des choses qui ne sont pas seulement fonctionnelles, mais ce que les utilisateurs veulent réellement utiliser.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.