L’IA multimodale Baidu ERNIE bat GPT et Gemini dans les benchmarks

Le dernier modèle ERNIE de Baidu, une IA multimodale super efficace, bat GPT et Gemini sur des critères clés et cible les données d’entreprise souvent ignorées par les modèles axés sur le texte.

Pour de nombreuses entreprises, des informations précieuses sont contenues dans les schémas d’ingénierie, les flux vidéo d’usine, les analyses médicales et les tableaux de bord logistiques. Le nouveau modèle de Baidu, ERNIE-4.5-VL-28B-A3B-Thinking, est conçu pour combler cette lacune.

Ce qui intéresse les architectes d’entreprise, ce n’est pas seulement sa capacité multimodale, mais aussi son architecture. Il est décrit comme un modèle « léger », n’activant que trois milliards de paramètres pendant son fonctionnement. Cette approche cible les coûts d’inférence élevés qui bloquent souvent les projets de mise à l’échelle de l’IA. Baidu parie sur l’efficacité comme voie d’adoption, en formant le système comme base pour des « agents multimodaux » capables de raisonner et d’agir, pas seulement de percevoir.

Capacités d’analyse de données visuelles complexes prises en charge par des tests d’IA

Le modèle multimodal ERNIE AI de Baidu excelle dans la gestion de données denses et non textuelles. Par exemple, il peut interpréter un graphique « Peak Time Reminder » pour trouver les heures de visite optimales, une tâche qui reflète les défis de planification des ressources dans la logistique ou la vente au détail.

ERNIE 4.5 montre également des capacités dans des domaines techniques, comme la résolution d’un schéma de circuit en pont en appliquant les lois d’Ohm et de Kirchhoff. Pour les branches R&D et ingénierie, un futur assistant pourrait valider des conceptions ou expliquer des schémas complexes aux nouvelles recrues.

Cette capacité est prise en charge par les tests de Baidu, qui montrent qu’ERNIE-4.5-VL-28B-A3B-Thinking surpasse ses concurrents comme GPT-5-High et Gemini 2.5 Pro sur certains tests clés :

  • MathVista : ERNIE (82,5) contre Gemini (82,3) et GPT (81,3)
  • ChartQA : ERNIE (87,1) contre Gemini (76,3) et GPT (78,2)
  • Les VLM sont aveugles : ERNIE (77,3) contre Gemini (76,5) et GPT (69,6)

Il convient bien sûr de noter que les benchmarks en matière d’IA fournissent un guide, mais qu’ils peuvent être imparfaits. Effectuez toujours des tests internes selon vos besoins avant de déployer un modèle d’IA pour des applications critiques.

Baidu passe de la perception à l’automatisation avec son dernier modèle ERNIE AI

Le principal obstacle pour l’IA d’entreprise est de passer de la perception (« qu’est-ce que c’est ? ») à l’automatisation (« et maintenant ? »). ERNIE 4.5 prétend résoudre ce problème en intégrant la mise à la terre visuelle à l’utilisation des outils.

Demander à l’IA multimodale de trouver toutes les personnes portant des costumes dans une image et de renvoyer leurs coordonnées au format JSON fonctionne. Le modèle génère les données structurées, une fonction facilement transférable à une ligne de production pour une inspection visuelle ou à un système auditant les images du site pour la conformité en matière de sécurité.

Le modèle gère également des outils externes et peut zoomer de manière autonome sur une photographie pour lire un petit texte. S’il fait face à un objet inconnu, il peut déclencher une recherche d’image pour l’identifier. Il s’agit d’une forme d’IA moins passive qui pourrait permettre à un agent non seulement de signaler une erreur du centre de données, mais également de zoomer sur le code, de rechercher dans la base de connaissances interne et de suggérer un correctif.

Libérer la business intelligence avec l’IA multimodale

Le dernier modèle ERNIE AI de Baidu cible également les archives vidéo d’entreprise, depuis les sessions de formation et les réunions jusqu’aux images de sécurité. Il peut extraire tous les sous-titres à l’écran et les mapper à leurs horodatages précis.

Il démontre également une conscience temporelle, en trouvant des scènes spécifiques (comme celles « filmées sur un pont ») en analysant des repères visuels. L’objectif final clair est de rendre de vastes vidéothèques consultables, permettant à un employé de trouver le moment exact où un sujet spécifique a été abordé lors d’un webinaire de deux heures au cours duquel il s’est peut-être assoupi plusieurs fois.

Baidu fournit des conseils de déploiement pour plusieurs chemins, notamment les transformateurs, vLLM et FastDeploy. Cependant, les exigences matérielles constituent un obstacle majeur. Un déploiement sur une seule carte nécessite 80 Go de mémoire GPU. Il ne s’agit pas d’un outil destiné à une expérimentation occasionnelle, mais destiné aux organisations disposant d’une infrastructure d’IA existante et performante.

Pour ceux qui disposent du matériel, la boîte à outils ERNIEKit de Baidu permet d’affiner les données propriétaires ; une nécessité pour la plupart des cas d’utilisation à forte valeur ajoutée. Baidu fournit son dernier modèle ERNIE AI avec une licence Apache 2.0 qui permet une utilisation commerciale, ce qui est essentiel pour l’adoption.

Le marché s’oriente enfin vers une IA multimodale capable de voir, de lire et d’agir dans un contexte commercial spécifique, et les références suggèrent qu’elle le fait avec des capacités impressionnantes. La tâche immédiate consiste à identifier les tâches de raisonnement visuel de grande valeur au sein de votre propre opération et à les comparer aux coûts substantiels de matériel et de gouvernance.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.