Imaginez discuter avec une IA d’un problème de santé, et au lieu de simplement traiter vos mots, il pourrait en fait regarder la photo de cette éruption cutanée inquiétante ou donner un sens à votre imprimé ECG. C’est ce que Google vise.
Nous savions déjà qu’Amie était prometteuse dans les chats médicaux textuels, grâce à des travaux antérieurs publiés dans Nature. Mais avouons-le, la vraie médecine n’est pas seulement des mots.
Les médecins comptent fortement sur ce qu’ils peuvent voir – Conditions cutanées, lectures des machines, rapports de laboratoire. Comme l’équipe Google le souligne à juste titre, même les plates-formes de messagerie instantanée simples «permettent des informations multimodales statiques (par exemple, des images et des documents) pour enrichir les discussions».
L’IA en texte seulement manquait une énorme pièce du puzzle. La grande question, comme le dit les chercheurs, était «de savoir si les LLM peuvent effectuer des conversations cliniques diagnostiques qui intègrent ce type d’informations plus complexe».
Google enseigne à Amie à regarder et à raisonner
Les ingénieurs de Google ont renforcé Amie en utilisant leur modèle Flash Gemini 2.0 comme cerveau de l’opération. Ils ont combiné cela avec ce qu’ils appellent un «cadre de raisonnement conscient de l’État». En anglais simple, cela signifie que l’IA ne suit pas seulement un script; Il adapte sa conversation en fonction de ce qu’il a appris jusqu’à présent et de ce qu’il doit encore comprendre.
C’est proche du fonctionnement d’un clinicien humain: rassembler des indices, former des idées sur ce qui pourrait être mal, puis demander des informations plus spécifiques – y compris des preuves visuelles – pour restreindre les choses.
«Cela permet à Amie de demander des artefacts multimodaux pertinents en cas de besoin, d’interpréter leurs résultats avec précision, d’intégrer ces informations de manière transparente dans le dialogue en cours et de les utiliser pour affiner les diagnostics», explique Google.
Pensez à la conversation qui coule à travers les étapes: rassemblant d’abord les antécédents du patient, puis progressant vers les suggestions de diagnostic et de gestion, et enfin de suivi. L’IA évalue constamment sa propre compréhension, demandant ce résultat de photo ou de laboratoire de peau s’il ressent une lacune dans ses connaissances.
Pour bien faire les choses sans essai et erreurs sans fin sur de vraies personnes, Google a construit un laboratoire de simulation détaillé.
Google a créé des cas de patient réalistes, tirant des images médicales réalistes et des données de sources comme la base de données PTB-XL ECG et l’ensemble d’images de dermatologie SCIN, ajoutant des histoires plausibles à l’aide de Gemini. Ensuite, ils ont laissé Amie « discuter » avec des patients simulés dans cette configuration et vérifier automatiquement à quel point il a fonctionné sur des choses comme la précision de diagnostic et d’éviter les erreurs (ou les «hallucinations»).
L’OSCE virtuel: Google met Amie à l’épreuve
Le véritable test est venu dans une configuration conçue pour refléter la façon dont les étudiants en médecine sont évalués: l’examen clinique structuré objectif (OSCE).
Google a mené une étude à distance impliquant 105 scénarios médicaux différents. Les vrais acteurs, formés pour représenter de manière cohérente les patients, ont interagi soit avec le nouvel AMIE multimodal, soit avec des médecins de soins primaires humains réels (PCP). Ces chats se sont produits via une interface où le «patient» pourrait télécharger des images, tout comme vous pourriez dans une application de messagerie moderne.
Par la suite, des médecins spécialisés (en dermatologie, en cardiologie et en médecine interne) et les acteurs patients eux-mêmes ont examiné les conversations.
Les médecins humains ont tout obtenu, de la façon dont l’histoire a été prise, de la précision du diagnostic, de la qualité du plan de gestion suggéré, des compétences en communication et de l’empathie – et, bien sûr, de la façon dont l’IA a interprété les informations visuelles.
Résultats surprenants de la clinique simulée
Voici où ça devient vraiment intéressant. Dans cette comparaison tête à tête dans l’environnement d’étude contrôlé, Google a trouvé qu’Amie ne se contenait pas de la sienne – elle a souvent été en avance.
L’IA a été évaluée comme étant meilleure que les PCP humains à interpréter les données multimodales partagées pendant les chats. Il a également obtenu un score plus élevé sur la précision de diagnostic, produisant des listes de diagnostic différentiels (la liste classée des conditions possibles) que les spécialistes jugeaient plus précis et complets en fonction des détails du cas.
Les médecins spécialisés examinant les transcriptions avaient tendance à évaluer les performances d’Amie plus élevées dans la plupart des domaines. Ils ont particulièrement noté «la qualité de l’interprétation et du raisonnement de l’image», la minutie de son bilan diagnostique, la solidité de ses plans de gestion et sa capacité à signaler lorsqu’une situation nécessitait une attention urgente.
Peut-être que l’une des découvertes les plus surprenantes est venue des acteurs patients: ils ont souvent trouvé que l’IA était plus empathique et digne de confiance que les médecins humains dans ces interactions textuelles.
Et, sur une note de sécurité critique, l’étude n’a trouvé aucune différence statistiquement significative entre la fréquence à laquelle Amie a commis des erreurs basées sur les images (résultats hallucinés) par rapport aux médecins humains.
La technologie ne reste jamais immobile, donc Google a également effectué des tests précoces en échangeant le modèle Flash Gemini 2.0 pour le nouveau Gemini 2.5 Flash.
En utilisant leur cadre de simulation, les résultats ont fait allusion à d’autres gains, en particulier pour obtenir le bon diagnostic (précision top-3) et suggérer des plans de gestion appropriés.
Bien que prometteur, l’équipe ne va pas ajouter une dose de réalisme: ce ne sont que des résultats automatisés, et «une évaluation rigoureuse grâce à l’examen des médecins experts est essentielle pour confirmer ces avantages de performance».
Vérices de réalité importantes
Google est louable sur les limites ici. «Cette étude explore un système de recherche uniquement dans une évaluation de style OSCE utilisant des acteurs de patients, qui sous-représentent considérablement la complexité… des soins réels», déclarent-ils clairement.
Les scénarios simulés, aussi bien conçus, ne sont pas les mêmes que les complexités uniques des patients réels dans une clinique occupée. Ils soulignent également que l’interface de chat ne capture pas la richesse d’une vraie vidéo ou d’une consultation en personne.
Alors, quelle est la prochaine étape? Se déplacer attentivement vers le monde réel. Google s’associe déjà à Beth Israel Deaconess Medical Center for a Research Study pour voir comment Amie fonctionne dans des contextes cliniques réels avec le consentement du patient.
Les chercheurs reconnaissent également la nécessité d’aller au-delà du texte et des images statiques vers la gestion des vidéos et de l’audio en temps réel – le type d’interaction courante dans la télésanté aujourd’hui.
Donner à l’IA la possibilité de «voir» et d’interpréter le type de preuves visuelles que les médecins utilisent chaque jour offre un aperçu de la façon dont l’IA pourrait un jour aider les cliniciens et les patients. Cependant, le chemin de ces résultats prometteurs à un outil sûr et fiable pour les soins de santé quotidiens est encore long qui nécessite une navigation minutieuse.
(Photo d’Alexander Sinn)