OpenAI, Google et Anthropic ont annoncé ce mois-ci des capacités d’IA médicale spécialisée à quelques jours d’intervalle, un regroupement qui suggère une pression concurrentielle plutôt qu’une coïncidence. Pourtant, aucune de ces versions n’est autorisée en tant que dispositif médical, approuvée pour un usage clinique ou disponible pour un diagnostic direct du patient, malgré le langage marketing mettant l’accent sur la transformation des soins de santé.
OpenAI a introduit ChatGPT Health le 7 janvier, permettant aux utilisateurs américains de connecter des dossiers médicaux grâce à des partenariats avec b.well, Apple Health, Function et MyFitnessPal. Google a publié MedGemma 1.5 le 13 janvier, élargissant son modèle d’IA médicale ouverte pour interpréter les tomodensitométries et IRM tridimensionnelles ainsi que les images histopathologiques de lames entières.
Anthropic a suivi le 11 janvier avec Claude for Healthcare, offrant des connecteurs conformes à la norme HIPAA aux bases de données de couverture CMS, aux systèmes de codage ICD-10 et au registre national des identifiants des fournisseurs.
Les trois sociétés ciblent les mêmes problèmes de flux de travail (examens des autorisations préalables, traitement des réclamations, documentation clinique) avec des approches techniques similaires mais des stratégies de commercialisation différentes.
Plateformes de développement, pas de produits de diagnostic
Les similitudes architecturales sont notables. Chaque système utilise de grands modèles de langage multimodaux affinés sur la littérature médicale et des ensembles de données cliniques. Chacun met l’accent sur la protection de la vie privée et les clauses de non-responsabilité réglementaires. Chacune se positionne comme un soutien plutôt que comme un substitut au jugement clinique.
Les différences résident dans les modèles de déploiement et d’accès. ChatGPT Health d’OpenAI fonctionne comme un service destiné aux consommateurs avec une liste d’attente pour les abonnés ChatGPT Free, Plus et Pro en dehors de l’EEE, de la Suisse et du Royaume-Uni. MedGemma 1.5 de Google est lancé en tant que modèle ouvert via son programme Health AI Developer Foundations, disponible en téléchargement via Hugging Face ou en déploiement via Vertex AI de Google Cloud.
Claude for Healthcare d’Anthropic s’intègre aux flux de travail d’entreprise existants via Claude for Enterprise, ciblant les acheteurs institutionnels plutôt que les consommateurs individuels. Le positionnement réglementaire est cohérent dans les trois.
OpenAI déclare explicitement que la santé « n’est pas destinée au diagnostic ou au traitement ». Google positionne MedGemma comme « point de départ permettant aux développeurs d’évaluer et de s’adapter à leurs cas d’utilisation médicale ». Anthropic souligne que les résultats « ne sont pas destinés à éclairer directement le diagnostic clinique, les décisions de prise en charge des patients, les recommandations de traitement ou toute autre application directe en pratique clinique ».

Performance de référence vs validation clinique
Les résultats des tests d’IA médicale se sont considérablement améliorés dans les trois versions, même si l’écart entre les performances des tests et le déploiement clinique reste important. Google rapporte que MedGemma 1.5 a atteint une précision de 92,3 % sur MedAgentBench, la référence d’exécution des tâches des agents médicaux de Stanford, contre 69,6 % pour la référence Sonnet 3.5 précédente.
Le modèle s’est amélioré de 14 points de pourcentage sur la classification des maladies par IRM et de 3 points de pourcentage sur les résultats de tomodensitométrie lors des tests internes. Claude Opus 4.5 d’Anthropic a obtenu un score de 61,3 % aux tests de précision des calculs médicaux MedCalc avec l’exécution de code Python activée, et de 92,3 % sur MedAgentBench.
La société revendique également des améliorations dans les « évaluations d’honnêteté » liées aux hallucinations factuelles, bien que des mesures spécifiques n’aient pas été divulguées.
OpenAI n’a pas publié de comparaisons de référence pour ChatGPT Health spécifiquement, notant à la place que « plus de 230 millions de personnes dans le monde posent chaque semaine des questions liées à la santé et au bien-être sur ChatGPT » sur la base d’une analyse anonymisée des modèles d’utilisation existants.
Ces critères mesurent les performances sur des ensembles de données de tests sélectionnés, et non sur les résultats cliniques dans la pratique. Les erreurs médicales peuvent avoir des conséquences potentiellement mortelles, traduisant la précision des références en une utilité clinique plus complexe que dans d’autres domaines d’application de l’IA.
La voie réglementaire reste floue
Le cadre réglementaire de ces outils d’IA médicale reste ambigu. Aux États-Unis, la surveillance de la FDA dépend de l’utilisation prévue. Les logiciels qui « soutiennent ou fournissent des recommandations à un professionnel de la santé concernant la prévention, le diagnostic ou le traitement d’une maladie » peuvent nécessiter un examen préalable à la commercialisation en tant que dispositif médical. Aucun des outils annoncés n’a l’autorisation de la FDA.
Les questions de responsabilité restent également non résolues. Lorsque Mike Reagin, directeur technique de Banner Health, déclare que le système de santé était « attiré par l’accent mis par Anthropic sur la sécurité de l’IA », cela concerne les critères de sélection technologique, et non les cadres de responsabilité juridique.
Si un clinicien s’appuie sur l’analyse d’autorisation préalable de Claude et qu’un patient subit un préjudice en raison d’un retard dans les soins, la jurisprudence existante fournit des indications limitées sur l’attribution des responsabilités.
Les approches réglementaires varient considérablement selon les marchés. Alors que la FDA et la réglementation européenne sur les dispositifs médicaux fournissent des cadres établis pour les logiciels en tant que dispositifs médicaux, de nombreux régulateurs de la région APAC n’ont pas publié de directives spécifiques sur les outils de diagnostic d’IA générative.
Cette ambiguïté réglementaire affecte les délais d’adoption sur les marchés où les lacunes des infrastructures de santé pourraient autrement accélérer la mise en œuvre, créant ainsi une tension entre les besoins cliniques et la prudence réglementaire.
Des flux de travail administratifs, pas des décisions cliniques
Les déploiements réels restent soigneusement définis. Louise Lind Skov de Novo Nordisk, directrice de la numérisation du contenu, a décrit l’utilisation de Claude pour « l’automatisation des documents et du contenu dans le développement pharmaceutique », axée sur les documents de soumission réglementaire plutôt que sur le diagnostic du patient.
L’Administration nationale de l’assurance maladie de Taiwan a utilisé MedGemma pour extraire les données de 30 000 rapports de pathologie à des fins d’analyse politique et non de décision de traitement.
Cette tendance suggère que l’adoption institutionnelle se concentre sur les flux de travail administratifs où les erreurs sont moins immédiatement dangereuses (facturation, documentation, rédaction de protocoles) plutôt que sur l’aide à la décision clinique directe où les capacités de l’IA médicale auraient l’impact le plus dramatique sur les résultats pour les patients.
Les capacités de l’IA médicale progressent plus rapidement que les institutions qui les déploient ne peuvent gérer les complexités de la réglementation, de la responsabilité et de l’intégration des flux de travail. La technologie existe. L’abonnement mensuel de 20 $ US donne accès à des outils de raisonnement médical sophistiqués.
La question de savoir si cela se traduira par une prestation de soins de santé transformée dépend des questions que ces annonces coordonnées laissent sans réponse.