L’outil Google AI identifie les facteurs génétiques du cancer

Google a annoncé DeepSomatic, un outil d’IA capable d’identifier plus précisément les mutations liées au cancer dans les séquences génétiques des tumeurs.

Le cancer apparaît lorsque les contrôles régissant la division cellulaire fonctionnent mal. Trouver les mutations génétiques spécifiques à l’origine de la croissance d’une tumeur est essentiel pour créer des plans de traitement efficaces. Les médecins séquencent désormais régulièrement les génomes des cellules tumorales à partir de biopsies pour éclairer les traitements pouvant cibler la croissance et la propagation d’un cancer particulier.

Publié dans Nature Biotechnology, ce travail présente un outil qui utilise des réseaux de neurones convolutifs pour identifier les variantes génétiques dans les cellules tumorales avec une plus grande précision que les méthodes actuelles. Google a rendu DeepSomatic et l’ensemble de données de formation de haute qualité créés à cet effet librement disponibles.

Le défi des variantes somatiques

La génétique du cancer est complexe. Alors que le séquençage du génome détecte les variations génétiques du cancer, il est difficile de distinguer les variantes réelles des erreurs de séquençage et un outil d’IA apporterait une aide bienvenue. La plupart des cancers sont provoqués par des variantes « somatiques » acquises après la naissance plutôt que par des variantes « germinales » héritées des parents.

Les mutations somatiques se produisent lorsque des facteurs environnementaux tels que la lumière UV endommagent l’ADN ou lorsque des erreurs aléatoires se produisent lors de la réplication de l’ADN. Lorsque ces variantes modifient le comportement cellulaire normal, elles peuvent provoquer une réplication incontrôlée, favorisant le développement et la progression du cancer.

Il est plus difficile d’identifier des variantes somatiques que de trouver des variantes héréditaires, car elles peuvent exister à de basses fréquences dans les cellules tumorales, parfois à des taux inférieurs au taux d’erreur de séquençage lui-même.

Comment fonctionne DeepSomatic

En milieu clinique, les scientifiques séquencent à la fois les cellules tumorales provenant d’une biopsie et les cellules normales du patient. DeepSomatic repère les différences, identifiant les variations dans les cellules tumorales qui ne sont pas héritées. Ces variations révèlent ce qui alimente la croissance de la tumeur.

Le modèle convertit les données brutes de séquençage génétique provenant d’échantillons tumoraux et normaux en images représentant divers points de données, y compris les données de séquençage et leur alignement le long du chromosome. Un réseau neuronal convolutif analyse ces images pour différencier le génome de référence standard, les variantes héritées normales de l’individu et les variantes somatiques cancérigènes tout en filtrant les erreurs de séquençage. Le résultat est une liste de mutations liées au cancer.

DeepSomatic peut également fonctionner en mode « tumeur uniquement » lorsque des échantillons de cellules normales ne sont pas disponibles, ce qui arrive fréquemment dans les cancers du sang comme la leucémie. Cela rend l’outil applicable à de nombreux scénarios de recherche et cliniques.

Former un outil de recherche sur le cancer par l’IA plus précis

La formation d’un modèle d’IA précis nécessite des données de haute qualité. Pour son outil d’IA, Google et ses partenaires de l’Institut de génomique de l’UC Santa Cruz et du National Cancer Institute ont créé un ensemble de données de référence appelé CASTLE. Ils ont séquencé des cellules tumorales et normales provenant de quatre échantillons de cancer du sein et de deux échantillons de cancer du poumon.

Ces échantillons ont été analysés à l’aide de trois principales plates-formes de séquençage pour créer un ensemble de données de référence unique et précis en combinant les sorties et en supprimant les erreurs spécifiques à la plate-forme. Les données montrent comment même le même type de cancer peut avoir des signatures mutationnelles très différentes, des informations qui peuvent aider à prédire la réponse du patient à des traitements spécifiques.

Les modèles DeepSomatic ont obtenu de meilleurs résultats que les autres méthodes établies sur les trois principales plates-formes de séquençage. L’outil excellait dans l’identification de mutations complexes appelées insertions et suppressions, ou « Indels ». Pour ces variantes, DeepSomatic a obtenu un score F1 de 90 % sur les données de séquençage Illumina, contre 80 % pour la meilleure méthode suivante. L’amélioration a été plus spectaculaire sur les données de Pacific Biosciences, où DeepSomatic a obtenu un score de plus de 80 % tandis que le deuxième meilleur outil a obtenu un score de moins de 50 %.

L’IA a bien fonctionné lors de l’analyse d’échantillons difficiles. Les tests comprenaient un échantillon de cancer du sein conservé avec du formol fixé à la paraffine (FFPE), une méthode courante qui peut endommager l’ADN et compliquer l’analyse. Il a également été testé sur les données du séquençage de l’exome entier (WES), une méthode plus abordable qui ne séquence que 1 % du génome codant pour des protéines. Dans les deux scénarios, DeepSomatic a surpassé les autres outils, ce qui suggère son utilité pour analyser des échantillons historiques ou de moindre qualité.

Un outil d’IA pour tous les cancers

L’outil d’IA a montré qu’il pouvait appliquer ses connaissances à de nouveaux types de cancer pour lesquels il n’avait pas été formé. Lorsqu’il a été utilisé pour analyser un échantillon de glioblastome, un cancer du cerveau agressif, il a réussi à identifier les quelques variantes connues à l’origine de la maladie. Dans le cadre d’un partenariat avec Children’s Mercy de Kansas City, l’équipe a analysé huit échantillons de leucémie pédiatrique et a découvert les variantes précédemment connues tout en en identifiant 10 nouvelles, bien qu’elle ait travaillé avec des échantillons uniquement tumoraux.

Google espère que les laboratoires de recherche et les cliniciens adopteront cet outil pour mieux comprendre les tumeurs individuelles. En détectant les variantes connues du cancer, cela pourrait aider à orienter les choix de traitements existants. En en identifiant de nouveaux, cela pourrait conduire à de nouvelles thérapies. L’objectif est de faire progresser la médecine de précision et de proposer des traitements plus efficaces aux patients.

Solène Vernet
Solène Vernet
Journaliste française passionnée par la science et les politiques d’innovation, j’écris pour rendre accessibles des sujets complexes. Mon parcours mêle recherche universitaire, communication scientifique et journalisme. J’aime explorer les liens entre technologie, société et transformation du monde.