Comprendre comment les gènes interagissent dans des systèmes biologiques complexes ont longtemps été une pierre angulaire de la biologie moléculaire. L’une des façons les plus puissantes d’étudier ces interactions expériences de perturbationoù les scientifiques perturbent sélectivement les gènes pour observer leurs effets sur les fonctions cellulaires. Des techniques comme Perturb-seq ont révolutionné ce champ en permettant des interventions à grande échelle et un séquençage unique pour cartographier les influences génétiques. Cependant, le volume des données et les coûts élevés de la réalisation de ces expériences présentent des obstacles majeurs à leur utilisation généralisée.
Grâce à l’apprentissage automatique (ML) et à l’intelligence artificielle (IA), il est possible de prédire les réponses cellulaires et d’extraire des informations significatives sans avoir besoin d’expériences de laboratoire exhaustives. Mais il y a un problème: de nombreux modèles d’IA actuels traitent les données biologiques comme de simples nombres, ne capturent pas le richesse sémantique des relations génétiques. Ils se concentrent sur les corrélations brutes plutôt que sur un raisonnement biologique plus profond, limitant leur capacité à soutenir découvertes significatives.
Un récent étude Dirigée par Menghua Wu (MIT), Russell Littman, Jacob Levine, David Richmond, Tommaso Biancalani, Jan-Christian Hütter (Genentech) et Lin Qiu (Meta Ai) propose une nouvelle approche. Ils présentent Perturbqaune référence conçue pour aligner les modèles de perturbation dirigés par l’IA avec une véritable prise de décision biologique. Plus important encore, ils démontrent à quel point les modèles de langue (LLM) – la même technologie qui alimentent les chatbots AI – peuvent être réutilisés pour la recherche biologique. Leur méthode, appelée été (résumer, récupérer et répondre), montre que l’IA peut interpréter et raisonner sur les expériences de perturbation utilisant le langage naturel, potentiellement surpassant les modèles existants.
Pourquoi les approches d’IA actuelles échouent
La plus grande limitation des expériences de perturbation est leur coût. Ces expériences s’appuient sur Séquençage d’ARN unique (SCRNA-SEQ)une technique qui permet aux scientifiques de mesurer comment l’expression des gènes change lorsque des gènes spécifiques sont éliminés ou surexprimés. Bien que puissants, ces expériences sont coûteuses et privilégiées, nécessitant des milliers de cellules et une analyse des données complexes.
Pour y remédier, modèles d’apprentissage automatique tenter de prédire comment les gènes se comporteront sous perturbation avant de mener des expériences. Ces modèles utilisent graphiques de connaissances—Databases d’interactions biologiques connues – pour déduire comment une nouvelle perturbation du gène pourrait affecter une cellule. Cependant, cette approche a plusieurs lacunes:
- Perte d’informations: Lorsque les relations biologiques sont réduites à des matrices d’adjacence numériques, une grande partie du contexte détaillé est perdue.
- Objectifs mal alignés: La plupart des modèles se concentrent sur la prédiction des changements dans les niveaux d’expression des gènes plutôt que pour répondre questions biologiques que les chercheurs se soucient réellement.
- Nature noire: De nombreux modèles d’IA fonctionnent comme des «boîtes noires», ce qui rend difficile d’interpréter pourquoi ils arrivent à une prédiction particulière.
L’IA gère maintenant les simulations moléculaires: grâce à mdcrow
Une alternative basée sur le langage
Pour surmonter ces limites, l’équipe de recherche propose un approche basée sur le langage. Au lieu de traiter les gènes comme de simples points de données, ils soutiennent que Les relations biologiques doivent être représentées par le langage naturel– La façon dont les scientifiques décrivent naturellement les interactions génétiques.
C’est là que les grands modèles de langue (LLM) entrent en jeu.
Perturbqa: une nouvelle référence pour l’IA en biologie
Pour tester si les modèles de langue peuvent raisonner sur les perturbations génétiques, les chercheurs ont créé Perturbqaune référence conçue pour évaluer les modèles d’IA sur trois tâches biologiques du monde réel:
- Prédiction d’expression différentielle: Compte tenu d’une perturbation du gène, prédisez si l’expression d’un autre gène changera considérablement.
- Direction du changement: Si l’expression d’un gène change, déterminez s’il augmente ou diminue.
- Enrichissement des gènes: Identifiez les grappes de gènes qui se comportent de la même manière sous des perturbations et décrivent leur fonction commune.
Contrairement aux références précédentes, qui évaluent principalement si l’IA peut rappeler les connaissances biologiques existantes, Perturbqa est conçu pour prédire et raison sur les perturbations nouvelles et invisibles. L’ensemble de données comprend cinq à grande échelle Perturb-seq expériences qui couvrent plusieurs types de cellules.
Été: un modèle d’IA qui pense comme un biologiste
Pour résoudre les tâches Perturbqa, les chercheurs ont introduit ÉTÉun Framework d’IA basé sur la langue Cela surpasse les modèles traditionnels d’apprentissage automatique pour raisonner sur les données de perturbation.
L’été fonctionne en trois étapes clés:
- Récapitulation: Le LLM lit et résume les graphiques de connaissances biologiquesExtraction des descriptions clés des gènes et leurs interactions.
- Récupération: Le modèle récupère les données expérimentales pertinentes D’après les perturbations précédemment vues, ancrant son raisonnement dans des exemples du monde réel.
- Intervenant: Enfin, l’été répond aux questions biologiques À propos des perturbations en utilisant un processus de raisonnement étape par étape, similaire à la façon dont un biologiste analyserait les résultats expérimentaux.
Contrairement aux modèles conventionnels qui corrélent aveuglément les gènes, l’été explique pourquoi une perturbation pourrait provoquer un certain effetrendre ses prédictions plus interprétables.
Dans quelle mesure l’été fonctionne-t-il?
Les chercheurs ont testé l’été contre Modèles d’IA de pointey compris:
- Modèles basés sur des graphiques (Gears, GAT): Ceux-ci reposent sur des réseaux biologiques structurés mais jettent souvent des informations sémantiques clés.
- Modèles ML monocellulaires (SCGPT): Ceux-ci utilisent l’apprentissage en profondeur pour prédire les niveaux d’expression des gènes mais ont du mal à fournir des explications biologiques claires.
- Modèles d’IA basés sur le texte (Genept): Celles-ci codent des descriptions génétiques en représentations numériques mais manquent d’étapes de raisonnement explicites.
Les résultats ont montré que L’été a surperformé tous les modèles de base sur l’expression différentielle et les tâches d’enrichissement des ensembles de gènes. Notamment, Les modèles sans raisonnement structuré ni récupération expérimentale ne fonctionnaient pas mieux que de supposition aléatoiresoulignant l’importance de l’approche de l’été.
L’IA peut-elle décrire les modèles biologiques?
L’une des réalisations les plus impressionnantes de l’été était en Enrichissement des gènes. Traditionnellement, les scientifiques utilisent des tests statistiques pour regrouper les gènes en ensembles fonctionnels, mais ces méthodes ont du mal gènes mal caractérisés. L’été, en revanche, a pu générer des descriptions précises et interprétables des grappes de gènessouvent faire correspondre ou dépasser les annotations humaines.
Par exemple, lors de l’analyse d’un cluster de gènes impliqué dans Modification de l’ARNLes méthodes statistiques traditionnelles n’ont pas fourni d’informations significatives. L’été, cependant, a généré la description suivante:
«Gènes associés au complexe de méthylation M6A: cet ensemble comprend des gènes régulant la méthylation de la N6-méthyladénosine (M6A) des ARN, influençant l’épissage de l’ARNm et le traitement de l’ARN.»
De telles descriptions sont non seulement plus lisibles mais aussi capturer la signification biologique plus large des interactions génétiques.
Alors que l’été représente un pas en avant majeur, Le raisonnement biologique avec l’IA est loin d’être un problème résolu. L’étude met en évidence plusieurs orientations futures:
- Intégration de modèles d’IA multimodaux: La combinaison de modèles de langue avec une IA spécialisée formée sur les données génomiques brutes pourrait améliorer la précision.
- Échelle des prédictions de perturbation dirigée par l’IA: Les ensembles de données plus complets pourraient aider les modèles d’IA à apprendre des détails plus fins sur les interactions génétiques.
- Applications du monde réel dans la découverte de médicaments: Des modèles d’IA comme l’été pourraient accélérer l’identification de cibles médicamenteuses potentielles en prédisant comment les cellules réagissent aux modifications génétiques.
Crédit d’image en vedette: digitale.de/unsplash