L’une des grandes déceptions des biologistes après le séquençage du génome humain, c’est que l’accès à ce « grand livre de la vie » et à ses quelque 22 000 gènes ne donne pas toutes les clés pour comprendre comment notre ADN, hérité de deux cellules parentales, conduit à la formation d’un individu avec toute la diversité tissulaire qui le constitue. Notre constitution complexe, mais aussi une part de nos maladies, dépend d’un langage de régulation de l’expression des gènes – activée ou réprimée –, dont la grammaire défie encore l’entendement humain. Dans ce domaine aussi, l’intelligence artificielle (IA), auréolée, début octobre, de deux Nobel, en physique et en chimie, semble en mesure d’apporter sa contribution. En témoigne une étude publiée le 24 octobre dans Nature.
« L’expression des gènes est régulée de plein de façons différentes », rappelle Sager Gosai (Broad institute, MIT et Harvard), le premier auteur de l’étude. Avec ses collègues de deux autres laboratoires américains, il s’est intéressé aux éléments dits « cis-régulateurs » (CREs). Ces petits fragments d’ADN, ou promoteurs, généralement situés en amont des gènes qu’ils régulent, sont destinés à se lier avec des protéines, appelées « facteurs de transcription », ce qui enclenche ou non la traduction d’un gène donné en protéine. Les chercheurs décrivent avoir conçu, grâce à l’apprentissage automatique – qui vise à donner aux machines la capacité d’« apprendre » par le biais de modèles mathématiques –, des CREs actifs dans certaines cellules avec une plus grande spécificité que ceux trouvés dans la nature. Y compris quand ils ont été testés non seulement in vitro, mais aussi sur des animaux transgéniques, comme le poisson-zèbre.
Synthétiser des CREs au hasard pour trouver les plus adaptés n’est pas une option : le nombre de combinaisons possibles à partir de 200 nucléotides – la longueur des séquences d’ADN testées par les chercheurs – « dépasserait celui des atomes dans l’univers observable », rappellent-ils dans Nature. Ils sont donc partis d’un puissant outil de biologie moléculaire, qui permet de tester l’activité de centaines de milliers de CREs dans différents types cellulaires – en l’occurrence, des cellules nerveuses, sanguines et hépatiques.
« Domaine en émergence »
Ce vaste jeu de données a servi à entraîner des réseaux de neurones artificiels à reconnaître ceux susceptibles d’être actifs dans un type de cellule, mais pas dans les deux autres. Les chercheurs ont ensuite demandé à ces modèles de proposer des séquences inédites capables de réguler l’expression d’un gène dans une cellule spécifique. Ces CREs artificiels se sont révélés très performants.
Il vous reste 50.91% de cet article à lire. La suite est réservée aux abonnés.