Annotation des éléments régulateurs dans le génome du poisson zèbre
Au cours des deux dernières décennies, le poisson-zèbre est devenu un organisme modèle largement adopté en raison de son développement embryonnaire rapide et de la nature transparente de ses embryons fertilisés externes, ce qui le rend exceptionnellement adapté à la recherche développementale. Sa compatibilité avec les approches génétiques à la fois directes et inverses a considérablement facilité la découverte de gènes et la modélisation des maladies humaines. En 2013, l'Institut Sanger a réalisé le séquençage du génome du poisson-zèbre, englobant une vaste superficie de 1,5 million de mètres carrés. Le génome de poisson-zèbre, qui comprend environ 1,4 Go et code un minimum de 25 000 gènes, est comparable en taille aux génomes d'autres vertébrés, et de manière intrigante, plus de 70 % des gènes humains présentent une homologie avec leurs homologues chez le poisson zèbre. Cependant, le génome du poisson zèbre pose un défi notable similaire à celui du génome humain, principalement sous la forme d'annotations non codantes.
Cette recherche a mis en œuvre une méthodologie semblable à d'autres projets collaboratifs tels qu'ENCODE. En s'appuyant sur cette stratégie, les chercheurs ont réexaminé un corpus substantiel de jeux de données précédemment publiés, comptant près de 1 500, en plus d'introduire plus de 350 nouveaux jeux de données. Ces jeux de données comprenaient diverses techniques de haute capacité, y compris le ChIP-seq pour le profilage des modifications de la chromatine associées aux promoteurs et aux amplificateurs, ATAC-seq pour identifier les régions accessibles dans le génome, RNA-seq pour la construction de modèles génétiques, l'analyse de la cap de l'expression des gènes (CAGE) pour identifier les points d'extrémité de la transcription 5', et Hi-C ou 4C-seq pour découvrir les interactions intrachromosomiques. Notamment, cette vaste collection de jeux de données couvre 15 étapes de développement différentes ainsi que des tissus adultes, permettant une évaluation dynamique des altérations génomiques pendant l'embryogenèse. Les résultats de cette étude sont facilement accessibles et peuvent être explorés via le navigateur du génome UCSC.
Collection et annotation complètes des données génomiques du développement du poisson zèbre. (Baranasic) et al.., 2022)
Les auteurs ont exploité leur ensemble de données pour annoter méticuleusement les éléments non codants dans le génome du poisson zèbre, en se concentrant principalement sur les promoteurs et les amplificateurs. Pour identifier les régions promoteurs, ils ont commencé le processus en utilisant RNA-seq des données pour identifier les modèles de gènes. Par la suite, ils ont intégré des lectures CAGE, qui capturent spécifiquement l'extrémité 5' des transcrits et correspondent à la région du promoteur. Cette approche méticuleuse a abouti à la détermination précise des sites de début de transcription.
Il est crucial de noter que l'ensemble de données couvre diverses étapes embryonnaires, offrant une perspective temporelle complexe sur l'évolution des promoteurs durant le développement. Pour valider l'exactitude de cet "ensemble de promoteurs", les auteurs ont utilisé dCas9, une enzyme conçue pour incapaciter Cas9, empêchant ainsi la liaison des activateurs transcriptionnels aux promoteurs et réduisant par conséquent l'expression génique à des sites promoteurs sélectionnés. Fait remarquable, diriger dCas9 vers les sites de début de transcription définis par les données CAGE a entraîné une répression génique plus puissante par rapport aux sites définis par les annotations Ensembl, soulignant la supériorité de la première dans l'identification des promoteurs actifs. Cette ressource inestimable offre aux chercheurs une base solide pour mener des études de knockout.
Dans leur quête pour approfondir la caractérisation des promoteurs, les auteurs ont exploré les modifications de la chromatine, la dynamique d'accessibilité au cours du temps de développement, et l'évaluation de la conservation des séquences. Ces analyses complètes ont révélé une multitude de structures de promoteurs uniques caractérisées par des motifs d'activation dynamiques tout au long du développement embryonnaire. Bien que la signification biologique de ces divers motifs d'activation demeure un mystère, ils constituent un point de départ prometteur pour de futures expériences et investigations guidées par des hypothèses.
Catégories de transcriptions et vérification de la fin 5′ à résolution de nucléotides uniques durant le développement. (Baranasic) et al.., 2022)
Cette étude propose également une annotation initiale des activateurs actifs dans le génome du poisson-zèbre, réalisée grâce à l'intégration des motifs d'accessibilité et de modification de la chromatine. Leur analyse complète a conduit à l'identification de plus de 100 000 éléments présentant une activité d'activateur prédite. Ces éléments peuvent être classés en fonction de leurs motifs d'activation dynamique à différents stades de développement. Pour confirmer la fonctionnalité de ces activateurs, les chercheurs les ont évalués par la co-expression des ARN des activateurs de la cage nucléaire et ont comparé leurs résultats avec des rapports publiés précédemment.
Par la suite, les auteurs ont exploité les ressources disponibles. ATAC-seq à cellule unique des données pour effectuer des évaluations prédictives de l'activité spécifique des cellules d'environ 40 000 amplificateurs. Beaucoup de ces prédictions ont trouvé un soutien dans des analyses de rapporteurs publiées. L'étude a également approfondi les interactions amplificateur-promoteur en intégrant des données provenant d'interactions intrachromosomiques à l'aide de jeux de données Hi-C et 4C-seq. Cette analyse a révélé une signature génomique distincte appelée séquence H3K27ac, partageant des caractéristiques communes avec les super-amplificateurs. Fait intéressant, le cluster de gènes H3K27ac semblait plus large et plus nombreux que les super-amplificateurs et était lié à l'expression des gènes de développement précoce avant la spécification des lignées.
D'une importance notable, les auteurs ont introduit une approche innovante pour comparer les génomes d'espèces éloignées. Cette approche leur a permis d'identifier des éléments régulateurs de co-lignée partagés entre la souris et le poisson zèbre, soulignant le potentiel de conservation de la séquence H3K27ac dans la régulation du génome des vertébrés. En conséquence, l'annotation exhaustive du génome du poisson zèbre entreprise par l'initiative DANIO-CODE a le potentiel de faciliter l'identification de caractéristiques régulatrices génomiques uniques, conservées et pertinentes pour le développement.
Classification des éléments cis-régulateurs de développement. (Baranasic) et al.., 2022)
Le poisson zèbre, reconnu comme un organisme modèle pour les études de développement, s'est avéré inestimable dans l'exploration des séquences non codantes fonctionnelles cruciales pour la régulation transcriptionnelle et post-transcriptionnelle. En anticipant les prochaines étapes de la recherche, il est prévu que nous approfondissions la caractérisation fonctionnelle des éléments identifiés dans nos analyses initiales. Par exemple, cela pourrait impliquer des tests de rapporteurs, qui peuvent être facilement et rapidement réalisés dans des embryons de poisson zèbre vivants.
De plus, l'inclusion de techniques moléculaires à cellule unique est impérative pour affiner notre compréhension. Les enquêtes préliminaires de DANIO-CODE se sont principalement appuyées sur des embryons entiers, introduisant des complexités potentielles dans l'interprétation des résultats actuels. Étant donné la rareté des lignées cellulaires de poisson zèbre, le progrès de la technologie dans l'analyse moléculaire au niveau de la cellule unique et son application subséquente aux embryons de poisson zèbre seront essentiels dans les phases à venir de DANIO-CODE.
Référence :
- Baranasic, Damir, et al. "Atlas multiomique avec stratification fonctionnelle et dynamiques de développement des éléments cis-régulateurs du poisson zèbre." Génétique de la nature 54,7 (2022) : 1037-1050.