Assemblage et annotation du génome : Contexte, flux de travail et applications

L'assemblage et l'annotation du génome sont des éléments essentiels pour comprendre le plan génétique de la vie. Assemblage de génome Il s'agit de la reconstruction de la séquence complète de l'ADN d'un organisme en un brin continu et cohérent, tandis que l'annotation est le processus d'attribution de rôles fonctionnels à ces séquences en identifiant des gènes, des éléments régulateurs et d'autres caractéristiques importantes. Ces séquences subissent ensuite divers processus pour en tirer un sens et des informations, éclairant les schémas de l'évolution humaine, de la médecine et de la biotechnologie.

Qu'est-ce que l'assemblage et l'annotation du génome ?

Les technologies de séquençage émergentes ont rapidement simplifié les pipelines pour l'assemblage et l'annotation des génomes, permettant aux scientifiques de s'attaquer à des génomes d'une complexité sans précédent. L'utilisation extensive de nouveaux outils et algorithmes informatiques a permis aux scientifiques d'assembler même des génomes difficiles, tels que ceux avec un contenu en répétitions élevé ou polyploïdes. Ce progrès a établi l'assemblage et l'annotation des génomes comme des moyens essentiels d'explorer une gamme d'architectures génétiques, des communautés microbiennes et des génomes humains aux projets de sélection végétale. Dans cet article, nous explorons les principes, les méthodes et les utilisations de ces processus interconnectés, qui offrent une promesse énorme pour la discipline de la génomique.

Connaissances en assemblage et annotation génomique

Assemblage du génome et annotation du génome

Pour quelques éléments de contexte, assemblage de génome Le processus de reconstitution du génome d'un organisme à partir de courtes séquences d'ADN, appelées lectures, consiste à assembler l'ADN en une séquence complète. Cela implique d'aligner des millions à des milliards de lectures de séquençage en séquences continues (contigs) et de classer les contigs en échafaudages représentant des chromosomes. Ce traitement n'est pas une tâche computationnelle simple et nécessite des algorithmes avancés pour gérer les erreurs de séquençage, les régions répétitives et les variations génomiques.

L'annotation du génome est le processus d'identification et de labellisation des éléments fonctionnels d'un génome. Elle inclut généralement le séquençage des génomes, la prédiction des gènes et des éléments non codants, ainsi que l'étude des éléments régulateurs, des ARN non codants et des éléments répétitifs. Grâce à l'annotation, une séquence autrement inanimée se transforme en une ressource d'annotation à la demande pour les biologistes intéressés par l'obtention et le résumé d'informations fonctionnelles concernant les gènes, les réseaux régulateurs et les relations évolutives.

Types d'annotation

Annotation structurelle: Identifie les gènes, les exons, les introns, les séquences régulatrices et les éléments répétés. Prédiction des régions codantes et annotation des éléments génomiques.

Annotation fonctionnelleAttribution de rôles biologiques pour les caractéristiques identifiées par similitude avec des gènes, des domaines protéiques et des voies connus. L'annotation fonctionnelle offre un aperçu supplémentaire de la fonctionnalité des gènes et des systèmes biologiques.

Outils et techniques d'annotation

Outils d'annotation structurelle: AUGUSTUS, GeneMark, etc. Ces outils utilisent des modèles probabilistes pour détecter des gènes à partir des alignements de séquences génomiques.

Outils d'annotation fonctionnelleÉvitez de filtrer les loci critiques, des bases de données telles qu'UniProt et GO (Gene Ontology) fournissent des informations fonctionnelles, tandis que des outils comme BLAST alignent les séquences aux gènes connus pour une annotation comparative. L'annotation fonctionnelle est encore améliorée par un lien avec les réseaux métaboliques et régulatoires via des bases de données de voies telles que KEGG.

Pipelines automatisésDes outils tels que MAKER et Prokka sont conçus pour combiner divers outils de prédiction et d'alignement afin de fournir un flux de travail d'annotation complet. De tels pipelines automatisés ont considérablement réduit le temps d'annotation des grands génomes, permettant aux chercheurs de se concentrer sur l'analyse et les applications en aval.

BUSCO workflow chart.Description du flux de travail BUSCO (Seppey, M. et al. 2019).

Flux de travail d'assemblage et d'annotation du génome

Pipeline d'assemblage de génome

Prétraitement des donnéesLe contrôle de qualité, le découpage et la correction des erreurs sont effectués pour s'assurer que seules des lectures de haute qualité sont utilisées pour l'assemblage. FastQC, Trimmomatic et Racon sont quelques-uns des autres outils couramment utilisés pour nettoyer et peaufiner les données de séquençage et corriger des erreurs courantes telles que les erreurs de séquençage et les contaminants d'adaptateurs.

AssembléeLes contigs et les échafaudages sont assemblés à partir de lectures, en utilisant de novo, des approches guidées par référence ou hybrides. SPAdes, Flye et Canu sont des exemples d'assembleurs qui utilisent des algorithmes sophistiqués pour produire des séquences plus précises et continues. Les contigs sont ordonnés et orientés en échafaudages, et les erreurs restantes sont corrigées pour améliorer la précision au niveau des bases. Ces outils logiciels, tels que LINKS, SSPACE et Pilon, comblent les lacunes dans la séquence et améliorent la qualité de l'assemblage.

Toutes les approches suggèrent que la qualité de l'assemblage est évaluée à l'aide de métriques telles que N50, les scores de complétude BUSCO et la précision de l'alignement. Ces statistiques fournissent des informations sur la qualité et l'exhaustivité de l'assemblage du génome.

Pipeline d'annotation génomique

Masquage par répétitionIl masque toutes les séquences répétitives qui peuvent donner des prédictions faussement positives. Les éléments répétitifs peuvent être annotés et gérés à l'aide d'outils bien connus tels que RepeatMasker et Tandem Repeats Finder.

Prédiction géniqueOutils qui prédisent des gènes codants et non codants à partir de motifs de séquence, d'homologie ou de modèles statistiques. Les outils ab initio tels qu'AUGUSTUS prédisent des gènes à partir de caractéristiques de séquence (telles que des séquences codantes et non codantes), tandis que les outils basés sur des preuves utilisent des données transcriptomiques ou protéomiques.

Annotation fonctionnelleNous avons aligné les gènes prédits sur des bases de données connues pour attribuer des fonctions aux caractéristiques. Les outils d'annotation fonctionnelle aident à comprendre les gènes et leurs rôles, en donnant un contexte aux données génomiques par rapport aux voies biologiques et aux systèmes.

Revue manuelle de haute valeurCuration manuelle par des évaluateurs de qualité pour toutes les régions ou gènes d'une grande importance. Cela est particulièrement important pour les gènes d'intérêt médical ou agricole.

Applications d'assemblage et d'annotation du génome

Médecine

L'assemblage et l'annotation génomiques sont cruciaux pour localiser les gènes liés aux maladies, déchiffrer les mécanismes de la maladie et concevoir des thérapies personnalisées. Par exemple, le séquençage et l'annotation du génome des microbes pathogènes soutiennent les diagnostics rapides et le développement de vaccins. Les génomes annotés servent de base à l'identification des associations gène-maladie, des biomarqueurs diagnostiques et des cibles thérapeutiques.

Agriculture

Les génomes de cultures caractérisés ont stimulé la sélection de précision en cartographiant les gènes associés au rendement, à la résistance aux maladies et à la tolérance au stress. L'assemblage et l'annotation du génome du blé avec une haute confiance ont révélé des gènes importants pour des traits tels que la tolérance à la sécheresse et la résistance aux ravageurs. De telles découvertes ont révolutionné les méthodes agricoles, permettant aux scientifiques de créer des variétés de cultures résilientes.

Évolution et Écologie

L'assemblage et l'annotation du génome permettent des analyses comparatives qui révèlent les relations évolutives, les événements de spéciation et les traits adaptatifs. Les génomes annotés des espèces menacées informent les stratégies de conservation en attribuant des caractéristiques à des gènes spécifiques qui favorisent la diversité génétique et la résilience. L'étude de l'évolution adaptative et la compréhension des bases génétiques de l'adaptation permettent aux chercheurs de créer des approches de conservation et de gestion plus spécifiques.

Étude de cas : Annotation du génome d'Arabidopsis

Contexte

Arabidopsis thaliana est l'un des organismes modèles les plus utilisés en biologie végétale et l'un des premiers génomes de plantes à avoir été séquencé et annoté. Son génome relativement petit (∼135 Mb) et sa structure simple en ont fait une cible modèle pour les premiers projets de génome. L'assemblage et l'annotation d'Arabidopsis ont établi les bases de la génomique végétale et ont propulsé les avancées tant en génomique fonctionnelle qu'en amélioration des cultures.

Méthodes

SéquençageLe génome a été séquencé avec Technologie de Sanger, et a ensuite été affiné par des méthodes à haut débit. Une combinaison de stratégies de séquençage a été utilisée pour maximiser la couverture et la précision.

AssembléeUn génome initial a été construit en utilisant assemblage de novo et ensuite améliorés grâce à plusieurs cycles de polissage. Les génomes des plantes sont encadrés par des outils personnalisés pour résoudre les régions répétées et les complexités structurelles.

AnnotationL'annotation structurelle a permis d'identifier environ 27 000 gènes codant des protéines. Annotation fonctionnelle La plupart des gènes ont été assignés à une fonction par des méthodes basées sur l'homologie, intégrant des données provenant de plusieurs bases de données fonctionnelles.

Résultats

Le génome annoté d'Arabidopsis a eu un impact immense sur la génomique des plantes, informant la recherche sur la fonction des gènes, les réseaux régulateurs et les interactions plante-environnement. Sa haute qualité d'annotation a également permis des études comparatives avec des espèces de cultures qui favorisent l'innovation agricole. L'annotation détaillée d'Arabidopsis incarne un point de référence pour l'exploration unique de questions biologiques fondamentales en sciences des plantes.

Col-PEK assembly steps.Aperçu de l'assemblage Col-PEK (Hou, X. et al, 2022).

Avancées méthodologiques dans l'assemblage et l'annotation du génome

Plateformes de séquençage de nouvelle génération

Les lectures ultra-longues et le séquençage unicellulaire permettent des assemblages au niveau des chromosomes et une annotation à haute résolution des génomes complexes. Ces avancées peuvent potentiellement résoudre des régions génomiques qui étaient auparavant inaccessibles, comme les centromères et les télomères. La combinaison de nouvelles technologies de séquençage permet aux chercheurs de franchir les barrières traditionnelles à l'assemblage et à l'annotation des génomes.

Intégration avec les Multi-Omics

Des approches intégrées qui combinent l'annotation du génome avec transcriptomique, protéomique, et épigénomique peut conduire à une vue plus holistique de la fonction et de la régulation des gènes. Cette stratégie intégrative est particulièrement informative pour l'étude des processus biologiques dynamiques et des traits complexes. En reliant la séquence au phénotype, l'intégration des données multi-omiques permet l'interprétation fonctionnelle des données génomiques.

Service qui pourrait vous intéresser

IA et apprentissage automatique

Ces avancées en intelligence artificielle révolutionnent l'annotation en guidant la prédiction génétique, l'attribution fonctionnelle et la correction d'erreurs. Les outils alimentés par l'IA peuvent également traiter d'énormes ensembles de données à une échelle et une vitesse sans précédent — une capacité qui peut considérablement accélérer l'efficacité de l'annotation génomique. Une multitude d'ensembles de données génomiques ont été utilisés pour entraîner des modèles d'apprentissage automatique qui peuvent servir d'outils prédictifs facilitant l'annotation des génomes actuellement séquencés.

Initiatives Génomiques Mondiales

Des initiatives telles que le Projet Earth BioGenome visent à séquencer et à phénotyper les génomes de toutes les espèces eucaryotes. Ces efforts favorisent la collaboration, standardisent les flux de travail et démocratisent l'accès aux données génomiques. L'émergence de bases de données génomiques partagées accélère la découverte et permet l'exploration de la biodiversité et des fonctions des écosystèmes.

Conclusion

L'assemblage et l'annotation du génome sont l'un des domaines les plus importants pour de nombreuses applications modernes en génomique, car cela permet aux chercheurs de donner un sens au potentiel fonctionnel du génome à partir des séquences d'ADN. Facilités par la combinaison de nouvelles méthodologies de séquençage avec des applications informatiques haute performance, ces processus ont considérablement amélioré notre capacité à comprendre la structure génétique et ses implications d'un point de vue biologique, médical et agricole. L'assemblage et l'annotation du génome sont des étapes critiques qui sous-tendent la recherche génomique et continueront d'évoluer dans ce domaine, permettant à la découverte scientifique de rester au cœur de nos progrès en biologie et dans la résolution de problèmes mondiaux. Des initiatives mondiales et des technologies émergentes devraient bientôt élargir la portée et l'utilité de ces ressources génomiques critiques.

Références:

  1. Seppey, M., Manni, M., & Zdobnov, E. M. (2019). BUSCO : Évaluation de l'exhaustivité de l'assemblage et de l'annotation du génome. Méthodes en biologie moléculaire (Clifton, N.J.), 1962, 227–245. Désolé, je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
  2. Hou, X., Wang, D., Cheng, Z et al. (2022). Un assemblage presque complet du génome d'Arabidopsis thaliana. Plante moléculaire, 15(8), 1247–1250. Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut