Aperçu de l'assemblage du génome

Aperçu rapide

01 Qu'est-ce que l'assemblage du génome ? 02 Assemblage de génome de novo 03 Défis et Solutions 04 Technologies et algorithmes pour le séquençage de l'ADN 05 Prétraitement des données 06 Étude de cas sur l'assemblage du génome 07 Applications et orientations futures 08 Conclusion

L'assemblage du génome est un outil essentiel dans le contemporain. génomique, permettant aux scientifiques de construire des séquences génomiques complètes à partir des données de séquençage brutes. C'est essentiel pour comprendre les processus biologiques, la parenté évolutive, et en plus de donner des aperçus sur les composants génétiques des maladies. Un assemblage génomique presque complet sert de carte détaillée du plan génétique d'un organisme, permettant diverses applications allant de la biologie évolutive à la médecine de précision. L'assemblage du génome est un processus complexe et difficile, malgré son pouvoir transformateur, car la structure des génomes implique souvent des séquences répétitives, de longues régions intergéniques et des erreurs de séquençage. Ces développements font de l'assemblage du génome non seulement une réalisation technique, mais un instrument crucial pour déchiffrer les secrets de la vie.

Qu'est-ce que l'assemblage du génome ?

L'assemblage du génome est le processus qui consiste à assembler des millions ou des milliards de courts fragments d'ADN, appelés lectures, en séquences contiguës qui représentent le génome de l'organisme. Cela ressemble à assembler un énorme puzzle sans avoir l'image de référence complète. L'objectif final de l'assemblage du génome est une reconstruction précise et sans lacunes du génome à une résolution au niveau chromosomique, si possible. Cette tâche est compliquée par des caractéristiques biologiques (taille du génome ; contenu en répétitions ; hétérozygotie) et des contraintes techniques imposées par les plateformes de séquençage.

Service qui pourrait vous intéresser

RNA-Seq

Assemblage de génome de novo

Dans l'assemblage de génomes, à sa base, cela nécessite une compréhension de ses éléments fondamentaux et des approches :

Contig et échafaudage : Un contig est, de manière générale, un segment d'ADN reconstruit à partir de lectures de séquençage qui se chevauchent. Les contigs sont les composants du processus d'assemblage du génome. Les contigs sont assemblés en échafaudages (avec des lacunes représentant des régions non résolues) en utilisant des données supplémentaires provenant des paires de mates dans le séquençage par paires, des lectures longues ou des cartes optiques. Les échafaudages confèrent un certain degré de structure de haut niveau, approchant l'architecture chromosomique.
L'assemblage de novo vs. l'assemblage guidé par référence : L'assemblage de novo construit des génomes entièrement à partir de lectures de séquençage brutes sans s'appuyer sur des informations génomiques préalables. Cette méthode est particulièrement précieuse pour étudier des organismes sans génome de référence disponible ou pour explorer l'ensemble du spectre de la diversité génétique chez des espèces non modèles. L'assemblage de novo utilise des algorithmes informatiques pour assembler des lectures qui se chevauchent en séquences contiguës. Bien qu'il fournisse des aperçus impartiaux sur la structure d'un génome, il est intensif en calcul et nécessite des données de séquençage de haute qualité et à haute couverture pour minimiser les lacunes et les erreurs. Des technologies telles que PacBio et Oxford Nanopore, qui génèrent de longues lectures, sont particulièrement avantageuses pour l'assemblage de novo en raison de leur capacité à couvrir des régions répétitives et à résoudre des structures génomiques complexes. L'assemblage de génome guidé par référence, en revanche, aligne les lectures de séquençage sur un génome de référence existant, l'utilisant comme échafaudage pour assembler le génome cible. Cette méthode est significativement moins exigeante en termes de calcul et plus rapide que l'assemblage de novo, ce qui la rend adaptée aux organismes étroitement liés à une espèce de référence bien caractérisée. L'assemblage guidé par référence excelle dans la reconstruction précise des régions génomiques connues et l'identification de variantes à petite échelle, telles que polymorphismes mononucléotidiques (SNPs). Cependant, sa dépendance au génome de référence introduit des biais, pouvant manquer des séquences nouvelles, des variations structurelles importantes ou des caractéristiques génomiques uniques de l'organisme cible. Les deux méthodes ont des applications spécifiques en fonction des objectifs de recherche et de l'organisme étudié. Par exemple, l'assemblage de novo est essentiel dans les études de biodiversité où des espèces nouvelles sont analysées, tandis que l'assemblage guidé par référence est souvent utilisé dans la recherche clinique pour étudier les génomes humains et leurs variantes. Des approches hybrides, qui combinent des éléments des deux méthodes, émergent également comme des outils puissants. En intégrant des stratégies de novo et guidées par référence, les chercheurs peuvent obtenir des assemblages à haute résolution qui capturent à la fois des caractéristiques génomiques conservées et nouvelles.

Défis et Solutions

L'assemblage de séquences d'ADN avait ses propres défis ; de nouvelles techniques ont été développées pour résoudre ces problèmes :

Séquences répétitives : Les répétitions compliquent l'assemblage en raison des multiples mappages possibles des lectures. De telles répétitions, qui sont répandues dans les génomes eucaryotes, peuvent entraîner des assemblages fragmentés. Les plateformes de séquençage à longues lectures (comme celles disponibles commercialement chez PacBio et Oxford Nanopore) permettent de couvrir ces régions et même de résoudre des répétitions plus complexes. Cette précision d'assemblage est complétée par des outils informatiques qui annotent et masquent les séquences répétitives.

Repetitive content of human genome. Le contenu répétitif crée un défi dans l'assemblage du génome, comme l'illustre le contenu répétitif du génome humain (Rice ES et al., 2018).

Gestion des erreurs et de la complexité : Les longues lectures sont souvent altérées par des erreurs de séquençage qui se propagent tout au long du processus d'assemblage. Des assemblages très précis reposent sur des outils de correction post-assemblage (par exemple, Pilon pour le polissage des courtes lectures, Racon pour la correction des longues lectures). De plus, les ressources informatiques brutes nécessaires pour assembler un génome ne sont pas triviales et nécessitent des solutions au niveau de l'infrastructure — englobant à la fois une dépendance croissante au cloud pour fournir ces capacités, ainsi que des algorithmes parallélisés capables de relever ces défis de front.
Augmentation des publications sur les génomes des vertébrés : En raison de ces nouvelles technologies, le nombre de génomes de vertébrés publiés a considérablement augmenté au cours de la dernière décennie. Cette hausse reflète la capacité améliorée à séquencer et assembler des génomes complexes, contribuant à des avancées significatives dans des domaines tels que la génomique comparative, la biologie évolutive et la conservation de la biodiversité.

Status of vertebrate genome assemblies. Chronologie et statistiques des assemblages de génomes de vertébrés déposés dans la base de données Genbank du National Center for Biotechnology Information (Rice ES et al., 2018).

Technologies et algorithmes pour le séquençage de l'ADN

Outils d'assemblage de génomes

Les technologies de séquençage et les algorithmes informatiques jouent un rôle crucial dans tout projet d'assemblage de génome. Ces outils se sont rapidement développés pour atteindre une capacité sans précédent à s'attaquer même aux génomes complexes.

Les technologies de séquençage peuvent être classées en fonction de la longueur des lectures, de la précision et du débit :

En général, les plateformes de séquençage de deuxième génération (SGS) dominent cette catégorie (lectures courtes de 50 à 300 pb) qui offrent un haut débit, un rapport coût-efficacité et une qualité supérieure. IlluminaLes lectures courtes permettent une profondeur de couverture par conception, ce qui est essentiel pour corriger les erreurs et résoudre les caractéristiques génomiques à petite échelle. En effet, leur courte longueur limite leur couverture des régions répétitives ou à structure complexe.

La séquençage de troisième génération (TGS) inclut des technologies comme PacBio et Oxford Nanopore qui produisent des lectures longues, souvent de dizaines de kilobases ou plus. De telles lectures sont essentielles pour résoudre les régions répétitives, caractériser les variations structurelles et produire des assemblages de génomes à plus haute continuité. Bien que ses taux d'erreur soient généralement plus élevés que ceux du séquençage de seconde génération (SGS), la chimie TGS et la correction d'erreurs computationnelle ont été fortement développées pour améliorer la qualité des données.

La combinaison de SGS et TGS tire parti des avantages des lectures courtes et longues : les lectures courtes garantissent une précision de base au niveau des bases, tandis que les lectures longues augmentent la continuité et la résolution structurelle. En surmontant les limitations de chaque technologie, les approches hybrides sont devenues la norme pour la construction de génomes complexes.

Le processus de conversion de l'ADN génomique d'entrée en bibliothèques de séquençage est nécessairement dépendant de la plateforme.

Sequencing library method Aperçu de l'architecture de la bibliothèque de séquençage, des résultats de sortie et des résultats d'assemblage de trois technologies de séquençage à haut débit (Rice ES et al., 2018).

Assemblage de génome en bioinformatique

Les algorithmes reconstruisent des séquences en utilisant des structures basées sur des graphes et des modèles statistiques dans l'assemblage du génome :

Méthodes basées sur les graphes : Les approches basées sur le graphe de De Bruijn (DBG) fragmentent les lectures en k-mers, créant un graphe avec des k-mers comme nœuds et des chemins de reconstruction de séquences comme séquences génomiques potentielles. Le DBG est efficace sur le plan computationnel et bien optimisé pour les données de courtes lectures, mais il performe mal dans des environnements à forte erreur et avec des répétitions. Les méthodes Overlap-Layout-Consensus (OLC), en revanche, sont destinées aux longues lectures, alignant des séquences complètes pour trouver des chevauchements et créer des agencements. L'OLC est efficace pour les génomes complexes, mais elle est plus gourmande en ressources computationnelles.
Outils intégrés : Approches intégrées Les assembleurs modernes tels que SPAdes et MaSuRCA combinent des aspects des cadres DBG et OLC qui offrent des performances optimales sur des ensembles de données hybrides. Ces outils tirent parti des avantages des technologies de lectures courtes et longues, résolvant les faiblesses rencontrées dans chaque technologie pour créer des assemblages de haute qualité.
Étapes de l'assemblage du génome : L'assemblage du génome nécessite de passer par un certain nombre d'étapes bien établies qui doivent être réalisées avec succès pour obtenir des résultats optimaux. Cela implique le prétraitement, l'assemblage et l'évaluation de la qualité de la classification.

Prétraitement des données

L'étape de prétraitement s'assure que nos données d'entrée sont propres et prêtes à être assemblées en premier lieu : Pour vous aider à maintenir votre travail et garantir une sortie d'analyse de séquence de haute qualité, par exemple, fastQC vous aidera à évaluer la qualité des lectures de séquençage, les régions de faible qualité, la contamination par des adaptateurs et d'autres artefacts. Notez que le nettoyage de ces données améliore les performances d'assemblage en aval.

Il y a des informations sur votre deuxième outil de découpe et de filtrage : Ces outils, y compris Trimmomatic et Cutadapt par exemple, éliminent les séquences d'adaptateurs ainsi que les bases de faible qualité des lectures. Le filtrage limite l'impact des contaminants et des erreurs de séquençage, avec uniquement des lectures de haute confiance représentées dans l'assemblage.

La normalisation de la lecture ajuste la couverture à travers le génome, ce qui peut aider à réduire les biais introduits par des régions sur-représentées. Cette étape est cruciale pour limiter les charges computationnelles dans les jeux de données à haute couverture.

Étapes de l'assemblage du génome

Le processus d'assemblage central consiste en un cycle itératif :

Ce processus de construction de contigs consiste, plus ou moins, à organiser toutes les lectures en contigs qui sont les séquences les mieux estimées de la même région génomique sans nécessiter de données externes. Des outils spécialisés existent pour cette phase (par exemple, Canu pour les longues lectures ou Velvet pour les courtes lectures).

Échafaudage et remplissage des lacunes : L'échafaudage assemble des contigs en structures plus étendues, en utilisant des données de longues lectures ou de paires de mates, et des logiciels de remplissage des lacunes, comme GapCloser, tentent de combler les séquences manquantes. Ces étapes conduisent également à des achèvements de niveaux supérieurs des assemblages et à une plus grande précision dans les assemblages.
Correction d'erreurs : Avant que l'assemblage ne soit complet, il est passé par des outils de correction d'erreurs spécifiques au site tels que Pilon ou Racon, qui corrigent les erreurs de base et les assemblages erronés grâce à ces outils. Pour garantir de bons résultats pour les tâches en aval, cette étape est essentielle.

Évaluation de la qualité

L'évaluation de la qualité confirme que l'assemblage est fiable et complet :

Métriques : N50 est une métrique courante décrivant la continuité de l'assemblage ; BUSCO évalue la complétude en vérifiant la présence de gènes conservés.

Métriques de validation : QUAST produit des rapports détaillés sur les statistiques d'assemblage, mettant en évidence les erreurs, les erreurs d'assemblage et les domaines nécessitant des améliorations supplémentaires. En revanche, REAPR vise à identifier les incohérences structurelles et à souligner où les assembleurs peuvent s'améliorer.

Annotation du génome

L'assemblage du génome n'est que la première étape vers la compréhension des fonctions biologiques codées dans un génome. L'annotation du génome consiste à identifier les gènes, les éléments régulateurs et les régions fonctionnelles au sein des séquences assemblées. Cette étape transforme les séquences brutes en un cadre biologiquement significatif :

Annotation structurelleImpliquent l'identification de caractéristiques génomiques telles que les gènes codant des protéines, les ARN non codants, les promoteurs et les introns. Des outils comme AUGUSTUS et MAKER automatisent la prédiction des modèles de gènes en intégrant des données de séquence avec des preuves de transcriptome et des séquences protéiques connues.
Annotation fonctionnelleAttribue des rôles biologiques aux caractéristiques génomiques en les liant à des bases de données existantes telles que GO (Gene Ontology), KEGG (Kyoto Encyclopedia of Genes and Genomes) et UniProt. Des outils comme InterProScan et BLAST sont couramment utilisés pour aligner les protéines prédites sur des séquences annotées, fournissant des informations sur leurs fonctions potentielles.
Défis dans l'annotationL'exactitude de l'annotation dépend de la qualité de l'assemblage et de la disponibilité des données de référence. Les régions mal assemblées, telles que celles contenant des répétitions ou des lacunes, peuvent entraîner des annotations incomplètes ou incorrectes. Pour les organismes non modèles, le manque de jeux de données de référence bien organisés pose des défis supplémentaires.
Automatisation et curation manuelleLes pipelines automatisés rationalisent le processus d'annotation mais nécessitent souvent une curation manuelle pour vérifier les prédictions et résoudre les divergences. Des plateformes collaboratives comme

Étude de cas sur l'assemblage du génome

Contexte

Le génome du blé est l'un des génomes de plantes les plus complexes en raison de sa grande taille, de sa nature hexaploïde (trois ensembles homologues de chromosomes) et de sa forte teneur en répétitions. Le blé est une culture de base dans le monde entier, ce qui rend sa compréhension génétique essentielle pour améliorer les rendements agricoles, la résistance aux maladies et la résilience climatique. Le déchiffrement de son génome a représenté un défi majeur pour les chercheurs, nécessitant une combinaison de technologies de séquençage avancées et d'approches computationnelles.

Méthodes

Pour s'attaquer à cette complexité, les chercheurs ont utilisé :

Technologies de séquençageUne approche hybride a été utilisée, combinant le séquençage de deuxième génération (lectures courtes d'Illumina) avec le séquençage de troisième génération (lectures longues de PacBio et Oxford Nanopore). Le mapping optique et le tri de chromosomes par flux ont également été employés pour ancrer les échafaudages et résoudre les structures chromosomiques.
Algorithmes d'assemblageDes outils comme Canu et le logiciel de scaffolding Hi-C ont été utilisés pour générer des assemblages hautement contigus. La méthode du graphe de De Bruijn a facilité l'assemblage des régions répétitives.
ValidationL'assemblage a été validé en utilisant BUSCO pour mesurer la complétude des gènes et des méthodes basées sur l'alignement pour confirmer l'exactitude.

Résultats

L'assemblage a abouti à un génome de référence de haute qualité pour le blé, couvrant plus de 90 % du génome avec une résolution sans précédent. Des gènes clés associés à l'amélioration du rendement, à la résistance aux maladies (par exemple, la résistance aux rouilles) et à la tolérance au stress environnemental ont été identifiés. Cet assemblage de génome a permis des stratégies de sélection de précision, améliorant la résilience du blé face aux défis climatiques mondiaux.

Wheat genome assembly Génome du blé déchiffré, assemblé et ordonné (Consortium international pour le séquençage du génome du blé (IWGSC) 2018).

Applications et orientations futures

Applications

L'assemblage du génome a des applications dans divers domaines :

Organismes modèles : Des assemblages de haute qualité pour des organismes modèles comme les souris et les poissons-zèbres soutiennent les investigations génétiques, développementales et comparatives. Ces assemblages servent de normes de référence pour permettre une annotation précise et une exploration fonctionnelle des gènes.
Organismes non-modèles : Les assemblages de génomes de novo ont fourni des informations sur la biodiversité, l'adaptation et les interactions écologiques. Par exemple, l'assemblage des génomes de cultures économiquement importantes comme le blé et le riz a permis d'identifier des caractéristiques pour améliorer le rendement et la tolérance au stress. Les données sur le génome d'une espèce en danger, par exemple, permettent d'obtenir de meilleures informations sur la diversité génétique et informent les programmes de reproduction pour la conservation.
Recherche clinique : Les assemblages génomiques ont des applications importantes en médecine de précision, permettant l'identification de facteurs génétiques contribuant aux maladies et le développement potentiel de thérapies ciblées. Les assemblages génomiques sont utilisés en génomique du cancer pour identifier les variations structurelles et les mutations à l'origine de la tumorigénèse. Par exemple, les assemblages de pathogènes comme le SARS-CoV-2 ont accéléré à la fois le développement de vaccins et le suivi épidémiologique.

Orientations futures

Les tendances et les technologies émergentes promettent des assemblages de génomes encore plus sophistiqués :

Lectures ultra-longues : Les technologies générant des lectures de plus de 1 Mb permettent l'assemblage de régions auparavant difficiles du génome, y compris les centromères et les télomères. Elles promettent des assemblages au niveau des chromosomes pour des génomes complexes.
Assemblage alimenté par l'IA : Les algorithmes d'apprentissage automatique aidant à la correction des erreurs, à la résolution des répétitions et à la détection des variations structurelles.
Suivi de l'hétérogénéité génétique : Les méthodes à cellule unique apportent des informations importantes sur l'hétérogénéité génétique, mais permettent également une reconstruction spécifique des haplotypes, influençant les études de génétique des populations et faisant progresser les études sur l'ADN paléolithique/ancien et la médecine personnalisée.
Normalisation et partage des données : Des dépôts de données ouverts et des pipelines standardisés permettant aux contributeurs de télécharger leurs données peuvent aider à faciliter la reproductibilité et la collaboration au sein de la communauté scientifique.

Conclusion

L'assemblage de génomes est une ressource fondamentale en biologie contemporaine qui fournit des informations sans précédent sur la structure, la fonction et l'évolution des génomes. Les technologies de séquençage, les algorithmes et les systèmes informatiques se sont rapidement améliorés, rendant l'assemblage de génomes un processus plus efficace et plus accessible. Les techniques d'assemblage de génomes de nouvelle génération devraient élargir leur portée et leur impact grâce à des innovations telles que le séquençage à ultra-longue lecture, les méthodologies basées sur l'IA et les méthodologies d'assemblage de cellules uniques. Ces avancées influenceront encore des disciplines allant de la médecine à l'agriculture en passant par la conservation, propulsant un progrès transformateur dans notre capacité à comprendre et à utiliser le plan de la vie.

Références

Rice, E. S., & Green, R. E. (2019). Nouvelles approches pour l'assemblage et l'échafaudage du génome. Revue annuelle des biosciences animales, 7, 17–40. Je suis désolé, mais je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
Consortium international de séquençage du génome du blé (IWGSC) (2018). Repousser les limites de la recherche et de la sélection du blé en utilisant un génome de référence entièrement annoté. Science (New York, N.Y.), 361(6403), eaar7191. Désolé, je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés