Assemblage de génome de novo : Comment le réaliser et comment l'appliquer

Assemblage de novo, contrairement à l'assemblage guidé par référence qui repose sur l'alignement des lectures de séquençage à un génome existant, est plus indépendant et donc pas limité par les biais de référence. Cela est particulièrement important pour les organismes non-modèles, les génomes larges et complexes, ou la détection de séquences nouvelles ou de variations structurelles. En dépit de son potentiel transformateur, l'assemblage de génome de novo représente un défi technique complexe, et il exige une profondeur de séquençage élevée ainsi que des ressources informatiques significatives et des algorithmes avancés pour fournir des résultats de qualité. Cette approche est largement applicable, avec des implications pour des domaines tels que la science de la biodiversité, la biologie évolutive et la médecine de précision, en faisant un outil essentiel de la génomique contemporaine. L'assemblage de génome de novo offre une flexibilité unique, permettant l'étude d'organismes pour lesquels aucune information génomique n'existe. Ce processus complexe implique des calculs sophistiqués et des ressources étendues.

Concepts clés et défis

  • Séquences répétitivesLes répétitions, qui constituent une grande partie de nombreux génomes, sont parmi les défis les plus difficiles dans l'assemblage des génomes. Les chimères se forment à partir de plusieurs lectures qui couvrent plusieurs régions d'homologie, souvent soumises à un prétraitement tel que le rognage, ce qui entraîne des ambiguïtés dans le placement des lectures et conduit finalement à des lacunes et des erreurs d'assemblage. Par exemple, les éléments transposables peuvent provoquer des assemblages fragmentés dans les génomes eucaryotes. Les technologies capables de séquençage à longues lectures seront essentielles pour relever ce défi, car elles peuvent traverser ces zones. Des outils informatiques reconnaissant et masquant les séquences répétitives peuvent également améliorer la précision de l'assemblage. Des outils tels que RepeatMasker sont couramment utilisés pour identifier les régions répétitives, et des applications telles que Tandem Repeat Finder aident à l'annotation de ces séquences.
  • Hétérozygotie et PolyploïdieDe nombreuses espèces sont fortement hétérozygotes ou polyploïdes, ce qui rend difficile la différenciation et la construction des allèles existants. La complexité est particulièrement prononcée chez les plantes, où la polyploïdie est répandue. Pour résoudre ces caractéristiques génomiques, des algorithmes sophistiqués sont nécessaires pour identifier les allèles ou les séquences homéologues sans perdre leur unicité. Les assembleurs comme HiCanu sont conçus pour gérer de telles complexités, utilisant des données de longues lectures pour démêler les informations haplotypiques.
  • Erreurs de séquençageDifférentes technologies de séquençage ont des profils d'erreurs différents. Les technologies de séquençage à longues lectures, comme PacBio et Oxford Nanopore, par exemple, ont tendance à présenter des taux d'erreur plus élevés que les plateformes à courtes lectures. Ces erreurs peuvent conduire à de fausses assemblages ou à de fausses appels. Les outils de correction d'erreurs pour le raffinement des assemblages à courtes lectures ou des ensembles de données à longues lectures sont essentiels pour obtenir des assemblages de haute qualité. De plus, les stratégies d'assemblage hybride tirent parti des avantages des courtes et longues lectures pour atténuer les problèmes mentionnés ci-dessus.
  • Données et AlgorithmesL'assemblage de génomes de novo implique la gestion de vastes quantités de données et l'exécution d'algorithmes très complexes. Pour répondre à ces limitations, les ressources informatiques haute performance, telles que l'exécution de flux de travail parallélisés et même l'utilisation de plateformes de cloud computing, deviennent de plus en plus courantes. L'utilisation de la mémoire et des algorithmes reste un domaine de recherche actif. Une approche consiste à minimiser le calcul tout en maintenant la qualité de l'assemblage, et plusieurs assembleurs illustrent cette stratégie.

Assembling a haploid or homozygous genome.Stratégie pour l'assemblage près des télomères à télomères (Li H, Durbin R., 2024).

Technologies et Méthodes

Plateformes de séquençage

Plateformes de lecture longue, par exemple, PacBio et Oxford Nanopore, génèrent des lectures s'étendant de dizaines à des centaines de kilobases, permettant la résolution des éléments répétitifs et des grandes variations structurelles. De telles technologies sont essentielles pour les génomes complexes ou polyploïdes. Cependant, les avancées continues en chimie et en algorithmes de détermination des bases réduisent l'écart en précision malgré des taux d'erreur plus élevés. Les lectures PacBio HiFi, par exemple, combinent désormais une grande longueur de lecture et une haute précision et sont très appréciées pour de nombreuses assemblées.

Algorithmes d'assemblage

  • Consensus de Superposition de Disposition (CSD)Conçu spécifiquement pour et fonctionne très bien sur des données de longues lectures. Il trouve des chevauchements entre les lectures, construit un graphique de disposition et dérive des séquences de consensus. L'assemblage de grands génomes utilisant l'Overlap-Layout-Consensus (OLC) a été pionnier grâce à des outils tels que Canu et FALCON. Le génotypage OLC est plus précis que GFA pour les régions génomiques complexes.
  • Graphes de De Bruijn (DBG)Les méthodes DBG offrent une grande efficacité computationnelle et fonctionnent mieux avec des ensembles de données générés à partir de lectures de séquençage courtes. Les approches DBG tokenisent les lectures en k-mers et construisent un graphe dans lequel les chemins sont des séquences génomiques. Cependant, les régions répétitives peuvent entraîner des structures de graphe compliquées qui nécessitent des algorithmes spécialisés pour être résolues. Les assembleurs basés sur DBG courants pour les génomes de petite à moyenne taille incluent Velvet et SOAP denovo.
  • Assemblers hybrides modernesEn combinant les avantages de l'OLC et du DBG, les assembleurs hybrides élèvent les flux de travail d'assemblage à un niveau supérieur en utilisant à la fois des ensembles de données à lectures courtes et à lectures longues. Une telle stratégie offre une grande continuité, complétude et précision malgré des génomes difficiles. Les techniques d'assemblage hybride, telles que celles utilisées par SPAdes et Flye, peuvent s'avérer puissantes, en particulier dans le cas de génomes avec un fort contenu en répétitions ou des variations structurelles complexes.

Overlap graph assembly.Assemblage avec des graphes de chevauchement (Li H, Durbin R. et al, 2024).

Étapes de l'assemblage de génome de novo

La procédure d'assemblage de génome de novo consiste en une série d'étapes interconnectées, où chaque étape est un contributeur important à la génération d'un assemblage final de haute qualité. Une attention particulière doit être portée à chacune de ces étapes, de la préparation des données à la validation, afin d'obtenir des résultats crédibles et précis.

Préparation des données

De loin, le plus important est la qualité des données utilisées pour l'assemblage — sans des données de haute qualité, tout projet d'assemblage est voué à l'échec. Les étapes de prétraitement comprennent :

  • Contrôle de qualité, filtrage et découpe Les données de séquençage brutes sont vérifiées pour leur qualité à l'aide d'outils comme FastQC, et les lectures de faible qualité, les adaptateurs et les contaminants sont identifiés. Des outils de découpe tels que Trimmomatic et Cutadapt éliminent les parties indésirables pour garantir que seules les lectures de haute confiance sont utilisées pour l'assemblage. Cette étape est cruciale pour éliminer les régions de faible complexité susceptibles de générer des résidus dans l'assemblage.

Construction d'assemblage

L'assemblage du génome est un processus itératif :

  • Génération de contigsLes lectures courtes sont assemblées en contigs, qui sont les plus longues séquences continues, ou segments, pouvant être produites sans interruptions. Pour atteindre la plus grande précision et continuité possibles, vous pouvez utiliser des outils spécialisés tels que Canu (lectures longues) et Velvet (lectures courtes) qui sont utilisés à cet effet.
  • ÉchafaudageLes contigs sont assemblés en échafaudages sur la base de données de paires de lectures ou de lectures longues. L'échafaudage ajoute des informations spatiales qui ordonnent et orientent correctement les contigs. SSPACE et BESST sont couramment utilisés pour aider à améliorer la précision structurelle de l'assemblage.
  • Fermeture de l'écartLes lacunes dans les échafaudages sont comblées à l'aide de données de séquençage supplémentaires ou d'algorithmes informatiques tels que GapCloser pour améliorer la continuité. La segmentation avec des remplissages de lacunes précis garantit une complétude plus profonde contenant des séquences moins fréquentes.

Validation d'assemblage

La validation de l'assemblage garantit l'exhaustivité et la justesse :

  • MétriquesN50 pour évaluer la contiguïté de l'assemblage et BUSCO pour évaluer l'exhaustivité à l'aide d'ensembles conservés d'orthologues à copie unique. Ces métriques servent d'indicateurs quantitatifs de la qualité de l'assemblage et aident à affiner davantage le processus d'assemblage.
  • Outils de validationQUAST produit des évaluations de qualité détaillées, identifiant les erreurs d'assemblage et les opportunités d'amélioration. En utilisant l'outil REAPR, des incohérences structurelles sont détectées, nécessitant un affinage pour obtenir un assemblage plus fiable.

Directions futures et applications

L'assemblage de génomes de novo a une gamme d'applications, allant de la recherche fondamentale aux sciences appliquées, et encore plus de développements futurs stimuleront son potentiel.

Applications

  • Organismes non-modèlesFournir un contexte génomique pour les espèces sans génomes de référence via des assemblages de novo. Ces outils sont inestimables pour l'étude de la biodiversité, la découverte de nouveaux gènes et l'exploration des adaptations évolutives. Par exemple, en reconstruisant le génome d'organismes extrêmophiles, nous avons découvert des voies uniques à ces organismes qui leur permettent de survivre dans des conditions extrêmes.
  • Biologie de la conservationLes assemblages génomiques guident la conservation en élucidant la diversité génétique, la structure des populations et les niveaux de consanguinité chez les espèces menacées. Ces informations sont essentielles pour de bons programmes de gestion et d'élevage. Son étude des assemblages d'espèces, comme le panda géant, a offert des perspectives importantes concernant leur histoire évolutive et leurs processus d'adaptation.
  • MédecineDe nouveaux facteurs de virulence, des mécanismes de résistance aux médicaments et d'autres découvertes évolutives et épidémiologiques sont rendus possibles par les assemblages de novo des agents pathogènes. Le séquençage du SARS-CoV-2, par exemple, a été crucial pour le développement de vaccins et le suivi des épidémies. Les assemblages de novo des génomes individuels bénéficient également à la médecine personnalisée en révélant des variations structurelles et des mutations uniques.

Orientations futures

Cependant, il existe des algorithmes informatiques qui ne peuvent fonctionner qu'avec des données de séquençage à longues lectures, et ces ensembles de données seront nécessaires car ils nous permettront de résoudre des régions complexes du génome, telles que les centromères et les télomères. Ces améliorations mettront probablement à jour la définition de l'exhaustivité de l'assemblage.

Apprentissage automatique : L'ajout d'algorithmes d'apprentissage automatique dans les pipelines d'assemblage permet de corriger les erreurs et entraîne également davantage de variations répétées et de variants structurels, offrant une précision et une efficacité accrues. Les outils dérivés de l'IA accélèrent également la création d'algorithmes adaptatifs personnalisés pour des tâches génomiques particulières. Pour une compréhension plus approfondie des algorithmes d'apprentissage automatique, consultez notre article "Indexation du génome en bioinformatique : Déchiffrer le génome".

  • Génomique à résolution unicellulaireGénotypage vers des assemblages résolus par haplotypes : Le séquençage unicellulaire a le potentiel de fournir la résolution nécessaire pour identifier des assemblages résolus par haplotypes, et peut ouvrir la voie à la compréhension de l'hétérogénéité génétique et des processus évolutifs dans les populations. Cela est particulièrement pertinent dans la recherche sur le cancer, étant donné que l'hétérogénéité intra-tumorale est connue pour être d'une grande importance dans l'évolution de la maladie.
  • Normalisation et PartageL'introduction de workflows standardisés et de bases de données en accès libre améliorera la reproductibilité et favorisera la collaboration, maximisant ainsi les contributions des génomes assemblés. Le projet Earth BioGenome et des efforts similaires espèrent créer une bibliothèque de référence complète et soigneusement organisée pour les génomes de toutes les espèces eucaryotes connues, contenant en un seul endroit des séquences similaires nécessaires à l'étude de cette diversité et de sa relation avec un habitat ou un créneau donné.

Étude de cas : L'assemblage du génome du panda géant

Contexte

Le panda géant, une espèce emblématique, a été au centre des efforts de conservation en raison de son statut d'espèce menacée et de son importance écologique. Comprendre sa composition génétique est essentiel pour concevoir des stratégies de conservation efficaces, évaluer la diversité génétique et étudier ses adaptations uniques, telles qu'un régime alimentaire dominé par le bambou. Cependant, le génome du panda géant a présenté des défis uniques en raison de sa forte teneur en répétitions et de sa faible variabilité génétique. Voici le cas pour l'application de Assemblage de génome de novo dans l'assemblage du génome du panda géant.

Méthodes

Pour obtenir un assemblage de haute qualité du génome du panda géant, les chercheurs ont suivi les étapes suivantes :

  • Technologies de séquençage : Une approche de séquençage hybride a été utilisée. Le séquençage à lecture courte avec Illumina a fourni des lectures de haute précision, tandis que le séquençage à lecture longue de PacBio a permis de résoudre les régions répétitives et d'assembler des structures génomiques complexes.
  • Algorithmes d'assemblage : L'assemblage de novo a été réalisé à l'aide de l'assembleur SOAPdenovo, optimisé pour les grands génomes avec un fort contenu en répétitions. Des outils de scaffolding supplémentaires, y compris SSPACE, ont amélioré la continuité et la précision de l'assemblage. RepeatMasker a été utilisé pour annoter et masquer les éléments répétitifs, tandis que Pilon a poli l'assemblage pour corriger les erreurs au niveau des bases.
  • Validation et Annotation : La qualité de l'assemblage a été évaluée à l'aide de métriques telles que les scores N50 et BUSCO. Des outils de prédiction génique, tels qu'AUGUSTUS et MAKER, ont été utilisés pour annoter les séquences codantes et les éléments régulateurs. Des analyses génomiques comparatives avec des espèces apparentées ont en outre validé l'assemblage.

Genome landscape of giant pandaCaractérisation du paysage génomique du panda géant (Fan, H. et al, 2019).

Résultats

L'assemblage de novo du génome du panda géant a atteint un N50 de contig d'environ 200 kb et un N50 de scaffold de plus de 1 Mb, représentant un haut niveau de continuité et de complétude. Les principales conclusions comprenaient :

  • Identification des gènes liés à la digestion du bambou, tels que ceux impliqués dans la dégradation de la cellulose.
  • Aperçus sur la base génétique de son faible taux de reproduction et des adaptations de son système immunitaire.
  • Cartographie haute résolution de la diversité génétique au sein des populations sauvages et captives, informant les programmes de conservation.

Conclusion

L'assemblage de génomes de novo est un élément clé de la génomique moderne et continue de permettre des investigations sur l'architecture génétique à travers une grande variété d'organismes. Cette technologie a transformé des domaines allant de la biologie évolutive à la médecine de précision, et a permis de relever des défis tels que les séquences répétées, l'hétérozygotie et la charge computationnelle. L'assemblage de novo continue d'élargir ses horizons grâce à des améliorations technologiques et computationnelles. Cependant, alors que nous nous dirigeons vers une génomique de plus en plus répandue, les connaissances acquises grâce à l'assemblage de génomes de novo seront fondamentales pour résoudre de nombreux défis auxquels le monde est confronté aujourd'hui et pour élargir notre compréhension de la vie elle-même.

Références :

  1. Li, H., & Durbin, R. (2024). Assemblage du génome à l'ère du télomère au télomère. Revue de la nature. Génétique, 25(9), 658–670. Je suis désolé, mais je ne peux pas accéder à des liens ou du contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir et je serai heureux de vous aider.
  2. Fan, H., Wu, Q., Wei, F., Yang, F., Ng, B. L., & Hu, Y. (2019). Assemblage du génome au niveau des chromosomes chez le panda géant : nouvelles perspectives sur l'évolution des chromosomes chez les Carnivora. Biologie du génome, 20(1), 267. Désolé, je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique à traduire, veuillez le fournir ici et je serai heureux de vous aider.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut