Parce que les technologies de séquençage génèrent des séquences d'ADN par morceaux, assemblage de génome C'est le processus de reconstruction d'un génome complet à partir de séquences plus petites. En principe, c'est un problème simple, mais qui est essentiel pour récupérer des informations génétiques des génomes microbiens les plus primitifs jusqu'aux génomes végétaux et animaux très complexes. Les flux de travail modernes d'assemblage sont construits sur le principe qu'ils doivent fonctionner avec des ensembles de données de haute fidélité pour traiter, par exemple, des séquences répétitives, des erreurs de séquençage ou des variations dans le génome.
C'est un processus itératif, où les étapes franchies en cours de route mènent à un génome amélioré en termes de qualité et de précision. Elles consistent en le prétraitement des données, l'assemblage, l'élaboration de structures, le polissage et la validation. Il n'est pas trivial de reconstruire le génome à partir de ces fragments en raison de facteurs tels que l'expression différente, les erreurs et les éléments répétitifs - tous ces éléments sont courants dans les données génomiques, et ainsi, les processus ci-dessus garantissent que le génome que nous construisons est correct et complet. Les étapes démontrent un aspect significatif de la continuité des assemblages discontinus en un seul génome biologiquement significatif.
Service qui pourrait vous intéresser
Ressource
Avant une analyse détaillée, les données de séquençage brutes nécessitent une préparation pour assemblage de génomeCette étape élimine les lectures de faible qualité, les contaminants et les artefacts de séquençage afin de maintenir l'exactitude de l'assemblage. Il est recommandé de prétraiter correctement vos données, sinon vous risquez de rencontrer des erreurs ou des biais qui peuvent se propager dans l'ensemble du pipeline d'assemblage et affecter considérablement les résultats finaux.
QC Contrôle qualitéLe contrôle qualité est effectué à l'aide de FastQC sur les lectures de séquençage. Les résultats incluent la contamination par des adaptateurs, des biais de composition de bases et des zones de faible qualité. Les rapports FastQC fournissent les détails qui permettent d'appliquer des étapes de nettoyage des données itératives pour conserver des lectures de haute qualité pour l'assemblage. FastQC fournit des résumés graphiques de vos données qui vous indiqueront, d'un seul coup d'œil, si vous avez un problème avec vos données.
Nettoyage et pré-filtrageL'utilisation d'outils (Trimmomatic ou Cutadapt) pour nettoyer les lectures en supprimant les adaptateurs, les bases de faible qualité et les lectures trop courtes. Si vous avez une contamination par l'adaptateur, cela ne donnerait pas une reconstruction précise des contigs, et des bases de faible qualité peuvent même entraîner des erreurs dans l'assemblage. Mais en aval, c'est précisément là que des données récemment coupées et de haute qualité constituent un excellent point de départ pour un assemblage précis. De plus, ces outils incluent une option pour définir des seuils de coupe, permettant aux chercheurs d'utiliser les fonctionnalités de coupe d'une manière qui correspond à la spécificité de leurs pipelines de prétraitement.
Correction d'erreurs: Séquençage à lecture longue Les plateformes (PacBio, Nanopore) produisent généralement des lectures erronées plus longues en raison des limitations de la technologie de séquençage sous-jacente. Les outils de correction d'erreurs de lecture (par exemple, Racon et Canu) corrigent les lectures par un long auto-alignement (les lectures s'alignent les unes aux autres) ou en alignant les lectures sur des lectures courtes de haute qualité, ce qui améliore considérablement la qualité des lectures pour l'assemblage. Le plus critique dans ce processus est dans les organismes avec un génome plus grand, car une erreur persistante dans les longues lectures, si elle n'est pas corrigée, entraîne des erreurs grossières qui faussent les lectures plusieurs fois lors du mapping.
Lors de la phase d'assemblage, les lectures sont assemblées en séquences plus longues et continues, ou contigs. C'est l'étape la plus cruciale dans l'assemblage du génome et nécessite des algorithmes capables de gérer cet ensemble de données complexe tout en préservant l'intégrité structurelle du génome. Le choix de la stratégie d'assemblage est l'une des décisions critiques dans tout pipeline d'assemblage de génome, car il dépend de la plateforme de séquençage, de la taille du génome et des objectifs du projet.
Assemblage De Novo (sans référence)Construire des génomes à partir de zéro sans référence. Assemblage de novo est nécessaire pour les organismes nouveaux ou les organismes suffisamment éloignés des génomes de référence disponibles. Quelques exemples sont SPAdes (pour les courtes lectures) et Flye (pour les longues lectures) pour l'assemblage de novo. Ceux-ci permettent la reconstruction de séquences contiguës en utilisant des algorithmes basés sur des graphes pour éviter les pièges des régions répétitives et des erreurs de séquençage. Assemblage de novo est souvent la méthode de choix pour la caractérisation de la diversité microbienne ou la découverte de nouvelles espèces.
Assisté par des outilsLe génome de référence existant fournit une structure. La référence aide à l'assemblage basé sur : les lectures mappées sur la référence. Ce schéma est moins exigeant sur le plan computationnel et précis pour les espèces étroitement apparentées. Les données seront ensuite traitées à l'aide d'outils tels que BWA et Bowtie2 pour l'alignement, suivis de SAMtools pour le nettoyage avant l'assemblage. Les études orientées vers le resequencement peuvent utiliser l'assemblage guidé par référence pour déterminer rapidement les différences par rapport à une référence. Bien que cela soit une approche relativement rapide et qu'elle offre un bon compromis entre vitesse et précision, elle peut rencontrer des difficultés à traiter des séquences nouvelles non présentes dans la référence.
Assemblage HybrideLes lectures courtes et longues peuvent être combinées pour obtenir la précision des lectures courtes et la résolution structurelle des lectures longues. Nous souhaitons mentionner spécifiquement des programmes tels que MaSuRCA et Unicycler qui sont utilisés pour l'assemblage hybride et offrent une meilleure assemblage des régions complexes des génomes. L'assemblage hybride repose sur des données provenant de plusieurs plateformes pour produire des assemblages hautement contigus qui se conforment à l'organisation du génome. Cela est particulièrement précieux pour résoudre également les répétitions et les variants structurels qui sont difficiles à assembler avec un seul type de données.
L'échafaudage relie les contigs en structures plus grandes en utilisant des informations supplémentaires, par exemple des lectures de paires de mates, des lectures longues ou des données Hi-C. C'est une étape cruciale dans l'assemblage des arrangements chromosomiques et des génomes plus grands. Les conceptions d'échafaudage prennent en compte la jonction des assemblages, en comblant les espaces pour examiner les contigs voisins, ce qui construit progressivement la représentation du génome. Un échafaudage approprié est nécessaire pour des assemblages biologiquement significatifs qui reflètent l'architecture du génome.
Outils d'échafaudageLes outils d'échafaudage sont, par exemple, LINKS et SSPACE qui ordonnent et orientent les contigs en utilisant des informations provenant de lectures à extrémité appariée et de paires de lectures. Les méthodes dérivées de Hi-C telles que 3D-DNA produisent des échafaudages au niveau des chromosomes, dépendant de la capacité à capturer les interactions spatiales entre les loci génomiques. Ces méthodes ont révolutionné l'assemblage de grands génomes et ont permis aux chercheurs de produire des assemblages qui couvrent des chromosomes entiers. Des algorithmes d'échafaudage basés sur l'apprentissage automatique ont été développés récemment pour améliorer le placement et l'orientation des contigs.
Outils d'analyseMatériel et logiciel outils de bioinformatique utilisé pour évaluer si les contigs sont assemblés correctement. Ces outils sont capables d'augmenter la complétude de l'assemblage en utilisant des données de séquençage supplémentaires pour combler les lacunes de séquence, étendant ainsi leur utilité. Par exemple, l'algorithme PBJelly utilise des lectures longues pour combler les lacunes en plaçant correctement les régions répétitives ou structurellement complexes dans l'assemblage. Au cœur du processus d'assemblage, le comblement des lacunes est important pour produire des génomes de haute qualité pour des analyses génomiques qui reposent sur une haute résolution.
Le polissage garantit une haute précision de base du génome assemblé. Cette phase joue un rôle beaucoup plus important dans les assemblages générés à partir de plateformes à longues lectures, qui présentent une erreur brute relativement élevée, que dans les autres plateformes. Le raffinement des appels de bases et la correction des erreurs résiduelles durant cette étape de polissage peuvent améliorer considérablement l'utilisabilité des génomes et leurs utilisations ultérieures, par exemple, pour la prédiction des gènes et l'appel de variants.
Outils de polissageNanopolish et Medaka pour les données Oxford Nanopore, Arrow et Racon pour les assemblages PacBio. Les anomalies sont corrigées avec l'aide d'outils de correction des erreurs résiduelles et les critères d'alignement augmentent l'accord en réalignant les lectures sur l'assemblage et en vérifiant les différences. Les algorithmes de polissage évoluent vers des variétés plus sophistiquées, utilisant des modèles capables de détecter des erreurs mineures que la correction standard néglige généralement.
Polissage itératifPour des ensembles de données très volumineux ou sujets aux erreurs, obtenir un génome hautement complet peut nécessiter plusieurs cycles de polissage. Cela permet un polissage itératif qui corrige presque toutes les erreurs, sauf les plus subtiles, et produit des assemblages adaptés à des tâches de haute précision telles que l'appel de variants et la prédiction génétique. L'adoption d'approches itératives permet d'utiliser des travaux qui couvrent des régions complexes pour des pipelines basés sur le consensus, y compris les éléments répétés ou les zones à GC élevé.
La validation implique de vérifier la qualité, l'exhaustivité et la justesse du génome assemblé. Cela présente l'avantage supplémentaire de garantir que votre assemblage respecte vos critères de contrôle qualité au niveau du projet, ce qui sera utile pour les analyses en aval. Exécuter un processus de validation renforce non seulement la confiance dans l'assemblage, mais met également en évidence des éléments au sein de l'assemblage qui nécessitent des améliorations. C'est le seuil final avant que le génome séquencé puisse être utilisé dans la recherche biologique.
Statistiques d'assemblageN50 (défini par la localité), L50 et tailles de génome. Ces statistiques fournissent une mesure quantitative de la performance de l'assemblage, mais aussi un aperçu de la fragmentation et de l'exhaustivité de l'assemblage. De grandes valeurs de N50 signifient que les assemblages sont répétés fréquemment et les valeurs de L50 donnent une estimation de la distribution de cet assemblage.
Complétude: Utiliser des outils comme BUSCO pour rechercher des gènes conservés dans votre assemblage. Un score BUSCO > 90 indique qu'une proportion significative du contenu génomique attendu est présente dans l'assemblage, le désignant comme une excellente ressource pour les études fonctionnelles. Les évaluations de complétude permettent d'identifier des zones mal échantillonnées ou manquantes qui pourraient bénéficier d'une attention plus rapprochée.
Assemblage de génome est un problème complexe caractérisé par de multiples obstacles biologiques et techniques. Cela est amplifié dans les génomes grands et complexes, où les séquences répétées, l'hétérozygotie et les erreurs de séquençage compliquent la tâche de reconstruction. S'attaquer à cela aide à permettre la génération d'assemblages de meilleure qualité qui reflètent plus fidèlement le génome en cours d'étude.
Régions hautement répétitivesCes zones peuvent entraîner des assemblages fragmentés ou des erreurs d'assemblage. Séquençage à long terme La technologie comme PacBio et Nanopore a suffisamment de pouvoir de résolution pour couvrir les répétitions. L'assemblage hybride combinant des lectures longues et courtes fonctionne également bien pour résoudre les régions répétitives. Il existe cependant une autre classe d'algorithmes d'assemblage, qui sont basés sur le traitement des graphes de fragments de lecture et se concentrent sur la gestion des répétitions de séquences.
HétérozygotieLa variation entre les chromosomes homologues entraîne des défis particuliers pour l'assemblage (en particulier chez les organismes diploïdes et polyploïdes). Les assembleurs et outils de phasage résolvant les haplotypes gèrent cela en séparant les séquences homologues des haplotypes avant de les reconstruire avec précision. La modélisation inter-espèces peut être particulièrement pertinente pour explorer l'admixture dans les populations ou pour élucider l'histoire évolutive des espèces polyploïdes.
Taille des donnéesUn grand ensemble de données peut être coûteux en mémoire et nécessite une puissance de traitement élevée. De plus en plus, ces exigences sont satisfaites par des plateformes basées sur le cloud et des algorithmes parallélisés. Ces approches aident les chercheurs en génomique à gérer le coût computationnel des personnes construisant de grands génomes. De plus, les assemblages légers ont rendu l'assemblage de génomes accessible aux laboratoires disposant d'une puissance de calcul disponible.
Diagramme de flux recommandé pour l'assemblage et l'annotation du génome (Jung, H. et al 2024).
Le génome humain - avec ses ~3 milliards de paires de bases et ses grandes régions répétitives - a nécessité des stratégies innovantes et d'importantes ressources pour son assemblage. Ce projet a préparé le terrain qui alimenterait la génomique moderne et transformerait notre compréhension de la biologie humaine et des maladies. Son succès a démontré que le séquençage et l'assemblage de génomes complexes étaient réalisables - et a été considéré comme un précurseur important pour d'autres avancées dans le domaine.
Assemblage hiérarchique avec séquençage par tir de fusilLe génome a été divisé en grands morceaux, puis séquencé séparément par la méthode du shotgun en utilisant la technologie des chromosomes artificiels bactériens (BAC). Dans une deuxième stratégie visant à réduire cette complexité et à augmenter la précision de l'assemblage, Smits et al. se concentrent sur des parties plus petites et plus contrôlables du génome. Cette stratégie hiérarchique a fourni une solution pour s'attaquer aux problèmes posés par la génomique de novo à haute complexité et répétitive.
Échafaudage et FinitionLes contigs ont été reliés en séquences plus longues à l'aide de cartes à haute résolution et de structures informatiques. Des données de séquençage supplémentaires et une curation manuelle ont été utilisées pour combler les lacunes d'un génome sans lacunes. Une telle assemblage génomique avancé, grâce à ces méthodes informatiques et manuelles avancées, a abouti au génome assemblé le plus complet et de la plus haute qualité.
Un génome de référence de haute qualité généré par ce projet a maintenant été amélioré grâce à l'utilisation de technologies de séquençage et d'assemblage supérieures. Le génome de référence humain reste un cadre essentiel pour les milliers d'études biomédicales qui explorent la variation génétique, les mécanismes de la maladie et les processus évolutifs. Il a également facilité l'invention de nouvelles techniques et outils d'assemblage qui ont propulsé la génomique. Le succès du projet du génome humain a conduit à l'établissement de nombreuses initiatives internationales visant à séquencer d'autres génomes complexes.
Étapes de l'assemblage du génome (Byrska-Bishop, M. et al 2024).
Assemblage de génome - La reconstruction de génomes entiers est un outil génomique essentiel qui est une condition préalable à la biologie sous-jacente à l'exploration biologique. C'est cette combinaison d'assemblages de haute qualité produits par un pipeline structuré et de séquenceurs à haut débit qui permet ces applications. La recherche sur l'assemblage de génomes sera centrale pour la compréhension de cette complexité, et à mesure que le domaine progresse, le développement de l'assemblage de génomes sera toujours à la pointe pour aborder des questions critiques dans les sciences de la vie. L'assemblage de génomes deviendra probablement de plus en plus précis, rapide et accessible que jamais avec chaque nouvelle vague de progrès technique et trouvera en même temps de nouveaux domaines d'application dans la science et la médecine.
Références: