Un guide pour De Novo Assemblage de génome

Assemblage de génome est l'un des principaux objectifs du séquençage. De nouveau L'assemblage de génome est une stratégie pour l'assemblage de génome, représentant l'assemblage d'un nouveau génome à partir de zéro sans l'aide de données génomiques de référence. De nouveau Les assemblages de génomes supposent aucune connaissance préalable de la longueur, de la disposition ou de la composition de la séquence d'ADN source.

General steps in a genome assembly workflowFigure 1. Étapes générales d'un flux de travail d'assemblage de génome (Angel et al.. 2018).

Types de lecture

Pour assembler un génome avec les plateformes de séquençage de nouvelle génération, les programmes informatiques utilisent généralement des lectures simples et appariées. Ces « lectures » varient de 20 à 1000 pb de longueur selon la plateforme de séquençage utilisée. Les lectures simples sont de courts fragments séquencés, qui peuvent être reliés selon des régions chevauchantes en une séquence continue appelée « contig ». Les lectures appariées ont à peu près la même longueur que les lectures simples, mais proviennent de chaque extrémité des fragments d'ADN. Par rapport aux lectures simples, les lectures appariées sont préférées, car elles aident à relier les contigs en « échafaudages » et indiquent la taille des régions répétitives.

Néanmoins, les séquences répétitives, les variantes, les données manquantes et les erreurs limitent parfois l'efficacité et la précision de l'assemblage du génome. Les technologies de lectures longues émergent au bon moment, car elles couvrent des segments de régions répétitives et génèrent ainsi une reconstruction continue du génome. Actuellement, cette nouvelle génération est dominée par deux méthodes, séquençage en temps réel à molécule unique (SMRT) et séquençage par nanopore, soutenu par Pacific Biosciences (PacBio) et Oxford Nanopore Technologies, respectivement. SMARTdenovo est un pipeline d'assemblage OLC à longues lectures qui a montré qu'il pouvait produire des assemblages d'une continuité raisonnablement élevée à partir des lectures MinION et SMRT.

Assemblage de génome Illumina

Nous prendrons l'assemblage du génome Illumina comme exemple pour introduire le flux de travail de l'assemblage du génome avec des données NGS, car le séquençage Illumina est l'une des approches les plus courantes pour les études génomiques.

Flowchart of de novo assembly protocol.Figure 2. Organigramme de de novo protocole d'assemblage.

  • Évaluation de la qualité des lectures

Avant l'assemblage du génome, il est important d'évaluer la qualité des données de séquence, car cela peut conduire à des conclusions erronées. Les lectures peuvent être stockées dans des formats Fasta, FastQ, SAM et BAM. Le FastQ est le fichier de lecture le plus courant, car il est produit par le pipeline de séquençage Illumina. En plus des types de lectures, d'autres problèmes, y compris le nombre de lectures, la teneur en GC et la contamination, doivent également être pris en compte.

L'exactitude de l'appel des bases évalue la probabilité qu'une base donnée soit appelée incorrectement, et est généralement déterminée par les scores de qualité Phred (score Q). FastQC est l'outil le plus couramment utilisé pour le contrôle de qualité des données brutes. Les principales sorties de FastQC incluent la longueur des lectures, le type d'encodage de qualité, le pourcentage de GC, le nombre total de lectures, la présence de k-mers très récurrents, la présence d'un grand nombre de N dans les lectures, et des baisses de qualité près du début, du milieu ou de la fin des lectures.

  • Prétraitement des données brutes

Une fois la qualité des données de séquence déterminée, de nombreux outils pour le découpage de qualité sont disponibles dans Galaxy ou en ligne de commande, comme Trimmomatic. Il peut gérer le couplage des lectures, si vous avez des lectures appariées. Trimmomatic peut effectuer plusieurs fonctions de découpage de lecture de manière séquentielle, y compris :

  1. Rognage des adaptateurs. Cette fonction rogne les adaptateurs, les codes-barres et d'autres contaminants.
  2. Élagage par fenêtre glissante. Cette fonction permet de mesurer la qualité moyenne et d'élaguer en conséquence.
  3. Élagage de la qualité des bases. Cette fonction élimine les bases de mauvaise qualité en début et en fin de séquence.
  4. Longueur minimale de lecture. Cette fonction s'assure que les lectures après toutes les étapes de découpage sont plus longues que la longueur minimale de lecture. Sinon, les lectures sont supprimées.

PRINSEQ est un outil similaire pour le nettoyage de la qualité des données brutes.

  • De nouveau assemblage de génome

La prochaine étape consiste à assembler les lectures de qualité filtrées en contigs préliminaires. Le logiciel d'assemblage suggéré pour cette étape est le Velvet Optimiser, qui enveloppe le Velvet Assembler. Le Velvet Assembler est spécifiquement conçu pour les lectures courtes de style Illumina, et il utilise l'approche du graphe de de Bruijn. Le Velvet Assembler et le Velvet Optimiser peuvent prendre en charge plusieurs fichiers de lecture (tels que SAM, BAM, FastQ et Fasta) et types (tels que simple, paire et mate pair). La qualité des contigs assemblés par Velvet dépend principalement de ses paramètres. Les paramètres les plus critiques incluent la taille du hachage, la couverture attendue et le seuil de couverture. de novo Les assembleurs incluent Spades, SOAP-denovo, MIRA et ALLPATHS.

  • Polissage de l'assemblage

Après toutes les étapes ci-dessus, vous obtiendrez des contigs préliminaires contenant des lacunes ou des régions de 'N'. Et certains d'entre eux peuvent être des erreurs d'assemblage. Ensuite, vous devez améliorer votre assemblage en utilisant des outils de vérification des erreurs d'assemblage et des métriques d'assemblage, tels que QUAST, InGAP-SV et les métriques d'assemblage Mauve.

Si vous souhaitez terminer votre génome, vous devez utiliser des données plus variées ou utiliser d'autres outils avec vos données actuelles. Les outils alternatifs pour la finition du génome incluent des remplisseurs de lacunes semi-automatisés (par exemple, Gap filler), des visualisateurs et éditeurs de génomes (Artemis, IGV, Geneious, CLC BioWorkbench), et des outils d'annotation (par exemple, Prokka, RAST et JCVI Annotation Service).

Références :

  1. Lannoy C D, Ridder D D, Risse J. Les longues lectures à venir : de novo assemblage de génome utilisant le MinION. F1000Research, 2017, 6.
  2. Boulanger M. De nouveau assemblage de génome : ce que chaque biologiste devrait savoir. Nature Methods, 2012, 9 : 333-337
  3. Del Angel V D, Hjerde E, Sterck L, et al.Dix étapes pour commencer dans l'assemblage et l'annotation du génome. F1000Research, 2018, 7.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut