Un aperçu de l'assemblage du génome

En bioinformatique, l'assemblage de génome représente le processus de reconstitution d'un grand nombre de courtes séquences d'ADN pour recréer les chromosomes d'origine. L'assemblage de séquences est l'une des étapes fondamentales après avoir effectué le séquençage de nouvelle génération, le séquençage PacBio SMRT ou le séquençage Nanopore. L'assemblage de génome établi peut être soumis à des bases de données telles que l'European Nucleotide Archive, NCBI Assembly et Ensembl Genomes. Vous pouvez également parcourir ces bases de données pour des séquences génomiques réalisées par d'autres chercheurs.

Deux types d'assemblage de génome

Il existe deux types différents d'assemblage de génome : de novo assemblage et alignement sur un génome de référence (également connu sous le nom d'alignement basé sur référence). L'assemblage de novo fait référence à l'assemblage d'un génome nouveau à partir de zéro sans l'aide de données génomiques de référence. Un génome de référence ou un assemblage de référence est une base de données de séquences d'acides nucléiques numériques, agissant comme un exemple représentatif de l'ensemble des gènes d'une espèce. Une fois le génome de référence disponible, son aide rend l'assemblage de génome beaucoup plus facile, rapide et même plus précis. Par conséquent, sauf si cela est nécessaire, les chercheurs choisissent la méthode d'alignement basé sur référence. L'alignement basé sur référence est devenu la norme actuelle en diagnostics.

Tableau 1. Alignement basé sur référence vs. de novo assemblage.

	Alignement basé sur référence	De novo assemblage
Avantages	Bon pour les SNV et les petits indels Fonctionne pour les suppressions et les duplications en utilisant des informations de couverture Une méthode rapide pour assembler le génome Cacher les limitations des données brutes Plus d'outils pour travailler avec les résultats Annotation et comparaison plus faciles	Ne repose pas sur un génome de référence Utilisé pour rechercher des gènes/transcrits inconnus (comme des transcrits avec de nouveaux introns, des sites d'épissage modifiés) Bon pour les variations structurelles
Inconvénients	Requiert un génome de référence Limité par la longueur de lecture pour la détection des caractéristiques	Requiert des données brutes de très haute qualité Une méthode lente et nécessite une infrastructure élevée

Évaluation d'un assemblage

Après l'assemblage du génome, il est important d'évaluer la qualité d'un assemblage. Le tableau suivant répertorie certaines des métriques d'assemblage importantes et couramment utilisées. N50 est la métrique la plus couramment utilisée, qui représente la plus petite longueur de scaffold ou de contig au-dessus de laquelle 50 % d'un assemblage. Elle décrit la « complétude » d'un assemblage.

Aperçu de l'assemblage de génome Figure 1. Exemple de calcul de N50.

Tableau 2. Quelques statistiques courantes utilisées pour évaluer la qualité d'un assemblage

Métriques	Description
N50	N50 signifie que la moitié de la séquence génomique est supérieure ou égale à la taille du contig N50 (↑).
NG50	La longueur du scaffold à laquelle 50 % de la longueur du génome est couverte (↑).
Couverture	Si 90 % des bases ont au moins 5X de couverture de lecture, le génome est considéré comme précis (↑).
N90	Un assemblage est considéré comme ayant de la continuité si son N90 > 5 Kb (↑).
Longueur moyenne du contig	La longueur moyenne du contig doit être supérieure à 5000 bases (5 Kb) (↑).
Nombre de gènes	Un assemblage qui identifie la plupart des gènes connus est considéré comme un meilleur assemblage (↑).
Nombre de lacunes	Les lacunes dans un assemblage diminuent la qualité (↓).
Validité	Un assemblage peut être validé par la séquence de référence (↑).

Notez qu'un ↑ indique que plus c'est élevé, mieux c'est, et un ↓ implique que moins c'est mieux.

Facteurs affectant les résultats de l'assemblage de génome

En plus du processus d'assemblage de génome, les problèmes suivants peuvent fortement affecter la qualité de l'assemblage de génome. Le séquençage à paires et la technologie de séquençage à longues lectures sont deux stratégies pour améliorer la qualité de l'assemblage de génome.

1. Propriétés du génome

Les propriétés du génome peuvent affecter l'assemblage de génome.

Taille du génome. Plus le génome est grand, plus de données sont nécessaires. Par conséquent, avant de commander des données de séquence, vous devez estimer la taille du génome, ce qui peut être déduit en enquêtant sur la taille du génome d'espèces étroitement apparentées.
Répétitions. La quantité et la distribution des séquences répétées dans un génome influencent largement les résultats de l'assemblage de génome. Cela peut conduire à des erreurs d'assemblage et à une estimation incorrecte de la taille des répétitions.
Hétérozygotie. Si le génome est fortement hétérozygote, les lectures de séquence provenant d'allèles homologues peuvent être trop différentes pour être assemblées, ce qui peut conduire à des assemblages plus fragmentés ou créer des doutes sur l'homologie des contigs.
Niveau de ploïdie. Si possible, il est préférable de séquencer des tissus haploïdes, évitant ainsi les problèmes causés par l'hétérozygotie.
Contenu en GC. Un contenu en GC inhomogène peut poser un problème pour le séquençage Illumina, entraînant une faible couverture dans ces régions.

2. Extraction d'acides nucléiques

Pour l'isolement de l'ADN ou l'isolement de l'ARN, voici quelques éléments à prendre en compte : intégrité de l'ADN/ARN, purification de l'ADN/ARN, quantité suffisante d'ADN/ARN, etc. Comparé au resequencing, le séquençage de novo nécessite des acides nucléiques de qualité supérieure. Les paramètres de qualité des acides nucléiques les plus importants pour le NGS sont la pureté chimique et l'intégrité structurelle.

3. Méthodes de séquençage

La détermination des méthodes de séquençage est un facteur important qui influence le coût et le succès d'un assemblage de génome. Le NGS a été appliqué à de nombreux projets remarquables tels que le Projet des 1 000 génomes et le Projet du microbiome humain. Cependant, certains gènes d'intérêt importants ne peuvent pas être assemblés correctement, principalement en raison de l'interruption des éléments répétitifs. Le séquençage de troisième génération est une solution prometteuse à ce problème basé sur des longues lectures qui couvrent les régions répétitives.

4. Traitement des données brutes

Bien qu'il existe des outils d'assemblage qui préfèrent traiter les données brutes, y compris les séquences d'adaptateurs potentielles, nous recommandons vivement aux chercheurs d'étudier le manuel pour déterminer si le programme nécessite des données de qualité ajustée ou non. Si le trimming des données est requis, il serait nécessaire d'omettre les données de mauvaise qualité en coupant les extrémités de lecture de faible qualité et en filtrant les lectures de faible qualité. Plusieurs outils sont disponibles à cet effet, tels que PRINSEQ32 et Trimmomatic33.

Références :

Wajid B, Serpedin E. Guide pratique pour l'assemblage de génome. Briefings in functional genomics, 2014, 15(1) : 1-9.
Victoria D D A, Erik H, Lieven S, et al. Dix étapes pour commencer dans l'assemblage et l'annotation de génome. F1000Research, 2018, 7.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés