En bioinformatique, l'assemblage de génome représente le processus de reconstitution d'un grand nombre de courtes séquences d'ADN pour recréer les chromosomes d'origine. L'assemblage de séquences est l'une des étapes fondamentales après avoir effectué le séquençage de nouvelle génération, le séquençage PacBio SMRT ou le séquençage Nanopore. L'assemblage de génome établi peut être soumis à des bases de données telles que l'European Nucleotide Archive, NCBI Assembly et Ensembl Genomes. Vous pouvez également parcourir ces bases de données pour des séquences génomiques réalisées par d'autres chercheurs.
Deux types d'assemblage de génome
Il existe deux types différents d'assemblage de génome : de novo assemblage et alignement sur un génome de référence (également connu sous le nom d'alignement basé sur référence). L'assemblage de novo fait référence à l'assemblage d'un génome nouveau à partir de zéro sans l'aide de données génomiques de référence. Un génome de référence ou un assemblage de référence est une base de données de séquences d'acides nucléiques numériques, agissant comme un exemple représentatif de l'ensemble des gènes d'une espèce. Une fois le génome de référence disponible, son aide rend l'assemblage de génome beaucoup plus facile, rapide et même plus précis. Par conséquent, sauf si cela est nécessaire, les chercheurs choisissent la méthode d'alignement basé sur référence. L'alignement basé sur référence est devenu la norme actuelle en diagnostics.
Tableau 1. Alignement basé sur référence vs. de novo assemblage.
| Alignement basé sur référence | De novo assemblage | |
| Avantages |
|
|
| Inconvénients |
|
|
Évaluation d'un assemblage
Après l'assemblage du génome, il est important d'évaluer la qualité d'un assemblage. Le tableau suivant répertorie certaines des métriques d'assemblage importantes et couramment utilisées. N50 est la métrique la plus couramment utilisée, qui représente la plus petite longueur de scaffold ou de contig au-dessus de laquelle 50 % d'un assemblage. Elle décrit la « complétude » d'un assemblage.
Figure 1. Exemple de calcul de N50.
Tableau 2. Quelques statistiques courantes utilisées pour évaluer la qualité d'un assemblage
| Métriques | Description |
| N50 | N50 signifie que la moitié de la séquence génomique est supérieure ou égale à la taille du contig N50 (↑). |
| NG50 | La longueur du scaffold à laquelle 50 % de la longueur du génome est couverte (↑). |
| Couverture | Si 90 % des bases ont au moins 5X de couverture de lecture, le génome est considéré comme précis (↑). |
| N90 | Un assemblage est considéré comme ayant de la continuité si son N90 > 5 Kb (↑). |
| Longueur moyenne du contig | La longueur moyenne du contig doit être supérieure à 5000 bases (5 Kb) (↑). |
| Nombre de gènes | Un assemblage qui identifie la plupart des gènes connus est considéré comme un meilleur assemblage (↑). |
| Nombre de lacunes | Les lacunes dans un assemblage diminuent la qualité (↓). |
| Validité | Un assemblage peut être validé par la séquence de référence (↑). |
Notez qu'un ↑ indique que plus c'est élevé, mieux c'est, et un ↓ implique que moins c'est mieux.
Facteurs affectant les résultats de l'assemblage de génome
En plus du processus d'assemblage de génome, les problèmes suivants peuvent fortement affecter la qualité de l'assemblage de génome. Le séquençage à paires et la technologie de séquençage à longues lectures sont deux stratégies pour améliorer la qualité de l'assemblage de génome.
1. Propriétés du génome
Les propriétés du génome peuvent affecter l'assemblage de génome.
2. Extraction d'acides nucléiques
Pour l'isolement de l'ADN ou l'isolement de l'ARN, voici quelques éléments à prendre en compte : intégrité de l'ADN/ARN, purification de l'ADN/ARN, quantité suffisante d'ADN/ARN, etc. Comparé au resequencing, le séquençage de novo nécessite des acides nucléiques de qualité supérieure. Les paramètres de qualité des acides nucléiques les plus importants pour le NGS sont la pureté chimique et l'intégrité structurelle.
3. Méthodes de séquençage
La détermination des méthodes de séquençage est un facteur important qui influence le coût et le succès d'un assemblage de génome. Le NGS a été appliqué à de nombreux projets remarquables tels que le Projet des 1 000 génomes et le Projet du microbiome humain. Cependant, certains gènes d'intérêt importants ne peuvent pas être assemblés correctement, principalement en raison de l'interruption des éléments répétitifs. Le séquençage de troisième génération est une solution prometteuse à ce problème basé sur des longues lectures qui couvrent les régions répétitives.
4. Traitement des données brutes
Bien qu'il existe des outils d'assemblage qui préfèrent traiter les données brutes, y compris les séquences d'adaptateurs potentielles, nous recommandons vivement aux chercheurs d'étudier le manuel pour déterminer si le programme nécessite des données de qualité ajustée ou non. Si le trimming des données est requis, il serait nécessaire d'omettre les données de mauvaise qualité en coupant les extrémités de lecture de faible qualité et en filtrant les lectures de faible qualité. Plusieurs outils sont disponibles à cet effet, tels que PRINSEQ32 et Trimmomatic33.
Références :