Variation génétique : définition, types et processus d'appel de variantes
Qu'est-ce que la variation génétique
La composition génétique des organismes au sein d'une population change, ce qui est appelé variation génétique. Les gènes sont des segments d'ADN hérités qui contiennent les instructions pour fabriquer des protéines. Des versions alternatives de gènes, connues sous le nom d'allèles, déterminent des traits distincts qui peuvent être transmis des parents aux descendants. La sélection naturelle et l'évolution biologique reposent fortement sur la variation génétique. La sélection naturelle ne se produit pas par accident, mais les variations génétiques qui apparaissent dans une population le font.
Les transposons sont un autre terme important associé à la variation génétique. Les mutations peuvent être causées par des transposons de diverses manières. Un transposon endommagera presque certainement un gène fonctionnel s'il s'insère en lui. Pour perturber ou modifier l'activité d'un gène, les exons, les introns et même l'ADN flanquant les gènes (qui peuvent contenir des promoteurs et des amplificateurs) peuvent tous être implantés.
Vous pourriez être intéressé par
Quels sont les types de variation génétique
Substitution de paire de bases unique
Les SNP (polymorphismes nucléotidiques simples) sont des substitutions d'acides nucléiques également connues sous le nom de polymorphismes nucléotidiques simples (SNP). (1) transition, qui implique l'échange d'acides nucléiques purines (Adénine/Guanine) ou pyrimidines (Cytosine/Thymine), et (2) transversion, qui implique l'échange d'acides nucléiques purines et pyrimidines.
Insertion ou suppression
Insertion ou suppression d'un seul segment de séquence d'ADN qui peut varier en longueur de deux à des centaines de paires de bases, également connu sous le nom d'« indel ».
Variation structurelle
La variation génétique qui se produit sur une séquence d'ADN plus grande est communément appelée variation chromosomique. Les variations du nombre de copies et les événements de réarrangement chromosomique sont inclus dans cette catégorie de variation génétique.
Variation du nombre de copies
Le phénomène de variation du nombre de copies (CNV) se produit lorsque des sections du génome sont répétées et que le nombre de répétitions varie entre les individus.
Figure 1. Un flux de travail généralisé pour l'appel de variants. (Bewicke-Copley, 2019)
Comment fonctionne l'appel de variants
L'appel de variants à partir de données de lecture brutes est un processus en plusieurs étapes qui peut être réalisé avec une large gamme d'outils et de ressources. Les étapes de la procédure sont les suivantes :
- Pour générer des fichiers FASTQ, séquencez l'ensemble du génome ou de l'exome.
- Alignez les séquences à un génome de référence pour générer des fichiers BAM ou CRAM.
- Créez un fichier VCF en déterminant où les lectures alignées diffèrent du génome de référence.
Acquisition de données de lecture brutes : la configuration du fichier FASTQ
La méthode la plus populaire pour obtenir des données brutes d'une machine de séquençage est via des fichiers FASTQ, qui sont similaires aux fichiers FASTA et contiennent des informations de séquence ainsi que des informations supplémentaires telles que la qualité de la séquence.
Contrôle de qualité
Les données de séquence brutes obtenues auprès d'un fournisseur de services de séquençage ne sont généralement pas immédiatement prêtes pour la découverte de variants. Le contrôle de qualité (CQ), qui vient après l'acquisition des données, est la première et la plus importante phase dans le cadre d'évaluation du WES/WGS. Le CQ est une méthode pour améliorer les données brutes en supprimant les erreurs détectables. En effectuant un contrôle de qualité (CQ) au début de l'évaluation, les chances de rencontrer de la contamination, des biais, des erreurs ou des données manquantes sont réduites.
Alignement des séquences
Chaque lecture doit être alignée à un génome de référence pour déterminer son emplacement précis. Étant donné que l'alignement d'un grand nombre de lectures peut prendre des jours, et qu'un alignement de faible précision entraînera des analyses insuffisantes, la fiabilité et la précision sont essentielles pendant cette phase. Un fichier de carte d'alignement de séquence (SAM) est créé une fois l'alignement terminé.
Traitement post-alignement
Le traitement des données post-alignement pour construire des fichiers BAM prêts pour l'analyse est essentiel dans tout cadre de lecture à variants. Cette procédure implique le nettoyage des données pour éliminer les biais techniques, tels que l'identification des doublons et la recalibration des scores de qualité de base.
Découverte de variants courts
Après avoir traversé les étapes de traitement des données, les lectures sont prêtes pour l'analyse en aval, l'appel de variants étant la phase la plus courante. L'appel de variants est une méthode de classification des différences entre les lectures de séquençage générées par des expériences de NGS et un génome de référence. En raison de la difficulté de l'appel de variants en raison des artefacts d'alignement et de séquençage, une pléthore d'appelants de variants ont été développés et sont en cours de développement pour aider à cette tâche difficile.
Filtration des variants
Après la phase d'appel de variants, les SNV bruts et les indels au format d'appel de variants (VCF) sont obtenus. Ensuite, soit des filtres stricts sur les données, soit une méthode plus complexe comme la recalibration du score de qualité des variants (VQSR) de GATK sont utilisés pour les filtrer.
Annotation des variants
L'annotation des variants est un autre processus crucial dans le cadre d'évaluation du WES/WGS . L'objectif de tous les outils d'annotation fonctionnelle est d'annoter les données concernant les effets/conséquences des variants, tels que l'identification des gènes/transcrits influencés, (ii) l'évaluation de l'influence sur la séquence protéique, et (iii) l'équation du variant avec des annotations génomiques connues, et (iv) la recherche et le complément des variants connus dans les bases de données de variants. L'effet de chaque variant est montré en utilisant des termes d'ontologie de séquence (SO). Des qualificatifs sont souvent utilisés pour indiquer la gravité et l'impact de ces conséquences.
Références :
- Bewicke-Copley F, Kumar EA, Palladino G, et al. Applications et analyse du séquençage génomique ciblé dans les études sur le cancer. Journal de biotechnologie computationnelle et structurelle. 1 janvier 2019 ;17.
- Bedo J, Goudey B, Wazny J, Zhou Z. Appel de variants sans alignement basé sur l'information théorique. PeerJ Computer Science. 25 juillet 2016 ;2.
- Muzzey D, Evans EA, Lieber C. Comprendre les bases du NGS : du mécanisme à l'appel de variants. Rapports actuels sur la médecine génétique. décembre 2015 ;3(4).