Appel de variantes : Des données de séquence à la détection fiable de mutations

Aperçu rapide

01 Qu'est-ce que l'appel de variants ? 02 Prétraitement des données et alignement de lecture pour l'appel de variants 03 Algorithmes et outils d'appel de variants 04 Filtrage et annotation de l'appel de variants 05 Défis dans l'appel de mutations précises

Appel de variantes est un processus clé dans génomique recherche, permettant l'identification des différences génétiques entre le génome d'un individu et un génome de référence. Cet article fournit un aperçu complet des meilleures pratiques pour l'appel de variants dans le séquençage clinique, couvrant le prétraitement des données, l'alignement, les algorithmes de détection de variants, le filtrage et la validation. Il aborde également les défis et les orientations futures dans ce domaine en rapide évolution, en soulignant l'importance de méthodes rigoureuses et de l'étalonnage pour garantir une détection fiable des mutations.

Qu'est-ce que l'appel de variantes ?

L'identification des variations génomiques représente un élément crucial dans la recherche génomique, visant à détecter les différences génomiques entre des échantillons individuels et des séquences de référence grâce à l'analyse des informations de séquençage. Le spectre de ces variations englobe plusieurs catégories : les polymorphismes à un seul nucléotide (SNPs), les événements d'insertion et de suppression (indels), les réarrangements structurels plus importants (SVs) et d'autres classifications de variantes qui peuvent potentiellement impacter les voies biologiques ou contribuer à la pathogénie.

Le processus d'identification de ces différences génétiques revêt une importance considérable dans les études génomiques et joue un rôle fondamental dans de nombreux domaines scientifiques et cliniques. Dans la pratique médicale, la détection des variations génomiques facilite l'identification des mutations pathogènes, établissant ainsi des bases cruciales pour les programmes de dépistage des maladies, les approches de médecine de précision et les services de conseil génétique.

Services qui pourraient vous intéresser

Prétraitement des données et alignement de lecture pour l'appel de variants

Optimisation du contrôle de qualité des données de séquençage brutes

Avec la maturité progressive de séquençage de deuxième génération Avec la technologie et l'expansion continue de son champ d'application, il est particulièrement important de clarifier les normes de qualité des données, de fiabilité, de répétabilité et de pertinence biologique. La qualité des données joue un rôle vital dans diverses analyses en aval telles que l'assemblage de séquences, l'identification de SNP et les études d'expression génique. Par conséquent, il est crucial d'effectuer un contrôle de qualité sur les données de séquençage brutes avant l'analyse des données. FastQC est un outil d'évaluation de la qualité largement utilisé qui peut rapidement générer un rapport de qualité pour les données de séquençage. Il évalue la qualité des données sous plusieurs dimensions, telles que la distribution de la qualité des bases, la distribution du contenu en GC, le taux de répétition des séquences, etc.

Figure 1 . FastQC report. Figure 1. Rapport FastQC. (D'après le site web de FastQC)

Après avoir terminé l'évaluation de la qualité, les données doivent être filtrées. Trimmomatic (Bolger et al. 2014) et BBDuk sont des outils de filtrage couramment utilisés. Trimmomatic peut effectuer divers traitements sur les données de séquençage, y compris la suppression des séquences d'adaptateurs, le rognage des bases de faible qualité, etc. BBDuk possède également de puissantes fonctions de filtrage, qui peuvent identifier et supprimer efficacement les séquences d'adaptateurs. Lors de l'identification des séquences d'adaptateurs, BBDuk compare les données de séquençage avec des séquences d'adaptateurs connues et identifie précisément les adaptateurs en définissant des seuils de correspondance appropriés. Pour le rognage des bases de faible qualité, BBDuk peut s'ajuster dynamiquement en fonction de la valeur de qualité des bases.

Technologies et sélection d'outils essentiels pour l'alignement de séquences

L'alignement de séquences est une étape clé dans la détection de variants, qui localise les sites de variants en faisant correspondre de courtes lectures de séquençage au génome de référence. Des outils d'alignement courants tels que BWA (basé sur l'extension de graines, adapté aux longues lectures et aux génomes complexes) et Bowtie2 (basé sur la transformation BWT, adapté aux courtes lectures et à un alignement rapide) utilisent différents algorithmes pour répondre à des besoins variés, tandis que STAR est spécifiquement conçu pour les données RNA-seq et peut gérer efficacement l'alignement d'épissage.

L'alignement local et l'alignement global sont deux stratégies d'alignement différentes, applicables à différents scénarios. L'alignement local ne considère que les parties similaires de la séquence et ne nécessite pas que l'ensemble de la séquence corresponde complètement. Il est souvent utilisé pour trouver des régions conservées dans la séquence ou détecter des mutations. L'alignement global nécessite que l'ensemble de la séquence soit aligné, ce qui est approprié pour comparer deux séquences similaires. Par exemple, lors de la détection de SNP, l'alignement local peut trouver plus précisément le site de mutation ; et lors de la comparaison de gènes homologues de deux espèces, l'alignement global est plus approprié.

Algorithmes et outils d'appel de variants

Analyse de la méthode du modèle de probabilité traditionnel

L'un des outils couramment utilisés pour la détection des variants est le module HaplotypeCaller du logiciel GATK. Ce module estime les combinaisons de gènes des différents haplotypes et calcule les probabilités de chaque combinaison. Sur la base de ces probabilités, la méthode de raisonnement inverse est utilisée pour déterminer le génotype de chaque échantillon. Le module HaplotypeCaller est non seulement adapté à la détection des variants au sein des populations, mais peut également inférer des informations sur les mutations individuelles et la distribution des génotypes en se basant sur les informations de population.

Les modèles statistiques bayésiens sont largement utilisés dans GATK HaplotypeCaller. Le modèle prend en compte plusieurs facteurs, tels que le taux d'erreur de séquençage, la valeur de qualité des bases, etc., pour calculer la probabilité que chaque site soit un site variant. De cette manière, l'authenticité de la variante peut être jugée plus précisément et les résultats faussement positifs peuvent être réduits.

Figure 2 . GATK work pipeline. Figure 2. Pipeline de travail GATK. (D'après le site web de GATK)

Le flux de travail de base pour la détection de SNP/indel utilisant le module GATK-HaplotypeCaller se compose de quatre étapes principales :

1) Identification des zones actives

Faites glisser le long du génome de référence dans une certaine fenêtre, calculez le score d'activité de chaque position dans le génome en comparant statistiquement les discordances, les indels et les softclips, et utilisez l'algorithme de lissage pour le traitement, ce qui équivaut à mesurer la valeur d'entropie de la région. Lorsque la valeur d'entropie atteint un certain seuil fixé, la région est déterminée comme une région active pour l'assemblage ultérieur.

2) Détermination des haplotypes par réassemblage des régions actives

Pour chaque région active, les résultats d'alignement de lecture précédents sont ignorés et les lectures dans la région sont réutilisées pour construire un graphe de type De Bruijn afin d'assembler les régions actives et d'identifier les haplotypes possibles dans les données. Ensuite, l'algorithme de Smith-Waterman est utilisé pour réaligner chaque haplotype avec l'haplotype de référence afin d'identifier les sites de variantes potentiels.

3) Déterminez la valeur de vraisemblance du haplotype pour chaque lecture.

Pour chaque région active, le programme utilise l'algorithme PairHMM pour aligner chaque lecture avec chaque haplotype, générant une matrice de valeurs de vraisemblance des haplotypes. Ces valeurs de vraisemblance sont ensuite marginalisées pour obtenir la vraisemblance des allèles pour chaque site de variant potentiel pour une lecture donnée.

4) Déterminer le génotype

Les valeurs de vraisemblance des haplotypes candidats obtenues lors de l'étape PairHMM précédente sont converties en valeurs de vraisemblance des génotypes à chaque site en utilisant l'algorithme bayésien.

En plus de GATK HaplotypeCaller, il existe également des outils tels que Samtools et VarScan. Samtools est un outil puissant qui peut effectuer une variété d'opérations sur les données de séquençage, y compris le tri, l'indexation et la détection de variants. Ses avantages sont sa rapidité et sa capacité à traiter des données de séquençage à grande échelle ; son inconvénient est que sa précision est relativement faible lorsqu'il s'agit de variants complexes. VarScan se concentre sur la détection de variants dans des échantillons tumoraux et peut détecter des variants somatiques à faible fréquence. Cependant, VarScan peut manquer certains variants rares lors de leur détection.

La révolution de la détection propulsée par l'apprentissage profond

L'apprentissage profond a déclenché une révolution dans le domaine de la détection des variants, et DeepVariant en est un exemple typique. Son cœur est l'architecture de réseau de neurones convolutifs (CNN), qui peut apprendre automatiquement des motifs caractéristiques dans les données de séquençage. Le CNN se compose de plusieurs couches convolutionnelles, de couches de pooling et de couches entièrement connectées. La couche convolutionnelle fait glisser le noyau de convolution sur les données d'entrée pour extraire des caractéristiques locales ; la couche de pooling réduit la dimension des caractéristiques pour diminuer la quantité de calcul ; la couche entièrement connectée intègre les caractéristiques extraites et produit les résultats de prédiction finaux.

Le mécanisme de correction d'erreurs de DeepVariant est un point fort. Au cours du processus de séquençage, certaines erreurs peuvent survenir en raison de divers facteurs. DeepVariant peut identifier et corriger efficacement ces erreurs en apprenant les différences caractéristiques entre les données de séquençage normales et les données erronées grâce aux réseaux de neurones convolutifs (CNN). Par exemple, il peut identifier les erreurs de base causées par des erreurs de séquenceur et améliorer la précision de la détection des variants.

Figure 3. DeepVariant workflow overview. Figure 3. Aperçu du flux de travail DeepVariant. (Poplin, R. et al. 2018)

Filtrage et Annotation de l'Appel de Variantes

Dans la détection des variants, il est crucial d'évaluer et de filtrer la qualité des résultats des variants, ce qui peut efficacement éliminer les variants faussement positifs et améliorer la fiabilité des résultats des tests. DP, QUAL, FS, etc. sont des indicateurs d'évaluation de la qualité couramment utilisés.

DP (Profondeur) fait référence à la profondeur de séquençage, c'est-à-dire le nombre de fois qu'un certain site est couvert par le séquençage. En général, plus la profondeur de séquençage est élevée, plus la précision de la détection des variants est grande. Habituellement, le seuil de DP est fixé à 10-20, ce qui signifie qu'un certain site doit être couvert par le séquençage au moins 10-20 fois avant d'être considéré comme un site de variant fiable. QUAL (Qualité) est le score de qualité du site de variant, qui prend en compte de manière globale des facteurs tels que la qualité du séquençage et la qualité de l'alignement. Plus la valeur de QUAL est élevée, plus la crédibilité du site de variant est grande. Le seuil commun de QUAL peut être fixé à 30. FS (Biais de Fisher) est utilisé pour détecter s'il y a une déviation dans la distribution des sites de variant sur les chaînes positives et négatives. Si la valeur de FS est trop élevée, cela peut signifier que le variant est causé par des erreurs de séquençage ou des erreurs d'alignement. Le seuil de FS est généralement fixé à 20.

La stratégie de filtrage multidimensionnelle combine plusieurs indicateurs d'évaluation de la qualité pour un dépistage complet. Par exemple, en tenant compte simultanément de DP, QUAL et FS, un site variant est conservé uniquement lorsque son DP est supérieur à 10, que QUAL est supérieur à 30 et que FS est inférieur à 20. Cette stratégie permet d'éliminer plus efficacement les variants faussement positifs.

Dans les échantillons de tumeurs, la VAF (Fréquence d'Allèle Variant) est un paramètre important. En raison de l'hétérogénéité des cellules tumorales, des mutations somatiques à faible fréquence peuvent exister dans les échantillons de tumeurs. Le seuil de la VAF doit être ajusté en fonction de la situation spécifique. En général, pour les échantillons de tumeurs à haute pureté, le seuil de la VAF peut être fixé à 5 % - 10 % ; pour les échantillons de tumeurs à faible pureté, le seuil de la VAF peut devoir être réduit à 1 % - 5 %.

Défis dans l'appel de mutations précises

La technologie de séquençage traditionnelle est sujette à des erreurs de séquençage et à du bruit de fond lors de la détection de mutations à faible abondance, ce qui entraîne une augmentation des résultats faussement positifs et faussement négatifs. Par exemple, des facteurs tels que les erreurs de base et le biais d'amplification PCR pendant le séquençage peuvent affecter la détection précise des mutations à faible abondance. De plus, la contamination lors du traitement des échantillons peut également introduire de faux signaux de mutation, réduisant encore l'exactitude de la détection.

Dans la détection de précision, l'analyse des régions génomiques complexes est une tâche très difficile, parmi lesquelles les répétitions en tandem et la préférence pour le GC sont les principaux facteurs d'interférence. Les répétitions en tandem font référence à des régions du génome où de courtes séquences d'ADN sont répétées plusieurs fois. Les séquences dans ces régions présentent une grande similarité, ce qui peut facilement entraîner des erreurs de séquençage et des difficultés d'alignement. La préférence pour le GC fait référence à la forte teneur en GC dans certaines régions du génome. En raison des fortes liaisons hydrogène entre les bases GC, un biais d'amplification et une atténuation du signal sont susceptibles de se produire pendant le processus de séquençage, affectant ainsi la précision du séquençage.

Références :

Bolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic : un outil de découpe flexible pour les données de séquence Illumina. Bioinformatique(Oxford, Angleterre), 30(15), 2114–2120. Désolé, je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir et je serai heureux de vous aider.
Koboldt D. C. (2020). Meilleures pratiques pour l'appel de variants dans le séquençage clinique. Médecine génomique, 12(1), 91. Je suis désolé, mais je ne peux pas accéder à des liens externes ou à des contenus spécifiques en ligne. Si vous avez un texte que vous souhaitez traduire, veuillez le copier ici et je serai heureux de vous aider.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés