RNA-Seq L'appel de variantes est une méthode efficace pour détecter des changements génétiques dans les régions du génome qui sont activement transcrites. Cet article présente un flux de travail clair pour identifier les mutations germinales et somatiques dans les données de séquençage d'ARN. Il comprend des étapes clés telles que le contrôle de qualité, l'alignement, la détection de variantes, le filtrage et la validation finale. Nous examinons des outils informatiques de pointe et des meilleures pratiques méthodologiques qui répondent aux défis spécifiques à l'ARN, y compris les jonctions d'épissage, l'édition de l'ARN et l'expression allèle-spécifique. De plus, nous discutons des stratégies pour distinguer les véritables variantes génétiques des artefacts techniques et des événements de traitement de l'ARN, améliorant ainsi la précision et la fiabilité de l'identification des variantes basées sur le transcriptome pour les applications de médecine de précision.
Figure 1. Le schéma simplifié du pipeline bioinformatique pour l'analyse de l'appel de variants. (Stepanka Zverinova, 2021)
Avant de se lancer dans appel de variantesAssurer des données d'entrée de haute qualité est crucial. Les ensembles de données RNA-Seq contiennent souvent des artefacts techniques et des biais qui doivent être traités par des étapes rigoureuses de contrôle de qualité et de prétraitement.
FastQC représente l'outil de référence pour l'évaluation initiale de la qualité des données de séquençage. Lorsqu'il est appliqué aux lectures RNA-Seq, FastQC génère des rapports complets qui mettent en évidence les problèmes potentiels, notamment :
Une commande FastQC typique pour l'analyse RNA-Seq ressemble à :
bash
fastqc -o répertoire_de_sortie échantillon_d'entrée_R1.fastq.gz échantillon_d'entrée_R2.fastq.gz
Après l'évaluation de la qualité, le prétraitement implique généralement la coupe des bases de faible qualité et la suppression des séquences d'adaptateurs. Trimmomatic excelle dans ces tâches, offrant une gamme d'options spécifiques aux données RNA-Seq :
bash
trimmomatic PE -phred33 input_R1.fastq.gz input_R2.fastq.gz \
output_R1_paire.fastq.gz output_R1_non_paire.fastq.gz \
output_R2_paire.fastq.gz output_R2_non_paire.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 MENANT:3 TRAÎNANT:3
FENÊTREGLISSANTE:4:15 LONGUEURMIN:36
Les paramètres de cette commande remplissent plusieurs fonctions clés :
Les considérations spécifiques à l'ARN-Seq lors du prétraitement incluent :
Contrairement à l'ADN-Seq, les données RNA-Seq contiennent à la fois des duplicatas PCR (artéfacts techniques) et des duplicatas naturels (provenant de gènes fortement exprimés). Pour les appels de variants, le marquage des duplicatas reste important, mais leur suppression complète pourrait éliminer des signaux précieux provenant de gènes fortement exprimés. Des outils comme Picard MarkDuplicates peuvent marquer les duplicatas tout en préservant l'information pour l'analyse ultérieure :
bash
java -jar picard.jar MarkDuplicates \
I=entrée.bam \
O=duplications_marquees.bam \
M=metrics_duppliqués_marqués.txt
Des données prétraitées de haute qualité constituent la base d'un appel de variants précis. La prochaine étape consiste à aligner ces lectures traitées sur le génome de référence tout en tenant compte des caractéristiques uniques des données RNA-Seq.
Figure 2. Graphique de densité du temps d'exécution pour la suppression des doublons par SAMTools et Picard. (Mark T W Ebbert, 2016)
Services qui pourraient vous intéresser
En savoir plus
L'alignement précis des lectures RNA-seq à un génome de référence est une étape cruciale dans l'appel de variants. Contrairement à séquençage ADN Les lectures RNA-seq proviennent de transcrits d'ARNm matures où les introns ont été éliminés. Par conséquent, les aligneurs d'ADN standard ne sont pas adaptés aux données RNA-seq car ils ne peuvent pas traiter les lectures qui traversent les jonctions exon-exon.
Les outils d'alignement sensibles aux jonctions d'épissage, tels que STAR (Alignement des Transcrits Épissés à une Référence) et HISAT2 (Indexation Hiérarchique pour l'Alignement Épissé des Transcrits), sont spécialement conçus pour gérer les complexités des données RNA-seq. Ces outils peuvent mapper des lectures qui traversent les jonctions d'épissage en les divisant et en alignant chaque segment à différents exons.
STAR est devenu particulièrement populaire en raison de sa rapidité et de sa précision. Il construit un index de tableau de suffixes du génome de référence et utilise un algorithme qui trouve efficacement les préfixes mappables maximaux de chaque lecture. Pour un pipeline typique d'appel de variants RNA-seq, STAR peut être exécuté avec les paramètres suivants :
bash
STAR--genomeDir /chemin/vers/l'index_du_génome \
--lireFichiersDans sample_R1.fastq.gz sample_R2.fastq.gz \
--readFilesCommand zcat \
--outFileNamePrefix échantillon_ \
--outSAMtype BAM trié par coordonnées \
--modeDeuxPasses Basique \
--outFilterMultimapNmax 20 \
--alignSJoverhangMin 8 \
--alignSJDBoverhangMin 1 \
--outFilterMismatchNmax 999 \
--outFilterMismatchNoverReadLmax 0.04 \
--alignIntronMin 20 \
--alignIntronMax 1000000 \
--alignerMatesEcartMax 1000000
L'approche de cartographie en "deux passes" est particulièrement bénéfique pour l'appel de variants, car elle identifie d'abord les jonctions d'épissage à partir des données, puis utilise cette information pour guider l'alignement final.
Après l'alignement, plusieurs étapes de traitement supplémentaires sont nécessaires pour préparer les données pour l'appel de variants :
Parce que les aligners d'ARN ont des conventions différentes de celles des aligners d'ADN, il est nécessaire de reformater les alignements qui s'étendent sur des introns pour les appelants de variants comme HaplotypeCaller. L'étape SplitNCigarReads divise les lectures contenant N dans le CIGAR en plusieurs alignements supplémentaires et coupe de manière stricte les débordements non correspondants. Par défaut, elle réaffecte également les qualités de mappage pour les bons alignements afin de correspondre aux conventions de l'ADN.
Une commande GATK typique pour le traitement des alignements RNA-seq pourrait ressembler à :
bash
gatk SplitNCigarReads \
-R référence.fasta \
-I input.bam \
-O split.bam
gatk BaseRecalibrator \
-R référence.fasta \
-I split.bam \
--sites connus known_variants.vcf \
-O recal_data.table
gatk AppliquerBQSR \
-R référence.fasta \
-I split.bam \
--fichier-recal-bqsr recal_data.table \
-O recalibré.bam
Ces étapes de prétraitement sont essentielles pour un appel de variants précis, car elles aident à réduire les artefacts et les biais inhérents aux données de séquençage d'ARN. Un alignement et un traitement appropriés des lectures de séquençage d'ARN garantissent que les variants appelés dans les étapes suivantes sont de véritables différences génétiques plutôt que des artefacts techniques.
L'appel de variants à partir de données RNA-seq nécessite des approches spécialisées qui tiennent compte des caractéristiques uniques des données transcriptomiques. Plusieurs outils ont été développés ou adaptés à cet effet, avec le Genome Analysis Toolkit (GATK) HaplotypeCaller et DeepVariant qui émergent comme des options de premier plan.
GATK HaplotypeCaller utilise une approche d'assemblage local de novo pour appeler des variants, ce qui est particulièrement bénéfique pour les données RNA-seq où les alignements autour des sites d'épissage peuvent être complexes. Le Genome Analysis Toolkit (GATK) développé au Broad Institute fournit des pipelines à la pointe de la technologie pour la découverte de variants germinaux et somatiques et le génotypage.
Lorsqu'il est utilisé pour des données RNA-seq, HaplotypeCaller nécessite des paramètres spécifiques pour s'optimiser aux caractéristiques des données transcriptomiques :
bash
gatk HaplotypeCaller \
-R référence.fasta \
-J'ai recalibré.bam \
-O variants.vcf \
--ne-pas-utiliser-des-bases-découpées-doucement \
-stand-call-conf 20.0 \
--dbsnp dbSnp.vcf
Le paramètre --dont-use-soft-clipped-bases est particulièrement important pour les données RNA-seq, car il empêche l'appelant d'utiliser les portions de lectures soft-clipped, qui pourraient représenter des alignements à travers des jonctions d'épissage plutôt que de véritables variations.
Récemment, les approches basées sur l'apprentissage profond ont montré des résultats prometteurs pour l'appel de variants à partir de données RNA-seq. DeepVariant, un appelant de variants basé sur l'apprentissage profond, a été étendu pour apprendre et tenir compte des défis uniques présentés par les données RNA-seq. Le modèle RNA-seq de DeepVariant produit des appels de variants très précis à partir des données de séquençage d'ARN et surpasse les approches existantes telles que Platypus et GATK.
DeepVariant adopte une approche fondamentalement différente pour l'appel de variants par rapport aux méthodes traditionnelles. Il convertit les lectures alignées en images et utilise un réseau de neurones convolutionnels pour identifier les variants, de manière similaire à la reconnaissance d'images. Cette approche permet au modèle d'apprendre des motifs complexes dans les données qui pourraient être difficiles à capturer avec des algorithmes basés sur des règles.
Dans des comparaisons de référence, DeepVariant a montré une performance supérieure pour l'appel de variants. Dans une comparaison avec GATK HaplotypeCaller, DeepVariant a obtenu un ratio de transition à transversion (Ti/Tv) plus élevé (2,38 ± 0,02) que GATK (2,04 ± 0,07), ce qui suggère que DeepVariant a proportionnellement appelé plus de vrais positifs. Le taux de concordance entre les deux pipelines était de 88,73 %.
Bien que les méthodes ci-dessus soient principalement conçues pour l'appel de variants germinaux, les données RNA-seq peuvent également être utilisées pour identifier des mutations somatiques, en particulier dans la recherche sur le cancer. Pour l'appel de variants somatiques, des outils comme MuTect2 (qui fait partie de GATK) ou Strelka2 peuvent être adaptés aux données RNA-seq.
Cependant, l'appel de variants somatiques à partir de l'ARN-seq fait face à des défis supplémentaires, notamment :
Malgré ces défis, le RNA-seq peut fournir des informations précieuses sur le paysage mutationnel exprimé des tumeurs, complétant ainsi les approches basées sur l'ADN.
Ces dernières années, il y a eu un intérêt croissant pour le développement d'approches d'appel conjoint pour les données RNA-seq, similaires à celles couramment utilisées pour le séquençage ADN. Le pipeline GATK entièrement validé pour l'appel de variants sur les données RNA-seq était traditionnellement un flux de travail par échantillon qui n'incluait pas d'analyse de génotypage conjointe. Les efforts récents se sont concentrés sur la combinaison des commandes GATK modernes provenant de flux de travail distincts pour appeler des variants sur des échantillons RNA-seq en utilisant le génotypage conjoint.
Figure 3. Diversité des types de variantes d'ADN. (Stepanka Zverinova, 2021)
Même avec des méthodes spécialisées d'appel de variants, les données RNA-seq peuvent produire de nombreux faux positifs en raison des complexités inhérentes aux données transcriptomiques. Par conséquent, un filtrage rigoureux est essentiel pour distinguer les véritables variants des artefacts.
Plusieurs facteurs peuvent conduire à des appels de variants faussement positifs dans les données RNA-seq :
Pour filtrer efficacement les artefacts des appels de variants RNA-seq, plusieurs stratégies peuvent être employées. Celles-ci incluent l'exclusion des variants dans les sites d'édition de l'ARN, le filtrage des variants dans les régions à faible complexité des séquences codantes, et la suppression des variants génétiques communs en utilisant des bases de données telles que 1000 Genomes, gnomAD et dbSNP.
Une approche de filtrage complète pourrait inclure :
Exemple de commande GATK VariantFiltration :
bash
gatk VariantFiltration \
-R référence.fasta \
-V variants.vcf \
-O variants_filtrés.vcf \
--filter-name "BiaisDeBrin" \
--expression-filtre "FS > 30.0" \
--filter-name "QualParProfondeur" \
--expression-de-filtre "QD < 2.0" \
--filter-name "ReadPosRankSum" \
--filter-expression "ReadPosRankSum < -8.0" \
--filter-name "ÉvénementsGroupés" \
--taille-fenêtre-cluster 35 \
--taille-du-cluster 3
Dans le filtrage des variants RNA-seq de GATK, des paramètres supplémentaires sont souvent inclus pour filtrer les événements groupés qui peuvent encombrer les fichiers de résultats, comme le paramètre de taille de cluster qui spécifie le nombre de SNPs qui composent un cluster (valeur par défaut : 3).
Des approches récentes ont également tiré parti de l'apprentissage automatique pour améliorer le filtrage des variants dans les données de séquençage d'ARN. Ces méthodes peuvent apprendre des motifs complexes qui discriminent entre les véritables variants et les artefacts, améliorant potentiellement les approches de filtrage basées sur des règles.
Figure 4. Analyse du SNP acquis au début d'Eip63E dans w1118; iso-2; iso-3. (Pablo Cingolani, 2012)
La validation des variants appelés à partir des données RNA-seq est cruciale pour garantir la fiabilité des résultats. Plusieurs approches sont disponibles pour la validation, allant des méthodes de séquençage orthogonales à l'évaluation par rapport à des ensembles de données de référence.
La norme d'or pour valider les variants d'ARN-seq est la comparaison avec des données de séquençage ADN appariées provenant du même individu. Dans les études de séquençage clinique, les variants sont généralement filtrés pour éliminer les artefacts récurrents associés à l'alignement des lectures courtes et peuvent être confirmés visuellement par un examen manuel des alignements de séquence.
Lors de la comparaison des variantes RNA-seq et DNA-seq, plusieurs schémas peuvent émerger :
Le taux de concordance entre les variants RNA-seq et DNA-seq peut varier en fonction des niveaux d'expression. Les gènes fortement exprimés montrent généralement une plus grande concordance, tandis que les gènes faiblement exprimés peuvent présenter plus de divergences en raison d'une couverture insuffisante dans les données RNA-seq.
Bien que les méthodes ci-dessus soient principalement conçues pour l'appel de variantes germinales, les données RNA-seq peuvent également être utilisées pour identifier des mutations somatiques, en particulier dans la recherche sur le cancer. Pour l'appel de variantes somatiques, des outils comme MuTect2 (fait partie de GATK) ou Strelka2 peuvent être adaptés aux données RNA-seq.
Cependant, l'appel de variants somatiques à partir de l'ARN-seq fait face à des défis supplémentaires, notamment :
En l'absence de données de séquençage ADN appariées, des ensembles de données synthétiques ou de référence peuvent être utilisés pour évaluer les pipelines d'appel de variants. Le projet Sequencing Quality Control 2 (SEQC2), dirigé par la FDA, a développé des matériaux de référence pouvant être partagés par les laboratoires pour une évaluation standardisée des technologies de séquençage de nouvelle génération (NGS). SEQC2 a développé des contrôles synthétiques qui fournissent une représentation sans ambiguïté de séquences difficiles, y compris des variants complexes, qui peuvent être utilisés pour évaluer les performances de diverses technologies de séquençage.
Ces ensembles de données synthétiques fournissent des appels de variantes de vérité de terrain contre lesquels les pipelines d'appel de variantes RNA-seq peuvent être évalués. Les métriques couramment utilisées pour l'évaluation comprennent :
Des études de référence ont montré que le modèle DeepVariant RNA-seq atteint le score F1 médian le plus élevé dans différentes régions génomiques, performe le mieux dans les régions CDS. De plus, les comparaisons de performances en termes de temps d'exécution ont montré que les modèles DeepVariant RNA-seq sont plus rapides que GATK, tout en maintenant une précision supérieure.
Une autre approche de validation consiste à intégrer les appels de variants avec des informations fonctionnelles. Par exemple, les variants qui sont prédits avoir un impact fonctionnel significatif (par exemple, les mutations sans sens, les mutations par décalage de cadre) et qui se produisent dans des gènes connus pour être associés au phénotype étudié sont plus susceptibles d'être authentiques et biologiquement pertinents.
De même, les variantes qui montrent des motifs cohérents à travers plusieurs échantillons ou qui sont enrichies dans des conditions biologiques spécifiques peuvent avoir une confiance plus élevée. Par exemple, les mutations récurrentes dans des échantillons de cancer peuvent représenter des mutations conductrices, même si elles ne sont pas validées par séquençage ADN.
Malgré les avancées dans les méthodes de filtrage et de validation automatisées, la révision manuelle des appels de variants reste une étape importante dans de nombreuses études, en particulier pour les variants cliniquement pertinents. Des outils comme l'Integrative Genomics Viewer (IGV) permettent aux chercheurs de visualiser les lectures alignées soutenant chaque variant, aidant ainsi à identifier d'éventuels artefacts ou désalignements.
Lors de l'examen des variants RNA-seq dans IGV, une attention particulière doit être portée à :
La confirmation visuelle par examen manuel des alignements de séquences reste une étape de validation importante dans les études de séquençage clinique, où l'exactitude des appels de variants est primordiale.
L'appel de variants par RNA-seq offre une approche précieuse pour identifier les variants génétiques au sein de la portion transcrite du génome. Bien qu'il présente des défis uniques par rapport au séquençage ADN, les avancées dans les méthodes et outils bioinformatiques ont considérablement amélioré la précision et la fiabilité de l'appel de variants à partir des données RNA-seq.
Le pipeline décrit dans cet article—de l'assurance qualité et du prétraitement à l'alignement, à l'appel de variants, au filtrage et à la validation—fournit un cadre complet pour extraire des appels de variants à haute confiance à partir de données RNA-seq. En tirant parti de paramètres spécifiques à l'ARN et de stratégies de filtrage, les chercheurs peuvent efficacement distinguer les variants authentiques des artefacts techniques.
Les développements récents, en particulier l'application d'approches d'apprentissage profond comme DeepVariant, ont repoussé les limites de ce qui est possible avec l'appel de variants RNA-seq. Le modèle RNA-seq de DeepVariant a montré des performances supérieures par rapport aux méthodes traditionnelles, mettant en évidence le potentiel de l'apprentissage automatique pour relever les défis complexes inhérents à données transcriptomiques.
À mesure que les technologies de séquençage continuent d'évoluer et que les méthodes computationnelles s'améliorent, l'appel de variants par RNA-seq deviendra probablement un outil de plus en plus précieux dans la recherche génomique, fournissant des informations sur les conséquences fonctionnelles des variations génétiques et leur rôle dans la santé et la maladie humaines.
Références :