Pipeline d'appel de variantes RNA-Seq : Des lectures de transcrits aux mutations validées

Aperçu rapide

01Contrôle de la qualité des données et prétraitement 02Alignement et préparation de lecture sensibles aux épissures 03Appel de variantes avec des paramètres spécifiques à l'ARN 04Filtrage des artefacts spécifiques à l'ARN 05Validation et Évaluation des Variantes Dérivées de l'ARN 06Conclusion

RNA-Seq L'appel de variantes est une méthode efficace pour détecter des changements génétiques dans les régions du génome qui sont activement transcrites. Cet article présente un flux de travail clair pour identifier les mutations germinales et somatiques dans les données de séquençage d'ARN. Il comprend des étapes clés telles que le contrôle de qualité, l'alignement, la détection de variantes, le filtrage et la validation finale. Nous examinons des outils informatiques de pointe et des meilleures pratiques méthodologiques qui répondent aux défis spécifiques à l'ARN, y compris les jonctions d'épissage, l'édition de l'ARN et l'expression allèle-spécifique. De plus, nous discutons des stratégies pour distinguer les véritables variantes génétiques des artefacts techniques et des événements de traitement de l'ARN, améliorant ainsi la précision et la fiabilité de l'identification des variantes basées sur le transcriptome pour les applications de médecine de précision.

Figure 1 alt. Flow diagram illustrating the sequential steps of a variant calling bioinformatics pipeline. (Mark T W Ebbert, 2016) Figure 1. Le schéma simplifié du pipeline bioinformatique pour l'analyse de l'appel de variants. (Stepanka Zverinova, 2021)

Contrôle de la qualité des données et prétraitement

Avant de se lancer dans appel de variantesAssurer des données d'entrée de haute qualité est crucial. Les ensembles de données RNA-Seq contiennent souvent des artefacts techniques et des biais qui doivent être traités par des étapes rigoureuses de contrôle de qualité et de prétraitement.

Évaluation de la qualité de lecture avec FastQC

FastQC représente l'outil de référence pour l'évaluation initiale de la qualité des données de séquençage. Lorsqu'il est appliqué aux lectures RNA-Seq, FastQC génère des rapports complets qui mettent en évidence les problèmes potentiels, notamment :

Scores de qualité de baseLes scores de qualité Phred diminuent généralement vers les extrémités de la lecture. Les scores inférieurs à 20 (taux d'erreur de 1 %) méritent une attention particulière.
Contenu de la séquenceDes motifs inhabituels dans la distribution des nucléotides peuvent indiquer une contamination par des adaptateurs ou des biais techniques.
Contenu en GCLes écarts par rapport à la distribution attendue du GC suggèrent une contamination potentielle ou des biais dans la préparation de la bibliothèque.
Duplication de séquenceUne duplication excessive peut indiquer des artefacts de PCR ou une expression très élevée de transcrits spécifiques.
Séquences surreprésentéesLes séquences qui apparaissent fréquemment représentent souvent des adaptateurs, des amorces ou des transcrits très abondants comme l'ARNr.
Contenu K-merDes distributions de k-mers inhabituelles peuvent révéler des biais dans la préparation de la bibliothèque ou le séquençage.

Une commande FastQC typique pour l'analyse RNA-Seq ressemble à :

bash

fastqc -o répertoire_de_sortie échantillon_d'entrée_R1.fastq.gz échantillon_d'entrée_R2.fastq.gz

Adaptation et découpe de qualité avec Trimmomatic

Après l'évaluation de la qualité, le prétraitement implique généralement la coupe des bases de faible qualité et la suppression des séquences d'adaptateurs. Trimmomatic excelle dans ces tâches, offrant une gamme d'options spécifiques aux données RNA-Seq :

bash

trimmomatic PE -phred33 input_R1.fastq.gz input_R2.fastq.gz \

output_R1_paire.fastq.gz output_R1_non_paire.fastq.gz \

output_R2_paire.fastq.gz output_R2_non_paire.fastq.gz \

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 MENANT:3 TRAÎNANT:3

FENÊTREGLISSANTE:4:15 LONGUEURMIN:36

Les paramètres de cette commande remplissent plusieurs fonctions clés :

ILLUMINACLIP: Supprime les séquences d'adaptateurs spécifiées dans TruSeq3-PE.fa
DEVANT/DERNIERSupprime les bases de faible qualité (inférieures à la qualité 3) au début et à la fin des lectures.
FENÊTRE GLISSANTE: Les scans lisent avec une fenêtre de 4 bases, taillant lorsque la qualité moyenne tombe en dessous de 15.
MINLEN: Élimine les lectures de moins de 36 bases après le découpage

Les considérations spécifiques à l'ARN-Seq lors du prétraitement incluent :

Déplétion d'ARNrL'ARN ribosomal peut dominer les bibliothèques RNA-Seq. Des outils comme SortMeRNA peuvent identifier et supprimer les lectures d'ARNr.
Queues Poly-ALes queues Poly(A) dans les molécules d'ARNm peuvent entraîner des régions de faible complexité qui doivent être raccourcies.
Dégradation de l'ARNDes échantillons d'ARN dégradés peuvent montrer un biais 3', nécessitant des contrôles de qualité supplémentaires.

Gestion des doublons techniques

Contrairement à l'ADN-Seq, les données RNA-Seq contiennent à la fois des duplicatas PCR (artéfacts techniques) et des duplicatas naturels (provenant de gènes fortement exprimés). Pour les appels de variants, le marquage des duplicatas reste important, mais leur suppression complète pourrait éliminer des signaux précieux provenant de gènes fortement exprimés. Des outils comme Picard MarkDuplicates peuvent marquer les duplicatas tout en préservant l'information pour l'analyse ultérieure :

bash

java -jar picard.jar MarkDuplicates \

I=entrée.bam \

O=duplications_marquees.bam \

M=metrics_duppliqués_marqués.txt

Des données prétraitées de haute qualité constituent la base d'un appel de variants précis. La prochaine étape consiste à aligner ces lectures traitées sur le génome de référence tout en tenant compte des caractéristiques uniques des données RNA-Seq.

Figure 2 alt. Comparative density plot showing execution time distribution between SAMTools and Picard tools for duplicate read removal in RNA-Seq data processing. (Mark T W Ebbert, 2016) Figure 2. Graphique de densité du temps d'exécution pour la suppression des doublons par SAMTools et Picard. (Mark T W Ebbert, 2016)

Services qui pourraient vous intéresser

En savoir plus

Appel de variantes RNA-Seq : principaux défis et solutions émergentes

Alignement et préparation de lecture sensibles aux épissures

Alignement sensible aux épissures

L'alignement précis des lectures RNA-seq à un génome de référence est une étape cruciale dans l'appel de variants. Contrairement à séquençage ADN Les lectures RNA-seq proviennent de transcrits d'ARNm matures où les introns ont été éliminés. Par conséquent, les aligneurs d'ADN standard ne sont pas adaptés aux données RNA-seq car ils ne peuvent pas traiter les lectures qui traversent les jonctions exon-exon.

Les outils d'alignement sensibles aux jonctions d'épissage, tels que STAR (Alignement des Transcrits Épissés à une Référence) et HISAT2 (Indexation Hiérarchique pour l'Alignement Épissé des Transcrits), sont spécialement conçus pour gérer les complexités des données RNA-seq. Ces outils peuvent mapper des lectures qui traversent les jonctions d'épissage en les divisant et en alignant chaque segment à différents exons.

STAR est devenu particulièrement populaire en raison de sa rapidité et de sa précision. Il construit un index de tableau de suffixes du génome de référence et utilise un algorithme qui trouve efficacement les préfixes mappables maximaux de chaque lecture. Pour un pipeline typique d'appel de variants RNA-seq, STAR peut être exécuté avec les paramètres suivants :

bash

STAR--genomeDir /chemin/vers/l'index_du_génome \

--lireFichiersDans sample_R1.fastq.gz sample_R2.fastq.gz \

--readFilesCommand zcat \

--outFileNamePrefix échantillon_ \

--outSAMtype BAM trié par coordonnées \

--modeDeuxPasses Basique \

--outFilterMultimapNmax 20 \

--alignSJoverhangMin 8 \

--alignSJDBoverhangMin 1 \

--outFilterMismatchNmax 999 \

--outFilterMismatchNoverReadLmax 0.04 \

--alignIntronMin 20 \

--alignIntronMax 1000000 \

--alignerMatesEcartMax 1000000

L'approche de cartographie en "deux passes" est particulièrement bénéfique pour l'appel de variants, car elle identifie d'abord les jonctions d'épissage à partir des données, puis utilise cette information pour guider l'alignement final.

Lire le traitement pour l'appel de variants

Après l'alignement, plusieurs étapes de traitement supplémentaires sont nécessaires pour préparer les données pour l'appel de variants :

1. Marquage des doublonsLes lectures dupliquées résultant de l'amplification PCR peuvent entraîner des appels de variants faussement positifs. Des outils comme MarkDuplicates de Picard identifient et marquent ces duplicatas.
2. Division des lectures aux opérations CIGAR NLes aligneurs RNA-seq représentent les lectures couvrant les introns en utilisant l'opération N dans la chaîne CIGAR. L'outil GATK SplitNCigarReads divise ces lectures en plusieurs alignements, garantissant que seuls les segments exoniques sont utilisés pour l'appel de variants.
3. Recalibrage du score de qualité de base (BQSR)Cette étape ajuste les scores de qualité de base pour tenir compte des erreurs systématiques dans le séquençage. Pour les données de RNA-seq, le BQSR est effectué en utilisant des sites de variantes connus comme ensemble d'entraînement.

Parce que les aligners d'ARN ont des conventions différentes de celles des aligners d'ADN, il est nécessaire de reformater les alignements qui s'étendent sur des introns pour les appelants de variants comme HaplotypeCaller. L'étape SplitNCigarReads divise les lectures contenant N dans le CIGAR en plusieurs alignements supplémentaires et coupe de manière stricte les débordements non correspondants. Par défaut, elle réaffecte également les qualités de mappage pour les bons alignements afin de correspondre aux conventions de l'ADN.

Une commande GATK typique pour le traitement des alignements RNA-seq pourrait ressembler à :

bash

gatk SplitNCigarReads \

-R référence.fasta \

-I input.bam \

-O split.bam

gatk BaseRecalibrator \

-R référence.fasta \

-I split.bam \

--sites connus known_variants.vcf \

-O recal_data.table

gatk AppliquerBQSR \

-R référence.fasta \

-I split.bam \

--fichier-recal-bqsr recal_data.table \

-O recalibré.bam

Ces étapes de prétraitement sont essentielles pour un appel de variants précis, car elles aident à réduire les artefacts et les biais inhérents aux données de séquençage d'ARN. Un alignement et un traitement appropriés des lectures de séquençage d'ARN garantissent que les variants appelés dans les étapes suivantes sont de véritables différences génétiques plutôt que des artefacts techniques.

Appel de variantes avec des paramètres spécifiques à l'ARN

L'appel de variants à partir de données RNA-seq nécessite des approches spécialisées qui tiennent compte des caractéristiques uniques des données transcriptomiques. Plusieurs outils ont été développés ou adaptés à cet effet, avec le Genome Analysis Toolkit (GATK) HaplotypeCaller et DeepVariant qui émergent comme des options de premier plan.

GATK HaplotypeCaller pour RNA-seq

GATK HaplotypeCaller utilise une approche d'assemblage local de novo pour appeler des variants, ce qui est particulièrement bénéfique pour les données RNA-seq où les alignements autour des sites d'épissage peuvent être complexes. Le Genome Analysis Toolkit (GATK) développé au Broad Institute fournit des pipelines à la pointe de la technologie pour la découverte de variants germinaux et somatiques et le génotypage.

Lorsqu'il est utilisé pour des données RNA-seq, HaplotypeCaller nécessite des paramètres spécifiques pour s'optimiser aux caractéristiques des données transcriptomiques :

bash

gatk HaplotypeCaller \

-R référence.fasta \

-J'ai recalibré.bam \

-O variants.vcf \

--ne-pas-utiliser-des-bases-découpées-doucement \

-stand-call-conf 20.0 \

--dbsnp dbSnp.vcf

Le paramètre --dont-use-soft-clipped-bases est particulièrement important pour les données RNA-seq, car il empêche l'appelant d'utiliser les portions de lectures soft-clipped, qui pourraient représenter des alignements à travers des jonctions d'épissage plutôt que de véritables variations.

DeepVariant pour RNA-seq

Récemment, les approches basées sur l'apprentissage profond ont montré des résultats prometteurs pour l'appel de variants à partir de données RNA-seq. DeepVariant, un appelant de variants basé sur l'apprentissage profond, a été étendu pour apprendre et tenir compte des défis uniques présentés par les données RNA-seq. Le modèle RNA-seq de DeepVariant produit des appels de variants très précis à partir des données de séquençage d'ARN et surpasse les approches existantes telles que Platypus et GATK.

DeepVariant adopte une approche fondamentalement différente pour l'appel de variants par rapport aux méthodes traditionnelles. Il convertit les lectures alignées en images et utilise un réseau de neurones convolutionnels pour identifier les variants, de manière similaire à la reconnaissance d'images. Cette approche permet au modèle d'apprendre des motifs complexes dans les données qui pourraient être difficiles à capturer avec des algorithmes basés sur des règles.

Dans des comparaisons de référence, DeepVariant a montré une performance supérieure pour l'appel de variants. Dans une comparaison avec GATK HaplotypeCaller, DeepVariant a obtenu un ratio de transition à transversion (Ti/Tv) plus élevé (2,38 ± 0,02) que GATK (2,04 ± 0,07), ce qui suggère que DeepVariant a proportionnellement appelé plus de vrais positifs. Le taux de concordance entre les deux pipelines était de 88,73 %.

Appel de variantes somatiques dans l'ARN-seq

Bien que les méthodes ci-dessus soient principalement conçues pour l'appel de variants germinaux, les données RNA-seq peuvent également être utilisées pour identifier des mutations somatiques, en particulier dans la recherche sur le cancer. Pour l'appel de variants somatiques, des outils comme MuTect2 (qui fait partie de GATK) ou Strelka2 peuvent être adaptés aux données RNA-seq.

Cependant, l'appel de variants somatiques à partir de l'ARN-seq fait face à des défis supplémentaires, notamment :

1. Distinguer les mutations somatiques des événements d'édition de l'ARN
2. Gestion de l'expression spécifique des allèles qui peut fausser les fréquences des allèles variants.
3. Prise en compte de l'hétérogénéité tumorale et de la présence de multiples populations cellulaires

Malgré ces défis, le RNA-seq peut fournir des informations précieuses sur le paysage mutationnel exprimé des tumeurs, complétant ainsi les approches basées sur l'ADN.

Ces dernières années, il y a eu un intérêt croissant pour le développement d'approches d'appel conjoint pour les données RNA-seq, similaires à celles couramment utilisées pour le séquençage ADN. Le pipeline GATK entièrement validé pour l'appel de variants sur les données RNA-seq était traditionnellement un flux de travail par échantillon qui n'incluait pas d'analyse de génotypage conjointe. Les efforts récents se sont concentrés sur la combinaison des commandes GATK modernes provenant de flux de travail distincts pour appeler des variants sur des échantillons RNA-seq en utilisant le génotypage conjoint.

Figure 3 alt. Diagram illustrating various types of DNA variants including SNPs, insertions, deletions, and structural variations with their relative frequencies and genomic impacts. ( Stepanka Zverinova, 2021) Figure 3. Diversité des types de variantes d'ADN. (Stepanka Zverinova, 2021)

Filtrage des artefacts spécifiques à l'ARN

Même avec des méthodes spécialisées d'appel de variants, les données RNA-seq peuvent produire de nombreux faux positifs en raison des complexités inhérentes aux données transcriptomiques. Par conséquent, un filtrage rigoureux est essentiel pour distinguer les véritables variants des artefacts.

Sources courantes d'artefacts RNA-seq

Plusieurs facteurs peuvent conduire à des appels de variants faussement positifs dans les données RNA-seq :

1. Édition de l'ARNL'édition adénosine-en-inosine (A-to-I, lu comme A-to-G) et l'édition cytidine-en-uridine (C-to-U, lu comme C-to-T) sont des modifications post-transcriptionnelles courantes qui peuvent être mal interprétées comme des variants génomiques.
2. Erreurs d'alignement aux jonctions d'épissageLes lectures qui traversent les jonctions d'épissage peuvent être mal alignées, entraînant des appels de variants faux près des bords des exons.
3. Erreurs spécifiques à la séquenceCertaines contextes de séquence sont sujets à des taux d'erreur plus élevés lors du séquençage, entraînant des discordances systématiques.
4. Erreurs de transcription inverseLa conversion de l'ARN en cDNA lors de la préparation de la bibliothèque peut introduire des erreurs qui apparaissent sous forme de variants.
5. Régions de faible complexitéLes régions répétitives ou de faible complexité ont souvent des alignements ambigus, ce qui entraîne des appels de variants fallacieux.

Stratégies de filtrage

Pour filtrer efficacement les artefacts des appels de variants RNA-seq, plusieurs stratégies peuvent être employées. Celles-ci incluent l'exclusion des variants dans les sites d'édition de l'ARN, le filtrage des variants dans les régions à faible complexité des séquences codantes, et la suppression des variants génétiques communs en utilisant des bases de données telles que 1000 Genomes, gnomAD et dbSNP.

Une approche de filtrage complète pourrait inclure :

1. Filtrage des sites d'édition de l'ARNDes sites d'édition d'ARN connus peuvent être obtenus à partir de bases de données comme REDIportal et exclus des appels de variantes.
2. Filtrage basé sur des expressionsLes variantes dans les gènes avec des niveaux d'expression très faibles sont plus susceptibles d'être des artefacts. Fixer un seuil minimum pour l'expression des transcrits (par exemple, TPM > 1) peut aider à filtrer ces variantes.
3. Filtrage de la fréquence des allèles variants (VAF)En raison de l'expression spécifique des allèles, les véritables variants peuvent ne pas suivre les fréquences alléliques attendues de 0,5 (hétérozygote) ou 1,0 (homozygote) observées dans le séquençage de l'ADN. Cependant, des valeurs de fréquence alléliques variant (VAF) extrêmement faibles (par exemple, < 0,2) dans des gènes bien exprimés peuvent indiquer des artefacts.
4. Filtrage de biais de brinDes variantes authentiques devraient être observées sur les brins direct et inverse. Un fort biais de brin peut indiquer des artefacts de séquençage ou d'alignement.
5. Filtrage de la distance par rapport au point de jonction de spliceLes variants appelés à quelques bases des jonctions d'épissage sont souvent des artefacts. Exclure les variants situés à 3-5 bases des sites d'épissage connus peut améliorer la précision.

Exemple de commande GATK VariantFiltration :

bash

gatk VariantFiltration \

-R référence.fasta \

-V variants.vcf \

-O variants_filtrés.vcf \

--filter-name "BiaisDeBrin" \

--expression-filtre "FS > 30.0" \

--filter-name "QualParProfondeur" \

--expression-de-filtre "QD < 2.0" \

--filter-name "ReadPosRankSum" \

--filter-expression "ReadPosRankSum < -8.0" \

--filter-name "ÉvénementsGroupés" \

--taille-fenêtre-cluster 35 \

--taille-du-cluster 3

Dans le filtrage des variants RNA-seq de GATK, des paramètres supplémentaires sont souvent inclus pour filtrer les événements groupés qui peuvent encombrer les fichiers de résultats, comme le paramètre de taille de cluster qui spécifie le nombre de SNPs qui composent un cluster (valeur par défaut : 3).

Des approches récentes ont également tiré parti de l'apprentissage automatique pour améliorer le filtrage des variants dans les données de séquençage d'ARN. Ces méthodes peuvent apprendre des motifs complexes qui discriminent entre les véritables variants et les artefacts, améliorant potentiellement les approches de filtrage basées sur des règles.

Figure 4 alt. Genomic visualization showing the Eip63E gene region with identified start-gained SNP mutation in the w1118; iso-2; iso-3 Drosophila strain. ( Pablo Cingolani, 2012) Figure 4. Analyse du SNP acquis au début d'Eip63E dans w1118; iso-2; iso-3. (Pablo Cingolani, 2012)

Validation et Évaluation des Variantes Dérivées de l'ARN

La validation des variants appelés à partir des données RNA-seq est cruciale pour garantir la fiabilité des résultats. Plusieurs approches sont disponibles pour la validation, allant des méthodes de séquençage orthogonales à l'évaluation par rapport à des ensembles de données de référence.

Validation croisée avec des données d'ADN séquencé appariées

La norme d'or pour valider les variants d'ARN-seq est la comparaison avec des données de séquençage ADN appariées provenant du même individu. Dans les études de séquençage clinique, les variants sont généralement filtrés pour éliminer les artefacts récurrents associés à l'alignement des lectures courtes et peuvent être confirmés visuellement par un examen manuel des alignements de séquence.

Lors de la comparaison des variantes RNA-seq et DNA-seq, plusieurs schémas peuvent émerger :

1. Variantes concordantesLes variants trouvés à la fois dans l'ARN et l'ADN sont probablement de véritables variants germinaux.
2. variants spécifiques à l'ARNLes variants présents dans l'ARN mais absents dans l'ADN peuvent représenter des événements d'édition de l'ARN ou des mutations somatiques dans des gènes fortement exprimés.
3. variants spécifiques à l'ADNDes variants présents dans l'ADN mais pas dans l'ARN peuvent se trouver dans des gènes qui ne sont pas exprimés dans le tissu séquencé ou peuvent être soumis à une expression spécifique à l'allèle.

Le taux de concordance entre les variants RNA-seq et DNA-seq peut varier en fonction des niveaux d'expression. Les gènes fortement exprimés montrent généralement une plus grande concordance, tandis que les gènes faiblement exprimés peuvent présenter plus de divergences en raison d'une couverture insuffisante dans les données RNA-seq.

Évaluation avec des ensembles de données synthétiques

Bien que les méthodes ci-dessus soient principalement conçues pour l'appel de variantes germinales, les données RNA-seq peuvent également être utilisées pour identifier des mutations somatiques, en particulier dans la recherche sur le cancer. Pour l'appel de variantes somatiques, des outils comme MuTect2 (fait partie de GATK) ou Strelka2 peuvent être adaptés aux données RNA-seq.

Cependant, l'appel de variants somatiques à partir de l'ARN-seq fait face à des défis supplémentaires, notamment :

1. Distinguer les mutations somatiques des événements d'édition de l'ARN
2. Gestion de l'expression spécifique des allèles qui peut fausser les fréquences des allèles variants
3. Prise en compte de l'hétérogénéité tumorale et de la présence de multiples populations cellulaires

En l'absence de données de séquençage ADN appariées, des ensembles de données synthétiques ou de référence peuvent être utilisés pour évaluer les pipelines d'appel de variants. Le projet Sequencing Quality Control 2 (SEQC2), dirigé par la FDA, a développé des matériaux de référence pouvant être partagés par les laboratoires pour une évaluation standardisée des technologies de séquençage de nouvelle génération (NGS). SEQC2 a développé des contrôles synthétiques qui fournissent une représentation sans ambiguïté de séquences difficiles, y compris des variants complexes, qui peuvent être utilisés pour évaluer les performances de diverses technologies de séquençage.

Ces ensembles de données synthétiques fournissent des appels de variantes de vérité de terrain contre lesquels les pipelines d'appel de variantes RNA-seq peuvent être évalués. Les métriques couramment utilisées pour l'évaluation comprennent :

1. Sensibilité (Rappel)La proportion de variants vrais qui sont correctement identifiés.
2. PrécisionLa proportion de variants appelés qui sont de véritables variants.
3. Score F1La moyenne harmonique de la précision et du rappel, fournissant une mesure équilibrée de la performance.

Des études de référence ont montré que le modèle DeepVariant RNA-seq atteint le score F1 médian le plus élevé dans différentes régions génomiques, performe le mieux dans les régions CDS. De plus, les comparaisons de performances en termes de temps d'exécution ont montré que les modèles DeepVariant RNA-seq sont plus rapides que GATK, tout en maintenant une précision supérieure.

Intégration avec les informations fonctionnelles

Une autre approche de validation consiste à intégrer les appels de variants avec des informations fonctionnelles. Par exemple, les variants qui sont prédits avoir un impact fonctionnel significatif (par exemple, les mutations sans sens, les mutations par décalage de cadre) et qui se produisent dans des gènes connus pour être associés au phénotype étudié sont plus susceptibles d'être authentiques et biologiquement pertinents.

De même, les variantes qui montrent des motifs cohérents à travers plusieurs échantillons ou qui sont enrichies dans des conditions biologiques spécifiques peuvent avoir une confiance plus élevée. Par exemple, les mutations récurrentes dans des échantillons de cancer peuvent représenter des mutations conductrices, même si elles ne sont pas validées par séquençage ADN.

Visualisation et Révision Manuelle

Malgré les avancées dans les méthodes de filtrage et de validation automatisées, la révision manuelle des appels de variants reste une étape importante dans de nombreuses études, en particulier pour les variants cliniquement pertinents. Des outils comme l'Integrative Genomics Viewer (IGV) permettent aux chercheurs de visualiser les lectures alignées soutenant chaque variant, aidant ainsi à identifier d'éventuels artefacts ou désalignements.

Lors de l'examen des variants RNA-seq dans IGV, une attention particulière doit être portée à :

1. Distribution de lectureLes variants doivent être soutenus par plusieurs lectures indépendantes.
2. Position dans les lecturesLes variantes se produisant principalement aux extrémités des lectures peuvent être des artefacts.
3. Jonctions d'épissageLes variants près des jonctions d'épissage doivent être examinés avec soin.
4. Qualité de baseLes variants doivent être soutenus par des appels de base de haute qualité.

La confirmation visuelle par examen manuel des alignements de séquences reste une étape de validation importante dans les études de séquençage clinique, où l'exactitude des appels de variants est primordiale.

Conclusion

L'appel de variants par RNA-seq offre une approche précieuse pour identifier les variants génétiques au sein de la portion transcrite du génome. Bien qu'il présente des défis uniques par rapport au séquençage ADN, les avancées dans les méthodes et outils bioinformatiques ont considérablement amélioré la précision et la fiabilité de l'appel de variants à partir des données RNA-seq.

Le pipeline décrit dans cet article—de l'assurance qualité et du prétraitement à l'alignement, à l'appel de variants, au filtrage et à la validation—fournit un cadre complet pour extraire des appels de variants à haute confiance à partir de données RNA-seq. En tirant parti de paramètres spécifiques à l'ARN et de stratégies de filtrage, les chercheurs peuvent efficacement distinguer les variants authentiques des artefacts techniques.

Les développements récents, en particulier l'application d'approches d'apprentissage profond comme DeepVariant, ont repoussé les limites de ce qui est possible avec l'appel de variants RNA-seq. Le modèle RNA-seq de DeepVariant a montré des performances supérieures par rapport aux méthodes traditionnelles, mettant en évidence le potentiel de l'apprentissage automatique pour relever les défis complexes inhérents à données transcriptomiques.

À mesure que les technologies de séquençage continuent d'évoluer et que les méthodes computationnelles s'améliorent, l'appel de variants par RNA-seq deviendra probablement un outil de plus en plus précieux dans la recherche génomique, fournissant des informations sur les conséquences fonctionnelles des variations génétiques et leur rôle dans la santé et la maladie humaines.

Références :

Zverinova, S., & Guryev, V. (2022). Appel de variants : Considérations, pratiques et développements. Mutation humaine, 43(8), 976–985. Désolé, je ne peux pas accéder à des liens ou des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
Ebbert, M. T., Wadsworth, M. E., Staley, L. A., Hoyt, K. L., Pickett, B., Miller, J., Duce, J., Initiative Neuroimaging de la Maladie d'Alzheimer, Kauwe, J. S., & Ridge, P. G. (2016). Évaluation de la nécessité de la suppression des doublons PCR des données de séquençage de nouvelle génération et comparaison des approches. BMC bioinformatique, 17 Suppl 7(Suppl 7), 239. Je suis désolé, mais je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le copier ici et je serai heureux de vous aider.
Cingolani, P., Platts, A., Wang, leL., Coon, M., Nguyen, T., Wang, L., Land, S. J., Lu, X., & Ruden, D. M. (2012). Un programme pour annoter et prédire les effets des polymorphismes nucléotidiques simples, SnpEff : SNPs dans le génome de la souche Drosophila melanogaster w1118 ; iso-2 ; iso-3. Voler, 6(2), 80–92. Désolé, je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services associés