Séquençage de l'exome entier (WES) cible environ 1-2 % des régions codantes de protéines (exons) dans le génome, détectant environ 85 % des variants pathogènes. Cependant, la fiabilité de ses données dépend fortement de procédures de contrôle de qualité rigoureuses. Les points clés de contrôle de qualité suivants sont basés sur des procédures expérimentales et la littérature.
I. Échantillon et contrôle de qualité de l'ADN
Collecte et conservation des échantillons
- Types d'échantillons : Sang (tubes anticoagulants EDTA recommandés), tissu (nécessite un congélation rapide ou une préservation avec RNAlater).
- Conditions de conservation : Court terme (4℃, ≤7 jours) ; Long terme (-80℃, éviter les cycles de congélation-dégel répétés).
- Précautions : Évitez la contamination par des nucléases ; les échantillons de tissu nécessitent une homogénéisation mécanique ou une digestion enzymatique (par exemple, digestion par la protéinase K).
Extraction d'ADN et contrôle de qualité
- Méthodes d'extraction : méthode phénol-chloroforme (haute pureté), méthode à billes magnétiques (automatisée), kit Qiagen (grade clinique).
- Indicateurs de contrôle de la qualité :
- Concentration : ≥50 ng/μL (exigence minimale pour la construction de la bibliothèque), PCR quantitative Qubit 4.0 recommandée.
- Pureté : A260/A280 = 1,8-2,0 (pas de contamination par des protéines), A260/A230 > 2,0 (pas de résidu de sel).
- Intégrité : L'électrophorèse sur gel d'agarose montre une bande principale ≥10 kb (pas de dégradation significative), valeur RIN ≥8,0 (les échantillons d'interférence par ARN nécessitent des tests supplémentaires).
Fragmentation de l'ADN
- Fragmentation physique : sonication Covaris S220 (taille des fragments 50-200 pb, CV <5%).
- Digestion enzymatique : NEBNext Fragmentase (adapté pour les échantillons FFPE), une optimisation du temps de réaction est nécessaire pour éviter une sur-fragmentation.
II. Construction de bibliothèques et optimisation de l'efficacité de capture
Ligation et amplification d'adaptateurs
- Conception d'adaptateur : Illumina TruSeq (avec marqueurs de codes moléculaires) ou Agilent SureSelect (avec bloqueur pour prévenir la dimérisation des adaptateurs).
- Conditions d'amplification : KAPA HiFi HotStart ReadyMix (biais faible en GC), ≤12 cycles (pour éviter le biais de PCR).
Capture d'exons
- Conception de sondes : Agilent SureSelect XT (couvre les exons ±50 pb), IDT xGen (sondes personnalisées).
- Conditions de capture :
- Température d'hybridation : 65℃ (haute stringence), temps ≥16 heures.
- Conditions d'élution : lavage des billes magnétiques (tampon à faible salinité pour éliminer les liaisons non spécifiques).
- Contrôle de qualité post-capture :
- Couverture cible : ≥70 % (norme clinique), validée à l'aide du test SeqCap EZ (Roche).
- Reproductibilité : ≤5 % (détection des doublons Picard Mark).
III. Séquençage et contrôle de la qualité des données brutes
Sélection de la plateforme de séquençage
- Illumina NovaSeq 6000 : Longueur de lecture recommandée en paire de 150 pb (PE150), volume de données d'échantillon unique ≥50 Go (profondeur de couverture ≥100×).
- HiSeq 4000 : Coût réduit, mais longueur de lecture plus courte (PE125), adapté aux projets avec des budgets limités.
Filtrage des données brutes
- Analyse FastQC :
- Contenu en GC : La plage normale pour le génome humain est de 40 à 60 %. Des fluctuations anormales indiquent une contamination ou un biais de bibliothèque.
- Bases de mauvaise qualité : Les bases avec une valeur Q de queue <20 doivent être éliminées (paramètres Trimmomatic : LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15).
- Contamination des adaptateurs : identification et suppression automatiques à l'aide de Fastp (paramètre : --adapter_sequence AGATCGGAAGAGC).
- Contamination par PhiX : Si la proportion est >0,1 %, un resequencement est nécessaire (détection Kraken2, longueur de k-mer = 31).
Flux de travail pour l'analyse des données (Yin Y et al., 2019)
IV. Contrôle de la qualité de l'alignement et de la détection des variants
Alignement de séquence
- Sélection d'outils : BWA-MEM (paramètres par défaut, adapté aux longs insertions), Bowtie2 (faible consommation de mémoire).
- Génome de référence : hg38 (recommandé) ou hg19 (faire attention à la compatibilité des versions).
- Contrôle de qualité post-alignement :
- Taux de cartographie : ≥95 % (les valeurs aberrantes nécessitent une vérification de la contamination de l'échantillon ou des défauts de conception de la sonde).
- Distribution des insertions : Médiane de 200 à 400 pb (plateforme Illumina), les écarts indiquent des anomalies de structure de la bibliothèque.
Flux de travail de détection des variants
- Meilleures pratiques GATK :
- Marquage des doublons : Picard MarkDuplicates (paramètre : REMOVE_DUPLICATES=true).
- Correction de base : BaseRecalibrator (entraîné à l'aide des ensembles de données 1000G et Mills).
- Appel de variantes : HaplotypeCaller (mode -ERC GVCF, analyse conjointe multi-échantillons).
- Critères de filtrage :
- SNV : QD≥2.0, FS>60.0, MQRankSum≥-12.5.
- Indel : QD≥2,0, ReadPosRankSum≥-20,0.
- Notes fonctionnelles : ANNOVAR (Bases de données : RefSeq, ClinVar, COSMIC).
V. Contrôle de qualité avancé et visualisation
Analyse de la profondeur de couverture
- Outils : GATK DepthOfCoverage, IGV (carte thermique de couverture visualisée).
- Normes :
- Diagnostic clinique : Région cible ≥20× couverture ≥95%, région non cible ≤5×.
- Recherche sur les tumeurs : Les mutations somatiques doivent avoir une AF (fréquence allélique) ≥5 % et les variations germinales doivent être exclues.
Contrôle de la contamination
- Contamination inter-échantillons : VerifyBAMID (seuil ≤0,1 %), ContEst (basé sur la fréquence de population).
- Contamination des réactifs : détection du contrôle PhiX, contrôle sans modèle (NTC).
Outils de visualisation
- IGV : Examine le contexte de séquence entourant les sites de variantes (tels que les éléments répétitifs et les sites d'épissage).
- MultiQC : Intègre les rapports FastQC, BWA et GATK pour générer un graphique d'aperçu du contrôle qualité.
VI. Problèmes courants et solutions
| Problème |
Cause |
Solution |
| Couverture de région cible faible |
Efficacité d'hybridation des sondes faible |
Optimiser les conditions d'hybridation (étendre à 24 heures) ou augmenter l'apport en ADN à 100 ng. |
| Biais de haute trame |
Biais d'amplification PCR |
Utilisez des étiquettes de codes-barres moléculaires ou ajustez les paramètres de BWA (par exemple, -X 500) |
| Variantes de faux positifs |
Lectures de faible qualité ou erreurs de séquençage |
Appliquez des critères de filtrage plus stricts (par exemple, SAV ≥ 0,2) et validez avec le séquençage Sanger. |
| Effets de lot |
Conditions expérimentales incohérentes |
Analyse les lots ensemble ou applique une correction de lot (par exemple, ComBat dans R) |
VII. Application clinique et conformité
Interprétation du rapport
- Directives ACMG : Classification de la pathogénicité (Pathogène, Possiblement pathogène, Signification indéterminée, etc.).
- Validation familiale : Séquençage de Sanger confirme les variants du proband ; des échantillons parentaux sont testés pour les modèles d'hérédité.
Éthique et vie privée
- Consentement éclairé : Informer clairement l'individu de l'étendue des tests et de la stratégie de gestion des résultats inattendus (par exemple, les mutations BRCA1).
- Sécurité des données : Les données brutes sont cryptées et stockées (conformes aux normes HIPAA/GDPR).
VIII. Références et Outils
Références principales
- T/CHIA 21.2-2021 (Norme de contrôle de qualité du séquençage de l'exome en Chine)
- Meilleures pratiques GATK (Broad Institute)
Outils recommandés
- Contrôle de qualité : FastQC, MultiQC, Picard
- Alignement : BWA-MEM, Bowtie2
- Annotations : ANNOVAR, VEP, SnpEff
IX. Contrôle de qualité dans des cas pratiques
WES Contrôle de la qualité dans le VITT
Traitement et analyse des données
- Alignement : Alignement BWA des lectures sur le génome hg19 ; visualisation IGV pour les contrôles de qualité.
- Appel de variation : GATK haplotype caller pour l'identification des variants ; script R pour le calcul de la couverture et de la profondeur.
- Dépistage : Suppression des variants non fonctionnels (y compris les sous-types et les variants de type missense) ; conservation des SNV/Indels rares avec une MAF <0,01 ; concentration sur les gènes des voies cibles (coagulation, activation plaquettaire, etc.).
- Évaluation de la pathogénicité : 7 outils (PROVEAN, etc.) + classification selon les directives ACMG (VUS/LP/P).
Cohérence des données
Le nombre total de variants (plus de 140 000), la proportion de variants rares (1619–1774) et la distribution des types (y compris les sous-types 38 %–42 %, etc.) étaient similaires chez les 6 patients. La couverture a été calculée à l'aide d'un script unifié pour garantir la reproductibilité.
Éthique et indépendance
Avec l'approbation du comité d'éthique (Déclaration d'Helsinki), trois experts juridiques aveugles ont jugé le cas de manière indépendante selon la norme Pavord (Giusti B et al., 2024).
Contrôle de la qualité du WES pour les familles chinoises atteintes de cancer simultané
Contrôle de la qualité des échantillons et de l'ADN
- Tissu tumoral : >200 mg, congelé dans de l'azote liquide/-80°C ; traité avec FFPE (fixation au formaldéhyde à 4 %, inclusion en paraffine, sectionnement de 4 μm), examiné indépendamment par deux pathologistes (confirmant la malignité et excluant la métastase).
- Sang périphérique : 5 ml, ADN extrait à l'aide du kit QIAamp DNA Mini.
- Quantification de l'ADN : coupure soniquée à ~350 pb, purifiée avec AMPure XP, distribution de la taille des particules analysée à l'aide d'un Agilent 2100.
Préparation de la bibliothèque et contrôle de qualité du séquençage
- Construction de bibliothèque : capture d'exons utilisant Agilent SureSelect Human All ExonV5 (0,5 μg d'ADN en entrée), polissage des extrémités/ajout d'A/adaptation de ligature, suivi d'une amplification PCR KAPA HiFi HotStart.
- Quantification de la bibliothèque : méthode PCR avec kit KAPA (courbe standard), concentration de travail de 3 nM.
- Séquençage : plateforme de flux d'ions, séquençage des extrémités de 100 pb.
Contrôle de qualité du traitement et de l'analyse des données
- Filtrage des données : Suppression des lectures de faible qualité (avec des adaptateurs, N>10%, etc.), alignement BWA sur hg19, Picard+GATK v3.2 pour la dé-duplication/ré-alignement/calibration de base.
- Annotation de variation : Annoter les SNV avec GATK v3.0 (QD>2.0 est "bon") ; ANNOVAR référence les bases de données 1000 Genomes/dbSNP/CGC, annotant la fonction/le type d'exon/les changements d'acides aminés.
- Critères de filtrage : Supprimer les lectures avec une qualité <20, MAF>0,005, et les variantes synonymes ; conserver les variantes missense dans les exons/sites d'épissage.
- Couverture : profondeur moyenne 58 fois, ≥82,08 % des exons >10 fois de couverture, ratio transition/transversion 2,2–2,4 (normal).
Validation de la cohérence des données
- Distribution des variations : Varscan2 v2.3.9 a identifié des mutations somatiques et a croisé des gènes communs (par exemple, NDUFS7) ; le dépistage des mutations germinales a identifié des variants partagés par des patients qui n'ont pas affecté les individus (16 gènes, 17 SNV).
- Reproductibilité : score de qualité de l'échantillon >20, procédures standardisées, distribution cohérente des types de variants.
Éthique et indépendance
- Éthique : Approuvé par le comité d'éthique, conformément à la Déclaration d'Helsinki ; consentement éclairé écrit du patient.
- Indépendance : Deux pathologistes ont examiné indépendamment le tissu tumoral pour éviter tout biais diagnostique (Yin Y et al., 2019).
Flux de travail pour l'identification des mutations germinales (Yin Y et al., 2019)
Contrôle de qualité WES pour la détection de variations mitochondriales chez des centaines de milliers d'individus
Prétraitement des données et filtrage de la variance
Séquençage de l'exome (415 000 échantillons) et des données de génotypage par array (784 000 SNPs) ont été fusionnées. Les variants de faible qualité ont été filtrés : au niveau des variants (taux de suppression >10 %, variants isolés, nombre d'allèles mineurs <6) et au niveau des échantillons (taux de suppression >10 %) ont été exclus. 6 767 000 variants ont été conservés (autosomes + chromosome X, MAF ≥ 0,001).
Covariables et Contrôles de Confusion
Âge, sexe, 40 composantes principales (CP), et WES les effets de lot ont été ajustés. Une matrice de relation génétique (MRG) a été construite en utilisant BOLT-LMM. Pour les MRG clairsemées, les coefficients de parenté <0,0442 ont été fixés à 0.
Analyse de la variance et rigueur statistique
- Analyse de variante unique : une association a été détectée à l'aide de BOLT-LMM, une stratification chrX a été effectuée et des statistiques de regroupement METAL ont été utilisées. Une analyse de puissance a été réalisée à l'aide du package genpwr.
- Agrégation de variantes rares : Le paquet GENESIS a testé 9 combinaisons (nocives : toutes non-synonymes/CADD≥18/pLoF ; fréquence : MAF≤1%/0,1%/0,01%), avec une fréquence allélique cumulative ≥0,01%, y compris des variantes avec MAC<6 ; la corrélation des p-values a abouti à 4 clusters, avec un taux de détection effectif de 18 557 gènes × 4 clusters, et un seuil de 0,05/(18 557 × 4).
- Vérification de la robustesse et de l'indépendance :
- Au niveau des gènes : La méthode leave-one-out et l'analyse conditionnelle ont été utilisées pour évaluer le signal ; l'enrichissement des ensembles de gènes a été réalisé en utilisant un ensemble de 33 750 gènes de MitoCarta et al., test t, exclusion des valeurs extrêmes et correction de Bonferroni (FWER 1,5 × 10⁻⁶).
Association phénotypique et correction des tests multiples
PheWAS : PheWAS inclut le regroupement de phénotypes ICD10, restreignant les individus non pertinents + ascendance britannique caucasienne, régression logistique pour ajuster les covariables ; simpleM calcule des tests efficaces à 1 530, correction de Bonferroni (p≤3,0×10⁻⁶) ; analyse de randomisation mendélienne pour la causalité (par exemple, SAMHD1-mtDNA-CN et cancer du sein) (Pillalamarri V et al., 2022).
Une seule variante significativement associée à l'ADN mitochondrial-CN a été découverte (Pillalamarri V et al., 2022)
Résumé
Contrôle de la qualité de séquençage de l'exome entier Le séquençage de l'exome entier (WES) est un projet systématique multidimensionnel et dynamiquement optimisé qui doit être mis en œuvre tout au long du cycle de vie de la conception expérimentale, de l'exécution et de l'analyse des données. Des opérations standardisées, une innovation technologique et une collaboration interinstitutionnelle peuvent améliorer de manière significative la sensibilité et la spécificité de détection, fournissant une base solide pour le diagnostic des maladies génétiques, le traitement en oncologie de précision et le développement de médicaments. Les laboratoires doivent surveiller en continu les mises à jour des directives internationales et promouvoir la traduction de la technologie WES des recherches vers les applications cliniques.
Les gens demandent aussi
Quelle est la valeur QV dans le séquençage ?
Au cours du processus de séquençage, une valeur de qualité (QV), également connue sous le nom de score de qualité dans la littérature, est attribuée à chaque nucléotide dans une lecture. Ces valeurs de qualité expriment la confiance que le nucléotide correspondant a été lu correctement.
Comment analyser les données de séquençage de l'exome entier ?
Un flux de travail typique de Analyse WES comprend ces étapes : contrôle de la qualité des données brutes, prétraitement, alignement des séquences, traitement post-alignement, appel de variants, annotation des variants, et filtration et priorisation des variants.
Quelle est la sortie de données du séquençage de l'exome entier ?
La sortie de données du séquençage de tout l'exome consiste généralement en des lectures de séquençage à haut débit (au format FASTQ) et un fichier d'appel de variants traité (VCF) contenant les variants génétiques identifiés dans les régions codantes du génome.
Un autre nom pour le séquençage de l'exome entier est le séquençage de l'exome complet.
Le séquençage de l'exome, également connu sous le nom de séquençage de l'exome complet (WES), est une technique génomique permettant de séquencer toutes les régions codant des protéines des gènes dans un génome (appelées l'exome).
Ce qui ne peut pas être détecté par le séquençage de l'exome entier ?
Il peut exister des variantes fonctionnelles dans les régions non codantes qui régulent l'expression des gènes, telles que les amplificateurs et les ARN longs non codants. Cependant, ces variantes non codantes (VNC), même si elles sont génétiquement identifiables, ne sont pas couvertes par le séquençage de l'exome entier (WES) et ne peuvent donc pas être détectées.
Quelles sont les découvertes secondaires dans le séquençage de l'exome entier ?
Quelles sont les découvertes secondaires dans le séquençage de l'exome entier ? Une découverte secondaire est une variation qui peut contribuer à une maladie mais qui n'est pas la cause de l'état actuel du patient. Les découvertes secondaires sont trouvées chez jusqu'à 5 patients sur 100 (5 %) qui choisissent de faire un séquençage de l'exome entier.
Qu'est-ce que l'analyse trio dans le séquençage de l'exome entier ?
Le séquençage de l'exome entier (WES), l'analyse trio est un test moléculaire qui capture des données de l'ensemble de l'exome avec une couverture supplémentaire pour les gènes associés à des maladies mendéliennes connues, afin d'aider à identifier la cause génétique sous-jacente de l'état médical inexpliqué du patient.
Références :
-
Sealock JM, Ivankovic F, Liao C, Chen S, Churchhouse C, Karczewski KJ, Howrigan DP, Neale BM. Tutoriel : lignes directrices pour le filtrage de qualité des données de séquençage de l'exome entier et du génome entier pour des analyses d'association à l'échelle de la population. Nat Protoc. 2025 Sep;20(9):2372-2382.
- Belova V, Pavlova A, Afasizhev R, Moskalenko V, Korzhanova M, Krivoy A, Cheranev V, Nikashin B, Bulusheva I, Rebrikov D, Korostin D. Analyse systémique de la qualité de séquençage des échantillons d'exome entier humain sur la plateforme NGS de BGI.. Sci Rep2022 Jan 12;12(1):609.
- Giusti B, Sticchi E, Capezzuoli T, Orsi R, Squillantini L, Giannini M, Suraci S, Rogolino AA, Cesari F, Berteotti M, Gori AM, Lotti E, Marcucci R. Séquençage de l'exome entier dans la thrombocytopénie thrombotique induite par le vaccin (VITT). Rech Biomed Int. 2024 Jul 14;2024:2860547.
- Yin Y, Wu S, Zhao X, Zou L, Luo A, Deng F, Min M, Jiang L, Liu H, Wu X. Étude de séquençage de l'exome entier d'une famille chinoise atteinte de cancers concurrents. Oncol Lett. Septembre 2019 ; 18(3) : 2619-2627.
- Pillalamarri V, Shi W, Say C, Yang S, Lane J, Guallar E, Pankratz N, Arking DE. Le séquençage de l'exome complet chez 415 422 individus identifie des variantes rares associées au nombre de copies de l'ADN mitochondrial.. HGG Adv. 2022 Sep 26;4(1):100147.