Exigences de couverture pour les projets de séquençage de l'exome complet

Séquençage de l'exome entier (WES) fournit un soutien efficace à la recherche sur les maladies génétiques, les tumeurs et les maladies complexes en ciblant et en capturant les informations de variation dans les régions codantes des gènes (exons). Ses exigences en matière de couverture doivent être conçues de manière exhaustive en fonction des objectifs de recherche, du type d'échantillon et des besoins cliniques. Voici les paramètres clés et les spécifications techniques.

I. Principes techniques et paramètres fondamentaux

Technologie de capture des exons

  • Conception de sondes : Utilise des sondes d'ARN ou d'ADN (comme les sondes d'ARN de 120-mer d'Agilent SureSelect) pour couvrir principalement les séquences codantes (CDS) du génome (environ 30 Mb, 1%-2% du génome), qui constituent le cœur de l'exome entier. Certaines versions étendues ou "Plus" des kits de capture commerciaux (par exemple, Agilent SureSelect Human All Exon V8) peuvent également inclure des régions non traduites (UTR) (5'UTR/3'UTR) et des introns pathogènes (par exemple, des sites d'épissage ou des régions introniques associées à des maladies), mais celles-ci ne font pas partie de la définition standard du séquençage de l'exome entier (WES).
  • Efficacité de capture : La région cible doit représenter ≥60 % de toutes les bases alignées. De faibles volumes d'échantillons de départ (par exemple, 50 ng d'ADN) peuvent être préparés en utilisant la méthode de transposase.

Profondeur de séquençage et couverture

  • Profondeur de couverture :
    • Variations germinales : ≥50x (100x recommandé), valeur Q30 ≥90%.
    • Mutations somatiques (tumeurs) : ≥200x (tissu tumoral), apparié avec des échantillons normaux pour filtrer les variations germinales.
  • Couverture :
    • Variations germinales : Il est recommandé d'atteindre une profondeur de séquençage moyenne de ≥100x, avec ≥95 % des régions cibles atteignant une profondeur de couverture de ≥20x, afin d'assurer une détection fiable des variants homozygotes et hétérozygotes.
    • Mutations à faible fréquence (par exemple, variants somatiques) : une profondeur de séquençage moyenne recommandée de ≥200x est conseillée pour améliorer la sensibilité de détection des variants avec une fréquence allélique inférieure à 5 %.

Indicateurs de qualité des données

  • Score Q30 : La proportion de bases avec un score de qualité Q30 dans les données de séquençage brutes doit être ≥85 % (un seuil couramment accepté sur la plateforme Illumina). Cette métrique reflète indirectement la fiabilité de l'appel de bases des données primaires.
  • Pénalité FOLD80 : ≤ 1,4 (idéalement ≤ 1,2), reflétant l'uniformité de la profondeur de couverture.
  • Taux de duplication PCR : Cela devrait idéalement être maintenu ≤10 %. Un taux de duplication élevé peut résulter d'un matériel d'ADN de départ insuffisant ou d'un nombre excessif de cycles d'amplification PCR, ce qui réduit l'utilisation effective des données de séquençage.

Coverage of target regions across WES and WGS samples. Couverture des régions cibles dans les échantillons WES et WGS (Barbitoff YA et al., 2020)

II. Exigences de couverture pour différents scénarios de recherche

Détection de variations germinales

  • Objectif : Variants de nucléotides uniques (SNVs), insertions/délétions (InDels) et autres mutations liées aux maladies génétiques.
  • Exigences techniques :
    • Une couverture de 93 % des gènes dans la base de données OMIM et de 96 % des sites dans ClinVar est requise. Pour les CNV du gène DMD, la conception de l'encryption des sondes est nécessaire.
    • Volume de données ≥ 10 Go. Les données valides doivent couvrir la région CDS et les régions pathogènes non codantes (par exemple, les introns, les UTR).

Analyse des mutations somatiques des tumeurs

  • Objectif : Évaluation des SNV, des variations du nombre de copies (CNV) et de la charge mutationnelle tumorale (TMB).
  • Exigences techniques :
    • Échantillons de tumeur : Une profondeur de séquençage moyenne d'au moins 200x est recommandée. De plus, il est essentiel d'inclure un échantillon de tissu normal apparié (par exemple, un tissu normal adjacent ou du sang périphérique), avec une profondeur recommandée d'au moins 100x, afin de filtrer les variants d'arrière-plan germinal. Lors de l'analyse, la pureté de la tumeur doit être prise en compte pour calculer la profondeur de séquençage effective.
    • Utilisez l'algorithme WES-CNV pour détecter de grands fragments CNV, combiné avec MLPA ou PCR à fragments longs pour validation.

Maladies complexes et analyse d'association multigène

  • Objectif : Identification des interactions multigènes et des mutations pathogènes à faible fréquence.
  • Points techniques clés :
    • Une couverture normalisée (≥0,3) est requise, couvrant ≥80 % de la région cible.
    • Le séquençage du génome entier (WGS) est intégré pour compléter les informations sur la variation des régions non codantes.

III. Procédure expérimentale et contrôle de la qualité

Traitement des échantillons et construction de bibliothèques

  • Exigences en ADN : Concentration ≥ 50 ng/μL, pureté OD260/OD280 ≈ 1,8 ; les échantillons FFPE nécessitent une évaluation du degré de dégradation.
  • Méthode de construction de bibliothèque : La construction de bibliothèque par PCR à faible cycle garantit l'homogénéité ; un système d'hybridation 1:1 est utilisé lors de l'étape de capture.

Séquençage et analyse de données

  • Sélection de la plateforme : Illumina NovaSeq plateforme, stratégie de séquençage PE150, volume de données ≥ 8-10 Go/échantillon.
  • Flux d'analyse :
    • Contrôle de qualité : Un processus de contrôle de qualité en deux étapes est recommandé pour garantir la fiabilité des données : (1) QC des données brutes : Utilisez FastQC pour évaluer la distribution de la qualité des bases, la contamination par des adaptateurs, le contenu en GC et les séquences sur-représentées. (2) QC post-alignement : Utilisez samtools flagstat pour évaluer le taux d'alignement ; utilisez Picard CollectInsertSizeMetrics et CollectGcBiasMetrics pour évaluer la distribution de la taille des insertions et le biais en GC ; utilisez Picard MarkDuplicates pour calculer le taux de duplication PCR ; utilisez Qualimap ou mosdepth pour une évaluation complète de la profondeur de couverture et de l'uniformité à travers les régions cibles.
    • Détection de variations : GATK HaplotypeCaller identifie les SNV/InDels ; CNVkit ou Control-FREEC détectent les CNV.

Annotation et filtrage des variantes

  • Intégration de bases de données : ClinVar, OMIM, gnomAD, etc., combinée avec les directives ACMG pour la classification de la pathogénicité (P/LP/VUS/LB/B).
  • Filtrage des faux positifs : séquençage Sanger pour vérifier les résultats positifs, qPCR ou MLPA pour confirmer les CNV.

Modeling of CDS coverage identifies key determinants of coverage evenness. La modélisation de la couverture des CDS identifie les principaux déterminants de l'uniformité de la couverture (Barbitoff YA et al., 2020)

IV. Échantillons spéciaux et défis techniques

Traitement des échantillons FFPE

  • Évaluation de la qualité de l'ADN : La taille des fragments doit être détectée à l'aide de l'Agilent Bioanalyzer. Si la dégradation est ≥30 %, le nombre de cycles d'amplification doit être augmenté.
  • Optimisation de la construction de bibliothèques : Utilisez un protocole avec une faible quantité de départ (50 ng d'ADN) et optimisez les conditions d'amplification de la bibliothèque.

Analyse de micro-échantillons

  • Frottis sanguins néonatals séchés : Utilisez la méthode Transposase pour la construction de la bibliothèque (par exemple, Illumina Nextera), avec une quantité minimale d'ADN ≤50 ng.
  • Études sur l'hétérogénéité tumorale : nécessite un échantillonnage multi-régional, combiné à la technologie de marquage moléculaire UMI pour réduire le biais d'amplification.

Capture de région complexe

  • Régions à haute teneur en GC : Utilisez un design de sondes en paire ou augmentez la densité des sondes, combiné à une construction de bibliothèque sans PCR pour réduire le biais GC.
  • Interférence des pseudogènes : Probes chiffrées pour couvrir des séquences exprimées de manière différentielle, combinées avec le séquençage à lecture longue (par exemple, PacBio) pour vérifier les variations structurelles.

V. Profondeur de l'analyse des données et application clinique

Stratégies d'annotation et de filtrage des variations

  • Annotation fonctionnelle : Intégration de bases de données telles que ClinVar, OMIM et gnomAD, et combinaison avec les directives ACMG pour la classification de la pathogénicité (P/LP/VUS/LB/B).
  • Filtrage des faux positifs : Vérification des résultats positifs par séquençage Sanger ou qPCR pour réduire le taux de faux diagnostics.

Détails techniques de la détection des CNV

  • Sélection d'algorithme : XHMM ou CNVkit est recommandé pour les CNV au niveau des exons. Les grands fragments de CNV (>1 Mb) sont validés à l'aide de données WGS ou de MLPA.
  • Analyse spécifique des tumeurs : calcul du rapport nombre de copies tumeur/tissu normal, filtrage des polymorphismes germinaux (par exemple, fréquence >5 %) et identification des régions de LOH (perte d'hétérozygotie).

Visualisation des données et reporting

  • Analyse IGV interactive : Génération de cartes de profondeur de couverture et de cartes de distribution des sites de variants, supportant des comparaisons multi-échantillons (par exemple, analyse de co-ségrégation familiale).
  • Modèle de rapport : Classifier selon les directives ACMG (pathogénicité/pathogénicité probable/signification incertaine), avec méthodes de validation (par exemple, Séquençage de Sanger) et recommandations en matière de conseil génétique.

VI. Gestion de l'éthique et de la conformité

Gestion des ressources génétiques humaines

  • Collecte d'échantillons : Un consentement éclairé est requis, spécifiant l'utilisation prévue (par exemple, recherche/clinique). Les échantillons envoyés à l'extérieur doivent être enregistrés auprès du Ministère de la Science et de la Technologie.
  • Stockage des données : Les données brutes (FASTQ) doivent être cryptées et stockées pendant au moins 2 ans. Le transfert transfrontalier est interdit, et la conformité avec les "Règlements sur la gestion des ressources génétiques humaines" est obligatoire.

Certification de Contrôle de Qualité

  • Qualification du laboratoire : Une accréditation CAP/CLIA est requise, ainsi qu'une participation régulière à des évaluations de qualité interlaboratoires.
  • Validation par des tiers : Les résultats clés (par exemple, les mutations pathogènes) doivent être retestés par des institutions indépendantes pour garantir leur précision.

VIII. Analyse de cas

Exigences de couverture

Les exigences de couverture pour le WES dans l'étude de LaDuca H et al. étaient principalement basées sur la profondeur de couverture de séquence, définie spécifiquement comme suit :

  • Profondeur de détection suffisante : fait généralement référence à une profondeur de séquençage ≥10 fois (c'est-à-dire que la position est séquencée au moins 10 fois) pour garantir la fiabilité de la détection des variants.
  • Couverture partielle : Tous les variants pathogènes ont une couverture partielle dans au moins une séquence d'exon (c'est-à-dire qu'au moins une lecture de séquençage couvre la position).
  • Autres métriques de profondeur : Un pourcentage moyen de couverture de base ≥10 fois est de 94,8 % (plage de 92,9 à 96,0 %), avec une profondeur moyenne par échantillon de 94 fois (plage de 80X à 114X) ; 98 % de couverture de base >20X, 48 % de couverture >100X, et aucune base n'est complètement non couverte.

Résultats de couverture

À travers une analyse de couverture de 1533 variants pathogènes (provenant de 91 gènes, impliquant 5 maladies génétiques) dans 100 cas cliniques. WES échantillons et validation dans la base de données ExAC de 60 706 exons, les résultats principaux sont les suivants :

1. Sensibilité de détection globale

  • Sur un total de 153 300 évaluations (1 533 variantes × 100 échantillons), 99,7 % des évaluations ont atteint une profondeur de couverture de ≥10x (c'est-à-dire 152 798/153 300).
  • Du point de vue des variants individuels, 97,3 % des variants (1 491/1 533) ont atteint une profondeur de couverture de ≥10x dans les 100 échantillons.
  • Toutes les variantes pathogènes avaient au moins une couverture partielle (aucun cas de découverte complète).

2. Différences entre les catégories de maladies

  • Marfan/Aneurysme aortique (TAAD) : 99,8 % des variants pathogènes étaient suffisamment détectables (le plus élevé).
  • La déficience intellectuelle liée à l'X (DILX) : 98,5 % des variants pathogènes étaient détectables (le plus bas), et la proportion de couverture adéquate sur les 100 échantillons était de 73,9 % (le plus bas), probablement en raison de la petite taille de l'échantillon (seulement 23 variants pathogènes) et du nombre d'allèles plus faible sur le chromosome X unique masculin.
  • Dyskinésie ciliaire primitive (DCP) : La proportion la plus élevée de couverture adéquate parmi les 100 échantillons (98,2 %).

3. Couverture inadéquate

  • 2,7 % des variants pathogènes (42/1 533) avaient une couverture <10X dans au moins un échantillon de WES.
  • Raisons possibles pour une couverture inadéquate : 26,2 % étaient situées dans des régions riches en GC (GC > 60 %), 19,0 % dans des régions répétitives (brins polymériques ≥ 9 pb), 7,1 % dans des régions d'interférence de pseudogènes ; 47,6 % n'avaient pas d'explication claire.
  • Exemple typique : La variante de pseudogène hautement homologue (c.325DELG) dans le gène PMS2 a été détectée dans seulement 35/100 échantillons.

4. Résultats de validation (Base de données ExAC)

  • L'évaluation de 60 706 exons dans la base de données gnomAD a révélé qu'environ 98,6 % des sites évalués ont atteint une profondeur de couverture suffisante (≥10x).
  • 86,2 % des variants pathogènes (1 321/1 533) étaient détectables dans ≥99 % (60 099/60 706) des échantillons.

5. Validation de la détection réelle

  • Dans la base de données interne, tous les 16 patients (21 variants pathogènes) qui ont subi un test de panel ciblé ont été détectés avec succès par le WES.

VII. Intégration des technologies de pointe et tendances futures

Intégration de séquençage à lecture longue

  • Scénarios d'application : Analyser des variations structurelles complexes (par exemple, des translocations équilibrées, des amplifications par duplication), en complétant les limites du séquençage à court terme.
  • Avancées technologiques : Le Oxford Nanopore la plateforme permet un séquençage en temps réel, soutenant la détection directe des modifications de méthylation.

WES à cellule unique

  • Scénarios d'application : Le séquençage de l'exome entier (WES) est principalement utilisé pour analyser des variants somatiques à faible fréquence (par exemple, des amplifications subclonales dans la leucémie) et suivre l'évolution clonale à travers la génomique comparative des tissus tumoraux et normaux. Par exemple, le WES peut détecter des mutations conductrices (par exemple, EGFR, KRAS) et des variants structurels (par exemple, des fusions RUNX1-RUNX1T1) avec des fréquences alléliques aussi basses que 0,1 %, permettant des études sur l'hétérogénéité intratumorale et les trajectoires évolutives.
  • Défis techniques : optimisation de l'efficacité de capture des cellules uniques (par exemple, en utilisant la plateforme 10x Genomics) et supplémentation des variants des régions non codantes à l'aide du séquençage du génome entier (WGS).

Analyse assistée par l'IA

  • Priorisation des variantes : Les modèles d'apprentissage profond tels qu'AlphaMissense peuvent prédire la pathogénicité des mutations faux-sens, fournissant des preuves computationnelles de soutien (PP3) dans le cadre des directives ACMG/AMP. Bien que leurs prédictions ne puissent pas servir de base indépendante pour déterminer la pathogénicité, elles fonctionnent comme des outils puissants de dépistage et de priorisation. Ces outils aident les chercheurs à se concentrer rapidement sur des sites candidats à haut risque parmi un grand nombre de variantes d'importance incertaine (VUS), améliorant ainsi l'efficacité de l'interprétation manuelle.
  • Génération automatique de rapports : Intégration du traitement du langage naturel (NLP) pour générer automatiquement des rapports cliniques conformes.

Résumé

  • Les exigences de couverture du séquençage de l'exome entier doivent être optimisées sur plusieurs dimensions : traitement des échantillons, analyse des données, gestion éthique et intégration technologique.
  • Niveau d'échantillon : Développement de solutions de construction de bibliothèques personnalisées pour les échantillons FFPE et micro afin d'améliorer l'uniformité de couverture avec de faibles volumes de départ.
  • Niveau d'analyse : Combinaison de la détection des CNV, de l'association phénotypique et des outils d'IA pour améliorer l'applicabilité clinique des résultats.
  • Niveau de gestion : Renforcer l'examen éthique et la sécurité des données pour garantir la conformité aux exigences réglementaires.

À l'avenir, avec la popularisation du séquençage à longues lectures et des technologies d'IA, le séquençage de l'exome (WES) jouera un rôle plus central dans la médecine de précision, en particulier dans le domaine de l'analyse des mécanismes des maladies complexes et de la surveillance dynamique.

Les gens demandent aussi

Quelle est la couverture du séquençage de l'exome entier ?

La couverture typique pour le séquençage de l'exome entier clinique est de 100x à 200x, ce qui garantit une détection précise des variants.

Que signifie une couverture de 30X en séquençage ?

Cela signifie que le génome a été séquencé en moyenne 30 fois pour détecter de manière fiable les variants génétiques.

Comment calculer la couverture en séquençage ?

Nous pouvons utiliser la couverture comme le nombre moyen d'occurrences et y comme le nombre exact de fois qu'une base est séquencée, puis calculer la probabilité que cela se produise : P(Y=3) = (6,33 × e-6,3)/3! = 0,077 Bien sûr, c'est la valeur pour exactement 3.

Quelle est la profondeur de séquençage recommandée pour 10X ?

En général, nous recommandons une profondeur de séquençage comprise entre 30 000 et 70 000 lectures par cellule pour les projets 10x Genomics. Planifiez un appel avec l'un de nos spécialistes pour discuter de vos options.

Qu'est-ce que la portée et la profondeur de la couverture ?

La largeur de couverture fait référence à la proportion du génome séquencée au moins une fois, tandis que la profondeur de couverture est le nombre moyen de fois que chaque base du génome est séquencée.

Quelle est la profondeur du séquençage de l'exome ?

En résumé, avec la technique de séquençage par capture d'exome, les variations cliniques les plus significatives peuvent être détectées à une profondeur moyenne de 120×.

Quelle est la différence entre 10x v3 1 et v4 ?

En 2024, 10x Genomics a introduit la chimie v4. La structure de la bibliothèque de la v4 est exactement la même que celle de la v3 et de la v3.1. Cependant, la chimie v4 utilise un ensemble différent de codes-barres cellulaires (cliquez ici pour voir plus de détails) et elle offre une meilleure récupération cellulaire et sensibilité (nombre de gènes détectés par cellule) par rapport à la v3 et à la v3.

Références :

  1. Barbitoff YA, Polev DE, Glotov AS, Serebryakova EA, Shcherbakova IV, Kiselev AM, Kostareva AA, Glotov OS, Predeus AV. Dissection systématique des biais dans le séquençage de l'exome entier et du génome entier révèle des déterminants majeurs de la couverture des séquences codantes.. Sci Rep2020 fév 6;10(1):2057.
  2. LaDuca H, Farwell KD, Vuong H, Lu HM, Mu W, Shahmirzadi L, Tang S, Chen J, Bhide S, Chao EC. Le séquençage de l'exome couvre plus de 98 % des mutations identifiées sur les panneaux de séquençage de nouvelle génération ciblés.. PLoS One2017 févr. 2;12(2):e0170843.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Téléchargement PDF
* Adresse e-mail:

CD Genomics a besoin des informations de contact que vous nous fournissez afin de vous contacter au sujet de nos produits et services ainsi que d'autres contenus qui pourraient vous intéresser. En cliquant ci-dessous, vous consentez à la conservation et au traitement des informations personnelles soumises ci-dessus par CD Genomics pour fournir le contenu que vous avez demandé.

×
Demande de devis
! À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut