Principes et Flux de Travail du Séquençage de l'Exome Complet : Un Guide Technique pour la Conception de Projets
Le séquençage de l'exome entier (WES) cible les régions codantes en protéines du génome—environ 35 Mb, soit 1-2 % de la séquence totale du génome—en utilisant une méthode d'enrichissement par capture basée sur l'hybridation combinée à un séquençage à haut débit. Bien qu'il ne couvre qu'une petite fraction du génome, le WES interroge environ 85 % des mutations connues causant des maladies, ce qui en fait l'une des stratégies les plus rentables pour l'analyse génomique tant en recherche qu'en clinique. Le compromis entre la couverture du génome et le coût du séquençage—le WES à 100× coûte environ un cinquième du WGS à 30×—place le séquençage de l'exome comme un point d'entrée accessible pour des projets nécessitant une détection complète des variants à travers de nombreux échantillons. Tous les services WES et analyses bioinformatiques décrits dans ce guide sont destinés à un usage de recherche uniquement et ne sont pas destinés à des applications de diagnostic clinique.
Ce guide fournit un cadre technique pour les chercheurs concevant des projets de séquençage de l'exome entier (WES). Il couvre les principes biochimiques de l'enrichissement par capture hybride qui déterminent l'efficacité et l'uniformité de la capture, la relation quantitative entre la profondeur de séquençage et la couverture effective, les principales différences entre les stratégies d'analyse appariées tumeur-normale et tumeur seule, ainsi que les métriques de contrôle de qualité qui distinguent les données WES de haute qualité des exécutions compromises. L'accent est mis sur la conception d'expériences qui génèrent des données WES avec la profondeur et l'uniformité nécessaires pour l'application prévue, qu'il s'agisse de la découverte de variants germinaux, de la détection de mutations somatiques ou du séquençage diagnostique clinique. Chaque section fournit des conseils pratiques pour une étape spécifique du processus de conception du projet, de la sélection du kit de capture à l'analyse bioinformatique en passant par l'interprétation des variants.
Services de séquençage de l'exome complet utilisez des kits de capture validés et des protocoles de préparation de bibliothèque standardisés pour atteindre >95 % des bases cibles à 20× de couverture avec des scores fold-80 inférieurs à 2,0. Le choix de la chimie de capture, de la plateforme de séquençage et de la profondeur détermine directement la qualité des données et les types de variants qui peuvent être détectés de manière fiable, rendant la conception de projet éclairée le facteur le plus important pour le succès des études WES.
Qu'est-ce que le séquençage de l'exome complet et quand devriez-vous le choisir ?
Le séquençage de l'exome entier enrichit et séquence les régions exoniques du génome, définies comme les séquences d'exons combinées de tous les gènes codant des protéines, ainsi que les régions non traduites (UTR) et les gènes d'ARN non codants (miARN, lncARN) inclus par la plupart des kits de capture commerciaux. L'exome humain contient environ 180 000 exons répartis sur 20 000 à 25 000 gènes. Bien que cela ne représente que 1 à 2 % du génome, l'exome abrite environ 85 % des variants connus causant des maladies mendéliennes et une fraction substantielle des mutations conductrices du cancer, ce qui en fait une cible très efficace pour la découverte de variants.
La décision d'utiliser le séquençage de l'exome (WES) plutôt que le séquençage du génome entier (WGS) ou un panel de gènes ciblés dépend de trois facteurs : l'étendue de couverture requise, le nombre d'échantillons et le budget. Le WES offre une couverture codante à l'échelle du génome à un coût par échantillon qui permet l'analyse de centaines à des milliers d'échantillons, une échelle qui serait prohibitivement coûteuse avec le WGS. Les panels ciblés offrent une profondeur encore plus élevée à un coût inférieur mais sont limités à des ensembles de gènes prédéfinis. Pour les projets nécessitant la découverte de variants codants nouveaux à travers de nombreux échantillons, le WES offre le meilleur équilibre entre portée et efficacité des coûts. Pour les projets axés sur des gènes ou des voies connus, les panels ciblés sont plus rentables. Pour les projets nécessitant une analyse complète du génome, y compris les régions non codantes, les variants structurels et les éléments régulateurs, le WGS est nécessaire. Séquençage du génome entier fournit la vue la plus complète mais à un coût par échantillon plus élevé.
Un facteur supplémentaire souvent négligé dans la décision entre WES et WGS est la reproductibilité analytique entre les lots. Les données WES provenant de différents kits de capture ou de différents lots du même kit montrent des schémas de couverture spécifiques aux lots qui compliquent les comparaisons entre études et les méta-analyses. Le WGS, parce qu'il ne dépend pas de la chimie de capture, offre des profils de couverture plus cohérents entre différents laboratoires et séquençages. Cette considération de l'effet de lot est pertinente pour les études multi-centres à grande échelle ou pour les projets qui prévoient d'intégrer des données provenant de multiples sources.
Figure 1 : WES vs WGS vs panneau ciblé — portée, profondeur, coût et adéquation à l'application

Le principe de la capture hybride — Comment fonctionne l'enrichissement de l'exome
La technologie clé permettant le séquençage de l'exome (WES) est l'enrichissement par capture basé sur l'hybridation, dans lequel des sondes d'ADN ou d'ARN biotinylées (appâts) complémentaires aux séquences exoniques sont hybridées à de l'ADN génomique fragmenté, capturées sur des billes magnétiques recouvertes de streptavidine, puis lavées pour éliminer l'ADN non ciblé non lié. Comprendre les paramètres de conception et les limitations de ce processus est essentiel pour interpréter la qualité des données WES.
Paramètres de conception de la sondeLes kits de capture d'exome commerciaux utilisent des sondes de 60 à 120 nucléotides, conçues avec une densité de recouvrement qui couvre chaque région cible avec des sondes se chevauchant à 2×, ce qui signifie que chaque base cible est couverte par au moins deux sondes indépendantes provenant de positions différentes. Cette stratégie de recouvrement garantit que si une sonde dans une région échoue à capturer sa cible en raison d'une variation de séquence ou d'une structure secondaire, la sonde chevauchante fournit une couverture redondante. L'ensemble de sondes pour un kit de capture d'exome humain typique contient entre 400 000 et 700 000 sondes uniques, selon la conception de la région cible et la densité de recouvrement. Un algorithme de 2025 publié dans Bioinformatics (OLTA) optimise la sélection des appâts pour minimiser le nombre de sondes nécessaires tout en maintenant la couverture des cibles, réduisant ainsi les coûts de capture sans sacrifier l'efficacité.
Conditions d'hybridationLa hybridation est réalisée à 65°C pendant 16 à 24 heures selon le protocole standard, ou à des températures élevées avec des temps plus courts (1,5 à 4 heures) dans des protocoles de capture rapide qui utilisent des concentrations de sondes plus élevées et des formulations de tampon optimisées. Les lavages de stringence à 65°C avec des concentrations de sel décroissantes éliminent l'ADN non ciblé partiellement hybridé. La stringence de ces lavages détermine directement le taux de ciblage : des lavages plus stricts augmentent la proportion de lectures se rapportant aux régions cibles mais réduisent le rendement global, tandis que des lavages moins stricts capturent plus d'ADN non ciblé (y compris des régions génomiques non ciblées et de l'ADN mitochondrial) qui peuvent être informatifs pour l'analyse des CNV mais réduisent la profondeur de séquençage efficace sur la cible. La température d'hybridation doit être contrôlée avec précision : chaque déviation de 1°C par rapport à la température optimale réduit l'efficacité de capture d'environ 5 à 10 % pour les cibles appariées GC et davantage pour les régions riches en AT ou en GC.
Fold-80 : le métrique d'uniformité le plus importantLe fold-80 mesure combien de fois la profondeur moyenne doit être séquencée pour atteindre 80 % des bases cibles à cette profondeur moyenne. Un fold-80 de 1,0 représente une uniformité parfaite (toutes les bases cibles à la même profondeur). Un fold-80 de 2,0 signifie qu'il faut 1,8 fois la profondeur moyenne pour couvrir 80 % des cibles à cette profondeur. Le document de recherche de Twist Bioscience a démontré que les améliorations du fold-80 (uniformité) ont un impact nettement plus important sur la couverture effective que les améliorations du taux de ciblage. Par exemple, améliorer le fold-80 de 2,0 à 1,5 réduit le séquençage nécessaire pour atteindre 80 % des bases à 20× d'environ 25 %, tandis qu'une amélioration équivalente du taux de ciblage (de 70 % à 80 %) réduit le séquençage requis de seulement 12 %. Cela fait du fold-80 la métrique la plus actionnable pour évaluer la qualité des données WES et pour concevoir des budgets de séquençage.
Données de référence du kit 2024Une évaluation comparative de 2024 de quatre solutions d'enrichissement de l'exome (Roche, Agilent, Vazyme, Nanodigmbio) publiée dans BMC Genomics en 2025 fournit les données de performance les plus récentes en tête-à-tête. Tous les quatre kits ont atteint >97,5 % des bases cibles à 10× et >95 % à 20×. Roche a montré la couverture la plus uniforme (fold-80 le plus bas), tandis que Nanodigmbio a obtenu le taux de ciblage le plus élevé en raison de moins de lectures hors cible. La sensibilité de détection des variants était élevée pour tous les kits pour les SNVs (>99 % à 20×) mais variait davantage pour les indels (95-98 %), où l'uniformité de capture avait le plus grand impact. La principale conclusion pour la conception de projet est que la sélection du kit doit privilégier les métriques d'uniformité (fold-80) par rapport au taux de ciblage lorsque l'objectif de recherche est la détection complète des variants, en particulier pour les régions cliniquement pertinentes où un échec de couverture à des exons individuels peut signifier manquer un variant pathogène. Pour les projets axés sur un panel de gènes spécifique ou des régions génomiques connues, les kits avec une optimisation ciblée pour ces régions peuvent surpasser les kits d'exome à usage général.
Considérations pratiques pour la sélection du matériel de captureAu-delà des taux de fold-80 et de ciblage, la sélection des kits doit tenir compte de la définition de la région cible. Certains kits incluent des régions introniques flanquantes essentielles pour l'analyse des sites d'épissage, des UTR importants pour la détection des variants régulateurs, et des gènes d'ARN non codants pertinents pour des maladies spécifiques. La couverture CCDS (Consensus CDS) — la fraction des exons codants bien annotés inclus dans la région cible du kit — varie entre 92 et 98 % selon les kits commerciaux. Pour les projets axés sur la découverte de gènes de maladies, un kit avec une couverture CCDS plus élevée peut être préféré même si son taux de ciblage est légèrement inférieur. Pour les études de grandes cohortes où le coût par échantillon est la contrainte principale, le kit avec la capture la plus efficace (taux de ciblage le plus élevé avec un fold-80 acceptable) offre le meilleur rapport qualité-prix.
Figure 2 : Flux de travail WES complet — de la préparation de l'échantillon à l'analyse bioinformatique

WES vs WGS vs Panneau Ciblé — Comparaison de Trois Approches
Les trois stratégies de séquençage diffèrent par la couverture du génome, la profondeur de séquençage, le coût par échantillon et les types de variants qu'elles peuvent détecter de manière fiable.
Le séquençage génomique complet (WGS) à 30× couvre l'ensemble du génome, y compris les régions codantes, non codantes et régulatrices. Il détecte les SNV, les petites indels, les variants structurels et les CNV à travers tout le génome, sans biais de capture et sans régions systématiquement exclues par la conception des sondes. Cependant, à 30×, la profondeur moyenne dans les régions codantes est inférieure à celle du séquençage d'exomes (WES), réduisant la sensibilité pour les variants somatiques à faible fréquence. À grande échelle, le WGS est l'approche la plus coûteuse des trois pour l'analyse ciblée sur les gènes codants.
Le WES à 100-200× ne couvre que les régions cibles du kit de capture (typiquement 35-50 Mb de séquences exoniques et flanquantes). La profondeur plus élevée permet la détection de variants somatiques à faible fréquence allant jusqu'à 5-10 % de fréquence allélique dans des échantillons de haute pureté. Le WES détecte les SNV codants et les petites indels avec une grande sensibilité, mais a une capacité limitée pour la détection de CNV dans les régions capturées et aucune capacité à détecter des variants dans les régions non ciblées. Pour la découverte de variants codants à grande échelle à travers des centaines d'échantillons, le WES offre le meilleur équilibre entre le coût de séquençage et la complétude des données.
Les panneaux ciblés couvrent 0,1 à 5 Mb de gènes ou de régions sélectionnés à une profondeur très élevée (500-2 000×). Cette profondeur permet la détection de variants somatiques avec une fréquence allélique de 1 à 5 %, ce qui fait des panneaux la méthode de choix pour les tests de biopsie liquide et pour le suivi de la maladie résiduelle minimale. Les panneaux sont l'approche la plus rentable pour des ensembles de gènes prédéfinis, mais n'offrent aucun potentiel de découverte au-delà des gènes ciblés.
Pour la plupart des projets de recherche, le choix entre les trois suit une logique claire : utiliser le séquençage du génome entier (WGS) lorsque le budget le permet et que la question nécessite une analyse à l'échelle du génome. Utiliser le séquençage de l'exome (WES) lorsque le budget limite le débit des échantillons et que la question se concentre sur les variants codants. Utiliser des panels ciblés lorsque les gènes d'intérêt sont bien définis et qu'une profondeur maximale est requise. Une stratégie de plus en plus courante est une approche par étapes : commencer par le WES pour une découverte large des variants au sein d'une cohorte, puis valider et approfondir des résultats spécifiques avec un séquençage profond ciblé ou des études fonctionnelles. Ce design maximise le potentiel de découverte du WES tout en contrôlant le coût global du projet en réservant des tests plus coûteux pour la phase de validation.
Exigences de profondeur de couverture — Quelle quantité de séquençage est suffisante ?
La profondeur de séquençage requise pour le WES dépend des types de variants à détecter et de la fréquence allélique attendue. Pour la détection des SNV germinaux, une couverture cible moyenne de 100× offre une sensibilité >99 % pour les variants hétérozygotes à une fréquence allélique de 0,5. Le critère de qualité critique est la fraction des bases cibles couvertes à une profondeur suffisante : pour les diagnostics germinaux, >95 % des bases cibles à 20× est la norme minimale, et >98 % à 20× est l'objectif pour des données de qualité clinique.
Pour la détection des variants somatiques dans le cancer, une profondeur plus élevée est requise car les mutations somatiques sont présentes à des fréquences alléliques plus faibles en fonction de la pureté de la tumeur. Avec une couverture cible moyenne de 150-200×, le séquençage de l'exome entier (WES) détecte des SNV somatiques à une fréquence allèlique de 10-20% avec une sensibilité raisonnable. Pour les variants à plus faible fréquence, un séquençage plus profond ou des approches ciblées sont nécessaires. La relation entre la profondeur moyenne, la fréquence allèlique et la sensibilité de détection suit une distribution de Poisson : pour détecter un variant à une fréquence allèlique de 5% avec une confiance de 95%, il faut au moins 200× de couverture à la position du variant.
L'uniformité de la couverture (fold-80) affecte directement la quantité de séquençage nécessaire pour atteindre ces métriques de profondeur. Une bibliothèque avec un fold-80 de 1,6 nécessite 40 % de séquençage en moins qu'une avec un fold-80 de 2,4 pour atteindre le même pourcentage de bases cibles à 20×. Cela fait de l'optimisation du fold-80 l'une des stratégies les plus rentables pour améliorer l'efficacité des projets WES. Exigences de couverture pour les projets WES fournit un guide détaillé sur la planification de la profondeur pour différentes applications.
Planification de profondeur pratiqueLa relation entre la profondeur cible moyenne, le nombre d'échantillons et le coût de séquençage suit un calcul simple. Un kit de capture d'exome standard cible 35-50 Mb. À 100× de profondeur moyenne, cela nécessite 3,5-5 Gb de lectures ciblées. Avec des taux de ciblage de 60-75 %, le séquençage total requis est d'environ 5-8 Gb par échantillon. Pour un projet de 96 échantillons multiplexés sur une cellule de flux NovaSeq 6000 S4 produisant 1 000 Gb de données, cela se traduit par environ 120-190 échantillons par cellule de flux, selon l'efficacité de ciblage. Pour les applications LP-WES où 30-50× est suffisant pour le dépistage de population, le coût par échantillon peut être réduit de 50-60 %. Ces calculs doivent être validés par rapport à la performance réelle du kit de capture et de la plateforme de séquençage sélectionnés avant de s'engager dans un budget à l'échelle du projet.
Figure 3 : Profondeur de couverture vs couverture effective — l'impact du fold-80 sur l'efficacité du séquençage

Pipeline de bioinformatique WES — Ajustements clés pour les données d'exome
Le pipeline standard des meilleures pratiques GATK pour la découverte de variants nécessite des ajustements spécifiques pour les données WES qui diffèrent de l'analyse WGS. La couverture non uniforme de la WES basée sur la capture introduit un biais systématique qui affecte plusieurs étapes du pipeline.
Ajustements de prétraitementContrairement au WGS, où le marquage des duplicats est principalement destiné à l'élimination des duplicats PCR, les données WES nécessitent une gestion soigneuse des duplicats car le processus de capture lui-même produit une proportion plus élevée de lectures duplicées provenant de la même molécule d'ADN d'origine. L'utilisation de Picard MarkDuplicates avec l'option REMOVE_DUPLICATES=false (marquage mais pas suppression) permet aux outils en aval de gérer les duplicats de manière appropriée. Le pré-indexage du fichier BAM dédupliqué est essentiel pour le traitement GATK.
Appel de variantes dans les données WESGATK HaplotypeCaller doit être exécuté avec le drapeau --exome-mode pour les données WES, ce qui ajuste la détection des régions actives pour tenir compte de la couverture non contiguë des cibles de l'exome. Pour l'appel de variants somatiques dans des données WES appariées tumeur-normal, Mutect2 est l'appelant recommandé. Un benchmark de 2025 dans MDPI Biomolecules comparant Mutect2, Strelka2 et FreeBayes pour les WES somatiques a révélé que Mutect2 atteignait la plus haute précision (>95%) tandis que Strelka2 obtenait le meilleur rappel (>90%) pour les SNVs. Pour l'analyse WES uniquement tumorale (lorsqu'aucun normal apparié n'est disponible), la sensibilité diminue de 15 à 20 % par rapport à l'analyse appariée car les variants germinaux ne peuvent pas être distingués des mutations somatiques. L'analyse WES uniquement tumorale est appropriée pour un dépistage initial, mais une analyse appariée est fortement recommandée pour les études nécessitant une identification précise des variants somatiques.
Ajustements de filtrage et d'annotation pour le WESLe nombre total de lectures dans le séquençage de l'exome (WES) étant inférieur à celui du séquençage du génome entier (WGS), les seuils de filtrage des variants doivent être ajustés en conséquence. Pour le WES germinal, une profondeur minimale de 10× et un nombre minimal d'allèles alternatifs de 3 sont des critères de filtrage standards. Pour le WES somatique, un filtrage à 20× avec 5 lectures de soutien réduit les faux positifs causés par des artefacts de capture. Les pipelines d'annotation pour le WES devraient inclure des indicateurs de couverture au niveau des gènes, indiquant quels exons avaient une profondeur insuffisante pour un appel de variant fiable — sans ces indicateurs, un manque d'appels de variants dans un exon mal couvert pourrait être interprété à tort comme l'absence d'une mutation. Les outils d'annotation VEP (Variant Effect Predictor) ou SnpEff génèrent ces annotations de couverture lorsqu'ils sont fournis avec le fichier BED de la région cible du WES.
Détection de CNV à partir de données WESLa détection de CNV à partir de WES est fondamentalement plus difficile que celle à partir de WGS car le processus de capture introduit une couverture non uniforme qui varie entre les échantillons et entre les lots de capture. L'approche standard utilise une référence groupée de ≥30 échantillons normaux appariés pour modéliser le profil de bruit spécifique à la capture, puis compare la couverture de chaque échantillon à la référence. ECOLE (2023, Nature Communications), un appelant de CNV basé sur l'apprentissage profond, est spécifiquement conçu pour les données WES et atteint 20 à 30 % de faux positifs en moins que les méthodes conventionnelles.
Délai d'exécution et ressources informatiquesLe traitement bioinformatique standard WES pour un projet de 96 échantillons—de l'alignement FASTQ à l'appel de variants, l'annotation et le rapport de QC—nécessite environ 8 à 16 heures sur un cluster de calcul avec plus de 32 cœurs CPU, ou 24 à 48 heures sur une station de travail haut de gamme avec 16 cœurs et 64 Go de RAM. Les besoins en stockage sont d'environ 2 à 5 Go par échantillon pour les fichiers BAM alignés (compressés) et de 200 à 500 Mo par échantillon pour les fichiers VCF et les résultats d'analyse. Pour les projets avec plus de 500 échantillons, un traitement basé sur le cloud ou un cluster de calcul local est recommandé pour gérer les temps d'exécution.
Figure 4 : Domaines d'application du WES — maladies héréditaires, génomique du cancer et biopsie liquide

Applications du WES dans la recherche et la génomique clinique
Diagnostic des maladies héréditairesLe séquençage WES basé sur un trio (séquençage du proband et des deux parents) atteint des taux de diagnostic de 25 à 50 % pour les troubles génétiques suspectés, avec les rendements les plus élevés dans les troubles neurodéveloppementaux, l'épilepsie et les anomalies congénitales. Le taux de découverte de nouvelles associations gène-maladie a accéléré avec des cohortes WES à grande échelle telles que le projet 100,000 Genomes et le réseau des maladies non diagnostiquées. Le cadre analytique pour le WES diagnostique suit un pipeline de filtrage systématique : les variants rares (fréquence dans la population < 0,1 %) sont prioritaires, suivis de l'évaluation de l'impact fonctionnel prédit (nonsense, décalage de cadre, site d'épissage), de la compatibilité avec le mode d'hérédité et de l'appariement phénotypique au niveau des gènes. Pour le WES uniquement du proband, le taux de diagnostic chute à 15-30 % en raison de l'incapacité à filtrer par héritage, mais cette approche reste courante dans les contextes de recherche où les échantillons parentaux ne sont pas disponibles. Les projets WES à l'échelle de la population, tels que le jeu de données d'exome de 200 000 individus du UK Biobank, permettent des tests de charge au niveau des gènes qui identifient de nouvelles associations de maladies en agrégeant des variants rares au sein des gènes à travers de grandes cohortes.
Génomique du cancerL'analyse WES appariée tumeur-normale est l'approche standard pour identifier les mutations somatiques conductrices, calculer la charge mutationnelle tumorale (TMB) et détecter les signatures mutationnelles. Pour l'évaluation de la déficience en recombinaison homologue (HRD) — un biomarqueur prédictif pour la thérapie par inhibiteurs de PARP — les scores HRD basés sur le WES dérivés des modèles de perte d'hétérozygotie à l'échelle du génome ont été validés dans plusieurs types de cancer. Services WES en cancérologie inclure le séquençage apparié tumeur-normal avec analyse bioinformatique pour la détection des SNV somatiques, des indels et des CNV.
Biopsie liquide WESUne étude de 2025 publiée dans Nature Scientific Reports a validé un test de biopsie liquide basé sur l'exome/transcriptome activé par l'IA (Caris Assure) qui associe le séquençage de l'exome entier (WES) de l'ADN tumoral circulant à l'apprentissage automatique pour la détection de plusieurs cancers. Bien que le WES pour l'ADNct fasse face au défi d'une faible fraction d'ADN tumoral dans le plasma (souvent < 1 %), les récentes avancées en chimie de capture hybride et en déconvolution computationnelle rendent le WES de l'ADNcf de plus en plus viable pour le profilage non invasif du cancer. Pour les cancers à un stade précoce où la fraction d'ADNct est la plus faible, la biopsie liquide basée sur le WES nécessite actuellement des profondeurs plus élevées (500-1 000× sur cible) pour détecter le petit nombre de fragments dérivés de tumeurs dans le pool d'ADNcf. L'innovation clé permettant le WES de l'ADNcf est l'utilisation d'identifiants moléculaires uniques (UMIs) pour regrouper les duplicatas PCR en séquences consensuelles, réduisant ainsi considérablement le bruit de fond et permettant une détection précise des variants à partir de seulement 10 à 100 molécules de template par région cible.
Analyse et interprétation des données WES — Des listes de variants à l'insight biologique
La sortie d'un pipeline bioinformatique WES est une liste de variants annotés avec leur position génomique, leur fréquence allélique, leur impact fonctionnel et leur fréquence dans la population. La conversion de cette liste de variants en résultats biologiques ou cliniques interprétables nécessite un cadre systématique de filtrage et de priorisation.
Interprétation des variants germinauxPour les études sur les maladies héréditaires, la cascade de filtrage commence par l'élimination des variants ayant une fréquence de population supérieure à 1 % dans gnomAD ou ExAC, ne conservant que les variants rares ou nouveaux. Ensuite, les variants sont classés par impact fonctionnel prédit : les variants provoquant une truncation de la protéine (nonsense, décalage de cadre, site d'épissage essentiel) sont prioritaires par rapport aux variants de type missense, qui nécessitent des preuves supplémentaires provenant des scores de conservation (PhyloP, GERP) et des outils de prédiction in silico (SIFT, PolyPhen-2, CADD). Les variants candidats restants sont évalués pour leur compatibilité avec le mode d'hérédité (autosomique dominant, récessif, lié à l'X, de novo) et pour leur concordance avec le phénotype à l'aide d'outils tels qu'Exomiser ou Phen2Gene. Services d'interprétation des variants fournir des pipelines de filtrage systématiques qui intègrent des bases de données de population, des prédictions fonctionnelles et un appariement phénotypique.
Interprétation des variants somatiquesL'analyse WES du cancer priorise les variants en fonction de leur récurrence à travers les échantillons au sein d'un type de tumeur, de leur présence dans le recensement des gènes du cancer COSMIC, et de leur impact prédit sur la fonction protéique. La charge mutationnelle tumorale (TMB) est calculée comme le nombre de mutations somatiques codantes par mégabase de génome séquencé. La TMB dérivée de WES corrèle bien avec la TMB basée sur WGS et est utilisée comme biomarqueur prédictif pour la réponse à l'immunothérapie. L'analyse des signatures mutationnelles — décomposant le spectre des mutations somatiques en motifs caractéristiques associés à des processus mutationnels spécifiques (par exemple, l'activité APOBEC, la signature du tabagisme, les dommages UV) — est réalisée à l'aide d'outils tels que SigProfiler ou MutationalPatterns et nécessite au moins 50 à 100 mutations somatiques à l'échelle du génome pour une attribution fiable de la signature.
Considérations sur le reportingLes rapports d'analyse WES devraient documenter non seulement les variants trouvés, mais aussi la performance de couverture dans la région cible. Un standard de rapport courant inclut le nombre de cibles d'exons avec une couverture insuffisante pour l'appel de variants (<10× pour les germinales, <20× pour les somatiques), la métrique de uniformité fold-80, et le taux global sur cible. Les variants rapportés provenant d'exons mal couverts devraient être signalés comme ayant une faible confiance dans le rapport. Pour le rapport clinique WES, les directives ACMG pour la classification des variants (pathogène, probablement pathogène, VUS, probablement bénin, bénin) devraient être suivies, avec des preuves à l'appui documentées pour chaque niveau de classification.
Défis techniques clés dans les projets WES
Variation de capture inter-lotsL'efficacité de capture hybride varie entre les lots en raison des différences dans les lots de réactifs, des profils de température d'hybridation et de la technique de l'opérateur. Cet effet de lot introduit des différences systématiques dans l'uniformité de couverture qui peuvent imiter la variation biologique dans les analyses en aval. Le benchmark BMC Genomics 2024 a révélé que la variation inter-lots représentait 5 à 15 % de la variabilité de couverture au niveau des exons individuels, même au sein du même kit. La pratique standard consiste à traiter tous les échantillons d'un projet dans le moins de lots de capture possible, à capturer des contrôles équilibrés par lot et à inclure des échantillons répétés entre les lots pour l'évaluation de la variation technique.
biais GCLes régions à forte teneur en GC (>65 % de GC), qui incluent de nombreuses régions promotrices et les premiers exons des gènes de ménage, sont significativement sous-représentées dans les données de séquençage d'exomes (WES) car l'ADN riche en GC a une efficacité d'hybridation plus faible et une structure secondaire plus élevée qui entrave la capture. Les amorces biaisées en GC qui incluent des nucléotides dégénérés ou des bases modifiées peuvent compenser partiellement, mais certains exons riches en GC échouent systématiquement à atteindre la couverture cible dans tous les kits commerciaux. Ces lacunes de couverture systématiques devraient être identifiées et documentées dans les méthodes d'analyse, car les variants dans ces régions ne peuvent pas être évalués de manière fiable à partir des données WES.
artéfacts FFPELes échantillons FFPE contiennent de l'ADN fragmenté (taille moyenne < 300 pb) et des bases déaminées dues au réticulation par le formaldéhyde. La fragmentation réduit l'efficacité de capture car les fragments plus courts s'hybrident moins de manière stable aux amorces : un fragment de 150 pb a environ 70 % de l'efficacité de capture d'un fragment de 300 pb dans des conditions d'hybridation standard. L'augmentation de l'apport en ADN (200-500 ng pour FFPE contre 50-100 ng pour les tissus frais) et la réduction de la température d'hybridation à 60 °C compensent partiellement, mais les données WES FFPE présentent systématiquement une uniformité de fold-80 inférieure et des taux de duplicats plus élevés que les données de tissus frais congelés. Pour les projets impliquant des échantillons FFPE archivés, valider l'efficacité de capture sur un échantillon test avant de s'engager dans une préparation de bibliothèque à grande échelle peut permettre d'identifier si la qualité de l'ADN est suffisante pour les métriques de couverture requises.
Accumulation de duplicats PCRLes bibliothèques WES ont intrinsèquement des taux de duplicats PCR plus élevés que les bibliothèques WGS, car l'étape de capture concentre la capacité de séquençage sur une petite région cible, amplifiant ainsi tout biais d'amplification de la bibliothèque. Des taux de duplicats supérieurs à 25 % indiquent que la complexité de la bibliothèque—le nombre de fragments d'ADN uniques disponibles pour le séquençage—est insuffisante pour la profondeur cible. Cela résulte généralement d'une faible quantité d'ADN d'entrée (<50 ng pour les protocoles standards) ou d'un surcyclage lors de l'amplification PCR pré-capture. Réduire le nombre de cycles PCR de 14-16 à 10-12 lors de l'étape PCR pré-capture, combiné à l'utilisation de 100-200 ng d'ADN d'entrée, peut réduire les taux de duplicats en dessous de 15 % tout en maintenant un rendement de bibliothèque suffisant pour la capture.
Métriques de QC pour les données WES
| Métrique | Valeur cible | Minimum acceptable | Impact en cas d'échec |
|---|---|---|---|
| Couverture cible moyenne | ≥100× (germinale) / ≥200× (somatique) | ≥80× | Sensibilité réduite de l'appel de variantes |
| % Bases cibles à 20× | ≥95 % | ≥90 % | Couverture inégale → variantes manquées dans les exons à faible couverture |
| Taux de réussite cible | ≥70 % | ≥60 % | Budget de séquençage gaspillé sur des lectures non ciblées |
| Pliage-80 | ≤2,0 | ≤2,5 | Haute non-uniformité → profondeur insuffisante pour les exons cibles |
| Taux de duplication | ≤15 % | ≤25% | Profondeur effective réduite ; peut indiquer un faible apport en ADN. |
Le tableau des métriques de contrôle qualité sert de liste de vérification pratique pour évaluer les données WES avant de procéder à l'analyse ultérieure. Un échantillon qui se situe en dessous du seuil minimum acceptable pour l'une de ces métriques doit être signalé pour un éventuel séquençage répété ou une exclusion de l'analyse. Dans les grandes études de cohorte, il est courant de rejeter 3 à 5 % des échantillons à l'étape de contrôle qualité, et ce taux de rejet attendu doit être pris en compte dans la planification de la taille de l'échantillon du projet afin d'assurer un nombre suffisant d'échantillons après le filtrage QC.
Figure 5 : Analyse des données WES et pipeline de filtrage — des lectures brutes aux variants annotés

Figure 6 : Pyramide d'évaluation de la qualité des données WES — hiérarchie des métriques de QC de l'entrée de l'échantillon à la sortie des variants

FAQ
Quelle profondeur de séquençage ai-je besoin pour le WES ?
Pour la détection des SNV germinaux, une couverture cible moyenne de 100× est standard. Pour la détection des variants somatiques dans le cancer, une couverture de 150-200× est recommandée. La métrique clé est la fraction de bases cibles à une profondeur suffisante : >95 % des cibles à 20× pour l'analyse germinale.
Qu'est-ce que le fold-80 et pourquoi est-ce important ?
Le fold-80 mesure l'uniformité de couverture à travers les régions cibles. Un fold-80 de 1,0 signifie une uniformité parfaite ; un fold-80 inférieur signifie qu'une moindre séquençage est nécessaire pour couvrir tous les exons cibles à la profondeur requise. C'est la métrique la plus exploitable pour évaluer l'efficacité de capture du WES.
Le WES peut-il détecter des CNV ?
Oui, mais avec une sensibilité inférieure à celle du WGS en raison de la couverture non uniforme de l'enrichissement par capture. La détection des CNV à partir du WES nécessite un ensemble de référence de ≥30 échantillons normaux et des outils spécifiquement conçus pour les données WES, tels qu'ECOLE ou CNVkit avec une construction de référence appropriée.
Comment la qualité des échantillons FFPE affecte-t-elle les résultats du WES ?
Les échantillons FFPE produisent de l'ADN fragmenté qui réduit l'efficacité de capture et l'uniformité de couverture. Le Fold-80 augmente généralement de 20 à 30 % pour les échantillons FFPE par rapport aux échantillons frais congelés. Augmenter l'entrée d'ADN et utiliser des protocoles de capture optimisés pour FFPE peut atténuer partiellement cela.
Devrais-je utiliser le séquençage de l'exome entier (WES) uniquement sur la tumeur ou le WES apparié tumeur-norme pour l'analyse du cancer ?
Le séquençage de l'exome entier (WES) apparié tumeur-normale permet de distinguer les mutations somatiques des variantes germinales héritées, réduisant ainsi les taux de faux positifs et permettant la détection des artefacts d'hématopoïèse clonale. Le WES uniquement tumoral a une sensibilité de détection des variantes somatiques inférieure de 15 à 20 %, mais peut être utilisé pour le dépistage lorsque le tissu normal apparié n'est pas disponible.
Quel est le rendement diagnostique du séquençage de l'exome entier (WES) pour les troubles génétiques ?
Le WES basé sur un trio atteint des taux de diagnostic de 25 à 50 % pour les troubles génétiques suspects, avec les rendements les plus élevés dans les troubles neurodéveloppementaux et les anomalies congénitales. Le WES uniquement sur le proband présente des taux de diagnostic inférieurs (15-30 %).
Références
- Évaluation comparative de quatre solutions d'enrichissement de l'exome en 2024. BMC Genomics2025;26:11196.
- Méthodes, applications et défis computationnels dans l'enrichissement par capture d'appâts. Cell Reports Méthodes. 2025;5:100210.
- OLTA : Optimisation de la sélection des amorces pour le séquençage ciblé. Bioinformatique. 2025;41:btaf146.
- Évaluation comparative de Mutect2, Strelka2 et FreeBayes pour la détection de variants somatiques à partir de WES. Biomolécules2025;15:1532.
- Validation d'un test de biopsie liquide exome/transcriptome assisté par IA. Nature Scientific Reports2025;15:8986.
- ECOLE : Apprendre à identifier les variants de nombre de copies sur des données WES. Communications Nature. 2023;14:44116.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.