What is the difference between low-pass WGS and SNP arrays?

Low-pass WGS sequences the entire genome at 0.5-4× coverage and imputes missing genotypes, capturing genome-wide variation without pre-selected markers. SNP arrays genotype 500K-2M pre-selected sites. Low-pass WGS avoids ascertainment bias (arrays are designed primarily from European populations), captures variants arrays miss, and generates data that can be re-analyzed as reference panels and imputation methods improve. However, arrays are simpler to analyze (no imputation required for called genotypes) and remain cheaper at very small sample sizes (<50).

At what coverage can I reliably call structural variants?

Large deletions and duplications (>1 Mb) are detectable from 0.5-1× lpWGS using read-depth-based tools (cn.mops, CNVkit). For comprehensive SV detection including insertions, inversions, and smaller events ( 95% sensitivity for events >1 kb in a 3 Gb genome.

Do I need a reference panel for low-pass WGS imputation?

For GLIMPSE2-based imputation, yes — a phased reference panel of ≥500 haplotypes is the minimum, with >1,000 strongly preferred. If no reference panel exists for your species, two alternatives: (1) build a custom panel by sequencing 50-100 genetically diverse individuals at ≥25×, then impute the remainder at 1-4×; or (2) use STITCH for reference-free imputation, which requires ≥100 samples at ≥2× coverage.

How does sequencing depth affect GWAS statistical power?

For common-variant GWAS (MAF >5%), statistical power is driven primarily by sample size, not coverage, once coverage exceeds ~0.5× with imputation. Sequencing 1,000 individuals at 1× will detect more true GWAS associations than 100 individuals at 30×. For rare-variant GWAS (MAF <1%), the relationship reverses: variant detection sensitivity requires ≥15× coverage, and imputation cannot recover variants absent from the reference panel.

What is the cheapest way to sequence 500 genomes?

At current (2025) pricing for a 1 Gb genome: 1× lpWGS at ~$30/sample = $15,000 total. Add $5,000 for imputation against a public reference panel = $20,000. This provides common-variant genotypes suitable for GWAS, population structure, and genomic prediction. If rare variants or SVs are required, budget for 10× at ~$200/sample = $100,000 for 500 samples.

Can I combine samples sequenced at different depths in one analysis?

Yes. Joint genotyping with GATK handles heterogeneous coverage across samples, and GLIMPSE2 imputation can harmonize a mixed-coverage design where 10-20% of samples are deep (≥25×) and the remainder are low-coverage (1-4×). This hybrid design is the most cost-effective strategy for population-scale projects in non-model organisms.

How much storage does a WGS project need?

A 1,000-sample project at 10× for a 3 Gb genome generates approximately 60 TB of data across FASTQ, BAM, and VCF files. Using CRAM instead of BAM reduces this by 40-50% (~36 TB). Adding PGEN for genotype data saves an additional 1-2 TB. Cloud archival storage costs roughly $25-50 per TB per month for active storage and $1-4 per TB per month for archival (glacier) storage.

What is the turnaround time for WGS at different depths?

Sequencing time scales linearly with coverage. A NovaSeq S4 flow cell produces ~3 Tb of data per 44-hour run. At 1× (3 Gb/sample), approximately 1,000 samples can be sequenced per run. At 30×, approximately 33 samples per run. Typical project timelines including library preparation, sequencing, and bioinformatics: 1× lpWGS = 4-6 weeks for 1,000 samples; 30× WGS = 8-12 weeks for 100 samples.

Low-Pass vs. High-Coverage WGS : Choisir la bonne profondeur de séquençage pour vos objectifs de recherche et votre budget

Q: At what coverage can I reliably call structural variants?

Large deletions and duplications (>1 Mb) are detectable from 0.5-1× lpWGS using read-depth-based tools (cn.mops, CNVkit). For comprehensive SV detection including insertions, inversions, and smaller events ( 95% sensitivity for events >1 kb in a 3 Gb genome.

Q: What is the cheapest way to sequence 500 genomes?

At current (2025) pricing for a 1 Gb genome: 1× lpWGS at ~$30/sample = $15,000 total. Add $5,000 for imputation against a public reference panel = $20,000. This provides common-variant genotypes suitable for GWAS, population structure, and genomic prediction. If rare variants or SVs are required, budget for 10× at ~$200/sample = $100,000 for 500 samples.

Q: Can I combine samples sequenced at different depths in one analysis?

Yes. Joint genotyping with GATK handles heterogeneous coverage across samples, and GLIMPSE2 imputation can harmonize a mixed-coverage design where 10-20% of samples are deep (≥25×) and the remainder are low-coverage (1-4×). This hybrid design is the most cost-effective strategy for population-scale projects in non-model organisms.

Q: How much storage does a WGS project need?

A 1,000-sample project at 10× for a 3 Gb genome generates approximately 60 TB of data across FASTQ, BAM, and VCF files. Using CRAM instead of BAM reduces this by 40-50% (~36 TB). Adding PGEN for genotype data saves an additional 1-2 TB. Cloud archival storage costs roughly $25-50 per TB per month for active storage and $1-4 per TB per month for archival (glacier) storage.

Q: What is the turnaround time for WGS at different depths?

Sequencing time scales linearly with coverage. A NovaSeq S4 flow cell produces ~3 Tb of data per 44-hour run. At 1× (3 Gb/sample), approximately 1,000 samples can be sequenced per run. At 30×, approximately 33 samples per run. Typical project timelines including library preparation, sequencing, and bioinformatics: 1× lpWGS = 4-6 weeks for 1,000 samples; 30× WGS = 8-12 weeks for 100 samples.

Le Spectre de Profondeur — Ce que Chaque Niveau de Couverture Offre Réellement

Un généticien des populations planifiant une GWAS sur 2 000 accès de soja demande : "Puis-je me contenter d'une couverture de 1× et d'imputation, ou ai-je besoin de 10× ?" Un laboratoire de génomique du cancer suivant l'évolution clonale à travers 500 cellules uniques demande : "30× est-il suffisant, ou ai-je besoin de 60× ?" Un biologiste de la conservation avec une subvention de 15 000 $ demande : "Combien de génomes individuels puis-je séquencer à quelle profondeur avant de manquer d'argent ?"

Ces trois chercheurs partagent une question formulée de trois manières : quelle profondeur de séquençage ai-je réellement besoin ? La réponse n'est jamais un seul chiffre — elle dépend de la question biologique, du type de variante d'intérêt, du panel de référence disponible et du budget. Ce guide fournit les preuves, les modèles de coûts et le cadre décisionnel pour y répondre.

CD Genomics fournit Séquençage du génome entier à chaque niveau de profondeur — de l'ultra-basse fréquence (0,5×) pour les GWAS alimentés par imputation à la profondeur (30×+) pour la construction de panneaux de référence — permettant aux projets d'ajuster la profondeur précisément aux objectifs de recherche sans payer trop cher pour une couverture dont ils n'ont pas besoin.

La profondeur de séquençage (ou couverture) est le nombre moyen de fois que chaque base du génome est lue par le séquenceur. À une couverture de 1×, chaque base est lue une fois en moyenne — mais la distribution de Poisson de l'échantillonnage des lectures signifie qu'environ 37 % des bases ne sont pas lues du tout. À 30×, plus de 99,9 % des bases sont couvertes par au moins une lecture, et la profondeur moyenne aux sites de variants hétérozygotes est d'environ 15 lectures — suffisant pour distinguer les véritables hétérozygotes des erreurs de séquençage avec une grande confiance.

La profondeur n'est pas binaire. Cinq niveaux opérationnels définissent quelles variantes peuvent être détectées et quelles questions peuvent être posées :

Niveau	Couverture	Fraction du génome couvert (≥1 lecture)	Précision du génotype hétérozygote	Coût/Échantillon (Humain, 2025)	Meilleur pour
Filtre passe-bas ultra-large	0,1–0,5×	10–40 %	Non appelé directement (imputation)	15–30 $	Ancestry à l'échelle de la biobanque, scores polygéniques (PGS), dépistage large des CNV
Filtre passe-bas + imputation	0,5–4×	40–98 %	Imputé : r² 0,85–0,95 pour les SNP communs	30–100 $	GWAS des variants communs, sélection génomique, structure de population
Couverture standard	10–15×	>99,9 %	Appelé : >99 % pour les SNPs	150–250 $	Scans de sélection, inférence démographique, découverte de SNP rares (MAF >2%)
Couverture approfondie	25–35×	>99,99 %	Appelé : >99,9 % pour les SNPs	250–400 $	Construction du panneau de référence, variantes rares à haute confiance (MAF 0,1–2 %)
Ultra-profond	50×+	>99,999 %	Appelé : >99,99%	500–1 200 €+	Mosaïcisme somatique, séquençage génomique à cellule unique, paires tumeur-normale, biopsie liquide

La variable critique n'est pas la couverture en soi, mais l'exactitude du génotype pour les classes de variants qui importent pour votre question. Un génome imputé à 0,5× contre un panel de référence bien assorti de 150 000 haplotypes peut atteindre un r² > 0,90 pour les SNP communs (MAF > 5%) — rivalisant ou dépassant l'exactitude d'un array SNP de 500K (Rubinacci et al., 2023). Un benchmark de 2026 en écologie moléculaire par Atsawawaranunt et al. a démontré que les méthodes de représentation réduite (RADseq) produisent des signaux de sélection faussement positifs dus à des pertes de locus dans des populations spécifiques — des erreurs que le WGS, même à faible couverture, résout car l'échantillonnage à l'échelle du génome capture l'ensemble du spectre de fréquence allélique plutôt qu'un sous-ensemble biaisé. Différentes profondeurs permettent différentes biologies, et différentes méthodes comportent différents angles morts.

WGS à faible passage (0,5–4×) — Génotypage sans se ruiner

Le séquençage du génome entier à faible couverture (lpWGS) séquence l'ensemble du génome avec une couverture de 0,5× à 4×, puis utilise l'imputation statistique — inférant des génotypes non observés à partir d'un panel de référence de haplotypes entièrement séquencés — pour compléter les données manquantes. Cette approche a rapidement évolué depuis 2023, grâce à trois développements : le moteur d'imputation GLIMPSE2, qui atteint une mise à l'échelle computationnelle sublinéaire tant en nombre d'échantillons qu'en nombre de marqueurs (traitant un génome à 1× contre 150 000 haplotypes en ~11 heures pour moins de 0,10 $ par génome) ; la disponibilité de grands panels de référence adaptés à la population (UK Biobank, gnomAD, All of Us, 1000 Genomes pour les humains ; panels spécifiques aux races et aux populations pour les espèces agricoles) ; et la convergence des coûts de séquençage au point où le WGS à 1× coûte moins qu'un tableau SNP de densité moyenne tout en offrant une couverture à l'échelle du génome sans biais de sélection.

Comment l'imputation rend le filtre passe-bas efficace

L'imputation à partir de données à faible couverture est fondamentalement différente de l'imputation à partir de matrices SNP. L'imputation basée sur des matrices commence avec 500K à 2M génotypes connus et comble les lacunes par appariement d'haplotypes. L'imputation à faible couverture commence à partir de probabilités de génotypes éparses à l'échelle du génome : chaque position dans le génome a une certaine probabilité de chaque génotype, dérivée des quelques lectures qui la chevauchent. Cette entrée plus riche, combinée au modèle de Markov caché de Li-Stephens au cœur de GLIMPSE2, produit des génotypes imputés plus précis que l'imputation basée sur des matrices pour les variants communs et à faible fréquence, en particulier dans les populations sous-représentées sur les matrices commerciales.

Trois outils définissent le paysage actuel de l'imputation lpWGS :

GLIMPSE2 (Rubinacci et al., 2023) : L'état de l'art. Nécessite un panneau de référence phasé (haplotypes phasés SHAPEIT5). Évolue de manière sous-linéaire. Recommandé pour une profondeur ≥0,5×. Fonctionne mieux avec des panneaux de référence de >1 000 haplotypes. Le --K le paramètre (nombre d'états de conditionnement) devrait être augmenté à 2 000–4 000 pour les populations ayant une grande diversité génétique.

QUILT (Davies et al., 2021) : Alternative à GLIMPSE2 qui performe de manière comparable à des profondeurs ≥0,5×. Utilise une approche algorithmique différente (HMM diploïde incorporant à la fois les haplotypes de référence et les informations de lecture simultanément). QUILT et GLIMPSE2 atteignent une précision comparable pour l'inférence d'ascendance large à des profondeurs aussi faibles que 0,15×, mais les deux nécessitent ≥0,5× pour un appel de génotypes fiable adapté aux GWAS (Rubinacci et al., 2023 ; Wasik et al., 2021).

STITCH (Davies et al., 2016) : Imputation sans référence — ne nécessite pas de panneau de référence phasé. Au lieu de cela, elle exploite directement les motifs de déséquilibre de liaison à partir des données de séquençage à faible couverture à travers de nombreux échantillons. Cela rend STITCH particulièrement précieux pour les organismes non modélisés sans panneau de référence, mais cela nécessite des tailles d'échantillon plus importantes (≥100 individus) et une couverture plus élevée (≥2×) pour atteindre une précision comparable aux méthodes basées sur des références. Une étude sur l'aquaculture de 2026 a révélé que STITCH sous-performait GLIMPSE2 pour les variants à faible fréquence chez le crabe de boue, mais était adéquat pour les GWAS de variants communs lorsque aucun panneau de référence n'existait.

Ce que le WGS à faible fréquence détecte — et ce qu'il manque

Classe Variant	Détection à 0,5–1×	Détection à 2–4×	Notes
SNPs communs (MAF >5%)	Excellent (r² >0,90 via imputation)	Excellent (r² >0,95)	Comparable à un array SNP de 500K à 1×
SNPs à faible fréquence (MAF 1–5%)	Bon (r² 0,75–0,85)	Très bon (r² 0,85–0,93)	La qualité du panneau de référence est le goulot d'étranglement.
SNPs rares (MAF 0,1–1 %)	Pauvre (r² <0,50)	Modéré (r² 0,50–0,70)	Nécessite un grand panel de référence apparié à la population.
SNPs privés/novels	Indétectable	Très pauvre	Non récupérable par imputation — besoin d'un appel de novo à ≥10×
CNV larges (>1 Mb)	Détectable	Bon	cn.mops, CNVkit peut appeler de 0,5 à 1×
Petits CNV (<100 kb)	Pauvre	Modéré	La résolution s'améliore avec la profondeur.
Variantes structurelles	Pauvre	Pauvre–Modéré	Nécessite ≥10× pour un appel SV fiable

L'implication pratique : si votre question de recherche est guidée par des variantes communes et à faible fréquence — GWAS de traits complexes, prédiction génomique dans des populations de reproduction, analyse de la structure des populations ou inférence d'ascendance — le séquençage génomique à faible profondeur à 1–2× avec imputation offre une puissance statistique comparable à celle du séquençage génomique profond à une fraction du coût. Si votre question dépend de variantes rares, privées à la population ou de novo, le faible passage est l'outil inapproprié.

Efficacité Coût : L'Avantage du Filtre Passe-Bas en Chiffres

Considérez un budget fixe de 50 000 $ pour un projet de génome à l'échelle humaine (3 Gb) :

Stratégie de profondeur	Échantillons séquencables	Puissance GWAS des SNP communs	Détection de variantes rares	Réutilisabilité future
30× séquençage génomique profond	~170	Bon (modéré N)	Excellent	Maximum
10× WGS standard	~330	Mieux	Bon	Élevé
1× lpWGS + imputation	~1 600	Meilleur (haut N)	Aucun	Modéré
2× lpWGS + imputation	~800	Très bien	Pauvre	Modéré

Pour la puissance des GWAS des variants communs, la taille de l'échantillon domine la couverture au-delà de ~1×. Séquencer 1 600 individus à 1× trouvera plus de véritables associations GWAS que 170 individus à 30× — c'est l'idée centrale qui a conduit à l'adoption de lpWGS dans les programmes de biobanques et de sélection agricole depuis 2023.

CD Genomics Séquençage génomique entier peu profond le service fournit lpWGS sur les plateformes Illumina et MGI avec des pipelines d'imputation standardisés (GLIMPSE2 + panneaux de référence phasés SHAPEIT5), livrant des appels de génotypes prêts pour l'analyse pour les GWAS, la sélection génomique et l'analyse de la structure des populations. Pour les projets qui combinent un dépistage à faible couverture avec une validation approfondie ciblée, CD Genomics' Génotypage SNP du génome entier le service propose une validation orthogonale des génotypes imputés à des loci sélectionnés.

Low-Pass WGS Workflow and Imputation Accuracy: 3-panel scientific illustration showing lpWGS workflow, imputation accuracy by MAF, and GWAS power comparison. Figure 1 : Flux de travail WGS à faible passage et précision d'imputation — Une illustration en 3 panneaux. Panneau de gauche : Un schéma du flux de travail lpWGS — lectures rares à travers un segment de chromosome, calcul de la probabilité génotypique à chaque position, imputation contre un panneau de référence phasé, sortie des génotypes imputés avec des scores de dosage et de qualité. Panneau central : Un graphique linéaire montrant la précision d'imputation (r² sur l'axe Y) par rapport à la fréquence allélique mineure pour trois niveaux de couverture (0,5×, 1×, 2×), démontrant la chute de précision dépendante de la MAF. Panneau de droite : Un graphique à barres comparant la puissance GWAS pour 30× WGS sur 200 échantillons par rapport à 1× lpWGS sur 2 000 échantillons pour un trait polygénique simulé, montrant que lpWGS avec un N plus grand surpasse le WGS profond avec un N plus petit.

Couverture standard (10–30×) — Le cheval de bataille du re-séquencement

La séquençage génomique à couverture standard de 10 à 30× est la norme pour les projets où les génotypes individuels doivent être appelés — et non imputés — avec une grande confiance. À 10×, environ 99,5 % du génome est couvert par au moins une lecture ; à 30×, la couverture est essentiellement complète (>99,99 %) et les appels hétérozygotes sont soutenus par une médiane de 15 lectures, fournissant la puissance statistique nécessaire pour distinguer les véritables hétérozygotes des erreurs de séquençage avec une précision de >99,9 % (DePristo et al., 2011).

Ce que permet la couverture standard

Découverte de nouveaux SNP et indels. Contrairement aux approches basées sur l'imputation, la couverture standard prend en charge l'appel de variants par échantillon avec GATK HaplotypeCaller ou DeepVariant, détectant des variants sans dépendance à un panel de référence. Cela est essentiel pour les organismes non modèles, les populations admises et les études où les variants nouveaux ou privés à une population sont l'objectif principal. Le gain de sensibilité de 10× à 30× est substantiel pour les variants rares : à 10×, un SNP hétérozygote avec une MAF de 0,5 % est appelé chez environ 85 % des porteurs ; à 30×, cela passe à plus de 97 % (Zhao et al., 2020).

Inférence génétique des populations. Les analyses de sélection (XP-CLR, iHS, nSL), la reconstruction démographique (PSMC, MSMC2, Stairway Plot 2) et les statistiques de différenciation des populations (Fst, D-statistic) bénéficient toutes des génotypes appelés plutôt que des dosages imputés — en particulier lorsque l'analyse implique des spectres de fréquence allélique, où l'imputation peut lisser ou déformer la distribution de fréquence des sites à faibles fréquences. Pour l'analyse PSMC, qui nécessite des appels d'hétérozygotes à travers un seul génome diploïde, 15 à 20× est le minimum pratique.

Détection de variantes structurelles. Un appel SV fiable nécessite des signaux de profondeur de lecture, de lecture séparée et de discordance en paire qui sont rares ou absents à faible couverture. Manta, Delly et Lumpy — les appelants SV standard — atteignent une sensibilité >80 % pour les délétions >1 kb et les duplications >5 kb à 15× dans un génome de 3 Gb ; à 30×, la sensibilité pour les mêmes classes de SV dépasse 95 %. Pour les études axées sur les SV, une couverture inférieure à 15× introduit un taux de faux négatifs inacceptable.

Quand 10× suffit, quand 30× est nécessaire

Application	10× Suffisant ?	15× Suffisant ?	30× Recommandé ?
Appel SNP (commun, MAF >5%)	Oui	Oui	Surenchère
Appel de SNP (rare, MAF <1%)	Marginal	Adéquat	Oui
Appel d'indel (<50 pb)	Marginal	Adéquat	Oui
Détection de SV (>1 kb)	Marginal	Adéquat	Oui
Inférence démographique PSMC	Non (≥18×)	Marginal	Oui
Appel de haplotypes HLA/phasés	Non	Non	Oui
Détection de mutations de novo (trio)	Non	Non	Oui (≥30× par échantillon)
Construction du panneau de référence	Non	Non	Oui

Une règle pratique : pour la découverte de variants à un seul nucléotide dans des espèces disposant de panneaux de référence existants, 10× est rentable. Pour toute analyse impliquant des indels, des variants structurels, le phasage ou des variants rares, prévoyez un budget de 30×. Le coût marginal pour passer de 10× à 30× — environ 100 à 200 $ par échantillon au prix actuel — offre des gains disproportionnés en sensibilité de détection des variants et en utilité future des données.

Une application représentative : le projet de pangenome de soja de l'USDA-ARS a re-séquencé 300. Glycine max accès à 15× pour caractériser la diversité des nucléotides (π), identifier les balayages de sélection via XP-CLR, et reconstruire le goulot d'étranglement de domestication avec PSMC. À 15×, les génotypes appelés ont atteint >99 % de concordance avec le séquençage génomique profond pour les SNP avec MAF >2 %, et MSMC2 a réussi à récupérer le goulot d'étranglement de domestication connu d'environ 8 000 ans — des analyses qui auraient été peu fiables avec des génotypes imputés à 1×. Pour l'inférence génomique des populations qui dépend des spectres de fréquence allélique plutôt que des appels de génotypes au niveau individuel, 15× représente un compromis pragmatique entre coût et qualité des données.

Coverage vs. Variant Detection Sensitivity: multi-line plot showing detection sensitivity as a function of sequencing depth for five variant classes. Figure 2 : Couverture vs. Sensibilité de Détection des Variants — Un graphique à plusieurs lignes montrant la sensibilité de détection des variants (axe Y, 0–100 %) en fonction de la profondeur de séquençage (axe X, 1× à 60×). Cinq courbes représentant différentes classes de variants : SNPs homozygotes (jaune, >95 % à 5×), SNPs hétérozygotes (bleu, >95 % à 15×), petites indels de 1 à 10 pb (vert, >90 % à 20×), grandes délétions >1 kb (orange, >90 % à 25×), et mutations de novo (rouge, >90 % à 40×). Lignes de référence verticales en pointillés à 10× et 30×. Fond blanc propre, esthétique de tracé scientifique, grille minimale.

Haute couverture (30×+) — Variants rares, mutations somatiques et génomes de référence

Le séquençage génomique profond à ≥30× occupe une niche distincte : il est nécessaire lorsque les variants d'intérêt sont individuellement rares, acquis somatiquement, ou doivent servir de ressource de référence communautaire pour des années de réanalyses.

Test d'association des variantes rares

Les variants rares (MAF <1%) contribuent de manière disproportionnée à l'héritabilité manquante des traits complexes et sont les cibles principales des tests d'association basés sur les gènes (SKAT-O, tests de charge). L'appel d'un variant hétérozygote rare nécessite une profondeur de lecture suffisante pour distinguer l'allèle alternatif de l'erreur de séquençage : à 30×, un site hétérozygote a une profondeur médiane d'allèle alternatif de 15 lectures, et la probabilité d'observer ≥3 allèles alternatifs provenant uniquement d'une erreur de séquençage (qualité de base Q30 → taux d'erreur de 0,1 %) à un site homozygote de référence est d'environ 10⁻⁶. À 10×, la même probabilité augmente à ~10⁻³, produisant des appels de variants rares faussement positifs qui diluent les signaux d'association. Pour les tests de charge de variants rares dans des cohortes de >1 000 individus, le taux de fausse découverte de variants rares à 10× est 3 à 5 fois plus élevé qu'à 30×, réduisant directement la puissance statistique.

Construction du panneau de référence

Des panneaux de référence d'imputation de haute qualité — la colonne vertébrale des stratégies de WGS à faible couverture — sont eux-mêmes construits à partir de génomes séquencés en profondeur. Le panneau de référence gnomAD utilise un WGS Illumina sans PCR à 30× ; la phase à haute couverture du projet 1000 Genomes a utilisé 30× ; TOPMed utilise 30–38×. La logique est circulaire mais solide : vous avez besoin d'un nombre relativement restreint de génomes séquencés en profondeur pour débloquer l'efficacité économique du séquençage à faible couverture pour des milliers d'autres. Pour les organismes non-modèles, séquencer 50–100 individus génétiquement représentatifs à ≥25× et les phaser avec SHAPEIT5 fournit un panneau de référence personnalisé suffisant pour imputer le reste de la cohorte à 1–4× avec >94 % de concordance, comme démontré chez la fraise allo-octoploïde (Koorevaar et al., 2025).

Détection de mutations somatiques

La génomique du cancer, la recherche sur le vieillissement et les études sur l'évolution clonale nécessitent de distinguer les véritables variants somatiques — présents dans une fraction des cellules — des hétérozygotes germinaux et des erreurs de séquençage. À 30×, un variant somatique présent dans 10 % des cellules a une profondeur médiane d'allèle alternatif de 1,5 lectures — à la limite de la détectabilité. À 60×, ce même variant a une profondeur alternative médiane de 3 lectures, franchissant le seuil minimum standard pour l'appel somatique (≥3 lectures de soutien). Pour le séquençage génomique unicellulaire ou la détection de variants somatiques à ultra-faible fréquence, 60–100× est la norme opérationnelle.

CD Genomics propose un séquençage génomique complet à 30× sur les plateformes Illumina NovaSeq et DNBSEQ grâce à son Séquençage du génome entier service, avec un complément en lecture longue optionnel via les services de séquençage en lecture longue pour la résolution des variants structurels et le phasage des haplotypes.

Les coûts cachés de la profondeur — Stockage, calcul et temps

La profondeur de séquençage n'est pas seulement un coût de réactifs — elle génère un volume de données proportionnel, une charge de stockage et un temps de calcul. Ces coûts cachés dépassent souvent le coût du séquençage lui-même au cours du cycle de vie d'un projet.

Génération de données à chaque niveau de profondeur

Profondeur	Taille FASTQ (génome de 3 Gb)	Taille BAM	Taille de la mémoire vive	Total par échantillon	1 000 échantillons
0,5×	~1,5 Go	~1 Go	~0,5 Go	~3 Go	~3 To
1×	~3 Go	~2 Go	~1 Go	~6 Go	~6 To
4×	~12 Go	~8 Go	~4 Go	~24 Go	~24 To
10×	~30 Go	~20 Go	~10 Go	~60 Go	~60 To
30×	~90 Go	~60 Go	~30 Go	~180 Go	~180 To
60×	~180 Go	~120 Go	~60 Go	~360 Go	~360 To

Le format CRAM réduit le stockage d'alignement de 40 à 50 % par rapport au BAM. Pour les données de génotype, le format PGEN (PLINK 2.0) atteint une compression de 98 % par rapport au VCF en texte plat — une matrice de génotype de 2 To devient environ 40 Go. Ces choix de format ne sont pas cosmétiques ; pour un projet de 1 000 échantillons à 30×, choisir CRAM + PGEN dès le départ permet d'économiser environ 100 To de stockage, ce qui se traduit par des coûts de stockage cloud de 25 000 à 50 000 $ sur un cycle de vie de projet de 5 ans.

Les coûts de calcul évoluent avec la profondeur.

L'alignement avec BWA-MEM2 évolue de manière approximativement linéaire avec le nombre de lectures : un génome à 30× prend environ 30 fois plus de temps à aligner qu'un génome à 1×. Le génotypage conjoint avec GATK évolue moins favorablement : le temps de traitement de GenomicsDBImport est à peu près proportionnel au nombre de sites de variants, qui lui-même évolue de manière sublinéaire avec la profondeur (rendements décroissants au-delà de ~15× pour la découverte de SNP), mais le temps d'exécution de GenotypeGVCFs évolue avec le nombre d'échantillons et la profondeur. Pour une cohorte de 1 000 échantillons à 10×, le génotypage conjoint nécessite environ 500 heures-cœur et 500 Go de RAM ; à 30×, la même cohorte nécessite environ 1 500 heures-cœur et 1 To de RAM — une augmentation des coûts de calcul de 3× pour un gain de 2× en sensibilité aux variants rares.

La décision entre le Cloud et le HPC à différentes profondeurs

Pour les projets de moins de ~200 échantillons à ≤10×, l'informatique en nuage (AWS, Google Cloud) est compétitive en termes de coûts par rapport au HPC sur site et évite les coûts d'infrastructure initiaux. Pour les projets dépassant 500 échantillons à ≥30×, le HPC sur site avec stockage parallèle (Lustre, GPFS) s'amortit à un coût par échantillon inférieur mais nécessite un investissement initial à six chiffres. Une solution intermédiaire pratique : utiliser des instances spot/préemptibles dans le cloud pour l'alignement par échantillon (embarrassamment parallèle), puis des instances sur site ou réservées dans le cloud pour le génotypage conjoint (intensif en mémoire, plus difficile à paralléliser).

Cadre de Décision — Adapter la Profondeur à Votre Question de Recherche

Le choix de la profondeur de séquençage doit être guidé par quatre questions, auxquelles il faut répondre dans l'ordre :

Quelle classe de variantes répond à votre question biologique ? SNPs communs (MAF >5%) → 0,5–2× + imputation est suffisant. SNPs rares (MAF <1%) → ≥15× requis. Variants structurels → ≥20×. Mutations somatiques → ≥60×. Mutations de novo → ≥30× dans des trios.
Avez-vous un panel de référence apparié à la population ? Oui, avec plus de 1 000 haplotypes → lpWGS à 0,5–2× est viable. Pas de panneau de référence → deux options : (a) séquencer 50–100 individus à ≥25× pour construire un panneau personnalisé, puis séquencer le reste à 1–4× ; ou (b) séquencer tous les échantillons à ≥10× pour des génotypes appelés sans imputation.
Quel est votre budget par échantillon ? <$50 → 0,5–1× lpWGS. 50–100 $ → 1–4× lpWGS. 100–250 $ → 10–15× standard. 250–400 $ → 30× deep. Au-dessus de 400 $/échantillon → applications spécialisées ultra-profondes.
Comment les données seront-elles utilisées à l'avenir ? Si l'ensemble de données doit être réanalysé pendant des années, combiné avec d'autres cohortes ou servir de ressource communautaire → investissez dans ≥30× pour une flexibilité maximale. Si l'analyse est à usage unique (une GWAS, une publication) → le lpWGS à 1–2× est le choix le plus rentable.

Table de Décision Rapide

Votre scénario	Profondeur recommandée	Justification
GWAS, N >2 000, panneau apparié humain/populationnel	0,5–1× lpWGS	Puissance à variante commune entraînée par N, pas par la profondeur.
GWAS, N 200–500, espèces non-modèles, pas de panel	10–15× standard	Besoin d'appeler des génotypes ; l'imputation n'est pas viable.
Structure de la population + démographie, 10–30 par population	10–15×	PSMC, Fst et π bénéficient des génotypes appelés.
Sélection génomique, programme de reproduction	1–4× lpWGS + panneau personnalisé	Maximiser N ; imputation validée en agriculture
Test de charge de variantes rares, cas-témoins	30×	Les appels à faible MAF nécessitent une grande profondeur.
Construction du panneau de référence	25–35×	Ressource communautaire ; maximise la précision de l'imputation en aval
Mosaïcisme somatique / cellule unique	60×+	Les appels VAF faibles nécessitent une profondeur extrême.
Dépistage uniquement des CNV, grande cohorte	0,5–1× lpWGS	CNV importants détectables à très faible profondeur
découverte SV	20–30×	La sensibilité Manta/Delly tombe en dessous de 15×.
Assemblage de novo (génome de référence)	30–50× HiFi + 15–20× ONT	Voir notre Guide de séquençage génomique de novo

WGS Depth Decision Flowchart: visual decision tree mapping research questions to recommended sequencing depths with color-coded terminal nodes. Figure 3 : Organigramme de décision sur la profondeur du WGS — Un arbre de décision visuel reliant les questions de recherche aux profondeurs de séquençage recommandées. En partant du haut : (1) "Quelle classe de variants répond à votre question ?" se divise en SNPs communs → Low-Pass, SNPs/SVs rares → Standard/Deep, somatiques → Ultra-Deep. (2) "Panneau de référence disponible ?" se divise en Oui → lpWGS + imputation, Non → Standard ou créer un panneau personnalisé. (3) "Budget par échantillon ?" avec des seuils en dollars associés aux niveaux de profondeur. (4) "Réutilisation future ?" se divise en Oui → 30× Deep, Non → adapter la profondeur à la question immédiate. Les nœuds terminaux sont codés par couleur selon le niveau de profondeur : bleu clair (0,5–4×), bleu moyen (10–15×), bleu foncé (30×), marine (60×+). Style infographique moderne et plat, fond blanc, typographie sans-serif épurée.

L'approche hybride — Mélanger les profondeurs dans un projet

Les conceptions à grande échelle les plus rentables combinent souvent des niveaux de profondeur au sein d'un même projet. Trois stratégies hybrides validées :

Panneau de référence + cohorte de découverte. Séquencez 10 à 20 % des échantillons à ≥25× pour construire un panel de référence haplotypique personnalisé ; séquencez les 80 à 90 % restants à 1 à 4× et imputez par rapport au panel personnalisé. Cette stratégie a permis d'obtenir une concordance d'imputation de 94 à 98 % chez la fraise allo-octoploïde en utilisant environ 70 individus de référence à ≥25× (Koorevaar et al., 2025) et a été validée chez des espèces d'aquaculture (bar rayé, plie olive, crabe de boue), des cultures (maïs, soja, riz) et du bétail (bétail, porc, saumon).

WES + WGS à faible passage pour CNV. Le séquençage de l'exome entier (WES) capture les variants codants à haute profondeur mais est aveugle aux CNV non codants. Ajouter 2 à 4 fois du lpWGS aux échantillons WES — l'approche "génome-exome mélangé" — permet une détection des CNV à l'échelle du génome à un coût marginal supplémentaire (~40 à 80 $ par échantillon). Cela est de plus en plus adopté dans la recherche sur les maladies rares où l'analyse des SNV codants (WES) et l'analyse des CNV non codants (lpWGS) sont toutes deux nécessaires.

Déploiement par phases sur plusieurs cycles budgétaires. Année 1 : 1× lpWGS sur l'ensemble de la cohorte (30 $/échantillon, 2 000 échantillons = 60 000 $). Analyser, publier l'étude GWAS. Années 2–3 : 30× sur les 200 meilleurs échantillons (300 $/échantillon, 60 000 $). Construire un panel de référence personnalisé, ré-imputer les données de l'année 1, publier l'analyse des variants rares. Année 4 : ré-analyser l'ensemble de données combinées avec des méthodes améliorées. Cette approche par étapes aligne les dépenses avec les cycles de subvention tout en augmentant progressivement la résolution des données.

Pour les projets nécessitant à la fois un re-séquencement à l'échelle de la population et une optimisation de la profondeur, consultez notre guide compagnon sur Projets de re-séquençage WGS à grande échelle pour la couverture de la logistique d'échantillons, le génotypage conjoint à grande échelle et les suites d'analyse génétique des populations. Pour le contexte plus large de la manière dont les décisions de profondeur s'intègrent dans le paysage du séquençage génomique complet (WGS), voir notre Centre de services de séquençage du génome entier.

Approvisionnement Pratique — De la Décision au Bon de Commande

Comment parler aux fournisseurs de séquençage

Lors de la demande de devis pour un projet WGS, spécifiez ces paramètres : les fournisseurs ne peuvent pas donner de prix précis sans eux :

Taille du génome et couverture attendue par échantillon (pas seulement "WGS" — "génome de 3 Gb, couverture 10×, paire de 150 pb")
Nombre d'échantillons et s'ils sont fournis sous forme d'ADN extrait ou de tissu. (L'extraction d'ADN ajoute 20 à 50 $/échantillon)
Type de préparation de bibliothèque (Sans PCR vs avec PCR ; sans PCR coûte plus cher mais élimine le biais GC)
Préférence de multiplexage (combien d'échantillons par voie/cellule de flux ; un multiplexage plus élevé réduit le coût par échantillon)
Format de livraison des données (seulement FASTQ vs BAM/CRAM + VCF ; les services d'analyse ajoutent 50 à 200 $/échantillon selon la profondeur et la complexité)
Délai de traitement (standard 8 à 12 semaines contre expédition accélérée 4 à 6 semaines ; l'expédition accélérée entraîne généralement une surcharge de 25 à 50 %)

Validation de votre choix de profondeur avec un pilote

Avant de valider l'ensemble de la cohorte, réalisez un lot pilote de 8 à 16 échantillons à la profondeur prévue, plus un niveau supérieur. Si vous prévoyez un séquençage WGS à 1×, effectuez un essai à 1× et 4× pour les mêmes échantillons. Comparez : l'exactitude de l'imputation (r²) à 1× par rapport aux génotypes appelés à 4× ; la concordance sur les sites de variantes connus si des données de validation existent ; et les métriques de complexité de la bibliothèque (taux de duplication, distribution de la taille des inserts, uniformité de la couverture). Un essai coûtant entre 1 500 et 3 000 $ peut éviter une erreur de 50 000 $.

Modèle de budget pour un projet de génome de 3 Go

Poste de ligne	1× lpWGS (1 000 échantillons)	10× Écart type (300 échantillons)	30× Profond (100 échantillons)
Extraction d'ADN + QC	20 000 $ (20 $/échantillon)	6 000 $ (20 $/échantillon)	2 000 $ (20 $/échantillon)
Préparation de la bibliothèque	50 000 $ (50 $/échantillon)	21 000 $ (70 $/échantillon sans PCR)	10 000 $ (100 $/échantillon sans PCR)
Séquençage	30 000 $ (30 $/échantillon)	60 000 $ (200 $/échantillon)	30 000 $ (300 $/échantillon)
Stockage de données (5 ans)	3 000 $	15 000 $	15 000 $
Analyse bioinformatique	15 000 $	15 000 $	10 000 $
Imputation (le cas échéant)	5 000 $	—	—
Gestion de projet	5 000 $	5 000 $	3 000 $
Total	128 000 $	122 000 $	70 000 $
Coût par échantillon	128 $	407 $	700 $
Puissance GWAS (h²=0,3)	Le plus élevé (N=1 000)	Modéré (N=300)	Faible (N=100)

CD Genomics fournit Étude d'Association à l'Échelle du Génome (GWAS) et Évolution de la population services d'analyse intégrées avec le WGS à n'importe quelle profondeur, de la consultation sur la conception expérimentale jusqu'aux figures prêtes pour publication. Pour les projets nécessitant une analyse du nombre de copies complétant le WGS à faible couverture, notre Services de séquençage CNV fournir un appel de CNV optimisé en profondeur à la fois à faible et à haute couverture.

FAQ

Quelle est la différence entre les WGS à faible passage et les puces SNP ?

Le séquençage génomique à faible couverture (WGS) couvre l'ensemble du génome avec une couverture de 0,5 à 4× et impute les génotypes manquants, capturant la variation génomique à l'échelle du génome sans marqueurs pré-sélectionnés. Les puces SNP génotypent 500K à 2M de sites pré-sélectionnés. Le WGS à faible couverture évite le biais de sélection (les puces sont principalement conçues à partir de populations européennes), capture des variants que les puces manquent et génère des données qui peuvent être réanalysées à mesure que les panneaux de référence et les méthodes d'imputation s'améliorent. Cependant, les puces sont plus simples à analyser (aucune imputation requise pour les génotypes appelés) et restent moins chères pour des tailles d'échantillon très petites (<50).

À quelle couverture puis-je appeler de manière fiable des variants structurels ?

Des suppressions et des duplications importantes (>1 Mb) sont détectables à partir de 0,5–1× lpWGS en utilisant des outils basés sur la profondeur de lecture (cn.mops, CNVkit). Pour une détection complète des SV, y compris les insertions, les inversions et les événements plus petits (<100 kb), une couverture ≥20× avec des appelants basés sur des lectures éclatées et des paires (Manta, Delly) est recommandée. L'appel de SV à partir de données à 30× atteint une sensibilité >95 % pour des événements >1 kb dans un génome de 3 Gb.

Ai-je besoin d'un panel de référence pour l'imputation WGS à faible passage ?

Pour l'imputation basée sur GLIMPSE2, oui — un panel de référence phasé d'au moins 500 haplotypes est le minimum, avec plus de 1 000 fortement recommandé. Si aucun panel de référence n'existe pour votre espèce, deux alternatives : (1) construire un panel personnalisé en séquençant 50 à 100 individus génétiquement divers à ≥25×, puis imputer le reste à 1–4× ; ou (2) utiliser STITCH pour une imputation sans référence, ce qui nécessite au moins 100 échantillons à ≥2× de couverture.

Comment la profondeur de séquençage affecte-t-elle la puissance statistique des GWAS ?

Pour les GWAS de variantes communes (MAF >5 %), la puissance statistique est principalement déterminée par la taille de l'échantillon, et non par la couverture, une fois que la couverture dépasse environ 0,5× avec imputation. Le séquençage de 1 000 individus à 1× détectera plus de véritables associations GWAS que 100 individus à 30×. Pour les GWAS de variantes rares (MAF <1 %), la relation s'inverse : la sensibilité de détection des variantes nécessite une couverture ≥15×, et l'imputation ne peut pas récupérer les variantes absentes du panneau de référence.

Quelle est la manière la moins coûteuse de séquencer 500 génomes ?

À la tarification actuelle (2025) pour un génome de 1 Go : 1× lpWGS à environ 30 $/échantillon = 15 000 $ au total. Ajoutez 5 000 $ pour l'imputation contre un panel de référence public = 20 000 $. Cela fournit des génotypes de variants communs adaptés aux GWAS, à la structure de population et à la prédiction génomique. Si des variants rares ou des SVs sont nécessaires, prévoyez 10× à environ 200 $/échantillon = 100 000 $ pour 500 échantillons.

Puis-je combiner des échantillons séquencés à des profondeurs différentes dans une seule analyse ?

Oui. Le génotypage conjoint avec GATK gère la couverture hétérogène entre les échantillons, et l'imputation GLIMPSE2 peut harmoniser un design à couverture mixte où 10 à 20 % des échantillons sont à haute couverture (≥25×) et le reste à faible couverture (1–4×). Ce design hybride est la stratégie la plus rentable pour des projets à l'échelle de la population dans des organismes non modèles.

Combien d'espace de stockage un projet WGS nécessite-t-il ?

Un projet de 1 000 échantillons à 10× pour un génome de 3 Go génère environ 60 To de données réparties sur des fichiers FASTQ, BAM et VCF. L'utilisation de CRAM au lieu de BAM réduit cela de 40 à 50 % (~36 To). L'ajout de PGEN pour les données de génotype permet d'économiser 1 à 2 To supplémentaires. Les coûts de stockage d'archives dans le cloud sont d'environ 25 à 50 $ par To par mois pour le stockage actif et de 1 à 4 $ par To par mois pour le stockage d'archives (glacier).

Quel est le délai de traitement pour le séquençage génomique complet (WGS) à différentes profondeurs ?

Le temps de séquençage évolue linéairement avec la couverture. Une cellule de flux NovaSeq S4 produit environ 3 To de données par course de 44 heures. À 1× (3 Gb/échantillon), environ 1 000 échantillons peuvent être séquencés par course. À 30×, environ 33 échantillons par course. Les délais typiques des projets, y compris la préparation de la bibliothèque, le séquençage et la bioinformatique : 1× lpWGS = 4 à 6 semaines pour 1 000 échantillons ; 30× WGS = 8 à 12 semaines pour 100 échantillons.

Références :

Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputation des données de séquençage à faible couverture provenant de 150 119 génomes du UK Biobank. Nature Génétique2023 ; 55(7) : 1088-1090. doi:10.1038/s41588-023-01438-3
Wasik K, Berisa T, Pickrell JK, et al. Comparaison du séquençage à faible couverture et du génotypage pour la cartographie des traits en pharmacogénétique. BMC Genomics. 2021;22:197. doi:10.1186/s12864-021-07508-2
Hofmeister RJ, Ribeiro DM, Rubinacci S, Delaneau O. Phasage précis des variantes rares des données de séquençage du génome entier et de l'exome entier dans le UK Biobank. Nature Génétique2023;55(7):1243-1249. doi:10.1038/s41588-023-01415-w
Koorevaar T, van de Weg E, Visser RGF, et al. Imputation de génotypes à partir de séquençage génomique à faible couverture en utilisant des panneaux de référence de haplotypes chez la fraise cultivée. BMC Genomics2025;26(1):968. doi:10.1186/s12864-025-12270-w
DePristo MA, Banks E, Poplin R, et al. Un cadre pour la découverte de variations et le génotypage utilisant des données de séquençage ADN de nouvelle génération. Nature Génétique2011 ; 43(5) : 491-498. doi:10.1038/ng.806
Danecek P, Bonfield JK, Liddle J, et al. Douze ans de SAMtools et BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
Atsawawaranunt K, Whibley A, Santure AW, et al. Manque ou mal raconter l'histoire ? Compromis entre le séquençage associé aux sites de restriction et le séquençage du génome entier. Écologie moléculaire2026;35(5):e17707. doi:10.1111/mec.17707
Zhao S, Agafonov O, Azab A, Stokowy T, Hovig E. Précision et efficacité des pipelines d'appel de variants germinaux pour les données du génome humain. Rapports Scientifiques2020 ; 10 : 20222. doi:10.1038/s41598-020-77218-4
Davies RW, Flint J, Myers S, Mott R. Imputation rapide de génotypes à partir de séquences sans panneaux de référence. Nature Génétique. 2016;48(8):965-969. doi:10.1038/ng.3594
Davies RW, Kucka M, Su D, et al. Imputation rapide de génotypes à partir de séquences avec des panneaux de référence. Nature Génétique. 2021;53(7):1104-1111. doi:10.1038/s41588-021-00877-0

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.