What is large-scale whole genome re-sequencing and how is it different from de novo assembly?

Large-scale re-sequencing maps reads from hundreds to thousands of individuals against an existing reference genome to identify genetic variants (SNPs, indels, structural variants) across a population. It is fundamentally different from de novo assembly, which constructs a genome from scratch without a reference. Re-sequencing is faster and cheaper per sample but requires a high-quality reference genome.

How many samples do I need for a population genomics or GWAS study?

For population structure and demographic history, 10-30 individuals per population at ≥10× coverage is often sufficient. For GWAS, sample sizes of hundreds to thousands are required to detect loci explaining 0.1-1% of phenotypic variance. For genomic selection, 500-2,000 individuals is standard for training population construction in plant and animal breeding.

What sequencing depth should I choose for a large-scale re-sequencing project?

Low-coverage WGS (1-4×) with imputation is the default for cohorts exceeding 300 samples, capturing common variants at a fraction of deep WGS cost. Standard coverage (10-15×) provides reliable rare variant calls for demographic inference and selection scans. Deep coverage (30×) is recommended for reference panel construction and high-confidence variant detection.

How do I control costs for a project with hundreds to thousands of samples?

Three highest-impact strategies: (1) use low-coverage WGS + imputation for the full cohort with a custom reference panel from 10-20% of samples at 30×, (2) negotiate volume pricing and perform pre-pool QC runs to avoid costly requeueing, and (3) adopt compressed formats (CRAM, PGEN) to cut storage costs by 30-98%.

What bioinformatic infrastructure do I need for joint analysis of 1,000 genomes?

For alignment and per-sample variant calling, a 500-core HPC cluster or equivalent cloud compute can process 1,000 30× genomes in under a week. For joint genotyping, at least 1 TB of RAM and 50 TB of fast storage are recommended for cohorts exceeding 2,000 samples. Workflow managers (Nextflow, Snakemake) and containerized tools (Docker, Singularity) are strongly recommended for reproducibility.

Can I combine samples sequenced at different depths in the same analysis?

Yes, joint genotyping with GATK handles heterogeneous coverage. This is routine in projects combining a deeply sequenced reference panel with a low-coverage discovery cohort. Variant calling sensitivity differs by depth, so batch effects should be explicitly modeled. Imputation with GLIMPSE2 can harmonize coverage differences by imputing low-coverage samples to reference panel resolution.

What are the data storage requirements for a large re-sequencing project?

A single 30× genome generates 200-300 GB of total data; a 1,000-sample project at 10× requires 100-150 TB of active storage and 50-80 TB for long-term archival. Cloud archival storage costs roughly $100-400 per month for a 100 TB archive. Using CRAM instead of BAM cuts alignment storage by 30-50%; PGEN format cuts genotype storage by 98%.

How does CD Genomics handle the logistics of large-scale re-sequencing projects?

CD Genomics provides a dedicated project manager, LIMS-tracked sample handling in 96-well format, automated liquid handling for library preparation, pre-pool QC runs on every batch, joint variant calling with GATK, and comprehensive population genetics analysis. Raw data (FASTQ), aligned data (BAM/CRAM), variant calls (VCF), and publication-ready analysis outputs are delivered with a detailed methods document.

Projets de re-séquençage génomique à grande échelle : génomique des populations, GWAS et optimisation des coûts pour des échantillons à volume élevé

Aller au-delà des génomes uniques — Quand le séquençage génomique complet s'applique aux populations

Un sélectionneur de plantes doit génotyper 2 000 lignées de maïs haploïdes doubles pour entraîner un modèle de sélection génomique qui prédit la performance des hybrides avant les tests sur le terrain. Un généticien de la conservation souhaite analyser 500 génomes de saumon atlantique à la recherche de signatures d'adaptation locale aux rivières en réchauffement. Un biologiste évolutif prévoit de re-séquençer 300 individus à travers 12 populations d'un poisson non-modèle pour reconstruire son histoire démographique depuis le dernier maximum glaciaire. Ces projets partagent un ADN commun : ils nécessitent tous un re-séquençage de génome entier (WGS) à l'échelle de la population — et la logistique, le coût et les défis bioinformatiques de 500 génomes sont catégoriquement différents de ceux de 5.

Le re-séquençage WGS à grande échelle — défini ici comme des projets impliquant des centaines à des milliers d'individus séquencés avec une couverture de 1× à 30× — est devenu l'approche par défaut pour la génomique des populations, les études d'association à l'échelle du génome (GWAS), la sélection génomique dans l'élevage des plantes et des animaux, et la biologie évolutive depuis environ 2022. La convergence de la chute des coûts de séquençage (un génome humain à 30× coûte désormais moins de 300 $ pour les consommables de séquençage uniquement), des pipelines bioinformatiques matures capables de traiter des milliers d'échantillons simultanément, et des méthodes d'imputation à faible couverture validées a rendu le WGS à l'échelle des populations réalisable pour des groupes de recherche individuels — et pas seulement pour des consortiums avec des budgets à huit chiffres.

CD Genomics fournit Séquençage du génome entier services adaptés aux projets à l'échelle de la population, de l'extraction d'ADN au format 96 puits à l'appel de variants communs et à l'analyse génétique des populations. Cet article couvre l'ensemble du flux de travail pour le re-séquencement à grande échelle : conception du projet, logistique des échantillons, optimisation des coûts, stratégies bioinformatiques pour l'analyse conjointe de centaines à des milliers de génomes, et gestion des données pour des livrables prêts à être publiés.

Quelles réponses apporte le re-séquencement à l'échelle de la population ?

Un seul génome de référence vous indique ce qu'un individu porte. Une population de génomes re-séquencés vous indique ce que l'espèce porte — et plus important encore, comment cette variation est répartie à travers la géographie, l'écologie et le temps. Les questions fondamentales auxquelles le séquençage génomique à l'échelle de la population répondent se classent en quatre catégories :

Structure de la population et histoire démographique. L'analyse en composantes principales (ACP), l'estimation de l'ascendance basée sur l'ADMIXTURE et l'inférence par identité par descendance (IBD) à partir de données de séquençage du génome entier (WGS) résolvent les subdivisions de population, le flux génétique et les goulets d'étranglement historiques à des résolutions inaccessibles par des méthodes de représentation réduite. La coalescence markovienne séquentielle par paires (PSMC) et ses extensions multi-échantillons (MSMC, SMC++) reconstruisent les trajectoires de taille de population effective sur des centaines de milliers de générations à partir d'un seul génome diploïde ou d'une poignée de génomes, offrant un aperçu de l'histoire démographique d'espèces peu étudiées.

Balayages sélectifs et adaptation locale. Comparer les spectres de fréquence des allèles et la différenciation des populations (Fst) à travers le génome permet d'identifier des régions où la sélection a conduit les allèles à la fixation ou à une quasi-fixation. Des méthodes comme XP-CLR (rapport de vraisemblance composite inter-populations), iHS (score d'haplotype intégré) et les scans de ratio de diversité nucléotidique (π) ciblent les intervalles génomiques spécifiques soumis à la sélection — allant de la vague de persistance de la lactase dans les populations humaines aux QTLs de tolérance à la salinité dans les variétés de riz. La résolution du séquençage du génome entier (WGS) est importante ici : les puces de génotypage ne capturent que les variantes communes présentes dans le panneau de conception, tandis que le WGS capture l'ensemble du spectre de fréquence des allèles, y compris les variantes à faible fréquence et privées à la population qui sont souvent les plus informatives pour détecter une sélection récente.

Études d'association à l'échelle du génome (GWAS). Pour des traits avec des architectures génétiques complexes — rendement dans les cultures, résistance aux maladies chez le bétail, taille corporelle chez les poissons — les GWAS testent des millions de SNP pour une association statistique avec le phénotype. Les approches modernes à modèles mixtes (GEMMA, GCTA, BOLT-LMM) tiennent compte de la structure de la population et des relations cryptiques, réduisant les faux positifs qui ont affecté les premières études sur les gènes candidats. La puissance statistique des GWAS évolue principalement avec la taille de l'échantillon, et non avec la densité des marqueurs au-delà d'un certain point — mais le séquençage génomique complet (WGS) offre deux avantages par rapport aux puces de génotypage : il capture des variants causaux rares que les puces manquent, et il permet un affinement direct des pics GWAS vers des variants causaux candidats sans séquençage ciblé ultérieur.

Un exemple concret de 2025 illustre ce que le re-séquençage à l'échelle de la population apporte pour les GWAS des cultures. Zhang et al. (Frontiers in Plant Science) ont re-séquencé 348 accès de soja divers à une couverture de 10×, détectant 1 882 531 SNPs pour un GWAS sur le poids de cent graines. Un pic significatif sur le chromosome 19 co-localisait avec un QTL biparental (qHSW-19-4) cartographié dans une population RIL indépendante, réduisant l'intervalle candidat à 580 kb. Quatre gènes prioritaires dans cet intervalle ont été validés par qRT-PCR — un pipeline allant du WGS de population aux candidats fonctionnels qui illustre comment le re-séquençage à couverture modérée de quelques centaines d'individus fournit une résolution suffisante pour la découverte de pics GWAS, après quoi le fine-mapping et la validation fonctionnelle prennent le relais.

Sélection et prédiction génomiques. Dans l'élevage des plantes et des animaux, la sélection génomique utilise des marqueurs génomiques à l'échelle du génome pour prédire les valeurs d'élevage (GEBV) des candidats à la sélection. L'expérience Big BIT maïs 2025 — une étude de validation multi-sites et multi-années portant sur des milliers d'hybrides — a confirmé que la sélection génomique basée sur la prédiction du génome entier, ancrée dans des données de formation à large échelle environnementale, est la stratégie d'évaluation génétique la plus efficace en phase précoce. Le séquençage du génome entier (WGS), ou le WGS à faible couverture avec imputation au niveau du séquençage, fournit les données de marqueurs denses nécessaires aux modèles de sélection génomique sans le biais d'ascertainment des puces SNP.

Combien d'échantillons avez-vous vraiment besoin ?

Les exigences en matière de taille d'échantillon dépendent de la question. Pour la structure de la population et l'inférence démographique, 10 à 30 individus par population avec un séquençage génomique complet (WGS) à une couverture ≥10× est généralement suffisant. Pour les études d'association génomique (GWAS) avec des tailles d'effet réalistes (expliquant 0,1 à 1 % de la variance phénotypique), des centaines à des milliers d'individus sont nécessaires — des calculs de puissance doivent être effectués avant de s'engager dans le séquençage. Pour la sélection génomique, des tailles de population d'entraînement de 500 à 2 000 individus sont courantes dans les programmes de sélection végétale, avec une précision de prédiction atteignant un plateau lorsque les ensembles d'entraînement dépassent plusieurs milliers.

Une règle pratique : si vous pouvez répondre à votre question avec moins de 100 individus, le séquençage génomique complet (SGC) à 10-30× est simple et rentable. Si vous avez besoin de 500 à 5 000 individus, le SGC à faible couverture (1-4×) avec imputation à un panel de référence devient la stratégie d'optimisation des coûts dominante. Au-delà de 10 000 individus, envisagez un design en étapes : SGC à faible couverture pour l'ensemble de la cohorte, avec un sous-ensemble de 10-20 % séquencé à 30× pour servir de panel de référence pour l'imputation.

Conception de projet à grande échelle — La logistique, pas la biologie, est le goulot d'étranglement.

Un projet de séquençage génomique à grande échelle de 500 échantillons est davantage un problème logistique qu'un problème biologique. Le flux de travail en laboratoire humide — de l'extraction de l'ADN à la préparation de la bibliothèque jusqu'au séquençage — doit être conçu pour un débit parallèle, l'intégrité du suivi des échantillons et la minimisation des effets de lot dès le départ. Les corrections rétrospectives pour les échanges d'échantillons, la couverture inégale ou les appels de variants confondus par lot sont coûteuses ou impossibles.

Extraction d'ADN et contrôle de qualité à grande échelle

Pour des projets à l'échelle de la population, l'extraction d'ADN passe des colonnes à centrifuger individuelles aux formats de plaques à 96 puits. Exigences clés :

Quantité d'entréeIl est recommandé d'utiliser ≥500 ng d'ADN génomique de haute qualité par échantillon pour la préparation de bibliothèques sans PCR, ce qui élimine le biais GC et les artefacts de duplicata PCR qui affectent de manière disproportionnée l'appel de variants dans les cohortes de population. Pour les échantillons à faible entrée (spécimens de musée dégradés, petits invertébrés uniques), des flux de travail avec PCR sont acceptés mais doivent être appliqués de manière uniforme au sein d'un projet — le mélange de bibliothèques sans PCR et avec PCR confond les effets de lot et de biologie.

Métriques de qualitéChaque échantillon doit être quantifié par un test dsDNA basé sur la fluorescence (Qubit ou PicoGreen) et dimensionné par électrophorèse capillaire (TapeStation ou Fragment Analyzer). Les scores DIN (DNA Integrity Number) inférieurs à 6 indiquent une dégradation qui peut nécessiter des ajustements de protocole. Dans de grandes cohortes analysées par le projet Tohoku Medical Megabank, les scores DIN variaient de 1,6 à 9,2 sur 100 000 échantillons — l'essentiel est de documenter, et non d'éliminer, cette variation afin qu'elle puisse être modélisée comme une covariable technique.

Normalisation et ensemencementL'ADN doit être normalisé à une concentration uniforme (typiquement 10-50 ng/µL) dans tous les échantillons et aliquoté dans des plaques à 96 puits. Des manipulateurs de liquide automatisés (Agilent Bravo, Biomek NXp) sont fortement recommandés pour plus de 100 échantillons afin d'éliminer les erreurs de pipetage manuel qui entraînent des échanges d'échantillons. Toutes les plaques doivent être dotées de codes-barres et suivies par un système de gestion de l'information de laboratoire (LIMS).

Préparation de la bibliothèque et multiplexage

Pour le re-séquençage de la population, la stratégie de préparation de la bibliothèque détermine à la fois le coût par échantillon et la qualité des données :

Préparation de bibliothèque sans PCR est préféré chaque fois que l'entrée en ADN dépasse 500 ng. Les bibliothèques sans PCR éliminent le biais de GC induit par l'amplification, réduisent les taux de doublons et produisent une couverture plus uniforme — ce qui améliore la sensibilité de l'appel de variants, en particulier dans les régions riches et pauvres en GC. Le compromis est des exigences d'entrée en ADN plus élevées et des seuils de qualité plus stricts.

Index uniques doubles (UID) sont obligatoires pour les projets à l'échelle de la population. Le saut d'index — où des lectures d'un échantillon sont mal attribuées à un autre lors du démultiplexage sur des cellules de flux à motifs — peut produire des appels hétérozygotes fallacieux lorsque une lecture contaminante porte un allèle différent de celui du véritable échantillon. Les UDI, où les index i7 et i5 sont uniques à chaque échantillon et la combinaison est validée, éliminent ce risque. Les stratégies à index unique ne doivent pas être utilisées pour des projets dépassant 96 échantillons.

Densité de multiplexage dépend de la plateforme de séquençage : une cellule de flux NovaSeq S4 peut accueillir 48 à 96 échantillons à une couverture humaine de 30× ; un DNBSEQ-T7 peut traiter plus de 150 échantillons sur ses quatre cellules de flux. Pour des conceptions à faible couverture (1-4×), 384 à 768 échantillons peuvent être multiplexés sur une seule cellule de flux S4.

Contrôles de qualité préalables au pool — séquencer un aliquote groupé de 48 à 96 échantillons à une couverture de 1 à 2× avant de s'engager dans un séquençage en profondeur complet — coûte environ 500 à 1 000 $ et permet de détecter les problèmes d'équilibre de la bibliothèque, la contamination et les échanges d'échantillons avant qu'ils ne se propagent à l'ensemble du jeu de données. La Tohoku Medical Megabank et le UK Biobank utilisent toutes deux cette stratégie ; l'investissement se rentabilise en évitant un seul passage de séquençage réinscrit.

Profondeur de séquençage — Un éventail de stratégies

Stratégie	Couverture	Variantes Détectées	Coût/Échantillon (environ)	Meilleur pour
Filtre passe-bas ultra-large	0,5-1×	~1-5M SNPs (avec imputation)	20-40 $	Cohortes très larges (N>5 000) ; ascendance, scores polygénétiques
Couverture faible + imputation	2-4×	~10-20 millions de SNPs (avec imputation)	50-100 $	GWAS dans de grandes cohortes ; sélection génomique en élevage
WGS standard	10-15×	~30-40M SNPs, appels de variants rares fiables	150-250 $	Structure de la population, analyses de sélection, inférence démographique
WGS profond	30×	~40-50M SNPs, appels de variants rares à haute confiance	250-400 $	Panneaux de référence pour l'imputation ; détection de variantes à haute confiance
Ultra-profond	60×+	Sensibilité maximale pour somatique/cellule unique	500-800 €+	Applications spécialisées (WGS unicellulaire, mosaïcisme somatique)

L'idée principale tirée de la littérature 2023-2025 est que le séquençage génomique à faible couverture avec imputation (utilisant GLIMPSE2 ou QUILT) atteint désormais une précision de génotypage des variants communs comparable à celle du séquençage génomique profond ou des puces SNP à haute densité, à une fraction du coût. Pour les questions de génomique des populations où les variants communs (MAF > 1%) sont à l'origine du signal — structure de population, inférence démographique, la plupart des GWAS — le coût par puissance statistique favorise des tailles d'échantillon plus grandes à faible couverture par rapport à des tailles d'échantillon plus petites à haute couverture.

Sequencing Depth vs. Sample Size Decision Matrix: 2D decision chart with four colored application zones and cost contours. Figure 1 : Matrice de décision entre la profondeur de séquençage et la taille de l'échantillon — Un graphique 2D avec le nombre d'échantillons sur l'axe des X (échelle logarithmique, de 10 à 10 000) et la profondeur de couverture sur l'axe des Y (0,5× à 60×). Quatre zones d'application codées par couleur : Bleu (Ultra-low pass 0,5-1×) — ascendance/PGS ; Vert (Couverture faible + imputation 2-4×) — GWAS/sélection génomique ; Orange (WGS standard 10-15×) — analyses de sélection/démographie ; Rouge (WGS profond 30×+) — construction de panneaux de référence. Contours de coût diagonaux à 5K$, 25K$, 100K$, 500K$ de coût total du projet. Insight clé : pour un budget fixe, plus d'échantillons à une couverture plus faible offre une plus grande puissance GWAS pour les variants communs que moins d'échantillons à une couverture plus élevée.

Composantes de coût et optimisation

Où va l'argent

Un projet de séquençage génomique à l'échelle de la population comporte cinq composants de coût, et leurs contributions relatives varient en fonction de l'échelle :

Extraction d'ADN et contrôle de qualité (~5-10 % du total) : Dominé par les consommables et la main-d'œuvre. À grande échelle, l'achat de réactifs en vrac et la manipulation liquide automatisée réduisent les coûts par échantillon de 40 à 60 % par rapport au traitement manuel.
Préparation de la bibliothèque (~15-25 % du total) : Le plus grand coût variable. Les kits de préparation de bibliothèque commerciale coûtent entre 50 et 150 $ par échantillon au prix catalogue ; des remises de volume négociées et la production interne de transposase Tn5 peuvent réduire ce coût à 10-30 $ par échantillon. Pour les projets dépassant 500 échantillons, l'investissement dans l'infrastructure de préparation de bibliothèque interne récupère généralement son coût lors du premier lot.
Séquençage (~40-60% du total) : Le coût dominant, déterminé par la couverture × le nombre d'échantillons × la taille du génome. Les coûts de séquençage ont diminué d'environ 2 à 3 fois par an depuis 2021, et cette tendance devrait se poursuivre. Les prix des installations centrales varient considérablement ; la négociation directe avec les fournisseurs de services et la planification flexible (remplissage de cellules de flux partiellement chargées) peuvent réduire les coûts de 20 à 30 %.
Stockage et transfert de données (~5-15 % du total) : Un génome humain de 30× génère environ 90 Go de FASTQ, 60 Go de BAM et 1 Go de VCF — plus des indices d'alignement, des fichiers temporaires et des sauvegardes, totalisant environ 200-300 Go par échantillon. Pour 1 000 échantillons, cela représente 200-300 To. Les coûts de stockage dans le cloud (0,02-0,05 $ par Go par mois) deviennent significatifs à cette échelle et doivent être budgétisés pour la durée du projet (généralement 3-5 ans). Le format compressé PGEN (PLINK 2.0) atteint une compression de 98 % des données de génotype, réduisant un ensemble de données de 2 To à 39 Go — une nécessité pratique pour les projets à grande échelle.
Analyse bioinformatique (~10-20 % du total) : Les coûts de calcul évoluent avec la taille de l'échantillon mais peuvent être optimisés grâce à la parallélisation des flux de travail. L'analyse basée sur le cloud sur AWS ou Google Cloud coûte environ 5 à 15 $ par génome 30× pour l'alignement et l'appel de variants ; l'informatique haute performance (HPC) sur site se traduit par un coût par échantillon inférieur mais nécessite un investissement initial en infrastructure.

Population WGS Project Cost Breakdown: Side-by-side stacked bar comparison of two strategies. Figure 2 : Répartition des coûts du projet WGS de population — Comparaison côte à côte de deux conceptions représentatives. En haut : 500 échantillons × 10× (génome de 1 Gb, total d'environ 150 000 $). En bas : 2 000 échantillons × 2× (1 Gb, lcWGS + imputation, total d'environ 230 000 $). Chaque barre montre la répartition proportionnelle : Extraction d'ADN et QC (7 %), Préparation de bibliothèque (20 %/25 %), Séquençage (50 %/30 %), Stockage de données (10 %/15 %), Bioinformatique (13 %/23 %). En dessous des graphiques, encadrés pour quatre leviers d'optimisation des coûts : lcWGS + imputation (économies de 10 à 30 fois), préparation de bibliothèque Tn5 en interne (5 $ contre 50-100 $/échantillon), QC pré-pool en vrac (préventif de 10 à 20 % de dépassement), formats compressés (CRAM 30-50 %, réduction de stockage PGEN 98 %).

Stratégies d'optimisation des coûts qui fonctionnent

Au-delà de la stratégie évidente de séquencer moins d'échantillons à une couverture plus faible, plusieurs optimisations spécifiques ont été validées dans des projets à grande échelle :

WGS à faible couverture + imputation à un panel de référence. C'est la stratégie d'optimisation des coûts la plus impactante disponible en 2025-2026. Séquencer 1 000 individus à 2× de couverture coûte à peu près le même prix que 70 individus à 30× de couverture — et pour la puissance des GWAS, les 1 000 génomes à faible couverture l'emportent presque toujours. Le panneau de référence d'imputation doit être apparié par ascendance ou par population au cohort cible ; pour les organismes non-modèles sans panneaux de référence existants, séquencer 10-20 % de la cohorte à 30× pour construire un panneau de référence personnalisé est rentable pour des tailles de cohorte supérieures à environ 500.

Séquençage groupé pour des questions spécifiques. Lorsque les génotypes au niveau individuel ne sont pas nécessaires — pour l'estimation des fréquences alléliques, les analyses de balayage de sélection ou les expériences d'évolution et de re-séquençage — le regroupement de l'ADN avant la préparation de la bibliothèque peut réduire les coûts de 5 à 20 fois. Le pool-seq sacrifie l'information sur les génotypes individuels mais préserve les estimations de fréquence allélique avec une précision quantifiable qui dépend de la taille du pool et de la profondeur de séquençage.

Production de transposase Tn5 en interne. Les kits de préparation de bibliothèques basés sur des transposases commerciales (Nextera, TrueTag) coûtent entre 50 et 100 $ par réaction. Une étude de 2026 en aquaculture a démontré que la purification et l'optimisation en interne de la transposase Tn5 réduisent les coûts de préparation de bibliothèques à moins de 5 $ par échantillon tout en maintenant une complexité de bibliothèque équivalente à celle des kits commerciaux. Pour les projets dépassant 200 échantillons, l'investissement de 3 à 4 jours dans la production de protéines est très rentable.

Contrôles qualité en vrac et rééquilibrage. Le séquençage d'un aliquote en pool à faible couverture avant de s'engager dans un séquençage à pleine profondeur coûte environ 1 à 3 % du budget total du projet et peut éviter un dépassement de coûts de 10 à 20 % dû à des séquences reprogrammées.

Optimisations computationnelles. L'utilisation de formats de fichiers compressés (PGEN pour les génotypes, CRAM pour les alignements au lieu de BAM), de représentations éparses pour les GWAS et d'instances spot dans le cloud pour des analyses non critiques en temps peut réduire les coûts de calcul de 40 à 60 %.

CD Genomics propose des configurations flexibles de profondeur de séquençage et de multiplexage. Séquençage du génome entier plateforme, permettant aux projets d'équilibrer la couverture, le nombre d'échantillons et le budget. Pour les projets qui combinent le re-séquençage à l'échelle de la population avec un nombre plus restreint de génomes de référence séquencés en profondeur, CD Genomics' Séquençage de novo du génome entier des plantes et des animaux le service fournit des assemblages de référence de haute qualité contre lesquels les lectures de re-séquençage sont alignées.

Large-Scale WGS Re-Sequencing Pipeline: 5-stage horizontal workflow from sample intake to population analysis. Figure 3 : Pipeline de Re-Séquençage WGS à Grande Échelle — Un flux de travail horizontal en 5 étapes, de l'entrée des échantillons à l'analyse de population. Étapes : (1) Entrée des Échantillons & QC — plaques à 96 puits, quantification de l'ADN par fluorescence, vérification de l'intégrité avec TapeStation (Mois 1) → (2) Préparation de Bibliothèque & Multiplexage — sans PCR avec codes-barres UDI, manipulation liquide automatisée, QC pré-pool à 1-2× (Mois 2) → (3) Séquençage — NovaSeq S4 ou DNBSEQ-T7 à 0,5×–30× (Mois 2-4) → (4) Génotypage Commun — GVCF par échantillon, compression ReblockGVCF, GenomicsDBImport, GenotypeGVCFs, filtrage VQSR (Mois 5-6) → (5) Analyse de Population — PCA/ADMIXTURE, GWAS (GEMMA/PLINK), scans de sélection (XP-CLR/iHS), inférence démographique (PSMC/MSMC2) (Mois 6-8).

Bioinformatique à grande échelle — Des FASTQ à la génétique des populations

Le pipeline bioinformatique pour un projet de séquençage génomique (WGS) de 1 000 échantillons n'est pas simplement le pipeline d'échantillon unique exécuté 1 000 fois. L'analyse conjointe — où l'information est partagée entre les échantillons — améliore la précision de l'appel de variants, permet la détection de variants rares qui sont invisibles dans des échantillons individuels, et est nécessaire pour les analyses génétiques de population. L'architecture computationnelle doit être conçue pour la parallélisation dès le départ.

Alignement de lecture et prétraitement

L'alignement des courtes lectures à un génome de référence est une opération parallèle par échantillon — chaque échantillon peut être traité indépendamment. Le pipeline standard : contrôle de qualité avec FastQC et MultiQC → découpage des adaptateurs et filtrage de qualité avec fastp → alignement avec BWA-MEM2 → marquage des doublons avec Picard ou Sambamba → recalibrage des scores de qualité de base (BQSR) avec GATK (DePristo et al., 2011).

Pour les projets dépassant 100 échantillons, les gestionnaires de flux de travail (Nextflow, Snakemake ou Cromwell/WDL) sont essentiels — ils gèrent la soumission de tâches en parallèle, l'allocation des ressources et la ré-soumission automatique des tâches échouées. Un pipeline Nextflow bien configuré sur un cluster HPC de 500 cœurs peut traiter 1 000 génomes humains 30×, passant de FASTQ à BAM prêts pour l'analyse en 3 à 5 jours.

La re-séquençage à long-reads — utilisant PacBio HiFi ou Oxford Nanopore pour la découverte de variants structurels ou le phasage — est de plus en plus intégré dans les études de population. Les services de séquençage à long-reads de CD Genomics offrent des plateformes complémentaires pour le re-séquençage conscient des variants structurels sur un sous-ensemble de la cohorte, avec des lectures alignées par minimap2 et des variants structurels appelés par Sniffles2 ou SVIM. Pour un aperçu complet des plateformes à long-reads dans toutes les applications — y compris la découverte de variants structurels, la détection de méthylation et le séquençage d'isoformes de pleine longueur à l'échelle de la population — consultez notre Services de séquençage à lecture longue pour chaque application.

Appel de variantes à grande échelle — Génotypage conjoint

L'appel de variants par échantillon avec GATK HaplotypeCaller en mode GVCF, suivi d'un génotypage conjoint sur tous les échantillons, est l'approche de référence pour le séquençage génomique à l'échelle de la population. Les "Meilleures Pratiques" de GATK, introduites pour des cohortes dépassant 2 000 échantillons et validées sur gnomAD (150 000 exomes), UK Biobank et All of Us, introduisent des optimisations clés :

ReblockGVCF compresse les blocs de référence adjacents dans les GVCF par échantillon et supprime les allèles alternatifs de faible qualité (GQ < 20), réduisant les tailles de fichiers de 70 à 90 % et les temps de fusion en aval de manière proportionnelle. GnarlyGenotyper approxime les scores QUAL à partir des annotations du champ INFO sans itérer sur chaque génotype, éliminant ainsi le goulot d'étranglement computationnel qui rendait l'appel conjoint de très grands cohortes impraticable. Mode de dispersion VQSR parallélise la recalibration de la qualité des scores de variantes à travers des intervalles génomiques, permettant le filtrage de dizaines de millions de variantes à travers des milliers d'échantillons.

Pour les organismes non-modèles sans ensembles de vérité établis, VQSR nécessite un minimum de 50 échantillons pour un entraînement efficace du modèle de mélange gaussien ; pour des cohortes plus petites, le filtrage strict basé sur les seuils recommandés par GATK (QD < 2.0, FS > 60.0, MQ < 40.0, etc.) est une alternative pratique.

Pour les projets analysant des variants structurels à l'échelle de la population, CD Genomics' Appel de variantes le service inclut des approches de consensus multi-appelants (Manta + Delly + Lumpy) validées pour leur sensibilité et leur précision sur une gamme de tailles de génomes et de contenus en répétitions.

Imputation — Rendre les données à faible couverture prêtes pour l'analyse

GLIMPSE2 (Rubinacci et al., 2023) est l'état de l'art actuel pour l'imputation de données WGS à faible couverture à une résolution de séquence. Il atteint une mise à l'échelle sublinéaire tant en nombre d'échantillons qu'en nombre de marqueurs, traitant un génome 1× contre un panel de référence de 150 000 haplotypes en environ 11 heures à un coût computationnel de moins de 0,10 $ par génome. La méthode utilise une représentation sparse du panel de référence, une transformation de Burrows-Wheeler positionnelle pour un appariement rapide des haplotypes, et des calculs HMM optimisés pour le matériel — permettant une imputation à l'échelle de la population qui était prohibitive sur le plan computationnel avec les méthodes antérieures.

Pour les organismes non-modèles, où de grands panneaux de référence n'existent pas, un design en deux étapes est recommandé : séquencer 50 à 100 individus à ≥25× pour construire un panneau de référence personnalisé, puis séquencer le reste de la cohorte à 1-4× et imputer par rapport au panneau personnalisé. Une étude de 2025 sur la fraise cultivée a démontré qu'environ 70 individus génétiquement représentatifs à ≥25× étaient suffisants pour construire un panneau de référence d'imputation atteignant 94-98 % de concordance dans un génome allo-octoploïde — une preuve solide que cette stratégie se généralise à travers les organismes.

Analyse génétique des populations

Avec un VCF filtré et appelé conjointement en main, les analyses génétiques de population qui transforment les appels de variants en informations biologiques incluent :

Structure de la population: PCA (PLINK), ADMIXTURE et reconstruction phylogénétique (IQ-TREE, RAxML-ng). L'estimation de la parenté avec KING ou PLINK identifie des liens de parenté cryptiques qui doivent être pris en compte dans les analyses ultérieures.

Diversité génétiqueDiversité des nucléotides (π), hétérozygotie observée et attendue, et D de Tajima calculés dans des fenêtres glissantes avec VCFtools ou pixy.

Différenciation des populationsFst de Weir et Cockerham, Fst de Hudson, et la statistique D de Patterson (ABBA-BABA) pour détecter le flux génétique et l'introgression — implémenté dans Dsuite et ADMIXTOOLS 2.

Détection de balayage sélectif: XP-CLR, iHS/nSL et les approches de rapport de vraisemblance composite mises en œuvre dans selscan, RAiSD et SweeD.

Histoire démographiquePSMC pour des génomes diploïdes uniques, MSMC2 pour des génomes multiples, et Stairway Plot 2 pour l'inférence basée sur le spectre de fréquence des sites.

GWAS: GEMMA pour l'association de modèles mixtes, PLINK 2.0 pour la régression linéaire/logistique à grande échelle, et BOLT-LMM pour des ensembles de données à l'échelle des biobanques où les matrices de parenté pour 500 000 individus sont computationnellement intractables.

CD Genomics Évolution de la population Le service d'analyse fournit l'ensemble des analyses génétiques de population dans le cadre de projets de re-séquençage à grande échelle, livrant des figures, des tableaux et des sections de méthodes prêtes pour publication pour chaque module d'analyse.

Gestion et partage des données

Un projet de séquençage génomique à grande échelle de 1 000 échantillons génère environ 100 To de données brutes, de fichiers intermédiaires et de résultats d'analyse. La gestion des données n'est pas une réflexion après coup — c'est une considération de conception de projet de premier ordre qui affecte le budget, le calendrier et la conformité avec les exigences de partage de données des revues et des financeurs.

Architecture de stockage

Les données d'analyse active (FASTQ, BAM, VCF) doivent résider sur un stockage parallèle haute performance (Lustre, GPFS ou BeeGFS) pendant la phase d'analyse. Après l'achèvement du projet, les données passent à un stockage d'archivage à coût réduit : format CRAM pour les alignements (30-50 % plus petit que BAM), format PGEN pour les données de génotype (98 % plus petit que le VCF en texte brut), et archives compressées pour les FASTQ bruts. Le stockage d'objets dans le cloud (AWS S3 Glacier, Google Cloud Archive) coûte entre 0,001 et 0,004 $ par Go par mois — environ 100 à 400 $ par mois pour une archive de 100 To — mais les coûts de récupération et la latence doivent être pris en compte dans les décisions d'archivage.

Soumission de base de données publique

La plupart des revues et des financeurs exigent le dépôt des données de séquençage dans des dépôts publics. Les cibles de soumission standard sont :

Archive de lectures de séquences NCBI (SRA)Accepte les lectures de séquençage brutes (FASTQ) et les lectures alignées (BAM). La soumission nécessite un identifiant BioProject (métadonnées au niveau du projet) et des identifiants BioSample (métadonnées au niveau de l'échantillon) pour chaque individu. L'assistant de soumission SRA et le transfert de fichiers basé sur Aspera gèrent de grands ensembles de données.

Archive Européenne des Nucleotides (ENA)Équivalent à SRA pour les projets européens ; accepte les mêmes types de données et fournit un miroir entre SRA et ENA.

Archive des Variations Européennes (EVA)Accepte les appels de variantes (VCF) avec des métadonnées associées. Pour les projets à l'échelle de la population, la soumission EVA du VCF appelé conjointement est fortement recommandée pour la reproductibilité.

CD Genomics fournit des ensembles de données prêts à être soumis, formatés pour SRA/ENA/DDBJ, y compris des tableurs de métadonnées validés qui répondent aux exigences de l'INSDC (Collaboration internationale sur les bases de données de séquences nucléotidiques). Notre Génotypage SNP du génome entier et Génotypage par séquençage (GBS) les services offrent des approches de génotypage complémentaires lorsque le séquençage de génome entier dépasse le budget immédiat du projet ou lorsque le génotypage ciblé de variants connus suffit.

Reproductibilité et provenance des données

Pour les projets à l'échelle de la population, la reproductibilité computationnelle nécessite plus que le partage de scripts. Les flux de travail conteneurisés (images Docker ou Singularity avec des versions de logiciels figées), les fichiers de définition de flux de travail (scripts Nextflow .nf ou WDL déposés avec le manuscrit) et des graines aléatoires explicites pour les algorithmes stochastiques doivent être archivés. Les scripts du Workflow Description Language (WDL) pour le pipeline des meilleures pratiques GATK, par exemple, sont maintenus publiquement sur Dockstore et peuvent être référencés par DOI — une norme que les projets de génomique des populations devraient adopter.

Considérations pratiques pour la planification de projet

Chronologie

Un projet de re-séquençage WGS de 500 échantillons, 10× pour un génome de 1 Gb suit à peu près cette chronologie :

Mois 1: Collecte d'échantillons, extraction d'ADN, contrôle de qualité, normalisation, ensemencement (parallélisé sur des plaques à 96 puits)

Mois 2Préparation de bibliothèque et multiplexage ; séquençage de contrôle qualité pré-pool

Mois 2-4Séquençage en profondeur complet (6 à 10 courses NovaSeq S4, selon la densité de multiplexage)

Mois 3-5: Alignement et appel de variantes par échantillon (parallèle ; peut commencer à mesure que les données de séquençage arrivent)

Mois 5-6: Génotypage conjoint, filtrage des variants, imputation (si applicable)

Mois 6-8Analyses génétiques de population, génération de figures, préparation de manuscrit

Mois 8-9Soumission à une base de données publique, archivage des données

Durée totale du projet : 8-9 mois depuis la réception de l'échantillon jusqu'aux résultats prêts pour publication. Des délais accélérés (4-6 mois) sont réalisables avec un séquençage priorisé, un calcul basé sur le cloud et une exécution parallèle des pipelines d'analyse.

Travailler avec CD Genomics sur des projets à grande échelle

Pour les projets impliquant des centaines à des milliers d'échantillons, CD Genomics fournit un chef de projet dédié qui coordonne la logistique des échantillons, la planification du séquençage et la livraison des données. Le flux de travail standard :

ConsultationDéfinir les objectifs du projet, les nombres d'échantillons, la stratégie de couverture et le périmètre d'analyse. Si les traits complexes ou la structure de la population sont l'objectif principal, CD Genomics' Étude d'Association à l'Échelle du Génome (GWAS) le service fournit une analyse intégrée des phénotypes et génotypes avec correction par modèle mixte pour la structure de la population.
Échantillon d'admissionLes échantillons sont enregistrés dans le LIMS avec des tubes à codes-barres 2D, référencés par rapport au manifeste des échantillons, et soumis à un contrôle qualité à l'arrivée (concentration, pureté, intégrité).
Lot piloteLes 48 à 96 premiers échantillons sont traités à travers l'ensemble du pipeline — extraction, préparation de bibliothèque, séquençage et analyse préliminaire — pour valider la qualité de l'ADN, la complexité de la bibliothèque et l'uniformité de la couverture. Toute ajustement de protocole est effectué avant de passer à l'ensemble de la cohorte.
Séquençage de productionLes échantillons restants sont traités par lots de 96, chaque lot étant suivi via le LIMS et soumis à un contrôle qualité au niveau du lot.
Analyse conjointeTous les échantillons sont appelés conjointement, filtrés et analysés pour les modules de génétique des populations convenus. Les résultats sont fournis de manière interactive : des graphiques PCA et ADMIXTURE préliminaires, par exemple, peuvent être examinés et discutés avant que les analyses finales ne soient effectuées.
Livraison finale: Données brutes (FASTQ), données alignées (BAM/CRAM), appels de variants (VCF), résultats d'analyses de génétique des populations (figures et tableaux prêts pour publication), et un document de méthodes complet décrivant toutes les étapes bioinformatiques.

Pour une vue d'ensemble de la manière dont le re-séquençage à grande échelle s'intègre dans le paysage du séquençage génomique complet, des génomes bactériens uniques à l'assemblage de novo d'eucaryotes non modèles, consultez notre Centre de services de séquençage du génome entierPour les projets qui nécessitent l'assemblage d'un génome de référence avant le re-séquençage, consultez notre Séquençage de génomes de plantes et d'animaux de novo guide. Pour des conseils sur le choix entre des stratégies à faible passage et à haute couverture en fonction de votre question de recherche spécifique, consultez notre WGS à faible couverture vs. WGS à haute couverture : Choisir la profondeur de séquençage adaptée à vos objectifs de recherche et à votre budget.

Questions Fréquemment Posées

Qu'est-ce que le séquençage de génome entier à grande échelle et en quoi cela diffère-t-il de l'assemblage de novo ?

La re-séquençage à grande échelle cartographie les lectures de centaines à des milliers d'individus par rapport à un génome de référence existant pour identifier des variantes génétiques (SNP, indels, variants structurels) au sein d'une population. C'est fondamentalement différent de l'assemblage de novo, qui construit un génome à partir de zéro sans référence. Le re-séquençage est plus rapide et moins coûteux par échantillon, mais nécessite un génome de référence de haute qualité.

Combien d'échantillons ai-je besoin pour une étude de génomique des populations ou une étude d'association génomique (GWAS) ?

Pour la structure de la population et l'histoire démographique, 10 à 30 individus par population avec une couverture ≥10× est souvent suffisant. Pour les GWAS, des tailles d'échantillon de centaines à milliers sont nécessaires pour détecter des loci expliquant 0,1-1 % de la variance phénotypique — des calculs de puissance devraient guider cette décision. Pour la sélection génomique, 500 à 2 000 individus est la norme pour la construction de populations d'entraînement en élevage végétal et animal.

Quelle profondeur de séquençage devrais-je choisir pour un projet de re-séquençage à grande échelle ?

Le séquençage génomique à faible couverture (1-4×) avec imputation est la norme pour les cohortes dépassant environ 300 échantillons, capturant des variants communs à une fraction du coût d'un séquençage génomique profond. Une couverture standard (10-15×) fournit des appels de variants rares fiables pour l'inférence démographique et les analyses de sélection. Une couverture profonde (30×) est recommandée pour la construction de panneaux de référence et la détection de variants avec une haute confiance.

Comment puis-je contrôler les coûts d'un projet avec des centaines à des milliers d'échantillons ?

Les trois stratégies ayant le plus d'impact : (1) utiliser le séquençage génomique à faible couverture (WGS) + imputation pour l'ensemble de la cohorte avec un panel de référence personnalisé à partir de 10-20 % des échantillons à 30×, (2) négocier des prix de volume et effectuer des contrôles de qualité préalables au regroupement pour éviter des réinscriptions coûteuses, et (3) adopter des formats compressés (CRAM, PGEN) pour réduire les coûts de stockage de 30 à 98 %.

Quelle infrastructure bioinformatique ai-je besoin pour l'analyse conjointe de 1 000 génomes ?

Pour l'alignement et l'appel de variants par échantillon, un cluster HPC de 500 cœurs ou un équivalent en cloud peut traiter 1 000 génomes à 30× en moins d'une semaine. Pour le génotypage conjoint, au moins 1 To de RAM et 50 To de stockage rapide sont recommandés pour les cohortes dépassant 2 000 échantillons — à ce stade, les "Meilleures Pratiques" de GATK (ReblockGVCF + GnarlyGenotyper) deviennent essentielles. Les gestionnaires de flux de travail (Nextflow, Snakemake) et les outils conteneurisés (Docker, Singularity) sont fortement recommandés pour la reproductibilité.

Puis-je combiner des échantillons séquencés à des profondeurs différentes dans la même analyse ?

Oui, le génotypage conjoint avec GATK gère la couverture hétérogène — cela est courant dans les projets qui combinent un panel de référence séquencé en profondeur avec une cohorte de découverte à faible couverture. Cependant, la sensibilité de l'appel de variants diffère selon la profondeur, donc les effets de lot doivent être explicitement modélisés. L'imputation avec GLIMPSE2 peut harmoniser les différences de couverture en imputant les échantillons à faible couverture à la résolution du panel de référence.

Quelles sont les exigences en matière de stockage de données pour un grand projet de re-séquencement ?

Un génome 30× unique génère environ 200-300 Go de données au total ; un projet de 1 000 échantillons à 10× nécessite 100-150 To de stockage actif et 50-80 To pour l'archivage à long terme. Le coût du stockage d'archives dans le cloud est d'environ 100-400 $ par mois pour une archive de 100 To. L'utilisation de CRAM au lieu de BAM réduit le stockage d'alignement de 30-50 % ; le format PGEN réduit le stockage des génotypes de 98 %.

Comment CD Genomics gère-t-il la logistique des projets de re-séquençage à grande échelle ?

CD Genomics fournit un chef de projet dédié, un traitement d'échantillons suivi par LIMS au format 96 puits, une manipulation liquide automatisée pour la préparation de bibliothèques, des contrôles de qualité pré-pool sur chaque lot, un appel de variants conjoint avec GATK, et une analyse complète de la génétique des populations. Les données brutes (FASTQ), les données alignées (BAM/CRAM), les appels de variants (VCF) et les résultats d'analyse prêts à être publiés sont livrés avec un document détaillant les méthodes. Des délais accélérés sont disponibles.

Références :

DePristo MA, Banks E, Poplin R, et al. Un cadre pour la découverte de variations et le génotypage utilisant des données de séquençage ADN de nouvelle génération. Nature Génétique2011;43(5):491-498. doi:10.1038/ng.806
Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputation des données de séquençage à faible couverture provenant de 150 119 génomes du UK Biobank. Nature Génétique2023 ; 55(7) : 1088-1090. doi:10.1038/s41588-023-01438-3
Chang CC, Chow CC, Tellier LCAM, Vattikuti S, Purcell SM, Lee JJ. PLINK de deuxième génération : relever le défi des ensembles de données plus grands et plus riches. GigaScience. 2015;4:7. doi : 10.1186/s13742-015-0047-8
Li H. Alignement des lectures de séquence, des séquences de clones et des contigs d'assemblage avec BWA-MEM. arXiv :1303.3997v2 [q-bio.GN]. 2013. arXiv : 1303.3997
Danecek P, Bonfield JK, Liddle J, et al. Douze ans de SAMtools et BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC : résumer les résultats d'analyse pour plusieurs outils et échantillons dans un seul rapport. Bioinformatique2016 ; 32(19) : 3047-3048. doi:10.1093/bioinformatics/btw354
Purcell S, Neale B, Todd-Brown K, et al. PLINK : un ensemble d'outils pour les analyses d'association à l'échelle du génome et les analyses de liaison basées sur la population. Journal américain de génétique humaine2007 ; 81(3) : 559-575. doi : 10.1086/519795
Zhou X, Stephens M. Analyse mixte efficace à l'échelle du génome pour les études d'association. Nature Génétique2012 ; 44(7) : 821-824. doi : 10.1038/ng.2310
Koorevaar T, van de Weg E, Visser RGF, et al. Imputation de génotypes à partir de séquençage génomique à faible couverture en utilisant des panneaux de référence haplotypiques chez la fraise cultivée. BMC Genomics2025;26(1):968. doi:10.1186/s12864-025-12270-w

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.