What is the difference between de novo sequencing and re-sequencing?

De novo sequencing assembles a genome from scratch without a reference template — required for species without an existing reference genome. Re-sequencing aligns reads to an existing reference genome to identify variants — suitable when a high-quality reference already exists for the species. De novo costs 5–20× more than re-sequencing at equivalent depth because of the additional bioinformatic assembly and annotation work.

How much does whole genome sequencing cost?

Costs vary by genome size and coverage. A bacterial genome (5 Mb, 100×): $100–500. A mammalian genome (3 Gb, 30×): $500–800 for re-sequencing, $5,000–15,000 for de novo with annotation. A large plant genome (10 Gb, 30×): $2,000–5,000 for re-sequencing, $10,000–30,000 for de novo. Low-pass WGS at 1× costs $50–100 per sample for human-scale genomes. These figures are for sequencing and standard bioinformatics only, excluding DNA extraction.

What DNA quantity and quality do I need for WGS?

For Illumina short-read WGS: ≥200 ng of DNA at ≥10 ng/µL, OD 260/280 of 1.8–2.0. For PacBio HiFi: ≥5–15 µg of high-molecular-weight DNA with fragment sizes ≥20 kb. For Oxford Nanopore: ≥5–10 µg of HMW DNA with fragments ≥20 kb for standard libraries, or ≥1 µg for ultra-low input protocols. Degraded DNA with fragments <5 kb can still be sequenced on Illumina platforms but is unsuitable for long-read sequencing.

Why use long-read sequencing for de novo assembly?

Short reads (150–300 bp) cannot span repetitive elements — transposons, segmental duplications, centromeres, rRNA arrays — that are longer than the read length. The assembler hits a repeat, cannot determine how many copies exist or how they are arranged, and breaks the assembly into contigs. Long reads (10–100+ kb) span most repeats, producing 50–500× fewer contigs and resolving genome architecture that short-read assemblies collapse. For polyploid genomes, long reads can phase haplotypes into separate assemblies rather than collapsing them into a single mosaic consensus.

How do I choose between Illumina, PacBio, and Nanopore for my project?

Illumina/MGI: highest raw accuracy (Q30+), lowest cost per Gb, ideal for re-sequencing and variant calling. PacBio HiFi: high accuracy (Q30+) with 15–25 kb reads, ideal for de novo assembly of moderate-size genomes (≤3 Gb). Oxford Nanopore: longest reads (100+ kb) with moderate accuracy (Q20+, improving), ideal for resolving ultra-complex repeat structures in very large genomes. Hybrid approaches combine platforms: long reads for assembly continuity + short reads for base-level accuracy polishing.

What is the turnaround time for a WGS project?

Standard turnaround is 30–45 working days for bacterial WGS and 45–60 working days for plant/animal de novo projects, depending on genome size, coverage, and analysis complexity. Population-scale re-sequencing projects with hundreds to thousands of samples may extend to 60–90 working days due to library preparation throughput and data processing volume. Expedited timelines are available for time-sensitive projects.

Can CD Genomics handle large-scale population genomics projects?

Yes. CD Genomics supports population-scale re-sequencing projects with automated DNA extraction, 96-well plate library preparation, and sequencing on NovaSeq X Plus or MGI DNBSEQ-T7 platforms. Projects ranging from 100 to 10,000+ samples are accommodated, with tiered pricing that reduces per-sample costs as batch size increases.

What bioinformatic deliverables do I receive?

Standard deliverables include raw sequencing data (FASTQ), quality control reports (FastQC, MultiQC), and analysis-specific outputs: assembled genome (FASTA) with annotation (GFF/GBK) for de novo projects; variant call files (VCF) with annotation for re-sequencing; imputed genotypes for low-pass WGS. All data are delivered via secure download or hard drive for large datasets. Custom bioinformatic analyses are available for specific research requirements.

Services de séquençage du génome entier pour toutes les tailles de génome : des génomes bactériens aux grands génomes de plantes et d'animaux.

Q: Why use long-read sequencing for de novo assembly?

Short reads (150–300 bp) cannot span repetitive elements — transposons, segmental duplications, centromeres, rRNA arrays — that are longer than the read length. The assembler hits a repeat, cannot determine how many copies exist or how they are arranged, and breaks the assembly into contigs. Long reads (10–100+ kb) span most repeats, producing 50–500× fewer contigs and resolving genome architecture that short-read assemblies collapse. For polyploid genomes, long reads can phase haplotypes into separate assemblies rather than collapsing them into a single mosaic consensus.

Q: How do I choose between Illumina, PacBio, and Nanopore for my project?

Illumina/MGI: highest raw accuracy (Q30+), lowest cost per Gb, ideal for re-sequencing and variant calling. PacBio HiFi: high accuracy (Q30+) with 15–25 kb reads, ideal for de novo assembly of moderate-size genomes (≤3 Gb). Oxford Nanopore: longest reads (100+ kb) with moderate accuracy (Q20+, improving), ideal for resolving ultra-complex repeat structures in very large genomes. Hybrid approaches combine platforms: long reads for assembly continuity + short reads for base-level accuracy polishing.

Q: What is the turnaround time for a WGS project?

Standard turnaround is 30–45 working days for bacterial WGS and 45–60 working days for plant/animal de novo projects, depending on genome size, coverage, and analysis complexity. Population-scale re-sequencing projects with hundreds to thousands of samples may extend to 60–90 working days due to library preparation throughput and data processing volume. Expedited timelines are available for time-sensitive projects.

Q: Can CD Genomics handle large-scale population genomics projects?

Yes. CD Genomics supports population-scale re-sequencing projects with automated DNA extraction, 96-well plate library preparation, and sequencing on NovaSeq X Plus or MGI DNBSEQ-T7 platforms. Projects ranging from 100 to 10,000+ samples are accommodated, with tiered pricing that reduces per-sample costs as batch size increases.

Q: What bioinformatic deliverables do I receive?

Standard deliverables include raw sequencing data (FASTQ), quality control reports (FastQC, MultiQC), and analysis-specific outputs: assembled genome (FASTA) with annotation (GFF/GBK) for de novo projects; variant call files (VCF) with annotation for re-sequencing; imputed genotypes for low-pass WGS. All data are delivered via secure download or hard drive for large datasets. Custom bioinformatic analyses are available for specific research requirements.

Un microbiologiste vient d'isoler une nouvelle bactérie à partir de sédiments marins profonds et a besoin de son génome complet — tous les 4,2 mégabases — pour identifier les clusters de gènes biosynthétiques produisant un composé antimicrobien prometteur. Un sélectionneur de plantes a besoin d'un assemblage au niveau des chromosomes d'un génome d'avoine hexaploïde de 7,5 gigabases pour cartographier les QTLs de tolérance à la sécheresse avec une résolution sub-centimorgan. Un consortium de génomique des populations a besoin d'appels de variants sur 3 000 génomes de saumon individuels à un coût qui ne ruinera pas la subvention. Ces trois projets impliquent tous le séquençage de génomes entiers — mais la stratégie de séquençage, la sélection de la plateforme, la profondeur de couverture et le budget diffèrent d'ordres de grandeur.

Le séquençage de l'ensemble du génome (WGS) est l'analyse génomique la plus complète en termes d'informations : il capture l'ensemble du génome nucléaire, des gènes à copie unique aux répétitions en tandem en passant par les variants structurels, sans les biais inhérents aux approches d'enrichissement ciblé ou d'amplicon. Pourtant, le "séquençage de l'ensemble du génome" n'est pas un service unique — c'est une famille de stratégies allant de l'assemblage de novo bactérien à une extrémité et au resequencement à l'échelle de la population à l'autre, avec une couverture allant de 0,4× à 100× et des prix allant de moins de 50 $ à plus de 10 000 $ par échantillon. Choisir la mauvaise combinaison de plateforme, de profondeur et de pipeline d'analyse transforme un budget serré en une étude sous-dimensionnée, ou inversement, sur-séquence une tâche routinière avec de l'argent qui aurait pu financer trois autres expériences.

CD Genomics fournit Séquençage du génome entier services couvrant l'ensemble du spectre de taille du génome, des génomes bactériens de 5 Mb aux génomes mammifères de 3 Gb en passant par les génomes de plantes de 16 Gb, sur les plateformes Illumina, MGI DNBSEQ, PacBio SMRT et Oxford Nanopore. Cet article est un guide de décision stratégique : quelle approche de séquençage du génome entier correspond à la taille de votre génome, à votre question biologique et à votre budget.

WGS bactérien — La passerelle rapide vers la génomique

Le séquençage du génome entier bactérien est le segment le plus mature et le plus rentable du paysage du WGS. Un génome bactérien typique de 4 à 6 Mb peut être séquencé, assemblé et annoté pour 100 à 500 dollars, selon la qualité d'assemblage requise et la profondeur d'annotation. À ces prix, le séquençage de 100 isolats bactériens coûte moins qu'un seul génome de mammifère, ce qui fait du WGS bactérien le point d'entrée pour les laboratoires adoptant de nouvelles approches génomiques.

Assemblage De Novo : Clôturer le Génome

Le séquençage génomique bactérien se divise clairement en assemblage de novo (pour des isolats nouveaux sans référence) et en re-séquençage (pour comparer des souches par rapport à une référence existante). L'assemblage de novo reconstruit le génome complet à partir de lectures de séquençage qui se chevauchent sans modèle. La qualité de l'assemblage — mesurée par le N50 des contigs, le nombre de contigs et l'évaluation de la complétude avec des outils comme BUSCO — dépend fortement du mélange de technologies de séquençage.

Les assemblages à lecture courte, utilisant Illumina NovaSeq ou MGI DNBSEQ à une couverture de 100-200×, produisent des contigs très précis (Q40+) mais se fracturent au niveau des éléments répétitifs : opérons d'ARNr, séquences d'insertion et régions de prophage. Le génome brouillon résultant se compose généralement de 20 à 100 contigs plutôt que d'un seul chromosome circulaire. Pour de nombreuses applications — identification des espèces, typage MLST, détection de gènes de résistance aux antimicrobiens — cela est suffisant.

Lorsque la fermeture complète est requise, le séquençage à long terme comble les répétitions. Les lectures PacBio HiFi (mode CCS, ≥99,9 % de précision à 10-25 kb) ou les lectures Oxford Nanopore (ultra-longues, 50-100+ kb, avec la chimie R10.4.1 atteignant >99 % de précision modale) sont assemblées en 1 à 4 contigs, et une étape de polissage par lectures courtes corrige les erreurs résiduelles d'indel. Cette stratégie hybride permet régulièrement d'obtenir des chromosomes bactériens circulaires complets sans aucune lacune — la norme d'excellence pour les génomes de référence de qualité publication. CD Genomics propose le séquençage du génome entier bactérien sur les trois plateformes, avec des recommandations de couverture de ≥50× pour Illumina, ≥100× pour PacBio et ≥100× pour Nanopore, avec des exigences d'entrée en ADN aussi faibles que 200 ng pour les bibliothèques de lectures courtes et 10-15 µg d'ADN de haut poids moléculaire pour les plateformes de lectures longues. Le délai d'exécution est de 30 à 45 jours ouvrables selon la complexité de l'assemblage.

Pour des conseils plus détaillés sur les projets de génomes bactériens, consultez notre Séquençage du génome complet bactérien page de service.

Au-delà du génome : Annotation et profilage fonctionnel

L'assemblage d'un génome représente la moitié du projet. Le pipeline d'annotation ajoute la couche d'interprétation biologique : prédiction des gènes (séquences codantes, tARN, rARN, ARN non codants), annotation fonctionnelle contre les bases de données NR, GO, COG, KEGG, SwissProt, Pfam et CAZy, ainsi que des analyses spécialisées pour des caractéristiques pertinentes sur le plan biomédical ou industriel — gènes de résistance antimicrobienne (CARD, ResFinder), facteurs de virulence (VFDB), reconstruction de plasmides, prédiction de prophages (PHASTER) et détection de systèmes CRISPR. Pour les projets de génomique comparative couvrant des dizaines ou des centaines d'isolats, l'analyse du pan-génome identifie le génome de base (gènes partagés par toutes les souches) et le génome accessoire (gènes présents dans des sous-ensembles), révélant les dynamiques évolutives de gain et de perte de gènes qui sous-tendent l'adaptation aux niches et la pathogénicité.

Bacterial WGS Assembly Quality Comparison — Three-column comparison chart Figure 1 : Comparaison de la qualité d'assemblage WGS bactérien — Comparaison en trois colonnes montrant le compromis entre coût et complétude à chaque niveau. Colonne 1 — Ébauche (Lecture courte uniquement) : Illumina 150 pb PE, ~60 contigs, N50 ~200 kb, ~97 % BUSCO, 100-200 $/génome, adapté pour l'identification des espèces et le dépistage de l'AMR. Colonne 2 — Presque complet (Hybride) : PacBio HiFi + polissage Illumina, 1-4 contigs, N50 ~4 Mb, ~99,5 % BUSCO, 300-500 $/génome, adapté pour des génomes de référence de qualité publication. Colonne 3 — Complet (Multi-plateforme) : ONT ultra-long + HiFi, 1 chromosome circulaire, 100 % BUSCO, 500-800 $/génome, adapté pour des références complètes résolues de plasmides. En-têtes codés par couleur : orange (ébauche), jaune (presque complet), vert (complet).

Plantes et Animaux De Novo — Déverrouiller les Organismes Non-Modeles

Le séquençage de novo des génomes de plantes et d'animaux constitue un défi fondamentalement différent de celui du séquençage génomique complet (WGS) des bactéries. Les tailles de génomes varient sur quatre ordres de grandeur : le génome d'Arabidopsis thaliana de 125 Mb se situe à une extrémité, tandis que le génome hexaploïde du blé de 16 Gb occupe l'autre, avec des contenus en répétitions allant de 20 % à plus de 85 %. La polyploïdie — courante chez les plantes et omniprésente dans les cultures (le blé tendre est allohexaploïde, la pomme de terre est autotétraploïde, la canne à sucre est octoploïde) — complique le travail des assembleurs qui supposent une diploïdie. Une forte hétérozygotie dans les espèces à reproduction croisée génère des haplotypes divergents qui, lorsqu'ils sont réduits à un seul consensus, produisent des assemblages fragmentés avec un contenu biologique manquant.

La stratégie technologique qui a résolu ces problèmes est le séquençage à longues lectures associé à la capture de conformation de la chromatine. Les lectures PacBio HiFi (15-25 kb, Q30+) offrent une continuité au niveau des contigs, atteignant régulièrement des valeurs N50 de contig de 10-50 Mb pour les génomes végétaux. Les lectures ultra-longues d'Oxford Nanopore (100+ kb) comblent les plus grands répétitions — les arrays d'ADN ribosomal, les satellites centromériques, les duplications segmentaires — que même les lectures HiFi ne peuvent pas couvrir. Hi-C (capture de conformation de la chromatine) structure les contigs en pseudomolécules à l'échelle des chromosomes en exploitant la proximité physique des segments d'ADN au sein du même chromosome. Le résultat est un assemblage à l'échelle chromosomique avec une complétude de télomère à télomère (T2T) pour chaque bras de chromosome.

CD Genomics propose un séquençage génomique de novo complet pour les plantes et les animaux grâce à Séquençage de novo du génome entier des plantes et des animaux et Service de séquençage du génome entier de novo, avec des stratégies de séquençage recommandées stratifiées par la complexité du génome :

Génomes simples (≤1 Go, diploïde, contenu en répétitions modéré) : PacBio HiFi à 30-50× de couverture plus polissage par lectures courtes Illumina. Objectif N50 du contig : ≥3 Mb.
Génomes complexes (1-5 Go, polyploïde, haute répétition) : PacBio HiFi à 50-60× ou ONT à 100×, plus Hi-C à 100× pour l'échafaudage à l'échelle des chromosomes. Objectif N50 des contigs : ≥10 Mb.
Génomes très grands (>5 Go, haute ploïdie) : lectures ultra-longues ONT à 100× plus Hi-C à 100×. Objectif N50 des contigs : ≥5 Mb.

Les exigences en matière d'entrée d'ADN sont donc plus élevées que pour le séquençage du génome entier bactérien : ≥5-15 µg d'ADN de haute masse moléculaire avec un rapport OD 260/280 de 1,8-2,0 et des tailles de fragments ≥20 kb pour les bibliothèques à lecture longue. Les échantillons qui ne répondent pas aux exigences en termes de quantité ou de longueur de fragment peuvent néanmoins être séquencés avec des approches à lecture courte uniquement à 50-100×, mais l'assemblage préliminaire résultant aura une contiguïté considérablement inférieure.

Les livrables en bioinformatique pour un projet de novo vont bien au-delà de l'assemblage lui-même : annotation de la structure des gènes (prédiction ab initio + preuves basées sur RNA-seq + homologie protéique, intégrée avec MAKER ou BRAKER), annotation fonctionnelle, annotation des répétitions (construction de bibliothèque de répétitions de novo avec RepeatModeler + RepeatMasker), annotation des ARN non codants, identification des pseudogènes et génomique comparative avec des espèces apparentées. Pour les espèces agricoles, des analyses supplémentaires incluent le cartographie des QTL, la correction de la structure de population GWAS et la détection de balayages de sélection.

Un projet de novo représentatif illustre l'impact du choix technologique. Une étude de 2023 assemblant le génome de maïs de 2,3 Gb (ligne B73-Ab10) en utilisant PacBio HiFi à 50× et Hi-C à 100× a produit un assemblage au niveau des chromosomes avec un N50 de contig de 61,2 Mb et une complétude BUSCO de 99,7 % — capturant les répétitions de knob, les amas de satellites centromériques et les clusters d'ADNr qui ont contourné les assemblages à courtes lectures pendant deux décennies. L'ensemble du projet, de l'extraction de l'ADN à l'annotation du génome, a été achevé en moins de six mois pour un coût d'environ 15 000 $, démontrant que des assemblages de qualité de référence de génomes de plantes complexes sont désormais réalisables dans un délai et un budget accessibles aux groupes de recherche individuels.

Montée en puissance — Projets de population et de re-séquençage

Une fois qu'un génome de référence existe, le cadre analytique passe de "qu'est-ce qui se trouve dans ce génome ?" à "comment ce génome diffère-t-il de la référence — et que signifient ces différences ?" Le séquençage à l'échelle de la population répond à des questions sur la diversité génétique, l'histoire de la domestication, l'adaptation locale et les associations génotype-phénotype en comparant des centaines à des milliers d'individus par rapport à une référence commune.

L'économie du séquençage génomique de la population a évolué au cours de la dernière décennie. Le premier génome humain a coûté environ 3 milliards de dollars. Aujourd'hui, un séquençage génomique humain à 30× coûte environ 500 à 800 dollars grâce à des installations centrales à grande échelle, et les génomes agricoles — de taille similaire à celle du génome humain mais avec des exigences de couverture moins strictes pour la découverte de variants — peuvent être séquencés à 10-20× pour 150 à 300 dollars par échantillon en lots de plusieurs centaines. À ces niveaux de prix, une subvention de 50 000 dollars peut financer le re-séquencement de génomes complets de 150 à 300 individus, contre 15 à 30 il y a une décennie.

CD Genomics soutient le re-séquençage à l'échelle de la population grâce à son Reséquençage du génome entier service et service de séquençage génomique complet par lecture longue. Les livrables analytiques pour le re-séquençage diffèrent fondamentalement de ceux du de novo : appel de variants (SNPs, petites indels, variants structurels, variants de nombre de copies) par rapport à la référence, statistiques de génétique des populations (diversité nucléotidique π, Fst, D de Tajima), déclin de déséquilibre de liaison, analyse de la structure de la population (PCA, ADMIXTURE, arbres phylogénétiques), détection de balayage sélectif (XP-CLR, iHS, valeurs aberrantes de Fst), et GWAS ou cartographie de QTL pour les loci associés au phénotype.

Pour les programmes de sélection agricole, l'intégration du séquençage de génome entier (WGS) avec la sélection génomique (GS) et les modèles de prédiction génomique (GP) remplace la sélection assistée par marqueurs par la prédiction à l'échelle du génome : plutôt que de suivre une poignée de marqueurs liés à des QTL, les sélectionneurs prédisent les valeurs de sélection à partir de profils SNP à l'échelle du génome, atteignant des précisions de prédiction de 0,5 à 0,8 pour des traits complexes tels que le rendement, la tolérance à la sécheresse et la résistance aux maladies. Une étude de 2024, qui a resequencé 3 008 saumons atlantiques avec une couverture de 12×, a identifié 18,7 millions de SNP et utilisé la prédiction génomique pour prévoir la couleur du filet et la teneur en graisse avec des corrélations dépassant 0,7, informant directement les décisions de sélection en aquaculture.

La logistique pratique d'un projet à l'échelle de la population diffère de la génomique à l'échelle de laboratoire. L'extraction d'ADN devient le goulot d'étranglement : 1 000 échantillons nécessitent une extraction automatisée sur des manipulateurs de liquides. La préparation des bibliothèques dans des plaques à 96 puits avec un code-barres à double index minimise le risque de contamination croisée. Le séquençage sur des instruments NovaSeq X Plus ou MGI DNBSEQ-T7, qui génèrent 6 à 16 To par course, traite des dizaines à des centaines de génomes simultanément. L'analyse bioinformatique passe d'un travail interactif sur bureau à des pipelines de calcul haute performance exécutant des workflows de meilleures pratiques GATK ou un appel basé sur DeepVariant sur des clusters de calcul.

Décisions de profondeur — WGS à faible passage vs WGS à haute couverture

Tous les projets n'ont pas besoin d'une couverture de 30×. Le compromis entre la profondeur de séquençage et le débit d'échantillons est la décision la plus importante dans la conception d'un projet de séquençage du génome entier, et la réponse optimale dépend de la question biologique plutôt que d'une norme fixe.

Filtre passe-bas WGS (0,4-5×)

Le séquençage du génome entier à faible couverture, également appelé WGS peu profond ou WGS à faible couverture, séquence le génome à une profondeur moyenne de 0,4 à 5× et utilise l'imputation de génotypes — inférence statistique des génotypes non observés à partir d'un panel de référence d'haplotypes — pour combler les lacunes. Cette approche exploite le fait que des SNP adjacents sur le même chromosome sont co-hérités dans des blocs d'haplotypes ; observer une fraction d'entre eux contraint l'identité des autres avec une probabilité élevée lorsqu'un panel de référence approprié existe.

Les chiffres de performance sont frappants. À une couverture de 0,4-1×, le séquençage génomique à faible profondeur (WGS) récupère plus de 99 % des variants communs (MAF >1 %) avec une précision d'imputation r² >0,9 en utilisant de grands panneaux de référence adaptés à la population, comme le Haplotype Reference Consortium (HRC) ou les 1000 Génomes pour les humains, ou des panneaux spécifiques aux races pour le bétail. Pour les GWAS, le WGS à 1× de couverture égalise ou dépasse la puissance statistique des puces SNP à haute densité (600K-900K marqueurs) tout en détectant des variants nouveaux que les puces fixes manquent par conception. Le coût par échantillon à 1× de couverture est de 50 à 100 $, contre 30 à 80 $ pour une puce SNP à haute densité — mais les données WGS sont réutilisables pour des analyses futures à mesure que les panneaux de référence et les algorithmes d'imputation s'améliorent, tandis que les données de puce sont verrouillées aux marqueurs sur la puce.

CD Genomics propose un séquençage génomique à faible couverture grâce à son Séquençage génomique complet peu profond service sur les plateformes Illumina et MGI, avec des pipelines d'analyse standardisés fournissant des génotypes imputés, une analyse de la structure de la population et des données prêtes pour les GWAS.

WGS à haute couverture (30×+)

Le séquençage génomique profond à 30× ou plus de couverture permet l'observation directe des variants plutôt que l'inférence dépendante de l'imputation. Cela est nécessaire lorsque : (a) les variants d'intérêt sont rares (MAF <0,1 %) et que la précision de l'imputation se dégrade en dessous d'un r² de 0,6-0,8 ; (b) les variants structurels — délétions, duplications, inversions et translocations — sont des cibles principales, car ceux-ci sont mal imputés à partir de données à faible couverture ; (c) les mutations de novo doivent être détectées, car celles-ci sont absentes de tout panel de référence par définition ; (d) la population ne dispose pas d'un panel de référence d'imputation approprié, ce qui est courant pour les organismes non modèles et les populations sous-représentées.

Le coût du séquençage génomique profond (WGS) a diminué mais reste substantiel pour de grandes cohortes. Un génome humain à 30× coûte entre 500 et 800 dollars ; un génome bovin (de taille similaire) coûte entre 400 et 600 dollars. Pour les génomes de plantes dépassant 5 Gb, une couverture à 30× fait grimper les coûts à 2 000-5 000 dollars par échantillon. À ces prix, le WGS profond est réservé aux assemblages de qualité de référence, aux cohortes de découverte qui informent la conception d'études en aval, et aux projets où la question analytique nécessite réellement une observation directe des variants.

Cadre de Décision : Faible Passerelle vs Haute Couverture

Le choix entre le séquençage génomique à faible couverture et à haute couverture dépend de quatre facteurs :

Conception de l'étude : GWAS des variants communs dans des populations bien caractérisées → faible couverture. Association de variants rares, découverte de SV ou détection de mutations de novo → couverture élevée.
Disponibilité du panneau de référence : Panneaux de référence de haute qualité, appariés à la population → le faible passage est viable. Pas de panneau de référence → un séquençage génomique complet en profondeur est requis.
Allocation budgétaire : Budget fixe de 50 000 $ → environ 500 à 1 000 échantillons à faible fréquence vs 50 à 100 échantillons à grande profondeur. La puissance statistique pour les GWAS des variants communs favorise la taille d'échantillon plus grande.
Utilité future : Des données destinées à être réutilisées dans plusieurs analyses sur plusieurs années → le séquençage génomique complet (WGS) approfondi offre le plus de flexibilité. Analyse à usage unique avec archivage → un faible passage est suffisant.

Pour une comparaison plus détaillée des puces SNP, du séquençage génomique à faible couverture (WGS) et du séquençage génomique profond (WGS) avec des références de coût et de précision, voir CD Genomics. Un guide du débutant sur le séquençage du génome entier à faible passage.

The WGS Depth-Cost-Performance Continuum — Three-zone visualization Figure 2 : Le continuum profondeur-coût-performance du WGS — Une visualisation en trois zones. Zone A : Faible passage (0,4-5×, 50-100 $/échantillon, >99 % de variantes communes par imputation, idéal pour les GWAS). Zone B : Modéré (10-20×, 150-300 $/échantillon, appel direct des variantes, idéal pour la génomique des populations). Zone C : Profond (30-100×, 500-5000 $/échantillon, détection complète des variantes, idéal pour les génomes de référence et les variantes rares). Axe X : profondeur de séquençage. Axe Y : coût par échantillon (échelle logarithmique). Dégradé de couleur du clair (faible passage) au foncé (profond).

Comment CD Genomics fournit le séquençage du génome entier (WGS)

Un projet de séquençage du génome entier (WGS) chez CD Genomics suit un processus standardisé et contrôlé en termes de qualité, depuis la soumission des échantillons jusqu'aux données prêtes pour publication, avec une sélection de la plateforme, une couverture et une analyse bioinformatique adaptées à la taille du génome du projet et aux objectifs de recherche.

Flux de travail de l'échantillon aux données

Étape 1 : Soumission de l'échantillon et contrôle qualité. Les clients soumettent des échantillons d'ADN ou biologiques extraits pour extraction. Le contrôle qualité entrant mesure la concentration (fluorométrie Qubit), la pureté (ratios Nanodrop 260/280 et 260/230) et l'intégrité (électrophorèse sur gel d'agarose ou TapeStation pour la distribution de la taille des fragments). Les échantillons qui échouent au contrôle qualité sont immédiatement signalés, et un plan de ré-extraction ou de nouvelle soumission est coordonné.

Étape 2 : Construction de la bibliothèque. Les bibliothèques spécifiques à la plateforme sont préparées avec la taille d'insertion appropriée (350-500 pb pour le séquençage génomique à lecture courte, 15-20 kb pour PacBio HiFi, sans sélection de taille pour ONT ultra-long). Pour les projets à l'échelle de la population, le marquage à double index sur plaques de 96 puits garantit la traçabilité des échantillons et minimise les artefacts de saut d'index.

Étape 3 : Séquençage. La profondeur de séquençage est surveillée en temps réel. Pour les plateformes Illumina et MGI, un minimum de 80 % des bases à ≥Q30 est standard. Pour PacBio HiFi, des lectures CCS avec ≥Q30 (99,9 % de précision) sont générées. Pour ONT, les dernières cellules de flux R10.4.1 avec un appel de base super précis (dorado) offrent une précision modale >99 %.

Étape 4 : Bioinformatique. Le pipeline d'analyse est adapté au type de projet. L'assemblage de novo utilise Hifiasm (HiFi), Flye (ONT) ou Unicycler (hybride). L'analyse basée sur un référentiel utilise BWA-MEM2 + GATK4 ou DeepVariant. L'annotation fonctionnelle utilise Prokka (bactéries) ou MAKER2/BRAKER3 (eucaryotes). Tous les pipelines incluent des métriques de qualité : statistiques d'assemblage (N50, L50, complétude BUSCO), taux d'appel de variants et rapports de transitions/transversions, ainsi que des graphiques d'uniformité de couverture.

CD Genomics' Séquençage du génome entier services et Service de séquençage du génome entier de novo couvrent l'ensemble du spectre des tailles de génomes et des échelles de projets, allant des isolats bactériens uniques aux cohortes de populations de plusieurs milliers d'échantillons.

WGS Platform Selection Guide — Decision matrix table Figure 3 : Guide de sélection de plateforme WGS — Un tableau de matrice décisionnelle avec quatre colonnes. Les lignes représentent les types de projets (Bactérien De Novo, Plante De Novo, Animal De Novo, Ré-Seq de Population, GWAS à faible couverture). Colonnes : Plateforme(s) recommandée(s), Couverture, Entrée ADN, Coût approximatif/échantillon, Délai de traitement. Les cellules codées par couleur indiquent les choix optimaux (vert), viables (jaune) et non recommandés (rouge).

FAQ

Quelle est la différence entre le séquençage de novo et le re-séquençage ?

Le séquençage de novo assemble un génome à partir de zéro sans modèle de référence — nécessaire pour les espèces sans génome de référence existant. Le re-séquençage aligne les lectures à un génome de référence existant pour identifier des variantes — adapté lorsque un génome de référence de haute qualité existe déjà pour l'espèce. Le coût du séquençage de novo est 5 à 20 fois plus élevé que celui du re-séquençage à profondeur équivalente en raison du travail supplémentaire d'assemblage et d'annotation bioinformatique.

Quel est le coût du séquençage du génome entier ?

Les coûts varient en fonction de la taille du génome et de la couverture. Un génome bactérien (5 Mb, 100×) : 100-500 $. Un génome mammifère (3 Gb, 30×) : 500-800 $ pour le re-séquencement, 5 000-15 000 $ pour le de novo avec annotation. Un grand génome de plante (10 Gb, 30×) : 2 000-5 000 $ pour le re-séquencement, 10 000-30 000 $ pour le de novo. Le WGS à faible couverture à 1× coûte 50-100 $ par échantillon pour les génomes de taille humaine. Ces chiffres concernent uniquement le séquençage et la bioinformatique standard, excluant l'extraction d'ADN.

Quelle quantité et qualité d'ADN ai-je besoin pour le séquençage génomique complet (WGS) ?

Pour le séquençage WGS à lecture courte Illumina : ≥200 ng d'ADN à ≥10 ng/µL, OD 260/280 de 1,8-2,0. Pour PacBio HiFi : ≥5-15 µg d'ADN à haut poids moléculaire avec des tailles de fragments ≥20 kb. Pour Oxford Nanopore : ≥5-10 µg d'ADN HMW avec des fragments ≥20 kb pour les bibliothèques standard, ou ≥1 µg pour les protocoles à ultra faible entrée. L'ADN dégradé avec des fragments <5 kb peut encore être séquencé sur les plateformes Illumina mais n'est pas adapté au séquençage à longue lecture.

Pourquoi utiliser le séquençage à longues lectures pour l'assemblage de novo ?

Les lectures courtes (150-300 pb) ne peuvent pas couvrir les éléments répétitifs — transposons, duplications segmentaires, centromères, ensembles d'ARNr — qui sont plus longs que la longueur de la lecture. L'assembleur rencontre une répétition, ne peut pas déterminer combien de copies existent ni comment elles sont arrangées, et divise l'assemblage en contigs. Les longues lectures (10-100+ kb) couvrent la plupart des répétitions, produisant 50 à 500 fois moins de contigs et résolvant l'architecture du génome que les assemblages de lectures courtes effondrent. Pour les génomes polyploïdes, les longues lectures peuvent phaser les haplotypes en assemblages séparés plutôt que de les effondrer en un consensus mosaïque unique.

Comment choisir entre Illumina, PacBio et Nanopore pour mon projet ?

Illumina/MGI : la plus haute précision brute (Q30+), le coût par Go le plus bas, idéal pour le re-séquençage et l'appel de variants. PacBio HiFi : haute précision (Q30+) avec des lectures de 15 à 25 kb, idéal pour l'assemblage de novo de génomes de taille modérée (≤3 Gb). Oxford Nanopore : les lectures les plus longues (plus de 100 kb) avec une précision modérée (Q20+, en amélioration), idéal pour résoudre des structures de répétition ultra-complexes dans des génomes très grands. Les approches hybrides combinent des plateformes : longues lectures pour la continuité de l'assemblage + courtes lectures pour le polissage de la précision au niveau des bases.

Quel est le délai de traitement pour un projet de séquençage génomique complet (WGS) ?

Le délai standard est de 30 à 45 jours ouvrables pour le séquençage génomique bactérien et de 45 à 60 jours ouvrables pour les projets de novo sur les plantes/animaux, selon la taille du génome, la couverture et la complexité de l'analyse. Les projets de re-séquençage à l'échelle de la population avec des centaines à des milliers d'échantillons peuvent s'étendre à 60-90 jours ouvrables en raison du débit de préparation des bibliothèques et du volume de traitement des données. Des délais accélérés sont disponibles pour les projets sensibles au temps.

CD Genomics peut-il gérer des projets de génomique des populations à grande échelle ?

Oui. CD Genomics soutient des projets de re-séquençage à l'échelle de la population avec extraction d'ADN automatisée, préparation de bibliothèques en plaques de 96 puits et séquençage sur les plateformes NovaSeq X Plus ou MGI DNBSEQ-T7. Des projets allant de 100 à plus de 10 000 échantillons sont pris en charge, avec une tarification échelonnée qui réduit les coûts par échantillon à mesure que la taille du lot augmente.

Quels livrables en bioinformatique vais-je recevoir ?

Les livrables standard comprennent des données de séquençage brutes (FASTQ), des rapports de contrôle de qualité (FastQC, MultiQC) et des résultats spécifiques à l'analyse : génome assemblé (FASTA) avec annotation (GFF/GBK) pour les projets de novo ; fichiers d'appel de variants (VCF) avec annotation pour le re-séquençage ; génotypes imputés pour le WGS à faible couverture. Toutes les données sont livrées via un téléchargement sécurisé ou un disque dur pour les grands ensembles de données. Des analyses bioinformatiques personnalisées sont disponibles pour des besoins de recherche spécifiques.

Références :

Li H, Durbin R. Alignement rapide et précis des courtes lectures avec la transformation de Burrows-Wheeler. Bioinformatique2009 ; 25(14) : 1754-1760. doi : 10.1093/bioinformatics/btp324
Koren S, Walenz BP, Berlin K, Miller JR, Bergman NH, Phillippy AM. Canu : assemblage de lectures longues évolutif et précis via un poids adaptatif des k-mers et une séparation des répétitions. Recherche sur le génome2017 ; 27(5) : 722-736. doi : 10.1101/gr.215087.116
Vaser R, Sovic I, Nagarajan N, Sikic M. Assemblage de génome de novo rapide et précis à partir de longues lectures non corrigées. Recherche sur le génome2017 ; 27(5) : 737-746. doi:10.1101/gr.214270.116
Nurk S, Koren S, Rhie A, et al. La séquence complète d'un génome humain. Science. 2022;376(6588):44-53. doi:10.1126/science.abj6987
Wick RR, Judd LM, Gorrie CL, Holt KE. Unicycler : Résolution des assemblages de génomes bactériens à partir de lectures de séquençage courtes et longues. PLoS Biologie Computationnelle. 2017;13(6):e1005595. doi:10.1371/journal.pcbi.1005595
Li H. Alignement protéine-génome avec miniprot. Bioinformatique. 2023;39(1):btad014. doi:10.1093/bioinformatics/btad014
De Coster W, Weissensteiner MH, Sedlazeck FJ. Vers une séquençage à long terme à l'échelle de la population. Nature Reviews Génétique. 2021;22(9):572-587. doi:10.1038/s41576-021-00367-3
Delaneau O, Zagury J-F, Robinson MR, Marchini JL, Dermitzakis ET. Estimation précise, évolutive et intégrative des haplotypes. Communications Nature2019;10:5436. doi:10.1038/s41467-019-13225-y

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.