Why should I choose bacterial WGS over 16S rRNA sequencing?

16S rRNA sequencing identifies which bacterial species are present in a sample. WGS reveals the complete gene content of a specific isolate: antimicrobial resistance genes, virulence factors, metabolic pathways, plasmids, prophages, and SNPs. If the question is 'what species is this?', 16S is appropriate and costs $5-15. If the question is 'what can this bacterium do, and how does it differ from related strains?', WGS is required and costs $100-500.

What is the difference between a draft genome and a complete genome?

A draft genome (short-read-only assembly) consists of 20-100 contigs with an N50 of 100-500 kb. Gene content is >97% complete but the genome is fragmented at repeats. A complete genome (hybrid assembly) consists of 1-4 circularized contigs with zero gaps, representing the chromosome and individual plasmids. Complete genomes are required for plasmid analysis, repeat structure characterization, and publication-quality reference genomes.

How much DNA do I need for bacterial WGS?

For Illumina short-read sequencing: ≥200 ng at ≥10 ng/µL. For PacBio HiFi: ≥5 µg of HMW DNA with fragments ≥20 kb. For Oxford Nanopore: ≥1-5 µg of HMW DNA with fragments ≥20 kb. DNA can be extracted from bacterial cell pellets or liquid culture; both are accepted by CD Genomics. Phenol-chloroform extraction is preferred for long-read sequencing to preserve fragment length.

Can bacterial WGS identify antimicrobial resistance genes?

Yes. WGS detects antimicrobial resistance genes using curated databases — CARD (Comprehensive Antibiotic Resistance Database) and ResFinder — that classify genes by resistance mechanism, drug class, and evidence level. The analysis distinguishes between plasmid-borne and chromosomally encoded resistance genes, which is critical for assessing horizontal transfer risk. CD Genomics offers dedicated ARG Antibiotic Resistance Gene Analysis for comprehensive resistance profiling.

How do I choose between Illumina-only and hybrid assembly for my bacterial genome?

If the goal is gene content analysis, species identification, or AMR screening, Illumina-only assembly at 100-200× ($100-200) is sufficient. If the goal is a complete, publication-quality reference genome with resolved plasmids, or if the genome contains large repeats, hybrid assembly with long reads ($300-800) is required. For projects involving plasmid biology, conjugation studies, or regulatory submissions, hybrid assembly is strongly recommended.

What is the turnaround time for bacterial WGS?

Standard turnaround is 20-30 working days for short-read-only de novo assembly and 30-45 working days for hybrid assembly. Re-sequencing projects with variant calling are typically 15-25 working days. Batch projects with 10-100 isolates may extend to 45-60 working days depending on scale.

What bioinformatic deliverables do I receive?

Standard deliverables: raw sequencing data (FASTQ), quality control report (FastQC, MultiQC), assembled genome (FASTA), and gene annotation (GFF/GBK via Prokka). For re-sequencing: aligned reads (BAM), variant calls (VCF) with SnpEff annotation. Optional add-ons: AMR gene detection (CARD, ResFinder), virulence factor annotation (VFDB), plasmid reconstruction, prophage prediction, CRISPR array detection, and comparative genomics (pan-genome, phylogeny).

How does bacterial WGS cost compare to 16S sequencing for large isolate collections?

A single 16S Sanger sequence costs $5-15. A single bacterial WGS costs $100-500. For 100 isolates, 16S costs $500-1,500 while WGS costs $10,000-30,000. The decision depends on the information required: if taxonomy alone is sufficient, 16S is far more economical. If gene content, AMR profiles, and SNP-level resolution are needed, WGS provides information that 16S cannot deliver at any price.

Séquençage du génome entier bactérien : assemblage de novo, re-séquençage et détection de mutations pour la recherche microbienne

Pourquoi le génome entier, et pas seulement le 16S ?

Le gène 16S rRNA a été le pilier de la taxonomie microbienne pendant quatre décennies, et pour de bonnes raisons : il est universellement présent chez les bactéries, contient à la fois des sites de liaison de primers conservés et des régions hypervariables, et bénéficie de bases de données massives et curées (SILVA, Greengenes, GTDB). Une séquence Sanger 16S peut placer un isolat inconnu dans le genre correct et souvent dans l'espèce correcte à un coût de 5 à 15 $ par échantillon.

Mais le 16S présente des lacunes fondamentales que le WGS comble. Tout d'abord, le 16S ne fournit aucune information sur le contenu génétique fonctionnel : une séquence 16S vous indique la taxonomie mais rien sur le fait que l'organisme produise une toxine, dégrade un polluant ou porte un gène de résistance aux antibiotiques. Deuxièmement, la résolution du 16S atteint un plateau au niveau des espèces ; des souches au sein d'une espèce peuvent partager des séquences 16S identiques tout en différant par des centaines de gènes dans leurs génomes accessoires. Troisièmement, les plasmides, qui sont les principaux vecteurs du transfert horizontal de gènes et de la diffusion de la résistance aux antimicrobiens, sont totalement invisibles à la séquençage 16S.

Une comparaison concrète illustre l'asymétrie d'information. Une séquence d'ARNr 16S d'un isolat d'Escherichia coli provenant d'une enquête sur une épidémie à l'hôpital l'identifie comme E. coli avec 99,8 % de confiance et prend 2 à 3 jours. Un séquençage génomique complet (WGS) de cet isolat à 100× de couverture identifie le sérotype (O157:H7), détecte 14 gènes de résistance antimicrobienne répartis sur 2 plasmides et le chromosome, reconstruit les séquences complètes des plasmides, identifie 6 régions de prophages et catalogue 47 facteurs de virulence — le tout à partir d'un seul séquençage coûtant entre 100 et 500 dollars. Pour les enquêtes épidémiques, le WGS fournit la résolution au niveau des SNP nécessaire pour distinguer les souches épidémiques des cas sporadiques de fond, permettant la reconstruction des chaînes de transmission que le 16S ne peut tout simplement pas soutenir.

Pour un aperçu stratégique plus large de la manière dont le séquençage génomique complet (WGS) bactérien s'intègre dans le paysage plus vaste du WGS — y compris le dé novo chez les plantes/animaux, le re-séquençage de population, et les décisions de faible couverture par rapport à haute couverture — consultez notre Centre de services de séquençage du génome entier.

Assemblage De Novo — Construire des Génomes à Partir de Rien

L'assemblage de novo reconstruit un génome bactérien à partir de lectures de séquençage qui se chevauchent sans modèle de référence. C'est l'approche requise pour les isolats nouveaux, les souches environnementales et tout organisme manquant d'un génome de référence de haute qualité. La qualité de l'assemblage résultant — mesurée par le N50 des contigs, le nombre de contigs, le plus grand contig et la complétude BUSCO — dépend fortement du mélange de technologies de séquençage.

Assemblage de lectures courtes : haute précision, génomes incomplets

Le séquençage à lecture courte Illumina (2×150 pb ou 2×250 pb) avec une couverture de 100-200× produit les lectures brutes les plus précises, avec des taux d'erreur inférieurs à 0,1 % et des scores Q30 dépassant régulièrement 90 % des bases. Le pipeline d'assemblage de novo standard — SPAdes ou MEGAHIT → évaluation de la qualité QUAST → annotation Prokka — génère un génome draft composé de 20 à 100 contigs, avec un N50 de contig typiquement dans la plage de 100 à 500 kb. Pour de nombreuses applications, cela est suffisant : la prédiction des gènes capture plus de 97 % des séquences codantes, et les scores de complétude BUSCO dépassent régulièrement 95 %. Un génome bactérien uniquement à lecture courte coûte entre 100 et 200 $ et peut être livré en 20 à 30 jours ouvrables.

La limitation est structurelle. Les génomes bactériens contiennent des éléments répétitifs — opérons d'ARNr (5-7 kb), séquences d'insertion (0,7-2 kb), transposons et régions de prophage — qui dépassent la taille d'insertion de 300-500 pb d'une bibliothèque à extrémités appariées. Lorsque l'assembleur rencontre une répétition plus longue que la taille d'insertion, il ne peut pas déterminer combien de copies existent ni comment elles sont agencées, et l'assemblage se fracture. Le résultat est un génome représenté sous forme d'un ensemble de contigs plutôt que d'un chromosome circulaire complet. Les plasmides, qui partagent des éléments répétitifs (séquences d'insertion, transposons) avec le chromosome, sont particulièrement difficiles à résoudre — les assemblages à courtes lectures fusionnent souvent plusieurs plasmides en un seul contig chimérique ou fragmentent un seul plasmide sur plusieurs contigs.

Assemblage hybride : génomes complets et circulaires

L'assemblage hybride combine des lectures longues pour la continuité structurelle avec des lectures courtes pour une précision au niveau des bases. Les lectures PacBio HiFi (mode CCS, 15-25 kb, ≥99,9 % de précision) ou les lectures Oxford Nanopore (chimie R10.4.1, 50-100+ kb, >99 % de précision modale avec le basecalling super-précis Dorado) couvrent les éléments répétitifs qui fragmentent les assemblages de lectures courtes. Les longues lectures sont assemblées en 1 à 4 contigs — généralement un par chromosome plus un par grand plasmide — et les courtes lectures sont utilisées pour peaufiner les erreurs indel résiduelles lors des courses d'homopolymères.

Le standard actuel en matière d'assemblage hybride bactérien est Unicycler, qui construit un graphe d'assemblage SPAdes à partir de lectures Illumina, puis utilise des lectures longues pour combler les répétitions, produisant un génome circulaire complet avec zéro base ambiguë. Un flux de travail alternatif assemble d'abord les lectures longues avec Flye (ONT) ou Hifiasm (HiFi), puis les affine avec Medaka (ONT) ou gcpp (PacBio), suivi d'une étape finale de polissage Illumina avec Pilon ou Polypolish. Des évaluations récentes ont démontré que les assemblages uniquement ONT avec la chimie R10.4.1 et le polissage Autocycler + Medaka peuvent produire des résultats comparables aux assemblages hybrides, avec zéro SNP médian et zéro indel médian par rapport aux génomes de référence curés — un changement de paradigme suggérant que, pour de nombreux génomes bactériens, l'assemblage hybride peut ne plus être obligatoire lorsque les dernières chimies ONT et les algorithmes de détermination des bases sont utilisés (Wick et Holt, 2021).

CD Genomics réalise un assemblage hybride bactérien grâce à son service de génomique microbienne avec séquençage à lecture longue et Séquençage de novo de génomes entiers microbiens service. Recommandations de couverture : ≥50× pour Illumina, ≥100× pour PacBio HiFi et ≥100× pour Oxford Nanopore. Le délai de traitement est de 30 à 45 jours ouvrables pour les assemblages hybrides.

La qualité de l'assemblage est évaluée à l'aide de trois métriques standard : QUAST pour les statistiques de continuité (N50, L50, plus grand contig, taille totale de l'assemblage par rapport à la taille du génome attendu), BUSCO pour la complétude au niveau des gènes par rapport à un ensemble spécifique de lignées d'orthologues conservés à copie unique, et CheckM2 pour l'estimation de la complétude et de la contamination du génome. Un assemblage hybride de qualité publication devrait atteindre >99 % de complétude BUSCO, <2 % de contamination et ≤4 contigs pour une bactérie typique à chromosome unique avec 1-3 plasmides.

Dans une évaluation complète de 7 280 assemblages de génomes bactériens soumis à NCBI, Wick et Holt (2021) ont démontré que les assemblages hybrides ont atteint un N50 médian de 5,1 Mb (chromosomes essentiellement complets) avec une médiane de 2 contigs, contre un N50 médian de 198 kb avec une médiane de 48 contigs pour les assemblages uniquement à lecture courte — une amélioration de 25 fois en continuité grâce à l'ajout de lectures longues. Pour les génomes avec une forte teneur en GC (>65 %), tels que les espèces de Streptomyces et de Mycobacterium, l'assemblage hybride a également résolu des régions répétitives riches en GC qui restaient fragmentées dans les assemblages uniquement à lecture courte. Une étude de référence de 2024 sur 20 isolats bactériens couvrant 5 phylums a révélé que l'assemblage hybride avec Unicycler récupérait en moyenne 3 plasmides complets par génome (plage de 0 à 8), tandis que l'assemblage SPAdes uniquement Illumina récupérait en moyenne 0 plasmide complet — soulignant l'impact fonctionnel de la stratégie d'assemblage sur la biologie des plasmides en aval et les analyses épidémiologiques de l'AMR.

Bacterial WGS Assembly Quality Tiers: three-column comparison of Draft, Near-Complete, and Complete assembly outcomes with N50, BUSCO, cost, and recommended applications. Figure 1 : Niveaux de qualité d'assemblage de WGS bactérien — Une comparaison en trois colonnes des résultats d'assemblage Draft (uniquement Illumina, ~60 contigs, N50 ~200 kb, BUSCO ~97 %, 100-200 $), Near-Complete (hybride, 1-4 contigs, N50 ~4 Mb, BUSCO ~99,5 %, 300-500 $) et Complete (multi-plateforme, 1 chromosome circulaire + plasmides résolus, N50 = taille du génome, BUSCO 100 %, 500-800 $), avec le temps de réponse et les applications recommandées pour chaque niveau.

Alors que les génomes bactériens sont compacts (3-7 Mb) et peuvent être assemblés complètement avec les technologies actuelles, les génomes eucaryotes présentent un ordre de complexité différent. Pour le séquençage de novo des génomes de plantes et d'animaux — s'étendant de 100 Mb à plus de 10 Gb avec des paysages de répétitions complexes et des génomes polyploïdes — voir notre Séquençage de génomes de plantes et d'animaux de novo.

Re-séquençage et appel de variants

Lorsqu'un génome de référence de haute qualité existe pour l'espèce, l'approche analytique passe de l'assemblage de novo à la re-séquençage guidé par référence. Les lectures sont alignées sur la référence avec BWA-MEM ou Minimap2, et les variants — polymorphismes à un seul nucléotide (SNP), petites insertions/délétions (indels) et variants structurels plus importants — sont appelés avec bcftools, GATK ou DeepVariant. Ce flux de travail est plus rapide, moins coûteux et plus sensible aux petits variants que l'assemblage de novo, ce qui en fait la méthode de choix pour la génomique comparative, le suivi des épidémies et l'identification des mutations.

Étude de cas : Redécouverte des mutations classiques dans Neurospora crassa

La puissance du séquençage génomique entier (WGS) pour la détection de mutations est élégamment démontrée par McCluskey et al. (2011), qui ont séquencé deux classiques. Neurospora crassa des souches mutantes dont les phénotypes étaient connus depuis des décennies mais dont les mutations causales n'avaient jamais été identifiées au niveau moléculaire. Le mutant qa-X, isolé dans les années 1970, ne peut pas croître sur de l'acide quinique comme seule source de carbone — un phénotype cartographié il y a des décennies au groupe de liaison VII mais jamais résolu à un gène spécifique. Le séquençage du génome entier avec une couverture de 25× a identifié un polymorphisme à un nucléotide dans le gène qa-1F (NCU06028) qui a introduit un codon d'arrêt prématuré, tronquant la protéine activateur transcriptionnel requise pour l'expression du cluster de catabolisme de l'acide quinique. L'ensemble du projet — de l'extraction de l'ADN à la mutation validée — a été complété en moins de quatre semaines à un coût de séquençage d'environ 1 000 dollars en dollars de 2011 ; aujourd'hui, l'expérience équivalente coûte moins de 300 dollars et peut être réalisée en deux semaines.

Le flux de travail analytique pour la détection de mutations suit une logique soustractive. Les lectures de la souche mutante sont alignées sur le génome de référence de type sauvage, les variants sont appelés et filtrés (en supprimant ceux partagés avec la souche parentale de type sauvage ou présents dans des bases de données de polymorphisme au niveau de la population), et les variants candidats restants sont annotés pour leur impact fonctionnel. Un SNP non synonyme ou un indel de décalage de cadre dans un gène fonctionnellement lié au phénotype mutant est le principal candidat. Le séquençage Sanger du locus candidat confirme le variant, et la complémentation — réintroduire l'allèle de type sauvage dans le contexte mutant et observer la restauration du phénotype — fournit une validation causale définitive.

Pour les écrans de mutagenèse, la validation de l'édition du génome CRISPR-Cas9 et les études d'évolution expérimentale, le re-séquencement à 50-100× fournit la sensibilité de détection des variants nécessaire pour identifier des mutations uniques sur un fond de mutations spontanées accumulées lors de la manipulation des souches. Le pipeline bioinformatique — alignement BWA-MEM → appel de variants GATK HaplotypeCaller → annotation fonctionnelle SnpEff — est mature, bien documenté et fournit régulièrement une sensibilité >99,9 % pour les SNP homozygotes à une couverture ≥30×. Pour les projets de re-séquencement à grande échelle sur plusieurs isolats — tels que les enquêtes épidémiques, les collections de souches ou les panneaux d'évolution expérimentale — consultez notre Séquençage du génome entier services pour les options de traitement par lots et l'analyse génomique comparative.

Variant Detection Pipeline for Microbial Re-Sequencing: 6-step horizontal workflow from Raw FASTQ to Candidate Validation. Figure 2 : Pipeline de Détection de Variants pour le Re-Séquencement Microbien — Un diagramme de flux horizontal en 6 étapes : (1) Lectures FASTQ Brutes → (2) Contrôle de Qualité (FastQC, MultiQC) → (3) Alignement des Lectures sur le Génome de Référence (BWA-MEM / Minimap2) → (4) Appel de Variants (GATK HaplotypeCaller / DeepVariant / bcftools mpileup) → (5) Filtrage de Variants & Annotation Fonctionnelle (SnpEff) → (6) Validation des Candidats (séquençage Sanger + essai de complémentation). Chaque étape inclut le nom de l'outil clé et une description en une ligne de son rôle dans le pipeline.

Reconstruction de plasmides et éléments mobiles

Les plasmides sont les principaux vecteurs du transfert horizontal de gènes chez les bactéries, transportant des gènes de résistance antimicrobienne, des facteurs de virulence et des capacités métaboliques entre souches et espèces. Un séquençage génomique bactérien complet doit reconstruire les séquences de plasmides séparément du chromosome pour évaluer le potentiel de mobilité des gènes qu'ils portent — un gène de résistance sur un plasmide conjugatif représente un risque pour la santé publique fondamentalement différent de celui du même gène encodé chromosomiquement.

L'assemblage à partir de lectures courtes a des difficultés avec la reconstruction des plasmides pour la même raison qu'il a du mal avec les répétitions chromosomiques : les plasmides partagent des éléments mobiles (séquences d'insertion, transposons, intégrons) entre eux et avec le chromosome, créant des enchevêtrements dans le graphe d'assemblage qui font s'effondrer plusieurs réplicons en contigs chimériques. PlasmidSPAdes, un module spécialisé de SPAdes, améliore la récupération des plasmides à partir de données de lectures courtes en utilisant les différences de couverture entre plasmides et chromosome pour guider l'assemblage, mais des séquences plasmidiques complètes et sans ambiguïté nécessitent généralement des longues lectures.

L'assemblage hybride avec Unicycler est la norme actuelle pour les génomes bactériens résolus des plasmides. Unicycler modélise explicitement le nombre de copies de plasmides : un plasmide à 5 copies a une profondeur de séquençage 5 fois supérieure à celle d'un chromosome à copie unique — et utilise cette information pour séparer les contigs chromosomiques et plasmidiques. La sortie est un ensemble de séquences complètes et circulaires : une par chromosome et une par espèce de plasmide distincte. Pour les laboratoires suivant la propagation de la résistance médiée par plasmide à travers des expériences de conjugaison ou de transduction, des séquences plasmidiques complètes permettent une identification précise des éléments mobiles portant des gènes de résistance et des gènes de la machinerie de conjugaison qui permettent leur transfert.

Les services de séquençage génomique bactérien de CD Genomics incluent la reconstruction de plasmides comme composant standard de l'assemblage hybride. Pour les projets spécifiquement axés sur la biologie des plasmides, Analyse des gènes de résistance aux antibiotiques (ARG) fournit une annotation dédiée des gènes de résistance en utilisant les bases de données CARD et ResFinder, avec une localisation plasmidique ou chromosomique de chaque gène détecté.

La signification en matière de santé publique et de réglementation de la reconstruction de plasmides est en pleine croissance. Le protocole Tricycle de l'OMS pour les producteurs de BLSE E. coli La surveillance et le réseau de laboratoires AR des CDC s'appuient tous deux sur le typage de plasmides basé sur le séquençage du génome entier (WGS) pour suivre l'épidémiologie des gènes de résistance. En microbiologie de la sécurité alimentaire, la reconstruction de plasmides permet de distinguer les événements de contamination : deux isolats partageant le même arrière-plan chromosomique mais des profils de plasmides différents suggèrent des événements d'acquisition de plasmides indépendants plutôt qu'une transmission clonale.

Considérations pratiques

Quantité et qualité de l'ADN

Le séquençage génomique bactérien (WGS) est relativement tolérant en ce qui concerne l'ADN d'entrée par rapport au WGS eucaryote, mais les exigences varient selon la plateforme. Pour le séquençage à lecture courte Illumina : ≥200 ng d'ADN génomique à ≥10 ng/µL, OD 260/280 de 1,8-2,0. L'ADN fragmenté à <10 kb est acceptable et même attendu pour la préparation de bibliothèques à lecture courte. Pour PacBio HiFi : ≥5 µg d'ADN à haut poids moléculaire avec des tailles de fragments ≥20 kb, OD 260/280 de 1,8-2,0. Pour Oxford Nanopore : ≥1-5 µg d'ADN HMW avec des fragments ≥20 kb ; la chimie R10.4.1 tolère des quantités d'entrée inférieures à celles des versions précédentes.

La méthode d'extraction de l'ADN est importante. Les kits basés sur des colonnes (Qiagen DNeasy, Zymo Research) produisent de l'ADN adapté au séquençage à lecture courte, mais peuvent fragmenter l'ADN en dessous du seuil de 20 kb pour les bibliothèques à lecture longue. Pour le séquençage à lecture longue, l'extraction par phénol-chloroforme ou les protocoles de lyse incorporés dans de l'agarose préservent la longueur des fragments. CD Genomics accepte à la fois l'ADN extrait et les pellets de cellules bactériennes, avec des protocoles d'extraction optimisés pour chaque type d'échantillon.

La complexité du génome — en particulier la teneur en GC et la densité des répétitions — influence le succès de l'assemblage au-delà de la seule qualité de l'ADN. Les bactéries à forte teneur en GC telles que Streptomyces (72 % GC), Mycobacterium tuberculosis (65 % GC), et Burkholderia (67 % GC) présentent deux défis : un biais de couverture en faveur du GC lors de l'amplification de la bibliothèque Illumina, et une densité plus élevée de répétitions inversées riches en GC qui compliquent l'assemblage. Les kits de préparation de bibliothèque sans PCR atténuent le biais d'amplification, et les longues lectures dans un assemblage hybride couvrent ces régions de répétitions riches en GC qui fragmentent les assemblages à courtes lectures. À l'autre extrême, les génomes riches en AT (par exemple, Mycoplasme, 24-32 % de GC) présentent leurs propres défis — les séquences homopolymères d'A/T sont la principale source d'erreurs d'indel dans les lectures PacBio et ONT, rendant le polissage Illumina une étape cruciale pour une prédiction précise des gènes dans ces organismes. La taille du génome varie également sur deux ordres de grandeur : les plus petits génomes bactériens libres.Mycoplasma genitalium, 0,58 Mo) sont assemblés en totalité à partir d'une seule cellule de flux MinION, tandis que les plus grands génomes bactériens (Sorangium cellulosum, 14,8 Mo; Minicystis rosea, 16 Mo) nécessitent une couverture en longues lectures plus profonde et peuvent encore produire plusieurs contigs même avec une assemblage hybride.

Traitement en Isolat Unique vs Traitement par Lots

Un isolat bactérien unique séquencé à 100× de couverture coûte entre 100 et 500 dollars selon le mélange technologique. Pour les projets impliquant plusieurs isolats — enquêtes épidémiologiques, collections de souches, bibliothèques de mutants — le traitement en lot dans des plaques de 96 puits réduit les coûts de préparation de bibliothèque par échantillon grâce à l'automatisation. L'analyse bioinformatique pour les projets en lot évolue de manière linéaire : chaque isolat est assemblé ou appelé variant indépendamment, et des analyses comparatives (construction de pan-génome, inférence d'arbres phylogénétiques, profilage de la présence/absence de gènes de résistance) sont effectuées sur l'ensemble du jeu de données. Pour plus de détails sur l'échelle du séquençage génomique à des cohortes plus importantes, voir notre Séquençage du génome entier page de service.

Livrables en bioinformatique

Un projet de séquençage génomique bactérien standard de CD Genomics fournit des données de séquençage brutes (FASTQ), un rapport de contrôle de qualité (FastQC, MultiQC) et des résultats spécifiques à l'analyse. Pour l'assemblage de novo : génome assemblé au format FASTA, annotation des gènes au format GFF/GBK (via Prokka), annotation fonctionnelle contre les bases de données NR, GO, KEGG, COG, SwissProt, Pfam et CAZy. Pour le re-séquencement : lectures alignées (BAM), appels de variants (VCF) avec annotation fonctionnelle SnpEff. Des analyses spécialisées — détection de gènes de résistance antimicrobienne via CARD et ResFinder, annotation de facteurs de virulence via VFDB, reconstruction de plasmides, prédiction de prophages, détection de systèmes CRISPR et analyse du pan-génome — sont disponibles en option. Pour les projets nécessitant des pipelines bioinformatiques personnalisés adaptés à des questions de recherche spécifiques, notre Séquençage du génome entier bactérien Le service comprend une consultation sur la conception de l'analyse et les livrables. Toutes les données sont livrées par téléchargement sécurisé, avec expédition sur disque dur pour les grands ensembles de données.

Bacterial WGS Decision Tree: branching workflow from Single Bacterial Isolate to De Novo Assembly or Re-Sequencing paths. Figure 3 : Arbre de Décision pour le Séquençage Génomique Bactérien — Un organigramme commençant par "Isolat Bactérien Unique" se divisant en deux chemins. Chemin A (Assemblage De Novo) : Pas de génome de référence → Lecture Courte Seulement (Illumina, 100-200 $, 20-100 contigs, ~97 % BUSCO) ou Assemblage Hybride (Illumina + PacBio/ONT, 300-800 $, 1-4 contigs, 100 % BUSCO avec plasmides complets). Chemin B (Re-Séquençage) : Un génome de référence existe → Appel de Variants (BWA-MEM + GATK/DeepVariant, SNPs + indels, couverture 50-100×, 100-300 $). Annotations de sortie pour les deux chemins : annotation Prokka, CARD/ResFinder AMR, virulence VFDB, reconstruction de plasmides.

Questions Fréquemment Posées

Pourquoi devrais-je choisir le séquençage du génome entier bactérien (WGS) plutôt que le séquençage de l'ARNr 16S ?

Le séquençage de l'ARNr 16S identifie quelles espèces bactériennes sont présentes dans un échantillon. Le séquençage du génome entier (WGS) révèle le contenu génétique complet d'un isolat spécifique : gènes de résistance aux antimicrobiens, facteurs de virulence, voies métaboliques, plasmides, prophages et SNPs. Si la question est "quelle espèce est-ce ?", le séquençage 16S est approprié et coûte entre 5 et 15 $. Si la question est "que peut faire cette bactérie, et en quoi diffère-t-elle des souches apparentées ?", le WGS est nécessaire et coûte entre 100 et 500 $.

Quelle est la différence entre un génome de brouillon et un génome complet ?

Un génome préliminaire (assemblage uniquement à partir de courtes lectures) se compose de 20 à 100 contigs avec un N50 de 100 à 500 kb. Le contenu en gènes est supérieur à 97 % complet, mais le génome est fragmenté au niveau des répétitions. Un génome complet (assemblage hybride) se compose de 1 à 4 contigs circulaires sans lacunes, représentant le chromosome et les plasmides individuels. Des génomes complets sont nécessaires pour l'analyse des plasmides, la caractérisation de la structure des répétitions et les génomes de référence de qualité publication.

Quelle quantité d'ADN ai-je besoin pour le séquençage du génome entier des bactéries ?

Pour le séquençage à lecture courte Illumina : ≥200 ng à ≥10 ng/µL. Pour PacBio HiFi : ≥5 µg d'ADN HMW avec des fragments ≥20 kb. Pour Oxford Nanopore : ≥1-5 µg d'ADN HMW avec des fragments ≥20 kb. L'ADN peut être extrait de pellets cellulaires bactériens ou de cultures liquides ; les deux sont acceptés par CD Genomics. L'extraction par phénol-chloroforme est préférée pour le séquençage à longue lecture afin de préserver la longueur des fragments.

La séquençage du génome entier (WGS) bactérien peut-il identifier des gènes de résistance aux antimicrobiens ?

Oui. WGS détecte les gènes de résistance antimicrobienne en utilisant des bases de données soigneusement sélectionnées — CARD (Base de données complète sur la résistance aux antibiotiques) et ResFinder — qui classifient les gènes par mécanisme de résistance, classe de médicament et niveau de preuve. L'analyse fait la distinction entre les gènes de résistance portés par des plasmides et ceux encodés chromosomiquement, ce qui est essentiel pour évaluer le risque de transfert horizontal. CD Genomics propose des services dédiés. Analyse des gènes de résistance aux antibiotiques (ARG) pour un profilage de résistance complet.

Comment choisir entre un assemblage uniquement Illumina et un assemblage hybride pour mon génome bactérien ?

Si l'objectif est l'analyse du contenu génétique, l'identification des espèces ou le dépistage de la RAM, un assemblage uniquement avec Illumina à 100-200× (100-200 $) est suffisant. Si l'objectif est un génome de référence complet et de qualité publication avec des plasmides résolus, ou si le génome contient de grandes répétitions (la plupart des bactéries le font), un assemblage hybride avec des lectures longues (300-800 $) est nécessaire. Pour les projets impliquant la biologie des plasmides, des études de conjugaison ou des soumissions réglementaires, un assemblage hybride est fortement recommandé.

Quel est le délai de traitement pour le séquençage du génome entier des bactéries ?

Le délai standard est de 20 à 30 jours ouvrables pour l'assemblage de novo uniquement en lecture courte et de 30 à 45 jours ouvrables pour l'assemblage hybride. Les projets de re-séquençage avec appel de variants prennent généralement 15 à 25 jours ouvrables. Les projets par lots avec 10 à 100 isolats peuvent s'étendre à 45-60 jours ouvrables en fonction de l'échelle.

Quels livrables bioinformatiques vais-je recevoir ?

Livrables standards : données de séquençage brutes (FASTQ), rapport de contrôle de qualité (FastQC, MultiQC), génome assemblé (FASTA) et annotation des gènes (GFF/GBK via Prokka). Pour le re-séquençage : lectures alignées (BAM), appels de variants (VCF) avec annotation SnpEff. Options supplémentaires : détection de gènes de résistance aux antimicrobiens (CARD, ResFinder), annotation de facteurs de virulence (VFDB), reconstruction de plasmides, prédiction de prophages, détection de systèmes CRISPR et génomique comparative (pan-génome, phylogénie).

Comment le coût du séquençage génomique complet (WGS) des bactéries se compare-t-il à celui du séquençage 16S pour de grandes collections d'isolats ?

Une séquence Sanger 16S coûte entre 5 et 15 $. Un séquençage génomique complet (WGS) d'une bactérie coûte entre 100 et 500 $. Pour 100 isolats, le coût du 16S est de 500 à 1 500 $, tandis que le WGS coûte entre 10 000 et 30 000 $. La décision dépend des informations requises : si la taxonomie seule est suffisante, le 16S est de loin plus économique. Si le contenu génétique, les profils de résistance aux antimicrobiens (AMR) et la résolution au niveau des SNP sont nécessaires, le WGS fournit des informations que le 16S ne peut pas délivrer à aucun prix. De nombreux projets utilisent le 16S pour le dépistage initial de grandes collections et réservent le WGS pour les isolats d'intérêt identifiés par le dépistage 16S.

Références :

Wick RR, Judd LM, Gorrie CL, Holt KE. Unicycler : Résolution des assemblages de génomes bactériens à partir de lectures de séquençage courtes et longues. PLoS Biologie Computationnelle. 2017;13(6):e1005595. doi:10.1371/journal.pcbi.1005595
Wick RR, Holt KE. Évaluation des assembleurs à longues lectures pour le séquençage du génome entier des procaryotes. F1000Research. 2021;8:2138. doi:10.12688/f1000research.21782.4
McCluskey K, Wiest AE, Grigoriev IV, et al. Redécouverte par séquençage du génome entier : mutations classiques et polymorphismes génomiques dans Neurospora crassa. G3 : Gènes | Génomes | Génétique2011 ; 1(4) : 303-316. doi:10.1534/g3.111.000307
De Coster W, Weissensteiner MH, Sedlazeck FJ. Vers une séquençage à long terme à l'échelle de la population. Nature Reviews Génétique. 2021;22(9):572-587. doi:10.1038/s41576-021-00367-3
Danecek P, Bonfield JK, Liddle J, et al. Douze ans de SAMtools et BCFtools. GigaScience. 2021;10(2):giab008. doi:10.1093/gigascience/giab008
Parks DH, Imelfort M, Skennerton CT, Hugenholtz P, Tyson GW. CheckM : évaluation de la qualité des génomes microbiens récupérés à partir d'isolats, de cellules uniques et de métagénomes. Recherche génomique2015 ; 25(7) : 1043-1055. doi:10.1101/gr.186072.114
Tatusova T, DiCuccio M, Badretdin A, et al. Pipeline d'annotation des génomes procaryotes de NCBI. Recherches sur les acides nucléiques2016 ; 44(14) : 6614-6624. doi:10.1093/nar/gkw569
Bush SJ, Foster D, Eyre DW, et al. La diversité génomique affecte la précision des pipelines d'appel de polymorphismes nucléotidiques simples bactériens. GigaScience. 2020;9(2):giaa007. doi:10.1093/gigascience/giaa007

À des fins de recherche uniquement, non destiné au diagnostic clinique, au traitement ou aux évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.