How many samples do I need for a robust environmental metagenomics study?

For comparative studies across sites or conditions, three to five biological replicates per group is the minimum. Environmental samples are inherently heterogeneous — one soil core from a field is not a replicate of the next. Include field blanks and extraction blanks to track contamination. For longitudinal monitoring, sample at regular intervals that capture the relevant temporal dynamics.

What is the difference between co-assembly and per-sample assembly?

Co-assembly combines reads from all samples into one assembly, maximizing depth for rare organisms but collapsing strain-level differences between samples. Per-sample assembly preserves sample-specific genomic features, including strains, but may recover fewer rare genomes from individual samples. For most environmental comparison studies, per-sample assembly followed by dereplication is recommended.

How do I know if my MAGs are real or assembly artifacts?

CheckM2 provides completeness and contamination estimates using lineage-specific marker genes. Apply the community standard: greater than 90% completeness and less than 5% contamination for high-quality MAGs. Additionally, check for chimerism through GC content and coverage outliers. Bins with anomalous tetranucleotide signatures or coverage patterns relative to other bins from the same sample should be flagged for manual inspection.

Can environmental metagenomics replace 16S amplicon sequencing?

In many applications, yes — but 16S/18S/ITS Amplicon Sequencing remains more cost-effective for large-scale surveys where taxonomic profiling is the only endpoint. Shotgun metagenomics provides species-level and strain-level resolution plus functional gene content that 16S cannot deliver. Shallow shotgun metagenomics is an emerging middle ground, providing species-level taxonomy at approaching-16S cost.

How do I handle plant DNA contamination in rhizosphere samples?

Rhizosphere samples can contain 20 to 50% plant DNA. Align reads against the host plant reference genome using Bowtie 2 or BWA, and discard mapped reads before assembly. For non-model plants without a reference genome, computational depletion using a database of plant chloroplast and mitochondrial genomes can reduce the plant fraction, though less efficiently than a complete reference.

What metadata should I absolutely collect for each sample?

GPS coordinates, date and time of collection, matrix type, pH, temperature, and a description of recent environmental history. For soil, add total organic carbon and moisture. For water, add conductivity, dissolved oxygen, and turbidity. For sediment, add redox potential and grain size class. These variables are required for the MIxS environmental packages.

Can I combine short-read and long-read metagenomics for environmental samples?

Yes. This hybrid approach is increasingly standard for complex environmental samples. Short reads provide high-accuracy taxonomic and functional profiling. Long reads resolve repetitive regions and mobile genetic elements, dramatically improving MAG contiguity. A common strategy is to sequence the same samples on both platforms, assemble with a hybrid assembler or use long reads to scaffold short-read assemblies.

Métagénomique environnementale : Caractérisation des communautés microbiennes dans des échantillons de sol, d'eau et de sédiments

Une cuillère à café de sol contient plus de vie microbienne qu'il n'y a de personnes sur Terre. Des milliers d'espèces de bactéries et d'archées, dont la plupart n'ont jamais été cultivées en laboratoire, réalisent les réactions biogéochimiques qui soutiennent chaque écosystème de la planète. Elles fixent l'azote, minéralisent le carbone, oxydent le méthane et détoxifient les polluants. Jusqu'à récemment, étudier ces communautés signifiait soit les cultiver — ce qui ne capture peut-être que 1 % des espèces — soit amplifier des gènes marqueurs comme l'ARNr 16S — la cible de Séquençage d'amplification 16S/18S/ITS — ce qui vous indique qui est là mais pas ce qu'ils font.

Le séquençage métagénomique shotgun a changé cela. En séquençant tout l'ADN d'un échantillon environnemental, vous pouvez reconstruire des génomes presque complets d'organismes non cultivés, quantifier l'abondance de chaque gène dans une voie métabolique et suivre comment les communautés microbiennes évoluent en réponse à la sécheresse, à la pollution ou à la réhabilitation. Un projet de métagénomique environnementale n'est pas fondamentalement différent d'un projet sur le microbiome intestinal humain dans son pipeline bioinformatique, mais les défis au niveau de l'échantillon — sol chargé en acides humiques, eaux souterraines à faible biomasse, sédiments physiquement réfractaires — nécessitent un ensemble différent de décisions en amont.

Ce guide passe en revue ces décisions. Il couvre la collecte et la préservation d'échantillons pour le sol, l'eau et les sédiments ; les stratégies d'extraction d'ADN pour des matrices riches en inhibiteurs ; les flux de travail d'assemblage et de binning qui récupèrent des génomes assemblés de métagénomes de haute qualité ; et l'annotation fonctionnelle qui transforme les catalogues de gènes en informations biogéochimiques. Il aborde également deux applications — le suivi de la bioremédiation et la biosurveillance — où la métagénomique environnementale passe de la recherche académique à la pratique réglementaire et industrielle.

Figure 1: Isometric 3D workflow showing four stages of environmental metagenomics: soil, water, and sediment sample collection; DNA
extraction with bead-beating and purity assessment; sequencing with contig assembly metrics; and functional annotation dashboard with
nitrogen cycling and CAZy analysis. Figure 1 : Flux de travail en métagénomique environnementale — de l'échantillonnage sur le terrain à l'analyse fonctionnelle à travers les matrices de sol, d'eau et de sédiment.

Collecte et préservation des échantillons : Bien gérer la matrice

L'erreur la plus coûteuse en métagénomique environnementale se produit avant même que le séquenceur ne soit allumé. Un échantillon collecté sans métadonnées, ou préservé de manière à permettre un changement de la communauté pendant le transport, produit des données qu'aucune sophistication bioinformatique ne peut sauver.

Le sol est la matrice la plus complexe. Une approche standard utilise un carottier de 2,5 cm de diamètre à une profondeur de 10 à 15 cm pour les sols de surface, avec des intervalles plus profonds pour les études sous-surface. Tamisez à 2 mm sur le terrain pour enlever les racines et les pierres, puis congelez immédiatement sur de la glace carbonique ou de l'azote liquide. Si le congélateur n'est pas possible, le DNA/RNA Shield ou la solution de préservation du sol lifeGuard offre une stabilité à température ambiante pendant plusieurs jours, bien que la congélation rapide reste la norme d'excellence. Pour chaque point d'échantillonnage, enregistrez les coordonnées GPS, le type de sol, le pH, le carbone organique total, la teneur en humidité et la température. Ces éléments ne sont pas des options supplémentaires. Une analyse de 2022 des métagénomes de la couche arable à travers 189 sites dans le monde a montré que le pH du sol à lui seul explique plus de variation dans la composition de la communauté microbienne que toute autre variable unique, et que ne pas ajuster pour le pH dans une analyse d'abondance différentielle génère des associations fallacieuses entre les taxons et les conditions de traitement. Ce principe d'analyse tenant compte des covariables s'étend à travers les domaines du microbiome — une étude à l'échelle de la population de plus de 8 000 individus a démontré que les facteurs environnementaux et hôtes expliquent ensemble une variation substantielle du microbiome intestinal, renforçant que la collecte de métadonnées complètes et l'ajustement des covariables sont des pratiques méthodologiques essentielles, quel que soit le type d'échantillon étudié.

Les échantillons d'eau nécessitent une filtration. Passez de 1 à 10 litres à travers une membrane en polyéthersulfone ou en polycarbonate de 0,22 μm, en fonction de la turbidité de la source. Pour les échantillons d'eaux souterraines oligotrophes ou d'océan ouvert, des volumes plus importants sont nécessaires pour capturer une biomasse suffisante. Enregistrez la température, le pH, la conductivité, l'oxygène dissous et la turbidité au moment de la collecte. Congelez immédiatement le filtre. Pour les échantillons avec une forte sédimentation en suspension, pré-filtrez à travers une taille de pore plus grande pour éviter que la membrane de 0,22 μm ne se bouche, mais soyez conscient que le pré-filtre retient les microbes associés aux particules et que le filtrat final ne représente que la fraction libre. Décidez délibérément quelle fraction est pertinente pour votre question.

L'échantillonnage des sédiments utilise un échantillonneur à grappin ou un carottier, selon la conception de l'étude. Pour les carottes, sectionnez à des intervalles de profondeur définis — généralement de 1 à 2 cm pour les études de gradient redox à fine échelle, ou des intervalles plus larges pour des travaux de reconnaissance. Enregistrez le potentiel redox si l'étude concerne le cycle biogéochimique à travers les transitions oxiques-anoxiques. Les échantillons de sédiments sont généralement riches en substances humiques et nécessitent des ajustements spécifiques pour l'extraction.

Figure 2: Three-panel vertical comparison of sample collection methods: soil coring through O, A, and B horizons with GPS, pH, TOC, and
temperature metadata; water filtration through 0.22-μm membrane with vacuum pump; and sediment grab sampling showing Ekman-style sampler
with redox potential and grain size metadata. Figure 2 : Illustration comparative montrant les méthodes de carottage du sol, de filtration de l'eau à travers une membrane de 0,22 μm et de prélèvement de sédiments, avec les principaux paramètres de métadonnées pour chaque matrice.

Extraction d'ADN : Lutter contre les acides humiques et gagner

Si l'étape de collecte d'échantillons est celle où les projets de métagénomique environnementale réussissent ou échouent silencieusement, l'étape d'extraction de l'ADN est celle où ils réussissent ou échouent bruyamment — avec de faibles rendements, des préparations de bibliothèques échouées et des séquençages dominés par le transfert d'inhibiteurs.

Les acides humiques sont le principal antagoniste. Ces molécules organiques complexes, abondantes dans le sol et les sédiments, co-extraient avec l'ADN et inhibent les réactions enzymatiques en aval, y compris les étapes de tagmentation et d'amplification dans la préparation de bibliothèques Illumina. Un extrait d'ADN qui semble propre par NanoDrop — avec un ratio 260/280 respectable supérieur à 1,8 — peut néanmoins échouer lors de la préparation de la bibliothèque, car les substances humiques absorbent à 230 nm, déprimant ainsi le ratio 260/230. Un ratio 260/230 inférieur à 1,5 est un signe d'alerte ; en dessous de 1,0, l'extrait nécessite presque toujours un nettoyage.

Plusieurs stratégies permettent de réduire le transfert d'acide humique. Les kits commerciaux conçus pour le sol — le DNeasy PowerSoil Pro Kit et le FastDNA Spin Kit for Soil étant les plus largement adoptés — incluent des étapes de liaison de l'acide humique. Pour des échantillons particulièrement riches en inhibiteurs, y compris la tourbe, le compost et les sédiments riches en argile, il est recommandé de compléter par un nettoyage post-extraction utilisant des colonnes de spin CTAB, PVPP ou un kit commercial d'élimination des inhibiteurs. Une comparaison de 2025 des protocoles d'extraction à travers huit types de sol a révélé que le battement de billes avec des billes de 0,1 mm ou de tailles mixtes améliorait le rendement en ADN des bactéries Gram-positives et des archées d'environ 2 à 4 fois par rapport à la lyse enzymatique seule, et que l'ajout d'une étape de nettoyage CTAB réduisait la charge d'inhibiteurs d'environ 70 % dans les sols riches en matière organique (2).

L'efficacité de la lyse à travers l'arbre de la vie est une préoccupation distincte. Les bactéries Gram-positives, avec leurs parois épaisses en peptidoglycane, nécessitent une lyse mécanique agressive. Les archées, selon les espèces, varient de facilement lysées à presque réfractaires. Les spores fongiques et les kystes de protozoaires à parois épaisses résistent à une extraction douce. Une étape de battement de billes avec des billes de silice-zirconium de 0,1 mm pendant au moins 6 minutes, de préférence avec un FastPrep ou un homogénéisateur à haute énergie similaire, est le compromis pragmatique — elle récupère la plupart de l'ADN bactérien et archéal tout en le fragmentant à une taille compatible avec la préparation de bibliothèques à lectures courtes. Pour la métagénomique à longues lectures sur les plateformes Oxford Nanopore ou PacBio — une application que CD Genomics soutient à travers son Séquençage métagénomique à lecture longue service — une extraction plus douce avec des pointes de pipette à large ouverture et un minimum de vortexage préserve l'ADN de haut poids moléculaire, au prix d'une certaine efficacité de lyse pour les taxons difficiles à lyser.

Figure 3: Four-quadrant comparison of DNA extraction challenges: crude versus CTAB-purified DNA extracts; NanoDrop UV spectrum showing humic
acid contamination at 230 nm; bead-beating lysis efficiency across six microbial cell types; and short-read versus long-read DNA extraction
trade-offs. Figure 3 : Une comparaison en quatre panneaux montrant les effets de la contamination par l'acide humique — extrait propre vs. extrait brunâtre, zones d'alerte du ratio 260/230, workflow de nettoyage CTAB, et efficacité de lyse par battement de billes à travers les groupes microbiens.

Des lectures aux génomes : assemblage, binning et qualité des MAG

Une fois que les données de séquençage passent le contrôle de qualité et que les lectures associées à l'hôte sont supprimées — ce qui est pertinent pour les échantillons de rhizosphère où l'ADN végétal peut dominer — le principal défi computationnel est de reconstruire des génomes à partir d'une communauté mixte sans l'avantage d'une référence.

La première décision concerne la stratégie d'assemblage. L'assemblage co-assemblé regroupe les lectures de tous les échantillons d'une étude en un seul assemblage, maximisant la profondeur pour les espèces rares au prix de mélanger les variants au niveau des souches entre les échantillons. L'assemblage par échantillon préserve les caractéristiques génomiques spécifiques à chaque échantillon, y compris les différences au niveau des souches que l'assemblage co-assemblé réduit. Pour une étude comparant des communautés microbiennes à travers un gradient de contamination, l'approche recommandée est l'assemblage par échantillon suivi de l'agrégation et de la dé-duplication. MetaSPAdes reste l'assembleur métagénomique le plus largement utilisé pour les données de courtes lectures ; MEGAHIT est une alternative avec des exigences de mémoire plus faibles et des performances comparables pour des communautés moins complexes.

Les groupes de binning ont assemblé des contigs en génomes provisoires en fonction de la fréquence des tétranucleotides et des motifs de couverture à travers les échantillons. MetaBAT 2, CONCOCT et VAMB sont les outils les plus courants, et l'utilisation d'au moins deux d'entre eux et la sélection de bins soutenus par les deux améliorent la précision. Les outils de binning semi-supervisés comme SemiBin, qui intègrent des informations taxonomiques provenant de gènes marqueurs, représentent une avancée de 2023 à 2025 qui améliore la complétude des bins et réduit la contamination pour les lignées difficiles à résoudre.

Le binning produit une collection de génomes assemblés à partir de métagénomes — MAGs. Tous les MAGs ne sont pas créés égaux, et le domaine applique désormais des seuils de qualité standardisés. CheckM2 estime la complétude et la contamination des génomes en utilisant des gènes marqueurs spécifiques à la lignée. Un MAG avec plus de 90 % de complétude et moins de 5 % de contamination est classé comme de haute qualité ; un MAG avec plus de 50 % de complétude et moins de 10 % de contamination est de qualité moyenne. Pour les études visant à décrire des phylums ou des classes nouveaux, seuls les MAGs de haute qualité devraient porter la revendication taxonomique (4).

La déréplication élimine les génomes redondants de l'ensemble en utilisant dRep, qui regroupe les MAGs à une identité nucléotidique moyenne spécifiée — généralement 95 % ou 99 % pour le regroupement au niveau des espèces. Un ensemble de MAGs dérépétés représente la diversité génomique non redondante capturée par l'étude et constitue la base pour l'annotation fonctionnelle en aval et la génomique comparative. La classification taxonomique des MAGs à l'aide d'outils tels que GTDB-tk place chaque génome sur un arbre de référence standardisé. Les choix de bases de données et de paramètres influencent fortement la performance de classification, et des combinaisons d'outils et de bases de données cohérentes doivent être appliquées à tous les échantillons d'une étude pour garantir la comparabilité (9).

CD Genomics Séquençage shotgun métagénomique Le service prend en charge l'assemblage et le regroupement d'échantillons environnementaux, avec une qualité MAG rapportée à l'aide de CheckM2 et GTDB-tk pour la classification taxonomique.

Figure 4: Horizontal computational pipeline from raw paired-end reads through quality filtering, co-assembly versus per-sample assembly with
MetaSPAdes and MEGAHIT, binning with MetaBAT 2, CONCOCT, and SemiBin, CheckM2 quality assessment, dRep dereplication, and GTDB-tk taxonomic
classification. Figure 4 : Diagramme de flux d'assemblage et de regroupement montrant l'assemblage co-assemblé par rapport à l'assemblage par échantillon, le regroupement MetaBAT 2 / CONCOCT / SemiBin, l'évaluation de la qualité CheckM2 et la déréplication dRep vers un ensemble de MAG non redondants.

Annotation fonctionnelle : Ce que la communauté peut faire

Un catalogue MAG vous indique quels organismes sont présents. L'annotation fonctionnelle indique ce que ces organismes sont capables de faire, et c'est ici que la métagénomique environnementale aborde directement des questions écologiques.

Le pipeline d'annotation standard cartographie les gènes codant des protéines prédites contre des bases de données de référence de familles de protéines, de voies métaboliques et de modules fonctionnels. eggNOG-mapper, exécuté contre la base de données eggNOG de groupes orthologues, fournit une large classification fonctionnelle couvrant environ 90 % des familles de protéines procaryotes. DRAM — l'outil d'Annotation Distillée et Raffinée du Métabolisme — est spécialement conçu pour les génomes dérivés de métagénomes et distille la sortie de plusieurs bases de données d'annotation en un résumé axé sur le métabolisme qui met en évidence les voies qu'un génome encode et, de manière critique, les étapes clés qui manquent. Un génome qui possède les huit enzymes de la voie de dénitrification a une interprétation écologique différente de celui qui s'arrête à la réduction du nitrite.

Pour les études environnementales, les catégories fonctionnelles les plus informatives sont celles liées au cycle biogéochimique. Ce ne sont pas des voies de niveau 2 de KEGG génériques, mais des processus spécifiques, définis enzymatiquement :

Les gènes du cycle de l'azote sont les plus largement catalogués et fonctionnellement validés. La dénitrification — la réduction progressive du nitrate en gaz N₂ — est suivie à travers quatre gènes clés : narG/napA pour la réduction du nitrate, nirK ou nirS pour la réduction du nitrite, norB pour la réduction de l'oxyde nitrique, et nosZ pour la réduction du protoxyde d'azote. Une communauté avec des gènes nirK et nirS abondants mais un nosZ rare est un potentiel point chaud d'émission de N₂O. La nitrification — l'oxydation de l'ammoniac en nitrite puis en nitrate — est suivie à travers amoA, qui code une sous-unité de la monooxygénase de l'ammoniac, présente à la fois chez les nitrificateurs bactériens et archéens. Une revue quantitative de méta-analyses de 2024 a confirmé que les gènes amoA des archées oxydant l'ammoniac (AOA) et des bactéries (AOB) réagissent de manière prévisible aux apports d'azote et aux variables environnementales, ce qui en fait des marqueurs fonctionnels robustes pour la capacité de nitrification dans les études métagénomiques. La fixation de l'azote est suivie à travers nifH, qui code la sous-unité réductase de la nitrogenase, le marqueur fonctionnel le plus largement utilisé en écologie microbienne.

Le cycle du carbone est suivi à travers les familles d'enzymes actives sur les glucides. CAZy classe les enzymes en hydrolases de glycosides, glycosyltransférases, lyases de polysaccharides, estérases de glucides et activités auxiliaires — chacune ciblant des liaisons spécifiques dans des polysaccharides spécifiques. Une communauté du sol avec des cellulases GH6 et GH7 abondantes a un profil de dégradation du carbone différent de celui dominé par des xylanases GH11. Pour le cycle du méthane, le gène pmoA code pour la monooxygénase de méthane particulaire pour la méthanotrophie aérobie, tandis que mcrA code pour la méthyl-coenzyme M réductase qui catalyse l'étape finale de la méthanogenèse — les deux gènes qui définissent le cycle du méthane.

Le cycle du soufre inclut dsrA et dsrB pour la réduction dissimilatoire du sulfate, soxB pour l'oxydation du soufre, et la famille diversifiée des sulfatases pour la minéralisation du soufre organique. Le cycle du phosphore est suivi à travers des gènes codant des phosphatases, en particulier phoD et phoX pour les phosphatases alcalines, qui sont exprimées en cas de limitation en phosphate.

Le livrable est un tableau d'abondance des gènes stratifié par échantillon et condition, combiné avec une matrice de présence-absence des voies pour chaque MAG. Cela permet de déterminer non seulement quel organisme possède quelle voie, mais aussi si cette voie est différemment abondante selon les conditions expérimentales — l'équivalent fonctionnel du test d'abondance différentielle dans le profilage taxonomique.

CD Genomics Séquençage shotgun métagénomique Le service inclut l'annotation fonctionnelle contre eggNOG, CAZy et KEGG, avec un rapport de catalogue de gènes biogéochimiques personnalisé disponible pour les voies de cycle de l'azote, du carbone, du soufre et du phosphore.

Figure 5: Three-tier vertical infographic: gene prediction and annotation with eggNOG-mapper and DRAM; four-column biogeochemical gene
catalog covering nitrogen cycling, carbon cycling with CAZymes, sulfur cycling, and phosphorus cycling enzymes; and integrated gene
abundance heatmap with pathway presence-absence matrix for individual MAGs. Figure 5 : Pipeline d'annotation fonctionnelle — des gènes prédits à travers eggNOG-mapper et DRAM jusqu'aux catalogues de gènes biogéochimiques, avec un exemple de cycle de l'azote montrant les huit enzymes de la voie de dénitrification.

Reconstruction du cycle de l'azote : un exemple concret

Considérez une étude sur les eaux souterraines contaminées par les nitrates dans un bassin versant agricole. La question de recherche est de savoir si la communauté microbienne indigène a la capacité génétique de réaliser une dénitrification complète, c'est-à-dire si elle peut réduire les nitrates en gaz N₂ inoffensif plutôt que de s'arrêter au nitrite ou au N₂O.

L'expérience collecte des échantillons d'eau souterraine de dix puits le long d'un gradient de contamination. L'ADN est extrait, des bibliothèques sont préparées et 20 millions de paires de lectures par échantillon sont séquencées. Après contrôle de qualité et assemblage, MetaBAT 2 produit 340 MAGs, dont 68 passent le seuil de haute qualité dans CheckM2. L'annotation fonctionnelle avec DRAM et le dépistage ciblé contre le catalogue de gènes du cycle de l'azote de la NCBI révèlent que 23 de ces MAGs portent nirK ou nirS, indiquant la capacité de réduction des nitrites, et 14 portent nosZ, indiquant la capacité de réduction du N₂O en N₂. Les MAGs portant nosZ sont enrichis dans les puits à faible teneur en nitrates et appauvris dans les puits à forte teneur en nitrates, suggérant que le chargement en nitrates supprime la dernière étape de la dénitrification — une hypothèse testable par une quantification ultérieure du flux de N₂O des mêmes puits.

Ce schéma — des gènes de dénitrification en amont abondants avec une faible présence de nosZ à des concentrations élevées de nitrate — a été observé dans les sols agricoles et les réseaux fluviaux et représente l'une des découvertes les plus exploitables que la métagénomique environnementale puisse fournir (6).

Figure 6: Integrated diagram showing agricultural groundwater nitrate contamination gradient across ten monitoring wells, circular
phylogenetic tree of 68 MAGs with nirK/nirS and nosZ gene markers, and heatmap revealing nosZ depletion in high-nitrate wells with ratio
chart of incomplete to complete denitrification capacity shift. Figure 6 : Un diagramme de reconstruction du cycle de l'azote montrant un gradient de contamination des eaux souterraines, la distribution des MAG à travers les puits, et une carte thermique de l'abondance des gènes clés de dénitrification (narG, nirK, nirS, norB, nosZ).

Bioremédiation et Biosurveillance

La métagénomique environnementale passe d'un outil académique à un atout réglementaire et industriel dans deux domaines : le suivi de la bioremédiation et la biosurveillance.

Dans la bioremédiation, la question est de savoir si une communauté microbienne possède l'appareil génétique nécessaire pour dégrader un polluant spécifique, et si cet appareil devient actif dans des conditions de traitement. Les sites contaminés par des hydrocarbures — des déversements de diesel aux fuites de pipelines de pétrole brut — sont le cas d'utilisation classique. La métagénomique par shotgun identifie l'abondance et l'affiliation taxonomique des gènes codant pour des hydroxylases d'alcane, des dioxygénases clivant des cycles, et d'autres enzymes dégradant des xénobiotiques sans nécessiter la culture des organismes qui les portent. Une analyse métagénomique de 2024 des résidus de tungstène sous phytoremédiation avec du ray-grass et un amendement de sol propre a révélé que des genres fixateurs d'azote, y compris Bradyrhizobium, augmentaient significativement avec la plantation et que les voies métaboliques dominaient les profils de gènes fonctionnels à plus de 71 % d'abondance relative, démontrant comment l'annotation fonctionnelle métagénomique peut suivre la base génétique des processus de remédiation et identifier les taxa microbiens qui les propulsent (7).

Dans la biosurveillance, la question est de savoir si un échantillon contient des agents pathogènes, des gènes de résistance aux antibiotiques ou des facteurs de virulence. La métagénomique par shotgun des eaux usées des stations de traitement, des ruissellements agricoles ou des sédiments de bassins aquacoles offre une capacité de surveillance non ciblée que les tests basés sur la PCR ne peuvent égaler, car la PCR ne trouve que ce pour quoi vous concevez des amorces. Les gènes de résistance aux antibiotiques sont identifiés en cartographiant les lectures contre la base de données CARD — la base de référence des outils dédiés. Analyse des gènes de résistance aux antibiotiques — et des facteurs de virulence contre VFDB. La limitation, comme pour toute surveillance basée sur l'ADN, est que la présence d'un gène ne confirme pas son expression — une détection métagénomique d'un gène de bêta-lactamase signifie que le potentiel génétique existe, mais pas qu'il confère activement une résistance au moment de l'échantillonnage (8).

Pour les études de suivi à long terme, la quantification de l'abondance absolue — dans laquelle une quantité connue d'ADN standard interne est ajoutée à chaque échantillon avant le séquençage — convertit les données d'abondance relative en copies par gramme ou copies par litre. Cela élimine le biais de composition inhérent aux comparaisons d'abondance relative et permet une comparaison directe entre les points temporels et les sites. CD Genomics' Service de séquençage métagénomique absolu fournit cette capacité pour les applications de surveillance et de contrôle.

Figure 7: Dual-panel comparison: bioremediation monitoring showing hydrocarbon plume gradient with xenobiotic-degrading gene markers and
50-year mine tailings chronosequence; biosurveillance showing water treatment plant with antibiotic resistance gene and virulence factor
detection in influent versus effluent, plus spike-in absolute abundance quantification. Figure 7 : Une illustration à double panneau comparant la surveillance de la bioremédiation (gradient de contamination → abondance des gènes fonctionnels → intégralité des voies de dégradation) et la biosurveillance (collecte d'échantillons → cartographie des ARG/VF → catégorisation des risques).

Pour un aperçu plus large des approches de séquençage métagénomique, y compris les études sur le microbiome clinique, la viromique et l'intégration multi-omique, consultez notre guide sur Services de séquençage métagénomique — AperçuPour les études examinant la fraction virale des échantillons environnementaux — y compris la dynamique phage-hôte et l'écologie des communautés virales — notre Séquençage métagénomique viral le service étend l'analyse au virome.

Comment CD Genomics réalise votre projet de métagénomique environnementale

Un projet de métagénomique environnementale bien exécuté commence par la collecte d'échantillons et se termine par un ensemble de données analysées qui répond à une question écologique ou d'ingénierie spécifique. Le processus suit un pipeline défini.

Les échantillons arrivent au laboratoire avec une documentation de chaîne de possession et sont enregistrés avec vérification des métadonnées. L'ADN est extrait en utilisant un protocole approprié à la matrice — PowerSoil Pro pour les sols et les sédiments, un protocole optimisé pour la filtration pour les échantillons d'eau — avec une évaluation de la qualité par fluorométrie Qubit pour la concentration, spectrophotométrie NanoDrop pour la pureté, et électrophorèse sur gel d'agarose pour l'intégrité. Pour les échantillons riches en inhibiteurs, une étape de nettoyage post-extraction est appliquée et réévaluée avant la préparation de la bibliothèque.

Les bibliothèques sont préparées à l'aide du kit NEBNext Ultra II FS avec une fragmentation optimisée pour la taille d'insertion cible, étiquetées par code-barres pour le multiplexage, et regroupées pour le séquençage sur une plateforme Illumina NovaSeq. La profondeur de séquençage est généralement de 20 millions de paires de lectures par échantillon pour le profilage fonctionnel, ou de 5 à 10 millions de paires de lectures pour le profilage taxonomique — ajustée à la hausse pour les communautés de sol complexes avec une richesse spécifique élevée.

Le Séquençage shotgun métagénomique Le pipeline bioinformatique comprend le découpage de qualité avec fastp, l'élimination des lectures hôtes contre le génome de référence approprié pour les échantillons associés aux plantes, l'assemblage avec metaSPAdes ou MEGAHIT, le binning avec MetaBAT 2 et CONCOCT, l'évaluation de la qualité des MAG avec CheckM2, la classification taxonomique avec GTDB-tk, et l'annotation fonctionnelle avec eggNOG-mapper, DRAM, CAZy, et des catalogues de gènes biogéochimiques personnalisés. Pour les études sur le cycle de l'azote, un dépistage ciblé des gènes contre les bases de données nifH, nirK, nirS, norB, nosZ, amoA, et narG, curées par NCBI, est inclus.

Les livrables comprennent des fichiers FASTQ bruts, des rapports de contrôle de qualité, des contigs assemblés, des MAGs dérépétés avec des statistiques de qualité CheckM2, des tableaux d'abondance taxonomique, des tableaux d'abondance de gènes et de voies fonctionnels, des tests d'abondance différentielle avec ajustement des covariables, et un rapport complet avec des figures prêtes pour publication. Le délai pour un projet de métagénomique environnementale de 20 échantillons est d'environ six à huit semaines, de la réception des échantillons à la livraison des données analysées.

Pour les projets nécessitant un séquençage du génome au niveau de l'isolat d'organismes cultivés identifiés dans l'enquête métagénomique, CD Genomics' Séquençage du génome complet microbien le service fournit un séquençage du génome pour des souches d'intérêt. Pour les études qui ne se contentent pas de déterminer quels gènes sont présents mais qui s'intéressent également à ceux qui sont activement exprimés dans des conditions environnementales spécifiques, notre Séquençage métatranscriptomique le service ajoute la dimension de l'expression génique. Pour les projets qui intègrent la découverte métagénomique avec la métabolomique, la métatranscriptomique ou la métaprotéomique afin de construire une compréhension à l'échelle des systèmes des communautés microbiennes environnementales, CD Genomics' Service Multi-Omique fournit une génération de données multi-plateforme unifiée et une analyse bioinformatique intégrée.

FAQ

Combien d'échantillons ai-je besoin pour une étude de métagénomique environnementale robuste ?

Pour des études comparatives entre sites ou conditions, trois à cinq répliques biologiques par groupe sont le minimum. Les échantillons environnementaux sont intrinsèquement hétérogènes : un carottage de sol d'un champ n'est pas une réplique du suivant. Incluez des témoins de terrain et des témoins d'extraction pour suivre la contamination. Pour un suivi longitudinal, échantillonnez à intervalles réguliers qui capturent les dynamiques temporelles pertinentes — mensuellement pour des études saisonnières, plus fréquemment pour des échantillonnages déclenchés par des événements. La puissance statistique dépend de la variabilité au sein des groupes, qui est souvent plus élevée dans les échantillons environnementaux que dans les échantillons associés aux hôtes.

Quelle est la différence entre l'assemblage co-assemblé et l'assemblage par échantillon ?

La co-assemblage combine les lectures de tous les échantillons en une seule assemblée, maximisant la profondeur pour les organismes rares mais faisant disparaître les différences au niveau des souches entre les échantillons. L'assemblage par échantillon préserve les caractéristiques génomiques spécifiques à chaque échantillon, y compris les souches, mais peut récupérer moins de génomes rares à partir d'échantillons individuels. Pour la plupart des études de comparaison environnementale, l'assemblage par échantillon suivi de la dé-duplication est recommandé.

Comment puis-je savoir si mes MAG sont réels ou des artefacts d'assemblage ?

CheckM2 fournit des estimations de complétude et de contamination en utilisant des gènes marqueurs spécifiques à la lignée. Appliquez la norme communautaire : plus de 90 % de complétude et moins de 5 % de contamination pour des MAGs de haute qualité. De plus, vérifiez la chimérisme à travers le contenu en GC et les valeurs aberrantes de couverture. Les groupes avec des signatures de tétranucleotide anormales ou des motifs de couverture par rapport à d'autres groupes du même échantillon doivent être signalés pour une inspection manuelle. Un MAG qui passe CheckM2 mais qui a un gène 16S rRNA d'un phylum complètement différent est probablement chimérique.

La métagénomique environnementale peut-elle remplacer le séquençage des amplicons 16S ?

Dans de nombreuses applications, oui — mais Séquençage d'amplification 16S/18S/ITS reste plus rentable pour les enquêtes à grande échelle où le profilage taxonomique est le seul objectif. La métagénomique par shotgun fournit une résolution au niveau des espèces et des souches, ainsi qu'un contenu en gènes fonctionnels que le 16S ne peut pas offrir. La métagénomique par shotgun peu profonde (3 à 5 millions de lectures par échantillon) est un terrain d'entente émergent, offrant une taxonomie au niveau des espèces à un coût approchant celui du 16S pour des échantillons environnementaux avec une diversité microbienne modérée.

Comment gérer la contamination de l'ADN végétal dans les échantillons de rhizosphère ?

Les échantillons de rhizosphère — sol adhérent aux racines des plantes — peuvent contenir de 20 à 50 % d'ADN végétal. Alignez les lectures contre le génome de référence de la plante hôte en utilisant Bowtie 2 ou BWA, et rejetez les lectures mappées avant l'assemblage. Pour les plantes non-modèles sans génome de référence, la déplétion computationnelle à l'aide d'une base de données des génomes chloroplastiques et mitochondriaux des plantes peut réduire la fraction végétale, bien que moins efficacement qu'un génome de référence complet.

Quelles métadonnées devrais-je absolument collecter pour chaque échantillon ?

Coordonnées GPS, date et heure de collecte, type de matrice, pH, température, et une description de l'historique environnemental récent (précipitations dans les 48 heures, inondation, application récente d'engrais ou de pesticides). Pour le sol, ajouter le carbone organique total et l'humidité. Pour l'eau, ajouter la conductivité, l'oxygène dissous et la turbidité. Pour les sédiments, ajouter le potentiel redox et la classe de taille des grains. Ces variables sont requises pour les packages environnementaux MIxS et constituent l'ensemble minimum nécessaire pour l'analyse d'abondance différentielle avec ajustement des covariables.

Puis-je combiner des métagénomiques à lecture courte et à lecture longue pour des échantillons environnementaux ?

Oui. Cette approche hybride devient de plus en plus standard pour les échantillons environnementaux complexes. Les lectures courtes fournissent un profilage taxonomique et fonctionnel de haute précision. Les longues lectures (Oxford Nanopore ou PacBio) résolvent les régions répétitives et les éléments génétiques mobiles, améliorant considérablement la continuité des MAG. Une stratégie courante consiste à séquencer les mêmes échantillons sur les deux plateformes, à assembler avec un assembleur hybride ou à utiliser des longues lectures pour structurer les assemblages de lectures courtes, et à regrouper à partir du jeu de données combiné.

Références :

Bahram M, Espenberg M, Pärn J, et al. Structure et fonction du microbiome du sol sous-jacent aux émissions de N2O des zones humides mondiales. Nature Communications. 2022;13:1430. doi:10.1038/s41467-022-29161-3 (CC BY 4.0) Désolé, je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le copier ici et je me ferai un plaisir de vous aider.
Nurk S, Meleshko D, Korobeynikov A, Pevzner PA. metaSPAdes : un nouvel assembleur métagénomique polyvalent. Genome Research. 2017 ; 27(5) : 824-834. doi:10.1101/gr.213959.116 (CC BY 4.0) : Désolé, je ne peux pas accéder à des liens externes.
Chklovski A, Parks DH, Woodcroft BJ, Tyson GW. CheckM2 : un outil rapide, évolutif et précis pour évaluer la qualité des génomes microbiens en utilisant l'apprentissage automatique. Nature Methods. 2023;20(8):1203-1212. doi:10.1038/s41592-023-01940-w.Désolé, je ne peux pas accéder à des liens ou à des contenus externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le copier ici et je serai heureux de vous aider.
Hui D, Ray A, Kasrija L, Christian J. Impacts du changement climatique et des pratiques agricoles sur les processus de l'azote, les gènes et les émissions de protoxyde d'azote du sol : une revue quantitative des méta-analyses. Agriculture. 2024;14(2):240. doi:10.3390/agriculture14020240 (CC BY 4.0)Désolé, je ne peux pas accéder aux liens ou au contenu externe. Veuillez fournir le texte que vous souhaitez traduire.
Wei Y, Xiao J, He J, et al. Une ressource mondiale intégrée des microbiomes des zones humides liant les métadonnées environnementales, les profils communautaires et les traits métaboliques résolus par génome. Scientific Data. 2026;13:284. doi:10.1038/s41597-026-07581-w (CC BY 4.0) Désolé, je ne peux pas accéder à des liens externes. Veuillez fournir le texte que vous souhaitez traduire.
Zheng X, Li Q, Peng Y, Wang Z, Chen M. Phytoremédiation des résidus de tungstène dans des conditions d'ajout de sol propre : recherche microbiologique par analyse métagénomique. Durabilité. 2024;16(13):5715. doi:10.3390/su16135715 (CC BY 4.0)Je suis désolé, mais je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir ici et je serai heureux de vous aider.
Alcock BP, Huynh W, Chalil R, et al. CARD 2023 : curation élargie, soutien à l'apprentissage automatique et prédiction du résistome dans la Base de Données Complète sur la Résistance aux Antibiotiques. Nucleic Acids Research. 2023;51(D1):D690-D699. doi:10.1093/nar/gkac920 (CC BY 4.0)Désolé, je ne peux pas accéder aux liens ou au contenu externe. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le fournir et je serai heureux de vous aider.
Wright RJ, Comeau AM, Langille MGI. Des défauts aux bases de données : le choix des paramètres et des bases de données impacte de manière significative la performance des outils de classification taxonomique métagénomique. Génomique Microbienne. 2023;9(3):000949. doi:10.1099/mgen.0.000949 (CC BY 4.0)Désolé, je ne peux pas accéder à des liens externes. Veuillez fournir le texte que vous souhaitez traduire.
Gacesa R, Kurilshikov A, Vich Vila A, et al. Facteurs environnementaux façonnant le microbiome intestinal dans une population néerlandaise. Nature. 2022;604:732-739. doi:10.1038/s41586-022-04567-7 (CC BY 4.0)Je suis désolé, mais je ne peux pas accéder à des liens externes. Si vous avez un texte spécifique que vous souhaitez traduire, veuillez le copier ici et je serai heureux de vous aider.

À des fins de recherche uniquement, non destiné au diagnostic clinique, au traitement ou aux évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.