Is virome sequencing the same as shotgun metagenomics?

No. Standard shotgun metagenomics sequences all DNA in a sample, of which viral sequences typically represent less than 1% of reads. Virome sequencing applies viral particle enrichment — filtration, ultracentrifugation or PEG precipitation, and nuclease treatment — before nucleic acid extraction, concentrating viral sequences by roughly 100- to 1,000-fold relative to the unenriched sample.

Do I need a separate virome library if I already run standard metagenomics?

Yes, if the virome is a primary endpoint of your study. A 2025 comparison of VLP-enriched versus bulk metagenomic methods found only 27% overlap in viral genome recovery between the two approaches. Standard metagenomics captures temperate phages and integrated prophages well. Viromics captures lytic phages, low-abundance eukaryotic viruses, and novel viral lineages. They are complementary, not redundant.

Why does MDA introduce bias, and when is it still useful?

φ29 polymerase used in MDA preferentially amplifies small circular single-stranded DNA through rolling-circle amplification. This enriches Microviridae and other ssDNA viruses by 100- to 1,000-fold relative to their true abundance, suppressing the signal from all other viral taxa. MDA is only appropriate when your research question specifically concerns circular ssDNA viruses and nothing else.

Can viromics detect RNA viruses?

Yes. Viral nucleic acid extraction must be performed with a kit that recovers both DNA and RNA. The RNA fraction is then reverse-transcribed to cDNA and sequenced in parallel with the DNA fraction. This dual nucleic acid approach captures both DNA phages and RNA viruses — including enteric RNA viruses (rotavirus, norovirus) and respiratory RNA viruses (SARS-CoV-2, influenza) — from a single sample aliquot.

How deep should I sequence my virome samples?

For comprehensive virome characterization, 4 to 10 Gb per sample (roughly 13 to 33 million 2×150 bp read pairs) is recommended. For shallow surveys of the dominant viral taxa, 2 to 3 million reads per sample is sufficient. For biomarker discovery studies, deep sequence a discovery cohort and validate top candidates with targeted methods in a larger replication cohort.

What sample types work for viromics?

Fecal, respiratory swab, bronchoalveolar lavage, cerebrospinal fluid, blood, tissue homogenate, water, wastewater, soil, and sediment have all been successfully used. The key requirement is sufficient starting biomass for VLP enrichment. Low-biomass samples such as CSF or oligotrophic water may require larger input volumes or deeper sequencing to compensate.

How should I store samples for virome sequencing?

For fecal and tissue samples, immediate freezing at -80°C is ideal. DNA/RNA Shield provides room-temperature stability for up to several weeks and is the pragmatic choice for large multi-site cohort studies. Avoid freeze-thaw cycles — each cycle reduces viral particle integrity. For water samples, filter on site and freeze the filter immediately.

Métagénomique virale et séquençage du virome : Détection et caractérisation des populations virales dans des échantillons cliniques et environnementaux.

Un gramme de selles humaines contient environ 10⁹ particules virales. Un litre d'eau de mer en contient environ 10¹⁰. Les phages surpassent les bactéries dans un rapport de dix pour un dans chaque écosystème de la Terre, entraînant un transfert horizontal de gènes à une échelle qui redéfinit le métabolisme microbien chaque jour. Pourtant, la grande majorité de ces virus — souvent appelés la "matière noire virale" de la microbiologie — n'a jamais été cultivée, séquencée ou classée. Ils ne portent pas d'ARNr 16S. Ils n'ont pas de gène marqueur universel. Pendant des décennies, ils ont été invisibles par conception : chaque méthode de microbiome couramment utilisée, du séquençage d'amplicons à la métagénomique standard par shotgun, a été construite autour de cibles bactériennes.

La métagénomique virale — viromique — change cela. En enrichissant les particules virales à partir d'un échantillon, en extrayant à la fois l'ADN et l'ARN, et en séquençant sans le filtre de taille bactérienne que la métagénomique standard applique implicitement, la viromique révèle la fraction virale d'un microbiome à une profondeur génomiquement significative. L'écart technique entre la métagénomique standard et la viromique est substantiel, mais une comparaison en 2025 des méthodes métagénomiques enrichies en VLP par rapport aux méthodes en vrac a montré qu'environ 27 % des génomes viraux se chevauchent entre les deux approches. Si vous ne réalisez que de la métagénomique standard par tir de fusil, vous manquez environ trois quarts du virome.

Ce guide couvre le flux de travail de séquençage du virome de bout en bout : comment enrichir les particules virales à partir d'échantillons cliniques et environnementaux, pourquoi certains choix d'amplification (en particulier MDA) peuvent déformer la composition de la communauté, comment la chaîne d'outils bioinformatiques pour l'identification des virus diffère de celle des MAG bactériens, et où la viromique fournit des informations exploitables - des maladies inflammatoires intestinales au dépistage de thérapies par phages en passant par la biosurveillance basée sur les eaux usées.

Figure 1 : Aperçu du flux de travail de séquençage du virome — de la collecte d'échantillons à l'enrichissement viral, la préparation de la bibliothèque, le séquençage et l'analyse bioinformatique jusqu'à l'analyse fonctionnelle.

Préparation d'échantillons : Séparer les virus de tout le reste

Le principal défi de la viromique est que les virus sont petits, rares et chimiquement fragiles. Un échantillon fécal est composé d'environ 99 % de bactéries et de cellules hôtes en termes de biomasse. Un écouvillon respiratoire peut contenir des picogrammes d'acide nucléique viral dans un fond de microgrammes d'ARN humain. Avant la préparation de toute bibliothèque, la fraction virale doit être physiquement séparée et concentrée.

Enrichissement en particules virales

Trois méthodes dominent, et le choix parmi elles détermine quels virus sont capturés.

La filtration est la première étape universelle. Le passage d'un échantillon homogénéisé à travers des filtres en membrane de polyéthersulfone de 0,8 μm et de 0,45 μm ou de 0,22 μm élimine les bactéries, les champignons et les débris cellulaires tout en permettant à la plupart des particules virales de passer. Pour les échantillons avec une charge particulaire élevée — sol, sédiment, selles — une pré-clarification par centrifugation à basse vitesse est essentielle pour éviter un colmatage immédiat du filtre. La filtration seule produit une fraction virale brute adaptée à certaines applications, mais la plupart des protocoles sont suivis d'une étape de concentration.

L'ultracentrifugation à 75 000 à 100 000 × g pendant une à deux heures permet de précipiter directement les particules virales. C'est la norme d'or : elle récupère à la fois les virus à ADN et à ARN, fonctionne avec différents types d'échantillons et produit une fraction virale propre. Le compromis réside dans le coût de l'équipement et le débit — un rotor peut contenir environ six à douze échantillons par course. Pour des études comportant des centaines d'échantillons, cela devient un goulot d'étranglement logistique.

La précipitation par PEG utilise du polyéthylène glycol 8000 à 10 % (p/v) avec du chlorure de sodium à 1 M, incubée pendant la nuit à 4 °C, suivie d'une centrifugation à environ 1 200 × g. Le culot contient des particules virales concentrées ainsi que des débris bactériens co-précipités. La précipitation par PEG coûte une fraction de la centrifugation ultrasonique et s'adapte à n'importe quelle taille de lot, ce qui en fait le choix pragmatique pour les études sur de grandes cohortes. Une comparaison directe en 2025 a révélé que la précipitation par PEG et la centrifugation ultrasonique récupéraient des communautés virales globalement comparables à partir d'échantillons fécaux, la précipitation par PEG montrant des rendements légèrement supérieurs et la centrifugation ultrasonique affichant une pureté marginalement plus élevée.

En pratique, le choix de la méthode d'enrichissement dépend du type d'échantillon et de l'échelle de l'étude : ultracentrifugation pour des viromiques de haute pureté avec jusqu'à douze échantillons, précipitation par PEG pour des études de grandes cohortes où le débit et le coût sont primordiaux, et filtration seule pour des études pilotes avec des ressources limitées. Pour les échantillons d'eau de plus d'un litre, la filtration à flux tangent (TFF) avec une membrane à coupure de poids moléculaire de 100 kDa concentre les particules virales sans étape de pelage, ce qui en fait l'approche privilégiée pour les viromiques d'eau de mer, d'eaux usées et d'eaux douces. La TFF concentre également les particules virales tout en éliminant simultanément les inhibiteurs de PCR dissous tels que les acides humiques, un double avantage qui simplifie le traitement en aval des échantillons environnementaux complexes.

Indépendamment de la méthode de concentration, une étape de traitement par nucléase suit : la DNase I associée à l'RNase A (ou un cocktail commercial de benzonase) digère les acides nucléiques libres libérés par les bactéries et les cellules hôtes lysées. Cette étape est essentielle : sans elle, la fraction "virale" peut contenir jusqu'à 40 % d'ADN bactérien, annulant ainsi l'effort d'enrichissement. Après le traitement par nucléase, les enzymes elles-mêmes doivent être inactivées ou éliminées avant que les capsides virales ne soient lysées pour l'extraction des acides nucléiques.

Extraction d'acides nucléiques : ADN et ARN ensemble

La plupart des virus d'intérêt dans une étude de microbiome ont des génomes d'ADN — bactériophages, adénovirus, anellovirus — mais les virus à ARN, y compris le rotavirus, le norovirus et le SARS-CoV-2, sont critiques dans les contextes cliniques et des eaux usées. Une extraction unique qui récupère les deux types d'acides nucléiques, suivie d'une préparation séparée des bibliothèques d'ADN et d'ARN, est la stratégie la plus informative.

Des kits d'extraction virale dédiés — le QIAamp Viral RNA Mini Kit, le PureLink Viral RNA/DNA Mini Kit et le AllPrep PowerViral DNA/RNA Kit — surpassent systématiquement les kits d'extraction métagénomique standard (conçus pour les cellules bactériennes) en matière d'enrichissement des lectures virales. Une comparaison en 2025 entre plusieurs méthodes d'extraction a confirmé que les kits optimisés pour la lyse des particules virales et l'élution en petit volume récupèrent environ 2 à 5 fois plus de lectures virales par échantillon que les alternatives axées sur les bactéries. La lyse mécanique est cruciale pour la récupération des capsides virales structurellement robustes. Le battement de billes avec des billes de silice-zirconium de 0,1 mm pendant 3 à 5 minutes est une pratique standard pour les viromes fécaux et de sol. Cependant, pour les virus à ARN enveloppés — y compris le SARS-CoV-2 et la grippe — une lyse chimique plus douce avec des tampons à base de thiocyanate de guanidinium préserve l'enveloppe lipidique labile tout en libérant le génome ARN. Pour la récupération des virus à ARN spécifiquement, l'ARN porteur doit être omis de l'extraction — il entre en compétition lors de la transcription inverse et supprime le signal viral.

CD Genomics Séquençage métagénomique viral Le service effectue l'enrichissement en particules virales et la co-extraction d'ADN/ARN à partir d'une large gamme de types d'échantillons cliniques et environnementaux, avec un contrôle de qualité à chaque étape, de la filtration au traitement par nucléases.

Figure 2 : Une comparaison en trois panneaux montrant les méthodes d'enrichissement des VLP — ultracentrifugation, précipitation par PEG et filtration seule — avec des indicateurs de rendement et de pureté pour chaque approche.

Préparation de la bibliothèque : La fourche d'amplification sur le chemin

Les rendements d'acide nucléique viral issus de l'enrichissement des VLP sont souvent dans la plage des picogrammes à nanogrammes, en dessous du seuil d'entrée pour la préparation de bibliothèques standard basée sur la ligation. L'amplification est nécessaire, et le choix de la méthode d'amplification détermine si la bibliothèque résultante reflète la véritable communauté virale ou un artefact de préférence de la polymérase.

Le problème MDA

L'amplification par déplacement multiple, utilisant la polymérase ADN φ29, a été la méthode d'amplification viromique par défaut pendant plus d'une décennie. φ29 amplifie l'ADN circulaire simple brin avec une efficacité extrême — c'est, après tout, la polymérase que les bactériophages utilisent pour répliquer leurs propres génomes selon un mécanisme de cercle roulant.

Le problème réside dans ce que cela fait à la composition de la communauté. L'amplification par MDA privilégie l'ADN circulaire simple brin de petite taille grâce au même mécanisme de cercle roulant que celui utilisé par φ29 pour sa propre réplication génomique. Un point de référence de 2024 utilisant des mélanges viraux synthétiques a confirmé que le traitement par MDA enrichit les virus ssDNA circulaires — en particulier les Microviridae — par des ordres de grandeur par rapport à leur véritable abondance, tandis qu'une approche alternative utilisant l'ADN polymérase T7 préservait le rapport original ssDNA-à-dsDNA à la fois dans des échantillons de virome fécal synthétiques et complexes. Pour une étude s'intéressant à la communauté virale totale, le MDA rend les données ininterprétables. Le seul cas d'utilisation défendable du MDA est lorsque la question de recherche spécifique concerne les virus ssDNA circulaires — Microviridae, Circoviridae, Geminiviridae — et rien d'autre.

SISPA et amplification aléatoire

L'amplification à un seul amorce indépendante de la séquence (SISPA), dans laquelle l'ADNc ou l'ADN est marqué avec une séquence d'amorce définie puis amplifié par PCR, introduit moins de biais compositionnel que l'amplification par déplacement multiple (MDA) tout en atteignant un facteur d'amplification similaire. Un protocole de référence sur le virome fécal de 2025 a révélé que la PCR-SISPA avec 30 cycles récupérait des structures de communautés virales qui corrélaient bien avec des bibliothèques non amplifiées, tandis que les bibliothèques amplifiées par MDA montraient une corrélation presque nulle avec toute autre méthode.

Pour les virus à ARN, la transcription inverse avec des hexamères aléatoires ou des amorces dégénérées 9N suivie d'un changement de modèle (l'approche SMART) fournit de l'ADNc adapté à la préparation de bibliothèques à lecture courte et à lecture longue. La plateforme SMART-RNA-Metavirome, publiée en 2025, a démontré qu'une étape de RT avec changement de modèle couplée à un amorçage dégénéré 9N atteint environ 99,9 % de couverture du génome pour le virus de la dengue à faibles titres, avec l'avantage supplémentaire d'une déplétion inhérente de l'ARNr — le mécanisme de changement de modèle ne capture pas l'ARNr coiffé.

Construction de bibliothèque et profondeur de séquençage

Pour la viromique basée sur Illumina, la préparation de bibliothèque par tagmentation (Illumina DNA Prep) à partir d'environ 125 ng d'ADN amplifié est la norme actuelle. Les protocoles basés sur la ligation (TruSeq Nano) constituent une alternative pour les génomes viraux riches en AT, où la tagmentation peut introduire des lacunes de couverture.

Les recommandations concernant la profondeur de séquençage évoluent. Les premières études sur le virome séquençaient souvent entre 1 et 2 millions de paires de lectures par échantillon, ce qui était suffisant pour décrire les taxons viraux dominants mais insuffisant pour les virus rares ou à faible abondance. Une étude de référence impliquant 882 échantillons de virome a recommandé entre 4 et 10 Go par échantillon pour une caractérisation complète du virome, ce qui correspond à environ 13 à 33 millions de paires de lectures à 2×150 pb. À ces profondeurs, les génomes viraux présents à 0,01 % d'abondance relative deviennent détectables. Pour les grandes études de cohorte où le séquençage profond du virome de chaque échantillon est prohibitif en termes de coûts, une stratégie en plusieurs étapes — séquençage peu profond de tous les échantillons suivi d'un séquençage profond d'un sous-ensemble — équilibre le pouvoir de découverte avec le budget.

Pour des études intégrant la viromique avec la métagénomique standard, CD Genomics' Séquençage shotgun métagénomique fournit le profil bactérien et archéen à partir du même échantillon, tandis que Séquençage métagénomique viral récupère la fraction virale — offrant ensemble la perspective complémentaire que les études de comparaison de 2025 ont démontré comme essentielle pour une caractérisation complète du microbiome.

Three-column horizontal comparison infographic showing viral community composition outcomes of MDA phi29 polymerase with severe Microviridae bias and red warning triangle, PCR-SISPA with moderate bias and green checkmark, and SMART template-switching with balanced viral family distribution, each column featuring stacked bar charts of recovered viral community composition Figure 3 : Trois stratégies d'amplification comparées — MDA, PCR-SISPA et SMART avec changement de modèle — montrant le biais de composition communautaire pour chaque méthode à l'aide de diagrammes à barres empilées de l'abondance des familles virales.

Bioinformatique pour la viromique : Une chaîne d'outils distincte

Le pipeline bioinformatique pour la viromique diverge du pipeline métagénomique standard à l'étape de classification. La classification métagénomique bactérienne utilise l'appariement de k-mers contre des bases de données de génomes sélectionnées. La classification virale fait face à un problème fondamentalement plus difficile : la plupart des virus dans un échantillon donné n'ont pas de parent proche dans une base de données de référence.

Contrôle de qualité et suppression d'hôte

Les étapes de prétraitement suivent les normes de la métagénomique : le découpage de qualité avec fastp et l'élimination du génome hôte avec Bowtie 2 contre la référence appropriée — hg38 pour les échantillons cliniques humains, le génome de la plante hôte pour les viromiques de rhizosphère ou de phyllosphère, ou une base de données combinée pour les échantillons environnementaux. Pour les échantillons cliniques, des fractions de lectures humaines de 50 à 90 % sont courantes, et le fait de ne pas les éliminer noie le signal viral.

Classification basée sur la lecture

Kraken 2 avec une base de données axée sur les virus fournit une attribution taxonomique rapide au niveau des lectures, mais la sensibilité dépend entièrement de la base de données. Une séquence virale provenant d'une famille de phages non caractérisée peut être classée uniquement au niveau de "Caudoviricetes" — ou pas du tout. DIAMOND BLASTX, alignant les lectures de nucléotides traduites contre une base de données de protéines, est plus sensible pour les séquences virales divergentes car la séquence protéique est plus conservée que la séquence de nucléotides. Le compromis est la vitesse : DIAMOND est environ deux ordres de grandeur plus lent que Kraken 2 sur le même ensemble de données.

Pour la viromique clinique, où la question est "Le pathogène X est-il présent ?", la classification basée sur la lecture avec des outils comme SeqScreen ou Centrifuge fournit une réponse oui/non en quelques heures après le séquençage. Pour la viromique écologique, où la question est "Quelle est la structure et la diversité de la communauté virale ?", la classification basée sur la lecture est un premier passage qui doit être suivi d'un assemblage.

Identification des contigs d'assemblage et viraux

MEGAHIT et metaSPAdes assemblent tous deux des génomes viraux à partir de données métagénomiques, mais l'assemblage viral présente des défis uniques : faible couverture, grande variabilité et présence de prophages intégrés au sein des contigs bactériens. L'assemblage conjoint de lectures provenant de plusieurs échantillons apparentés améliore la récupération des génomes viraux à faible abondance en regroupant la couverture.

Les outils d'identification de contigs viraux ont rapidement évolué. VirSorter2 utilise un classificateur de forêt aléatoire entraîné sur des gènes caractéristiques viraux et des caractéristiques génomiques pour distinguer les contigs viraux des contigs bactériens. C'est l'outil le plus largement adopté et il fonctionne bien pour les phages à ADN double brin, qui dominent la plupart des viromes. CheckV évalue la complétude du génome viral, identifie la contamination par l'hôte aux extrémités des contigs et estime le niveau de qualité de chaque séquence virale — fournissant des métriques de qualité analogues à CheckM2 pour les MAGs bactériens. VIBRANT ajoute une annotation fonctionnelle, identifiant les gènes métaboliques auxiliaires (AMGs) portés par les phages — des gènes que les phages utilisent pour rediriger le métabolisme de l'hôte pendant l'infection, tels que les gènes du photosystème dans les cyanophages ou les gènes du métabolisme des nucléotides dans les phages intestinaux.

Pour un virome fécal typique, l'assemblage MEGAHIT suivi de VirSorter2 et CheckV identifie environ 2 000 à 5 000 unités taxonomiques opérationnelles virales (vOTUs) par échantillon, dont 10 à 20 % sont des génomes viraux complets ou de haute qualité.

La classification taxonomique des contigs viraux validés utilise des outils tels que vConTACT2 ou VPF-Class contre la base de données IMG/VR, qui contient désormais plus de 15 millions de séquences virales, ou le nouveau cadre geNomad qui combine des approches basées sur des gènes marqueurs et l'apprentissage automatique pour l'identification virale et l'attribution taxonomique simultanées. Le pipeline intégré de geNomad — identification virale, taxonomie et prédiction d'hôte dans un seul outil — réduit la charge computationnelle de l'exécution de trois outils séparés de manière séquentielle et a été évalué pour récupérer environ 20 % de contigs viraux en plus que VirSorter2 seul dans les viromes de sol et marins, bien que les deux outils soient complémentaires et souvent utilisés ensemble.

Analyse des prophages et des CRISPR

Les prophages intégrés — génomes de bactériophages insérés dans les chromosomes bactériens — sont invisibles aux viromiques basées sur les VLP car ils sont retenus sur le filtre de taille bactérienne. Leur détection nécessite l'analyse de l'assemblage métagénomique global. Des outils tels que VIBRANT et geNomad signalent les régions prophagiques au sein des contigs bactériens. L'appariement des espaces CRISPR avec les phages fournit la forme la plus solide de lien hôte-virus : si un tableau CRISPR bactérien contient un espace qui correspond à un contig viral, cette bactérie (ou son ancêtre) a été infectée par ce phage. Les tableaux CRISPR fonctionnent comme une mémoire immunitaire adaptative bactérienne : lorsqu'une bactérie survit à une infection par un phage, elle incorpore un court fragment du génome du phage dans son propre locus CRISPR. L'appariement de ces espaces archivés avec des contigs viraux assemblés révèle donc quels phages ont historiquement infecté quels hôtes bactériens, fournissant la preuve la plus solide disponible pour le lien hôte-virus dans les données métagénomiques. Ces informations de prédiction d'hôte sont essentielles pour comprendre les réseaux d'interaction phage-bactérie, mais ne sont disponibles que lorsque les données métagénomiques globales et viromiques sont analysées ensemble.

CD Genomics' pipeline d'analyse du virome inclut l'ensemble du flux de travail bioinformatique du virome : contrôle de qualité, élimination des lectures hôtes, classification basée sur Kraken 2 et DIAMOND, assemblage MEGAHIT, validation des contigs viraux avec VirSorter2 et CheckV, et attribution taxonomique contre IMG/VR.

Figure 4 : Pipeline bioinformatique du virome — contrôle de qualité → élimination de l'hôte → classification basée sur les lectures (Kraken 2 / DIAMOND) → assemblage (MEGAHIT) → identification des contigs viraux (VirSorter2 / CheckV) → annotation fonctionnelle (VIBRANT).

Applications : Du ventre à l'environnement

Le virome intestinal est dominé par des bactériophages : environ 90 à 95 % des lectures virales dans la plupart des viromes fécaux correspondent aux Caudoviricetes (phages à queue) et aux Microviridae. La fraction restante comprend des virus eucaryotes (anellovirus, adénovirus, entérovirus) et des virus végétaux provenant de l'alimentation. Contrairement au bactériome intestinal des adultes, qui se stabilise vers l'âge de trois ans, le virome intestinal continue d'évoluer tout au long de l'enfance et de l'adolescence.

Dans la maladie inflammatoire de l'intestin, plusieurs cohortes indépendantes ont rapporté une richesse élevée en Caudovirales dans la maladie de Crohn et la colite ulcéreuse par rapport aux témoins en bonne santé — l'opposé du schéma de diversité bactérienne, où la maladie est associée à une richesse réduite. Une méta-analyse de 2025 couvrant 2 066 échantillons métagénomiques provenant de 16 cohortes a révélé que la diversité de Shannon virale était systématiquement plus élevée dans les MII à travers toutes les études, et qu'un classificateur de forêt aléatoire entraîné sur les 50 vOTUs discriminants a séparé les cas des témoins avec une aire sous la courbe de 0,85 à 0,90.

La thérapie par phages — utilisant des bactériophages lytiques pour traiter les infections bactériennes multirésistantes — a suscité un nouvel intérêt pour la découverte de phages environnementaux. Le séquençage métagénomique d'échantillons d'eaux usées, d'eaux de mer et de sols identifie des génomes de phages complets ne portant aucun gène de résistance aux antibiotiques ou de toxines, qui peuvent ensuite être testés contre des isolats bactériens cliniques. Le jeu de données de référence sur le virome de 882 échantillons mentionné ci-dessus a été généré en partie pour soutenir la découverte de phages pour un programme de thérapie par phages contre Klebsiella pneumoniae.

Dans la biosurveillance, la viromique des eaux usées offre une capacité de surveillance au niveau de la population, indépendante des pathogènes. Pendant et après la pandémie de COVID-19, le séquençage métagénomique des concentrés viraux des eaux usées a détecté non seulement des lignées de SARS-CoV-2, mais aussi des entérovirus, des norovirus, des rotavirus et le virus de l'hépatite A — fournissant un avertissement précoce de la transmission communautaire avant que des cas cliniques ne soient signalés. Une revue de 2024 sur le séquençage de nouvelle génération métagénomique dans le diagnostic des maladies infectieuses a documenté le rôle croissant de cette approche dans les infections respiratoires, sanguines, du système nerveux central et gastro-intestinal, confirmant que le mNGS détecte des virus cliniquement pertinents que la culture et la PCR ciblée manquent. La même approche appliquée au ruissellement agricole et aux effluents d'aquaculture surveille le mouvement des pathogènes viraux à travers l'interface animal-humain.

Une référence croisée à CD Genomics. Services de séquençage métagénomique fournit un contexte supplémentaire sur la manière dont la viromique s'intègre aux stratégies métagénomiques plus larges, y compris les flux de travail du microbiome intestinal abordés dans notre guide à Séquençage métagénomique par shotgun pour les études du microbiome intestinal.

Figure 5 : Dysbiose du virome intestinal dans la MII — richesse élevée en Caudoviricetes et réorganisation du réseau hôte-virus dans la maladie inflammatoire de l'intestin, avec des diagrammes en violon de la diversité de Shannon virale et des graphiques à barres empilées de l'abondance relative des familles virales comparant les cohortes saines et celles atteintes de MII.

Défis et limitations

Le problème de la matière noire virale est la plus grande limitation analytique. Dans la plus récente étude de référence des viromes environnementaux, environ 60 à 90 % des contigs viraux assemblés n'avaient aucune correspondance significative avec une séquence dans IMG/VR ou RefSeq. Ces séquences représentent des lignées virales nouvelles — des familles ou ordres entiers sans un seul représentant caractérisé. La classification basée sur la structure des protéines en utilisant des outils comme les structures prédites par AlphaFold montre des promesses initiales pour placer ces séquences sur un arbre de vie viral : des protéines virales emblématiques telles que les protéines de capside majeures, les terminases et les protéines de portail conservent des repliements structuraux sur des milliards d'années de divergence même lorsque leurs séquences primaires ne partagent aucune similarité détectable. Cependant, prédire des structures pour des milliers de contigs viraux nouveaux reste exigeant sur le plan computationnel et n'est pas encore routinier dans pipeline d'analyse du viromes.

La complétude des bases de données varie considérablement selon l'environnement. Le virome intestinal humain est le mieux caractérisé, avec des dizaines de milliers de vOTUs catalogués à travers des cohortes. Les viromes des sols et marins sont beaucoup moins complets, et les viromes des invertébrés, des protistes et des environnements extrêmes restent largement inexplorés. Une séquence virale provenant d'une cheminée hydrothermale en profondeur a peut-être 5 à 10 % de chances de correspondre à quoi que ce soit dans la base de données.

La quantification est le deuxième défi non résolu. Contrairement au 16S ou à la métagénomique standard, où les ajouts d'étalons internes permettent désormais une quantification absolue de l'abondance en copies par gramme ou en copies par cellule, la quantification absolue virale est compliquée par la relation variable entre le nombre de particules de VLP et le nombre de copies de génome — une seule cellule bactérienne infectée peut libérer des centaines de particules de phage, chacune portant une copie de génome, lors d'une explosion lytique. Pour les études comparant l'abondance virale dans différentes conditions, l'abondance relative (lectures par million ou copies de génome par million) reste la norme, avec la compréhension qu'une augmentation relative d'un taxon viral entraîne mathématiquement une diminution des autres.

Le coût du séquençage profond du virome — 4 à 10 Go par échantillon pour une couverture complète — dépasse le coût de la métagénomique par shotgun peu profonde pour les bactéries. Les études avec de grandes cohortes doivent faire des compromis délibérés entre le nombre d'échantillons et la profondeur par échantillon. Pour la découverte de biomarqueurs, le séquençage profond du virome d'une cohorte de découverte suivi d'une validation ciblée (qPCR ou PCR numérique des meilleurs candidats vOTUs) dans une plus grande cohorte de réplication est la stratégie pratique.

CD Genomics soutient Séquençage métagénomique viral à des profondeurs de séquençage flexibles, allant des enquêtes viromiques peu profondes à 2 à 3 millions de lectures par échantillon à une caractérisation viromique approfondie à plus de 20 millions de lectures, avec l'option de Service de séquençage métagénomique absolu pour des études nécessitant des estimations quantitatives de la charge virale.

Figure 6 : Visualisation de la matière noire virale — un ensemble de diagrammes en secteurs montrant la proportion de contigs viraux classés par rapport à ceux non classés dans les environnements humain intestinal, terrestre, marin et extrême, avec des icônes de morphologie virale 3D représentatives pour les familles connues et des silhouettes de points d'interrogation pour les formes virales prédites mais non observées.

Comment CD Genomics réalise votre projet de séquençage du virome

Un projet de séquençage de virome chez CD Genomics suit un flux de travail défini optimisé pour la récupération virale. Les échantillons sont reçus avec une documentation de chaîne de custody et traités selon des protocoles spécifiques à la matrice : les échantillons fécaux sont homogénéisés dans du DNA/RNA Shield, les échantillons d'eau sont filtrés à travers une membrane de 0,22 μm, et les échantillons respiratoires ou tissulaires sont homogénéisés dans un milieu de transport viral. L'enrichissement en particules virales est réalisé par précipitation PEG ou ultracentrifugation, sélectionné en fonction du type d'échantillon et des objectifs de l'étude, suivi d'un traitement par nucléase et de l'extraction de l'acide nucléique viral total à l'aide de kits optimisés pour la lyse des particules virales. L'acide nucléique extrait est divisé en flux de travail parallèles pour l'ADN et l'ARN — amplification PCR-SISPA et tagmentation pour les virus ADN, transcription inverse et amplification pour les virus ARN — et séquencé sur la plateforme Illumina NovaSeq. Le pipeline bioinformatique comprend le découpage de qualité, l'élimination des lectures hôtes, la classification Kraken 2 et DIAMOND BLASTX, l'assemblage MEGAHIT, l'identification des contigs viraux par VirSorter2, l'évaluation de qualité CheckV et l'attribution taxonomique contre IMG/VR. Les livrables incluent des fichiers FASTQ bruts, des rapports de contrôle qualité, des tableaux d'abondance taxonomique virale au niveau des espèces et des vOTU, des génomes viraux assemblés avec des métriques de qualité CheckV, une annotation fonctionnelle des AMGs viraux, et un rapport de projet complet. Le délai de traitement pour un projet de virome de 50 échantillons est d'environ six à huit semaines à partir de la réception des échantillons.

Pour les études nécessitant un profilage taxonomique et fonctionnel des bactéries en parallèle de l'analyse virale, CD Genomics' Séquençage shotgun métagénomique le service fournit la vue bactérienne complémentaire. Pour les projets enquêtant sur les virus se répliquant activement par l'expression génique, Séquençage métatranscriptomique capture la fraction d'ARN à la fois de l'hôte et du virus. Pour des études à l'échelle de cohortes qui combinent viromique, métagénomique et métabolomique, notre Service Multi-Omique fournit une conception d'étude intégrée multi-plateforme et une intégration des données. Lorsque l'enquête sur le virome identifie des candidats phages pour le développement thérapeutique, Séquençage du génome entier microbien soutient la caractérisation du génome de l'hôte bactérien nécessaire pour confirmer la spécificité phage-hôte.

Références :

De Chiara L, Romano V, Cerutti F, et al. Une comparaison des méthodes pour la récupération optimale du virome fécal humain. medRxiv. 2025. doi : 10.1101/2025.05.12.25327428 (CC BY 4.0)
Billaud M, Theodorou I, Lamy-Besnier Q, et al. Le traitement par la polymérase T7 améliore le séquençage quantitatif des virus à ADN à double brin et à simple brin. Journal de la communauté des pairs. 2024;4:e63. doi:10.24072/pcjournal.437 (CC BY 4.0)
Li N, Liu S, Zhang Y, et al. SMART-RNA-Metavirome : une plateforme pratique de métavirome ARN compatible avec le séquençage à haut débit de lectures courtes et longues. Maladies infectieuses de la pauvreté2025;14:101. doi:10.1186/s40249-025-01371-z (CC BY 4.0)
Nayfach S, Camargo AP, Schulz F, et al. CheckV évalue la qualité et l'exhaustivité des génomes viraux assemblés à partir de métagénomes. Biotechnologie de la nature2021;39:578-585. doi:10.1038/s41587-020-00774-7 (CC BY 4.0)
Guo J, Bolduc B, Zayed AA, et al. VirSorter2 : une approche multi-classificateur guidée par des experts pour détecter divers virus ADN et ARN. Microbiome. 2021;9:37. doi:10.1186/s40168-020-00990-y (CC BY 4.0)
Ansari MH, Ebrahimi M, Fattahi MR, et al. Analyse métagénomique virale d'échantillons fécaux révélant une signature viromique entérique dans le syndrome de l'intestin irritable. BMC Microbiology. 2020;20:123. doi:10.1186/s12866-020-01817-4.
Moon K, Cho JC. Ensembles de données viromiques et génomes assemblés de métagénomes viraux provenant d'environnements d'eau douce impactés par l'aquaculture. Données scientifiques. 2026;13:284. doi:10.1038/s41597-026-07383-0 (CC BY 4.0)
Kieft K, Zhou Z, Anantharaman K. VIBRANT : récupération, annotation et curation automatisées des virus microbiens, et évaluation de la fonction des communautés virales à partir de séquences génomiques. Microbiome2020 ; 8 : 90. doi:10.1186/s40168-020-00867-0 (CC BY 4.0)
Zhao Y, Zhang W, Wang X, et al. Application de la séquençage de nouvelle génération métagénomique dans le diagnostic des maladies infectieuses. Frontières en microbiologie cellulaire et des infections. 2024;14:1458316. doi:10.3389/fcimb.2024.1458316 (CC BY 4.0)

Uniquement à des fins de recherche, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

Services connexes

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.