Services de séquençage d'amplicons pour la recherche sur le microbiome et la biodiversité : solutions 16S, 18S, ITS et de codage ADN.
En 2025 seulement, CD Genomics a reçu plus de 50 demandes de chercheurs du monde entier s'informant sur services de séquençage microbien basé sur les ampliconsLes questions provenaient d'un vétérinaire péruvien étudiant le microbiote de la plaque subgingivale féline — la première étude de ce type au Pérou — d'un essai clinique espagnol investiguant comment la consommation quotidienne de cacahuètes modifie le microbiome intestinal à partir de 188 échantillons fécaux, d'un microbiologiste environnemental aux États-Unis essayant de caractériser les communautés de bioencrassement dans deux puits d'eau souterraine, et d'un étudiant de premier cycle canadien prévoyant un projet sur le microbiome du sol durant l'été avec un budget limité.
Ces enquêtes couvrent des organismes, des types d'échantillons et des budgets très différents. Pourtant, chaque chercheur a choisi séquençage d'amplicons comme leur méthode principale ou exclusive — pas de métagénomique par tir aléatoire, pas de séquençage à longue lecture, pas de métatranscriptomique. L'amplification ciblée des gènes marqueurs phylogénétiques — 16S pour les bactéries et les archées, ITS pour les champignons, 18S pour les microbes eucaryotes, et COI/rbcL/matK pour l'identification des espèces — demeure l'approche qui répond à la majorité des questions sur le microbiome et la biodiversité avec le meilleur équilibre entre coût, débit, interprétabilité et soutien de base de données.
Le séquençage par amplicon est la base de l'écologie microbienne depuis plus de deux décennies car il fonctionne dans des conditions qui contrecarrent d'autres méthodes. Il fonctionne sur de l'ADN dégradé provenant d'échantillons cliniques fixés au formol et inclus dans de la paraffine (FFPE) où les fragments d'ADN mesurent moins de 200 paires de bases. Il fonctionne sur des échantillons environnementaux à faible biomasse où l'ADN microbien total est mesuré en picogrammes plutôt qu'en nanogrammes. Il fonctionne sur des centaines d'échantillons lors d'une seule course de séquençage, permettant la réplication biologique dont les études sur le microbiome ont cruellement besoin. Et il fonctionne dans les contraintes budgétaires des laboratoires académiques, où un seul échantillon de métagénomique par shotgun peut coûter autant que la préparation et le séquençage de dix à vingt bibliothèques d'amplicons.
Ce guide fournit un cadre décisionnel pratique pour les chercheurs qui doivent choisir entre les quatre principales approches basées sur les amplicons — Séquençage de l'ARNr 16S pour les communautés procaryotes, le séquençage ITS pour les communautés fongiques, le séquençage de l'ARNr 18S pour le microplancton eucaryote, et Code-barres ADN pour l'identification des espèces de macro-organismes. Pour chaque méthode, nous abordons quand l'utiliser, comment optimiser les paramètres expérimentaux, quelle profondeur et quelle stratégie de séquençage choisir, quelles données attendre et comment éviter les pièges courants qui gaspillent des échantillons et le budget. Les recommandations qui suivent sont basées sur ce que nous avons réellement observé fonctionner — et échouer — dans de véritables projets de recherche soumis à notre installation de séquençage.
Avant de choisir : Un aperçu des quatre approches d'amplicon
Les quatre méthodes d'amplicon couvertes dans ce guide — séquençage de l'ARNr 16S, séquençage de l'ITS, séquençage de l'ARNr 18S et barcoding ADN — partagent une base technique commune : l'amplification PCR d'un gène marqueur conservé à partir d'ADN extrait, suivie du séquençage à haut débit du pool d'amplicons, et de l'attribution bioinformatique des séquences résultantes à des groupes taxonomiques à l'aide de bases de données de référence curées. Les différences entre les méthodes résident dans les organismes qu'elles ciblent, la résolution taxonomique qu'elles fournissent et les questions de recherche auxquelles elles peuvent répondre. Les sections suivantes examinent chaque méthode en détail, en commençant par la plus largement utilisée : le séquençage de l'ARNr 16S pour le profilage des communautés prokaryotes.
Figure 1 : Infographie sur les arbres de décision — Choisir votre marqueur d'amplicon. Quatre chemins de branchement allant du type d'échantillon et de la question de recherche au marqueur recommandé (16S, ITS, 18S, COI/rbcL), codés par couleur selon la méthode.
Séquençage de l'ARNr 16S — La référence en matière de profilage des communautés procaryotes
L'architecture du gène 16S rRNA et pourquoi cela importe
Le gène de l'ARN ribosomal 16S mesure environ 1 500 paires de bases et contient une alternance bien caractérisée de régions conservées et hypervariables. Les neuf régions hypervariables — V1 à V9 — sont flanquées de segments de séquences hautement conservées qui servent de sites de liaison pour des amorces PCR universelles ciblant à la fois les bactéries et les archées. Cette conception structurelle permet l'amplification de pratiquement n'importe quel procaryote avec une seule paire d'amorces, tandis que les régions variables codent suffisamment de signal phylogénétique pour attribuer une taxonomie allant du phylum au genre, et souvent jusqu'au niveau de l'espèce avec un séquençage complet.
La décision clé dans la conception des amplicons 16S est de déterminer quelle région hypervariable ou combinaison de régions cibler. Ce choix a des conséquences profondes sur la résolution taxonomique que vous atteignez, les biais d'amplification que vous introduisez et la comparabilité de vos données avec les études publiées.
V3–V4 : La norme par défaut pour la plupart des applications
La région V3–V4 est la cible la plus largement utilisée dans la recherche sur le microbiome humain et animal. Le Projet Microbiome Humain (HMP) et le Projet Microbiome de la Terre (EMP) se sont standardisés sur V3–V4, générant le plus grand ensemble de données 16S disponibles publiquement pour la comparaison entre études. Les amorces standard (341F et 805R) produisent des amplicons d'environ 460 pb, bien dans la chimie Illumina à paires d'extrémités de 300 pb pour un chevauchement complet et un assemblage à haute confiance. V3–V4 offre une excellente couverture des bactéries et des archées — capturant les Firmicutes, Bacteroidetes, Actinobacteria, Proteobacteria et Verrucomicrobia avec un biais minimal — et fonctionne de manière cohérente à travers les types d'échantillons fécaux, de sol, d'eau, de sédiment et cliniques. La résolution taxonomique est généralement au niveau du genre, avec une attribution au niveau de l'espèce possible pour les taxons bien caractérisés au sein de bases de données de référence robustes.
V4–V5 : Meilleure résolution pour certains taxa environnementaux
La région V4–V5 (amorces 515F/926R, ~410 pb) offre une meilleure couverture des Thaumarchaeota, ce qui en fait un choix privilégié dans les études sur les sols et marines où les archées oxydant l'ammoniac jouent des rôles écologiques critiques. Cependant, V4–V5 peut sous-représenter les Firmicutes par rapport à V3–V4, il n'est donc pas recommandé pour les études sur le microbiome intestinal à moins que des groupes archéens spécifiques ne soient l'objectif principal de la recherche.
Séquençage complet du 16S : La révolution au niveau des espèces
L'adoption du séquençage par consensus circulaire PacBio (CCS) et des technologies Oxford Nanopore pour l'analyse complète du gène 16S représente la plus avancée méthodologique significative dans le séquençage d'amplicons ces dernières années. En séquençant l'ensemble du gène 16S d'environ 1 500 pb en une seule lecture, séquençage complet de l'ARNr 16S atteint une résolution taxonomique au niveau des espèces et parfois au niveau des souches, résolvant les ambiguïtés inhérentes au séquençage sur une seule région. Deux espèces bactériennes indistinguables en V3–V4 diffèrent souvent en V1–V2 ou V6–V8 — le séquençage en longueur complète capture toute cette variation. La Base de données de taxonomie génomique (GTDB), désormais la référence standard pour la taxonomie prokaryote, est basée sur des données complètes de 16S et au niveau du génome, ce qui signifie que le séquençage d'amplicons en longueur complète s'aligne directement avec le cadre taxonomique le plus actuel.
Une équipe de recherche marine étudiant la survie des larves de pétoncle (Argopecten purpuratus) dans l'aquaculture chilienne devait déterminer si les jeunes recrus élevés en hatcherie qui subissent une mortalité massive lors du transfert vers la zone de remontée d'eau du Courant Humboldt manquent de certains taxons microbiens spécifiques qui confèrent une tolérance au stress environnemental. Le séquençage standard V3–V4 n'a distingué que les genres dominants. Le séquençage CCS PacBio en pleine longueur a révélé les différences au niveau des espèces qui distinguaient les cohortes survivantes des cohortes non survivantes — des informations qui n'auraient pas pu être obtenues avec le séquençage d'amplicons à courtes lectures.
Le compromis avec le séquençage 16S en longueur complète est le débit et le coût par échantillon : le séquençage PacBio HiFi coûte deux à trois fois plus par échantillon que l'Illumina pour une profondeur de séquençage équivalente. Cependant, chaque lecture en longueur complète fournit l'information phylogénétique des neuf régions hypervariables simultanément avec un lien complet entre elles, éliminant souvent le besoin de plusieurs tests spécifiques à une région. Pour les projets où l'attribution taxonomique au niveau des espèces est l'objectif principal, le coût par échantillon du 16S en longueur complète est justifié par l'évitement de l'ambiguïté taxonomique.
Exigences de profondeur de séquençage : Combien de lectures avez-vous réellement besoin ?
"Combien de lectures par échantillon ai-je besoin ?" est la question la plus fréquente que nous recevons des chercheurs planifiant un projet d'amplicon 16S. La réponse dépend du type d'échantillon, du niveau de biomasse, de la question de recherche et de la tolérance aux taxons rares non détectés. Il n'y a pas de réponse unique, mais nous avons développé des directives basées sur des preuves tirées de notre expérience de projet et de la littérature publiée.
Échantillons à haute biomasse (fèces, sol, sédiment, biofilm)Pour le profilage standard de la composition des communautés et la comparaison entre groupes des métriques de diversité, 50 000 lectures en paire par échantillon sont généralement suffisantes. Les courbes de rarefaction pour la plupart des microbiomes humains et environnementaux approchent leur asymptote entre 10 000 et 30 000 lectures. Augmenter la profondeur au-delà de 100 000 lectures par échantillon entraîne des rendements décroissants : vous détectez des OTUs de plus en plus rares, mais la signification biologique de ces taxa ultra-rares dans les analyses au niveau communautaire est souvent discutable. Un essai clinique sur le microbiome fécal avec 188 échantillons, comme l'essai contrôlé randomisé sur la consommation de cacahuètes en Espagne, génère des données robustes prêtes à être publiées à 50 000 lectures par échantillon. Notre Séquençage du génome entier microbien le service peut compléter les données 16S pour des projets nécessitant des informations métagénomiques fonctionnelles.
Échantillons à faible biomasse (eau, écouvillons, tissu de biopsie, filtres à air)ces échantillons nécessitent entre 100 000 et 300 000 lectures par échantillon car l'ADN microbien total est faible et les bibliothèques de séquençage peuvent être dominées par l'ADN de l'hôte ou des contaminants des réactifs. Pour les études de microbiome aquatique à faible biomasse, nous recommandons systématiquement une expérience pilote de 10 échantillons à 100 000 lectures pour évaluer la richesse de la communauté, l'adéquation de la profondeur et les niveaux de contamination avant de s'engager dans un séquençage à grande échelle. Un chercheur étudiant le bioencrassement des puits d'eau souterraine a demandé si ses échantillons d'eau, qui ont donné des niveaux d'acides nucléiques indétectables après extraction standard, pouvaient être séquencés. La réponse était oui, mais seulement après avoir optimisé le protocole d'extraction de l'ADN pour concentrer le minimal ADN microbien présent et séquencer à une profondeur plus élevée pour maximiser la récupération de la communauté sparse. Pour de tels échantillons difficiles, séquençage métagénomique shotgun aurait été prohibitivement coûteux.
Échantillons cliniques avec un fort fond d'ADN hôteLes écouvillons cervicovaginaux, les écouvillons cutanés et les tissus de biopsie contiennent souvent plus de 90 % d'ADN d'hôte. Même avec une déplétion de l'ADN d'hôte, la fraction microbienne effective peut être aussi basse que 1 à 10 % du total des lectures. Pour de tels échantillons, nous recommandons un minimum de 100 000 lectures par échantillon. Si un premier séquençage donne moins de 5 000 lectures microbiennes par échantillon, un séquençage plus approfondi ou une ré-extraction avec une élimination améliorée de l'ADN d'hôte est indiquée.
L'importance cruciale des témoins négatifs
L'une des erreurs les plus courantes et les plus dommageables dans la conception d'études 16S est l'omission de contrôles négatifs appropriés. Les kits d'extraction d'ADN, les réactifs PCR et l'air de laboratoire contiennent tous de l'ADN bactérien à de faibles niveaux. Dans les échantillons à faible biomasse, ces contaminants "kitome" et de laboratoire peuvent dominer les résultats de séquençage, conduisant à des conclusions complètement erronées sur la composition de la communauté microbienne étudiée. Une étude très médiatisée prétendant avoir découvert un microbiome placentaire distinct a ensuite été démontrée, grâce à une analyse minutieuse des contrôles négatifs, comme ayant principalement détecté des contaminants de réactifs. Nous exigeons des contrôles négatifs d'extraction et des contrôles négatifs PCR dans chaque projet à faible biomasse que nous séquençons, et nous les recommandons fortement pour tous les projets, quel que soit le niveau de biomasse. Ces contrôles négatifs sont séquencés aux côtés des échantillons expérimentaux et analysés à l'aide d'outils comme le package R decontam pour identifier et éliminer les OTUs contaminants. Cette étape n'est pas optionnelle pour des études rigoureuses sur le microbiome à faible biomasse, pourtant elle est rarement mentionnée dans les descriptions de protocoles standards.
Pour le chercheur dont les échantillons d'eau souterraine avaient des niveaux d'acides nucléiques indétectables : les contrôles négatifs n'étaient pas une mesure de précaution. Ils étaient le seul moyen de distinguer le véritable signal microbien de l'eau souterraine de la contamination de fond introduite lors de l'extraction de l'ADN et de la construction de la bibliothèque de séquençage. Le projet a généré des données interprétables précisément parce que nous avons conçu l'étude avec des contrôles négatifs dès le premier échantillon — et non comme une réflexion après coup.
La transition OTU-à-ASV dans la bioinformatique 16S
Le traitement bioinformatique des données 16S a évolué de la classification OTU à 97 % de similarité vers une analyse ASV (Amplicon Sequence Variant) à plus haute résolution utilisant DADA2 ou Deblur. Les ASV distinguent les séquences différant par un seul nucléotide, offrant une résolution plus fine, une plus grande reproductibilité à travers des études indépendantes, et la capacité de lier des ASV individuels à des séquences de génomes de référence par correspondance exacte plutôt que par approximation basée sur des clusters. Le pipeline standard chez CD Genomics suit ces étapes : démultiplexage et élimination des amorces (cutadapt), filtrage de qualité et découpage (filtrage d'erreur attendue DADA2), inférence ASV (inférence d'échantillon de base DADA2), assignation taxonomique (SILVA 138 ou GTDB), construction d'un arbre phylogénétique, calcul de la diversité alpha et raréfaction, ordination de la diversité beta (PCoA), et tests d'abondance différentielle (DESeq2, ANCOM-BC ou MaAsLin2). QIIME 2 est la plateforme la plus largement adoptée pour l'analyse 16S de bout en bout. Nous fournissons à la fois des artefacts de sortie QIIME 2 et des formats de données compatibles avec R dans notre package standard de livrables bioinformatiques.
Séquençage ITS — Déverrouiller le royaume fongique
Pourquoi un marqueur séparé pour les champignons ?
Les bactéries dominent la plupart des discussions sur la recherche sur le microbiome, mais les champignons sont omniprésents — dans le sol, les racines des plantes, les tractus digestifs des animaux, la peau humaine et l'environnement construit. Une enquête sur l'ARNr 16S ne capture que les procaryotes, manquant ainsi toute la composante fongique. Étant donné que les champignons sont des moteurs majeurs de la décomposition de la matière organique, des médiateurs directs des interactions plante-microbe dans les systèmes agricoles, et des pathogènes opportunistes importants chez les patients immunodéprimés, exclure les champignons des enquêtes sur le microbiome signifie ne voir au mieux qu'une partie du tableau microbien.
CD Genomics propose profilage complet des communautés fongiques par séquençage d'amplicons ITS, avec des options pour le séquençage à lecture courte (Illumina) et à lecture longue (PacBio, Nanopore), en fonction de vos exigences en matière de résolution taxonomique.
ITS1 contre ITS2 : Choisir la bonne région
ITS1 (amorces ITS1f/ITS2)Cet ensemble de primers amplifie la région ITS1 entre l'ARNr 18S SSU et l'ARNr 5.8S. Le primer ITS1f est spécifiquement optimisé pour éviter la co-amplification de l'ADN végétal, ce qui fait de l'ITS1 le choix privilégié pour les tissus racinaires des plantes, le sol de rhizosphère ou tout échantillon avec une biomasse végétale élevée. L'ITS1 offre une meilleure couverture des Ascomycètes et des Basidiomycètes et est le choix par défaut pour la plupart des enquêtes fongiques environnementales. La longueur de l'amplicon varie d'environ 250 à plus de 600 paires de bases selon l'espèce fongique, cette large variation de longueur présentant à la fois des défis analytiques et des informations taxonomiques supplémentaires.
ITS2 (amorces ITS3/ITS4)Cet ensemble de primers amplifie la région ITS2 entre 5.8S et 28S LSU. L'ITS2 présente une variation de longueur significativement moindre entre les taxons fongiques par rapport à l'ITS1, ce qui constitue un avantage significatif pour le regroupement bioinformatique, car cela réduit le besoin de filtrage et d'étapes de normalisation basées sur la longueur qui peuvent introduire des biais. Certaines études ont montré que l'ITS2 offre une meilleure résolution au niveau des espèces au sein de groupes taxonomiquement difficiles, notamment le genre Fusarium et d'autres champignons pathogènes des plantes d'importance agricole. L'ITS2 est recommandé lorsque l'objectif principal de la recherche est la mycologie clinique ou la détection de pathogènes spécifiques plutôt que la diversité fongique environnementale générale.
ITS complet utilisant le séquençage à long lecteurPacBio CCS peut capturer à la fois l'ITS1 et l'ITS2 ainsi que le gène 5.8S intervenant dans un seul amplicon d'environ 600 à 800 paires de bases pour la plupart des champignons, bien que certains groupes dépassent 1 000 paires de bases. CD Genomics fournit Séquençage ITS en longueur complète sur les plateformes Pacific Biosciences et Oxford Nanopore pour des projets nécessitant une résolution phylogénétique maximale.
Considérations sur l'analyse des données et les bases de données ITS
L'analyse bioinformatique de l'ITS fongique diffère de l'analyse du 16S à plusieurs égards importants. La base de données UNITE (unite.ut.ee) est la référence standard pour la taxonomie de l'ITS fongique, fournissant une publication d'hypothèse de espèces (SH) qui regroupe les séquences à environ 97 % de similarité pour un regroupement d'OTU standardisé à travers des études indépendantes. Une considération pratique cruciale est que les bases de données de référence de l'ITS fongique restent beaucoup moins complètes que celles du 16S. Une étude typique de la communauté fongique du sol utilisant l'ITS attribue seulement 60 à 80 % des lectures à des genres fongiques nommés, contre bien plus de 95 % pour les études bactériennes du 16S. Cette fraction de "matière noire" de séquences fongiques non caractérisées représente à la fois une limitation et une opportunité : de nombreuses études environnementales basées sur l'ITS rapportent des lignées fongiques auparavant inconnues, ce qui peut constituer des contributions significatives à une mycologie axée sur la découverte, mais pose des défis pour l'interprétation écologique lorsque les rôles fonctionnels des organismes détectés sont inconnus.
Études de cas à partir des données d'enquête
Un chercheur étudiant la composition de la communauté fongique dans les racines des plantes a soumis 18 échantillons pour le séquençage d'amplicons ITS. L'objectif expérimental était de caractériser la communauté fongique mycorhizienne colonisant le système racinaire — mycorhizes arbusculaires, ectomycorhizes et endophytes à septa sombres — et de comparer les schémas de colonisation à travers les traitements du sol. Le séquençage ITS1 utilisant le jeu de primers ITS1f (pour minimiser la co-amplification de l'ADN chloroplastique des plantes à partir du tissu racinaire) était le choix méthodologique correct. Nous avons effectué la préparation de bibliothèque et le séquençage en visant 50 000 lectures par échantillon — suffisant pour caractériser les taxons mycorhiziens dominants et détecter des espèces rares associées aux racines qui pourraient servir de taxons indicateurs des effets des traitements du sol.
Séquençage de l'ARNr 18S — Profilage des Eucaryotes Microbiens
La majorité négligée de la diversité microbienne
Lorsque les chercheurs conçoivent une étude sur le microbiome en utilisant le gène 16S et l'ITS comme cibles de séquençage, ils capturent les composants prokaryotes et fongiques. Mais les microbes eucaryotes — protistes, algues unicellulaires, nématodes et autres eucaryotes microscopiques — peuvent constituer une majorité de la biomasse et de l'activité métabolique dans de nombreux écosystèmes naturels et artificiels. Les protistes photoautotrophes (diatomées, dinoflagellés) sont les producteurs primaires à la base des réseaux alimentaires marins et d'eau douce. Les protistes phagotrophes (ciliés, flagellés) broutent les populations bactériennes et régulent la structure de la communauté microbienne. Les protistes parasitaires (Plasmodium, Giardia, Cryptosporidium, Toxoplasma, Leishmania) causent certaines des maladies infectieuses les plus importantes dans le monde. Tous ces organismes sont invisibles au séquençage 16S et ITS. Le gène de l'ARN ribosomal 18S sert de marqueur phylogénétique de choix pour l'étude de la communauté microbienne eucaryote.
Le gène 18S et le ciblage régional
Le gène de l'ARNr 18S mesure environ 1 800 paires de bases avec neuf régions variables (V1–V9). Deux régions variables dominent les études de métabarcodage eucaryote publiées :
région V4La région 18S la plus couramment ciblée pour le profilage des communautés eucaryotes. Amplifiée à l'aide de primers tels que TAReuk454FWD1 et TAReukREV3, elle produit un amplicon d'environ 380 à 430 pb avec une bonne résolution taxonomique à travers l'arbre de vie eucaryote. La région V4 a été choisie par le projet Tara Oceans et l'initiative Ocean Sampling Day comme leur marqueur standard pour la diversité microbienne eucaryote, générant un vaste ensemble de données de référence mondial. Pour la plupart des applications en écologie microbienne eucaryote — enquêtes sur les communautés de protistes marins, surveillance du plancton d'eau douce et évaluations de la diversité des protistes du sol — le séquençage de l'18S V4 est le point de départ recommandé.
région V9Une région hypervariable plus courte (~130 pb) à l'extrémité 3' du gène 18S. V9 peut être amplifié et séquencé avec des lectures plus courtes et est moins sensible aux biais de variation de longueur. Il est préféré pour l'ADN dégradé tel que l'ADN environnemental ancien provenant de carottes sédimentaires, mais sa résolution taxonomique est généralement inférieure à celle de V4 pour la plupart des groupes eucaryotes.
Limitations du métabarcodage 18S
Plusieurs défis uniques à la séquençage des amplicons 18S nécessitent une attention particulière. La base de données PR2 (Protist Ribosomal Reference) est la ressource la mieux organisée pour les séquences 18S eucaryotes, mais la couverture taxonomique est inégale : les alvéolates, les straménopiles et les rhizariens sont bien représentés, tandis que les phylums de protistes moins étudiés ont des séquences de référence rares. Le nombre de copies du gène de l'ARNr 18S varie de plus de trois ordres de grandeur entre les lignées eucaryotes, ce qui signifie que les comptes de lectures ne reflètent pas les comptes cellulaires, rendant les comparaisons quantitatives entre des groupes taxonomiques disparates peu fiables. La contamination par l'ADN eucaryote non microbien est courante : les propres cellules cutanées du chercheur, les tissus d'animaux ou de plantes hôtes étudiés, et d'autres macro-organismes contiennent tous des séquences 18S qui s'amplifient avec des amorces eucaryotes universelles, réduisant la profondeur de séquençage effective pour la communauté de protistes d'intérêt.
Applications 18S des données d'enquête
Un groupe de recherche en écologie marine a soumis des échantillons de sédiments pour le métabarcodage 18S afin d'évaluer les changements dans la composition de la communauté protiste après une floraison saisonnière de phytoplancton. Le chercheur a choisi le séquençage 18S V4 car l'analyse de la succession des protistes après la floraison nécessitait un marqueur capturant la diversité eucaryote de manière large, incluant à la fois les producteurs primaires et leurs consommateurs hétérotrophes. Cette question ne pouvait pas être résolue par le séquençage 16S ou ITS, aucun des deux ne permettant de récupérer la communauté protiste.
Code-barres ADN — Identification des espèces pour le monde macroscopique
De la caractérisation communautaire à l'identification précise des spécimens
Le métabarcodage des amplicons répond à la question « Quels membres de la communauté microbienne sont présents dans cet échantillon mixte ? » Le séquençage par code-barres ADN répond à une question différente mais tout aussi fondamentale : « Quelle espèce est cet organisme individuel ? » Un chercheur étudiant la diversité des papillons a soumis 300 spécimens — 75 espèces présumées avec 4 individus chacune — pour le séquençage COI. Ils avaient besoin d'une identification d'espèce confirmée pour chaque spécimen et de séquences d'haplotypes pour l'analyse génétique des populations, et non de profils communautaires à partir d'extraits d'ADN mélangés.
Le Consortium pour le Code-barres de la Vie (CBOL, barcodeoflife.org) a établi des marqueurs standardisés :
- COI (sous-unité I de la cytochrome c oxydase)Un fragment standardisé de 658 pb du gène mitochondrial COI est le code-barres universel des animaux, amplifiable dans la plupart des phylums animaux en utilisant des amorces universelles (LCO1490/HCO2198). Le Système de Données de Code-Barres de la Vie (BOLD) archive plus de 11 millions de séquences de code-barres provenant d'environ 500 000 espèces décrites. CD Genomics fournit Services de codage ADN couvrant les marqueurs COI, rbcL, matK et ITS.
- rbcL et matKLa combinaison de codes-barres standard pour les plantes terrestres. rbcL est facile à amplifier avec des amorces universelles mais offre une résolution limitée au niveau des espèces. matK est plus variable mais plus difficile à amplifier de manière universelle. Ensemble, les deux marqueurs atteignent environ 70 à 75 % de succès d'identification au niveau des espèces parmi les plantes terrestres.
- ITS dans le contexte du code-barresLa même région ITS qui sert de marqueur de métabarcodage fongique sert de code-barres fongique, mais chaque séquence provient d'un seul isolat cultivé ou d'un corps fructifère, produisant une identification claire au niveau de l'espèce.
Étiquetage à grande échelle : de Sanger à NGS
Le marquage traditionnel basé sur Sanger est pratique pour des dizaines à des centaines d'échantillons, mais devient prohibitivement coûteux à l'échelle de milliers d'échantillons. Pour les grands projets d'inventaire de biodiversité, nous utilisons un flux de travail de marquage basé sur le séquençage de nouvelle génération (NGS). Les échantillons individuels sont traités par extraction d'ADN et amplification PCR au format de plaque de 96 puits, chacun recevant un code-barres unique. Les amplicons indexés sont regroupés et séquencés lors d'une seule course Illumina, générant des séquences de code-barres pour des milliers d'échantillons à un coût par échantillon inférieur à un dollar américain.
Choisir votre approche d'amplicon : cadre décisionnel
Figure 2 : Schéma de comparaison des gènes marqueurs — Cartes génomiques côte à côte des gènes 16S rRNA (V1–V9), 18S rRNA, ITS (ITS1/5.8S/ITS2) et COI avec les régions conservées et variables mises en évidence.
Le tableau ci-dessous résume quand choisir chaque méthode en fonction de votre question de recherche :
| Question de recherche | Méthode recommandée | Lectures par échantillon | Base de données de référence |
|---|---|---|---|
| "Quelles bactéries se trouvent dans mon échantillon d'intestin/sol/eau ?" | 16S V3–V4 ou V4–V5 | 50 000–100 000 | SILVA, GTDB |
| "Quels champignons colonisent les racines de ma plante ?" | ITS1 ou ITS2 | 30 000–80 000 | UNIR |
| "Quels protistes vivent dans cet échantillon marin ?" | 18S V4 ou V9 | 30 000–80 000 | PR2 |
| "Ce produit de poisson/viande est-il étiqueté correctement ?" | Codage COI | Sanger ou NGS à faible couverture | GRAS |
| "J'ai besoin d'identifications bactériennes au niveau des espèces." | 16S complet | 10 000–30 000 | SILVA, GTDB |
| "Microbiome total (bactéries + champignons)" | 16S + ITS dual | 50 000 + 50 000 | SILVA + UNITE |
| "L'argent est serré — données minimales viables" | 16S V3–V4 réduit | 25 000–50 000 | SILVA |
| "Confirmer l'identité des espèces de 300 spécimens animaux" | Codage COI (NGS) | Filtre passe-bas NGS | GRAS |
Stratégies à double et multi-marqueurs
Une approche duale 16S + ITS capture les bactéries, les archées et les champignons à partir de la même extraction d'ADN, révélant des interactions inter-royaumes que aucun des marqueurs ne peut détecter seul. Les réseaux de co-occurrence bactéries-champignons sont de plus en plus reconnus comme des moteurs de la fonction du microbiome dans la santé des sols, la suppression des maladies des plantes et l'écologie intestinale humaine. En séquençant les deux marqueurs à partir du même ensemble d'échantillons, vous pouvez construire des réseaux d'association inter-royaumes et identifier des relations potentielles synergiques ou antagonistes entre les membres des communautés bactériennes et fongiques.
Pour un profilage complet des trois domaines (procaryotes + champignons + protistes), une approche triple 16S + ITS + 18S est réalisable dans un projet coordonné unique mais coûteuse. Nous la recommandons uniquement lorsque les communautés microbiennes eucaryotes constituent une question de recherche centrale, et non un objectif exploratoire. Le coût augmente de manière à peu près additive avec chaque marqueur supplémentaire, mais l'exigence en ADN par échantillon ne le fait pas — une extraction de chaque échantillon fournit suffisamment d'ADN modèle pour les trois réactions PCR, et les préparations de bibliothèques se déroulent en parallèle.
Séquençage 16S vs. Métagénomique Shotgun : Un Point de Décision
Une question qui se pose dans presque toutes les consultations de projet est de savoir quand passer du séquençage d'amplicons 16S au séquençage métagénomique shotgun. La réponse courte est que le séquençage 16S répond qui est là (composition taxonomique) tandis que la métagénomique par shotgun répond de quoi sont-ils capables (potentiel fonctionnel). Si votre question de recherche nécessite des connaissances sur les voies métaboliques, les profils de gènes de résistance aux antibiotiques ou la variation génomique au niveau des souches au sein de la communauté, la métagénomique par shotgun est la méthode appropriée — à un coût par échantillon généralement 5 à 10 fois plus élevé. Si votre question concerne la composition de la communauté, les comparaisons de diversité entre les groupes, ou les changements d'abondance de taxons spécifiques suite à une intervention, le séquençage d'amplification 16S fournit les bonnes informations à une fraction du coût. Pour de nombreuses études, une approche par paliers fonctionne le mieux : une enquête 16S sur tous les échantillons pour caractériser les motifs à l'échelle de la communauté, suivie d'une métagénomique par shotgun sur un sous-ensemble d'échantillons sélectionnés stratégiquement pour des informations fonctionnelles.
Figure 4 : Infographie de comparaison — Séquençage d'amplicons vs. Métagénomique par shotgun. Comparaison côte à côte des coûts par échantillon, type de données, profondeur de séquençage requise, flexibilité du type d'échantillon et complexité bioinformatique.
Comment CD Genomics réalise votre projet d'amplicon
Figure 3 : Diagramme de flux de processus — Service de séquençage d'amplicons de bout en bout. Six étapes successives allant de l'Échantillon à l'Extraction, Amplification, Séquençage, Analyse, jusqu'à la Livraison des Données.
Notre Service de séquençage d'amplicons est conçu autour d'un cycle de vie de projet complet, de la consultation de conception à des données prêtes pour publication. Lors de la discussion initiale de cadrage, nous abordons la matrice d'échantillons et les défis attendus, le nombre d'échantillons et les groupes expérimentaux, la question de recherche, le budget, le calendrier et toute exigence spéciale, y compris les ensembles de primers personnalisés.
À la réception de l'échantillon, nous mesurons la concentration (Qubit), la pureté (NanoDrop A260/A280, A260/A230) et l'intégrité (TapeStation). Pour les échantillons bruts, nous adaptons les protocoles d'extraction à la matrice spécifique — un sol riche en acides humiques nécessite une approche différente de celle des échantillons fécaux courants. Les échantillons d'eau avec des acides nucléiques indétectables nécessitent des étapes de concentration et une détection améliorée, souvent sans frais supplémentaires.
La préparation de bibliothèque utilise le marquage à double index pour le multiplexage de jusqu'à 384 échantillons par voie de cellule d'écoulement NovaSeq S4. Les ensembles de primers standard incluent 16S V3–V4 (341F/805R), ITS1 (ITS1f/ITS2), ITS2 (ITS3/ITS4) et 18S V4 (TAReuk454FWD1/TAReukREV3). Séquençage d'amplicons complets 16S/18S/ITS sur les plateformes PacBio ou Nanopore est disponible pour une résolution au niveau des espèces. Des amorces personnalisées sont prises en charge pour des applications spécialisées, y compris des amorces 16S spécifiques aux cyanobactéries et aux archées.
Les livrables bioinformatiques standards incluent des fichiers FASTQ démultiplexés, des tableaux ASV/OTU avec taxonomie (SILVA ou UNITE), des séquences représentatives ASV, des métriques de diversité alpha (Shannon, Simpson, Chao1, PD de Faith), des ordinations de diversité beta (PCoA avec UniFrac, Bray-Curtis, Jaccard), des graphiques en barres taxonomiques, des cartes thermiques de communauté et des arbres phylogénétiques. Une analyse personnalisée — tests d'abondance différentielle (DESeq2, ANCOM-BC, MaAsLin2), prédiction fonctionnelle (PICRUSt2), analyse de réseaux de co-occurrence, figures prêtes pour publication — est disponible sur demande.
Le délai standard est de 3 à 6 semaines entre la réception de l'échantillon et la livraison des données. Les petits projets pilotes (10 à 30 échantillons) peuvent être réalisés en 2 à 3 semaines. Un service urgent est disponible pour les projets urgents. Nous fournissons une documentation QC détaillée pour chaque projet, y compris les comptes de lecture par échantillon, les distributions de scores Q et l'évaluation de la contamination. Si un échantillon ne s'amplifie pas, nous vous informons avant de procéder au séquençage — nous ne séquençons pas les bibliothèques non amplifiées et ne facturons pas les préparations de bibliothèques échouées.
FAQ
Q : Mes échantillons d'eau donnent des niveaux d'acides nucléiques indétectables après extraction de l'ADN. Pouvez-vous quand même les séquencer ?
Oui, dans la plupart des cas. Nous pouvons optimiser le protocole d'extraction pour concentrer l'ADN microbien minimal et séquencer à une profondeur plus élevée. Cela nécessite des contrôles négatifs séquencés en même temps que les échantillons expérimentaux pour distinguer le signal microbien de la contamination par les réactifs — une étape qui n'est pas optionnelle pour les études à faible biomasse. Contactez notre équipe scientifique pour discuter de vos échantillons spécifiques avant de soumettre.
Q : Les duplicatas sont-ils suffisants ou avons-nous besoin de triplicats de répliques biologiques ?
Pour toute comparaison au niveau communautaire, un minimum de trois réplicats biologiques par groupe expérimental est requis. Nous recommandons cinq réplicats pour des communautés à haute variance telles que les microbiomes du sol ou de la peau. Le design d'étude le plus courant sous-alimenté est de deux réplicats à une profondeur de séquençage élevée — pour le même coût total, nous recommandons de séquencer cinq réplicats à une profondeur inférieure.
Q : Puis-je utiliser le même ADN pour le séquençage 16S et ITS ?
Oui. Les deux marqueurs sont amplifiés à partir de la même extraction d'ADN en utilisant des ensembles de primers séparés dans des réactions PCR indépendantes. Nous pouvons coordonner des projets à double marqueur pour minimiser la manipulation et l'expédition de vos échantillons.
Q : Quelle est la quantité minimale d'ADN requise pour le séquençage d'amplicons ?
Nous recommandons au moins 10 ng d'ADN par échantillon pour la préparation de bibliothèques d'amplicons standard. Pour les échantillons avec des rendements plus faibles, nous pouvons tenter une amplification avec un nombre de cycles accru, mais le risque de biais PCR et de formation de chimères augmente avec des cycles supplémentaires.
Q : Combien de temps prend un projet d'amplicon typique, de la soumission à la livraison des données ?
Les projets standards nécessitent 3 à 6 semaines : contrôle qualité et extraction d'échantillons (3 à 5 jours), préparation de la bibliothèque (3 à 5 jours), séquençage (1 à 7 jours) et analyse bioinformatique (5 à 10 jours). Les petits projets pilotes (10 à 30 échantillons) peuvent être réalisés en 2 à 3 semaines.
Q : Fournissez-vous l'extraction d'ADN à partir d'échantillons bruts, ou dois-je d'abord extraire ?
Nous proposons l'extraction d'ADN à partir d'une large gamme de types d'échantillons, y compris les fèces, le sol, les filtres à eau, les écouvillons, les tissus et les FFPE. L'extraction est réalisée en utilisant des protocoles optimisés pour chaque matrice avec des étapes appropriées d'élimination des inhibiteurs. Veuillez préciser si vous avez besoin d'extraction lors de votre demande de devis.
Q : Quelle est la différence entre l'analyse OTU et l'analyse ASV ?
L'analyse OTU (Unité Taxonomique Opérationnelle) regroupe les séquences avec une similarité de 97 %, regroupant des séquences étroitement liées mais distinctes. L'analyse ASV (Variante de Séquence d'Amplicon) distingue les séquences différant par un seul nucléotide, offrant une résolution et une reproductibilité supérieures. Nous proposons les deux options dans nos livrables standard.
Q : Soutenez-vous des ensembles de amorces personnalisés ?
Oui. Nous pouvons synthétiser et valider des amorces personnalisées pour des applications spécialisées, y compris des amorces 16S spécifiques à des groupes pour des phylums bactériens spécifiques, des amorces spécifiques aux archées, et des marqueurs personnalisés pour des cibles de codage non standard.
Toutes les références ci-dessous sont publiées sous la licence CC BY 4.0 ou des licences d'accès libre équivalentes.
Références :
- Callahan BJ, Sankaran K, Fukuyama JA, McMurdie PJ, Holmes SP. Flux de travail Bioconductor pour l'analyse des données de microbiome : des lectures brutes aux analyses communautaires. F1000Research. 2016;5:1492. doi:10.12688/f1000research.8986.2 (CC BY 4.0)
- Estaki M, Jiang L, Bokulich NA, et al. QIIME 2 permet une analyse complète de bout en bout des données microbiomes diverses et de l'apprentissage automatique comparatif. mSystems. 2020;5(1):e00150-20. doi:10.1128/mSystems.00150-20 (CC BY 4.0)
- Quast C, Pruesse E, Yilmaz P, et al. Le projet de base de données des gènes d'ARN ribosomal SILVA : amélioration du traitement des données et outils en ligne. Nucleic Acids Research. 2013;41(D1):D590–D596. doi:10.1093/nar/gks1219 (Accès Ouvert)
- Nilsson RH, Larsson KH, Taylor AFS, et al. La base de données UNITE pour l'identification moléculaire des champignons : gestion des taxons obscurs et classifications taxonomiques parallèles. Nucleic Acids Research. 2019;47(D1):D259–D264. doi:10.1093/nar/gky1022 (Accès libre)
- Guillou L, Bachar D, Audic S, et al. La base de données de référence des ribosomes des protistes (PR2) : un catalogue de séquences d'ARNr de sous-unité petite des eucaryotes unicellulaires avec une taxonomie curatée. Nucleic Acids Research. 2013;41(D1):D597–D604. doi:10.1093/nar/gks1160 (Accès libre)
- Ratnasingham S, Hebert PDN. Un registre basé sur l'ADN pour toutes les espèces animales : le système de numéro d'index de code-barres (BIN). PLOS ONE. 2013;8(7):e66213. doi:10.1371/journal.pone.0066213 (CC BY 4.0)
- Walters W, Hyde ER, Berg-Lyons D, et al. Amélioration des amorces de gènes marqueurs de l'ARNr 16S bactérien (V4 et V4-5) et de l'espaceur interne transcrit fongique pour les enquêtes sur les communautés microbiennes. mSystems. 2016;1(1):e00009-15. doi:10.1128/mSystems.00009-15 (CC BY 4.0)
- Davis NM, Proctor DM, Holmes SP, Relman DA, Callahan BJ. Identification statistique simple et élimination des séquences de contaminants dans les données de gènes marqueurs et de métagénomique. Microbiome. 2018;6:226. doi:10.1186/s40168-018-0605-2 (CC BY 4.0)
- Parks DH, Chuvochina M, Rinke C, et al. GTDB : un recensement en cours de la diversité bactérienne et archéenne à travers une taxonomie basée sur des génomes complets, normalisée par rang et phylogénétiquement cohérente. Nucleic Acids Research. 2022;50(D1):D785–D794. doi:10.1093/nar/gkab776 (Accès libre)
- Callahan BJ, Wong J, Heiner C, et al. Séquençage d'amplicons à haut débit du gène 16S rRNA en pleine longueur avec une résolution à un nucléotide. Nucleic Acids Research. 2019;47(18):e103. doi:10.1093/nar/gkz569 (Accès libre)