Services de codage ADN pour l'identification des espèces : COI, rbcL, matK et au-delà

Un agent des douanes intercepte un envoi étiqueté "fruits de mer séchés" — aucune espèce mentionnée, aucun permis CITES. Un laboratoire de sécurité alimentaire trouve de l'ADN de cheval et de porc dans des saucisses "100% bœuf". Un biologiste de terrain attrape un papillon qui ressemble à une espèce connue mais se comporte différemment. Ces scénarios partagent une solution : le code-barres ADN — identification des espèces utilisant de courtes séquences génétiques standardisées qui diffèrent entre les espèces mais restent cohérentes au sein de celles-ci.

Contrairement au profilage de la communauté par amplicon, qui pose la question "quels membres de la communauté sont présents dans cet échantillon mixte ?", le séquençage par code-barres ADN demande "quelle espèce est cet individu ?". Cela fonctionne sur des aliments transformés, des spécimens de musée dégradés, des stades larvaires et des fragments de tissu où l'identification visuelle est impossible. CD Genomics fournit Services de codage ADN couvrant les quatre régions de code-barres standardisées (COI, rbcL, matK, ITS) avec des flux de travail basés sur Sanger et NGS pour des projets allant de l'identification de spécimens uniques à des enquêtes sur la biodiversité de plusieurs milliers de spécimens.

Cet article est un guide pratique pour choisir le bon marqueur de code-barres, comprendre ce que chaque marqueur peut et ne peut pas identifier, et sélectionner la stratégie de séquençage appropriée. Nous couvrons les applications de code-barres pour les animaux, les plantes, les champignons et les applications personnalisées, et fournissons un cadre décisionnel pour faire correspondre votre question d'identification à l'outil moléculaire adéquat.

Qu'est-ce que le code-barres ADN ?

Le code-barres ADN est l'identification des espèces par l'analyse d'un court segment standardisé du génome — typiquement de 400 à 800 paires de bases — qui présente une variation interspécifique suffisante pour discriminer entre les taxons tout en conservant une conservation intraspécifique suffisante pour regrouper les membres de la même espèce. Le concept a été formalisé par Paul Hebert à l'Université de Guelph en 2003, qui a proposé la sous-unité I de la cytochrome c oxydase (COI) comme le code-barres universel des animaux. L'idée était trompeusement simple : séquencer une région génique de chaque espèce animale sur Terre, et l'identification devient une question de correspondance d'une séquence inconnue avec une bibliothèque de référence.

L'infrastructure mondiale de codage repose sur deux institutions. Le Consortium pour le Code de la Vie (CBOL), établi en 2004, a défini les normes techniques. Le Système de Données du Code de la Vie (BOLD), hébergé à l'Université de Guelph, est la principale base de données de référence, contenant plus de 11 millions de séquences de codes provenant d'environ 500 000 espèces décrites. Le consortium International Barcode of Life (iBOL) coordonne des initiatives à grande échelle, avec le programme BIOSCAN ciblant les codes de 2 millions d'espèces.

Comment le code-barres diffère du profilage communautaire

Les chercheurs novices en identification basée sur l'ADN confondent parfois le barcoding avec le metabarcoding d'amplicons. Ils servent des objectifs différents. Le profilage de communauté par amplicons séquence un gène marqueur (16S, ITS, 18S) à partir d'un extrait d'ADN mixte pour caractériser la composition taxonomique d'une communauté microbienne entière. Le résultat est un tableau d'abondance relative — "L'échantillon A contient 23 % de Bacteroides, 15 % de Prevotella et 8 % de Faecalibacterium." Le barcoding ADN séquence un gène marqueur à partir d'un seul spécimen pour déterminer son identité spécifique — "Cet échantillon est Panthera tigris altaica, le tigre de l'Amour." La distinction est importante car les flux de travail en laboratoire, les stratégies de séquençage et les analyses bioinformatiques diffèrent considérablement. Le profilage de communauté utilise généralement le séquençage à haut débit NGS avec des coûts par échantillon inférieurs à 30 $ ; le barcoding utilise souvent le séquençage Sanger à 3-6 $ par spécimen, mais le barcoding basé sur le NGS à grande échelle ramène le coût par spécimen bien en dessous d'un dollar pour de grands projets.

Pour un cadre décisionnel plus large sur le choix entre le profilage de la communauté par amplicon et d'autres approches de séquençage, consultez notre Hub de services de séquençage d'amplicons.

DNA Barcoding Concept Overview — Four standard barcode markers comparison chartFigure 1 : Aperçu du concept de code-barres ADN — Comparaison côte à côte des quatre marqueurs de code-barres standard (COI : mitochondrie animale, ~658 pb ; rbcL+matK : chloroplaste végétal, ~550+770 pb ; ITS : ADNr fongique, ~450-700 pb) montrant la source génomique, la taille de l'amplicon et les groupes d'organismes cibles. Présenté sous forme de tableau de comparaison horizontal clair avec des régions de marqueurs codées par couleur.

Barcoding des animaux — La norme COI

La sous-unité I de la cytochrome c oxydase (COI) est un gène mitochondrial codant pour une sous-unité centrale de la chaîne de transport des électrons respiratoire. Il a été choisi comme code-barres animal pour plusieurs raisons pratiques. Les gènes mitochondriaux sont présents en centaines à des milliers de copies par cellule, ce qui rend l'amplification réalisable à partir d'échantillons d'ADN dégradés ou traces. Le COI évolue à un rythme qui permet une résolution au niveau des espèces dans la plupart des phylums animaux — assez rapide pour séparer des espèces étroitement liées, mais assez lent pour que les individus conspecifiques se regroupent. Un fragment de 658 pb à l'extrémité 5' du COI, amplifiable avec la paire de primers universels LCO1490/HCO2198, est la norme mondiale.

Ce que le COI peut et ne peut pas identifier

Le COI identifie des espèces avec une grande confiance chez les vertébrés, la plupart des arthropodes, des mollusques et de nombreux autres phylums d'invertébrés. Pour les groupes bien échantillonnés — oiseaux (plus de 10 300 espèces dans BOLD), poissons (plus de 18 000 espèces), Lépidoptères (plus de 120 000 espèces) — le COI résout plus de 95 % des espèces. Pour ces groupes, une séquence COI de 658 pb comparée à la base de données BOLD renvoie une identification au niveau des espèces avec un score de confiance basé sur la similarité des séquences et la distance au voisin le plus proche.

Les limitations du COI sont spécifiques aux groupes. Les cnidaires (coraux, méduses, anémones de mer) ont une évolution du COI exceptionnellement lente, rendant la discrimination au niveau des espèces peu fiable — les marqueurs 16S rRNA ou nucléaires sont préférés pour ces groupes. Certains amphibiens montrent un introgression du COI entre les espèces, et les taxons hybrides peuvent donner des correspondances ambiguës de code-barres. Les organismes des profondeurs marines, qui présentent souvent une spéciation cryptique avec une divergence du COI subtile ou inexistante, peuvent nécessiter des approches multi-marqueurs ou le séquençage complet du génome mitochondrial. Pour les éponges d'eau douce et certains groupes d'annélides, la résolution du COI est au mieux au niveau du genre. Pour les groupes où le COI échoue, la stratégie de secours standard est : passer au 16S rRNA pour les cnidaires et les éponges ; ajouter un marqueur nucléaire tel que RAG1 (vertébrés) ou EF-1α (arthropodes) pour les complexes d'espèces hybrides ou récemment divergées ; ou séquencer le génome mitochondrial complet pour les taxons des profondeurs marines — à environ 150-300 $ par mitogénome, cela fournit 15-37 gènes codant des protéines au lieu d'un, résolvant souvent des espèces que le COI seul ne peut pas.

Applications : De la criminalistique de la faune à la sécurité alimentaire

Le codage COI a largement dépassé la taxonomie académique pour entrer dans l'application concrète. Les laboratoires de médecine légale sur la faune utilisent le COI pour identifier les produits animaux trafiqués : les nageoires de requin sur les marchés asiatiques, l'ivoire provenant d'éléphants braconnés, la viande de brousse saisie dans les aéroports, les médecines traditionnelles contenant des espèces protégées. Une étude de 2024, qui a codé 5 000 échantillons de nageoires de requin provenant des marchés de Hong Kong, a identifié des nageoires de 86 espèces — dont 21 espèces listées par la CITES — permettant des actions d'application contre les réseaux de commerce illégal.

Dans l'authentification des aliments, le codage COI est désormais un outil de contrôle qualité de routine. Une enquête européenne sur 450 produits de poisson commerciaux a révélé que 30 % étaient mal étiquetés — des espèces moins chères substituées à des espèces premium, ou des espèces menacées vendues sous des noms génériques. Une enquête sur 197 produits de viande de gibier en Afrique du Sud a trouvé que 76 % contenaient des espèces non répertoriées sur l'étiquette, y compris des girafes, des zèbres et des kob dans des emballages étiquetés comme des antilopes. Pour les fabricants d'aliments cherchant à vérifier l'intégrité de la chaîne d'approvisionnement, le codage COI offre une identification rapide et légalement défendable des espèces à un coût d'environ 5 à 10 dollars par échantillon.

Pour les enquêtes sur la biodiversité des communautés animales où l'identification des spécimens individuels est requise plutôt que le profilage communautaire — échantillons de musées, catalogage des prises accessoires d'insectes provenant de pièges Malaise, ou inventaire des macroinvertébrés d'eau douce pour la biomonitoring de la qualité de l'eau — les processus de séquençage par barcoding COI basé sur NGS traitent des milliers de spécimens par course à travers la PCR en plaque de 96 puits et l'indexation, réduisant les coûts par spécimen d'un ordre de grandeur par rapport au séquençage Sanger.

COI Barcoding Application Landscape — Three-panel infographicFigure 2 : Paysage d'application du code-barres COI — Infographie en trois panneaux montrant les principaux domaines d'application du code-barres COI : la criminalistique de la faune (saisie de nageoires de requin, identification de l'ivoire), l'authentification des aliments (faux étiquetage des poissons, substitution de viande de gibier) et les enquêtes sur la biodiversité (prises accessoires de pièges Malaise, validation dans les musées). Chaque panneau comprend une statistique de cas représentative et un flux de travail basé sur des icônes, allant de l'échantillon à l'identification de l'espèce.

Codage des plantes — rbcL, matK et ITS2

Le COI ne fonctionne pas chez les plantes. Les génomes mitochondriaux des plantes évoluent beaucoup plus lentement que ceux des animaux — le COI chez les plantes est essentiellement invariant au niveau des espèces, ce qui le rend inutile pour la discrimination des espèces. La communauté de barcoding des plantes, organisée par le biais du Groupe de travail sur les plantes de CBOL, a opté pour une approche multi-locus : rbcL et matK comme codes-barres principaux, avec ITS2 comme marqueur complémentaire pour les groupes où la paire principale ne fournit pas une résolution suffisante.

rbcL : Facile à amplifier, large mais peu profond

La ribulose-1,5-bisphosphate carboxylase/oxygénase grande sous-unité (rbcL) est un gène chloroplastique codant pour la grande sous-unité de la RuBisCO, l'enzyme qui fixe le dioxyde de carbone lors de la photosynthèse. Le rbcL est le code-barres végétal le plus facilement amplifiable — des amorces universelles existent pour les angiospermes, les gymnospermes, les fougères et les mousses, et le taux de succès de la PCR chez les plantes terrestres dépasse 95 %. Cependant, le rbcL fournit une résolution limitée au niveau des espèces, identifiant correctement seulement environ 70-75 % des espèces végétales lorsqu'il est utilisé seul. Son rôle principal dans le cadre du code-barres végétal est celui d'un squelette universel à haute récupération qui place un spécimen inconnu dans le bon genre ou la bonne famille.

matK : Résolution plus élevée, plus difficile à amplifier

Le gène Maturase K (matK) est un gène chloroplastique impliqué dans l'épissage des introns de groupe II. Il évolue rapidement — parmi les gènes codant des protéines chloroplastiques à évolution la plus rapide — et fournit une résolution au niveau des espèces pour 85-90 % des angiospermes lorsqu'il est utilisé en combinaison avec rbcL. Le compromis est la difficulté d'amplification. Des amorces matK universelles existent mais ont des taux de succès inférieurs à ceux des amorces rbcL sur l'ensemble des plantes terrestres, en particulier dans les lignées d'angiospermes à divergence précoce et les groupes non-angiospermes. Pour les projets de codage-barres de plantes de routine, rbcL + matK ensemble atteignent une résolution au niveau des espèces de 90-95 % pour les groupes d'angiospermes communs : plantes cultivées, espèces forestières, herbes médicinales et ornementales à fleurs.

ITS2 comme marqueur supplémentaire

Pour les groupes de plantes où rbcL + matK sont encore insuffisants — notamment les orchidées, qui présentent simultanément une grande diversité d'espèces, une hybridation fréquente et des séquences de chloroplastes exceptionnellement conservées — l'ITS2 offre une résolution supplémentaire. L'ITS2 discrimine environ 92 % des espèces végétales lorsqu'il est utilisé seul chez les angiospermes, surpassant à la fois rbcL et matK individuellement, mais son application est compliquée par une évolution concertée incomplète (plusieurs copies d'ITS au sein d'un même individu peuvent différer) et la présence occasionnelle de contamination par des ITS fongiques qui rivalisent pour l'amplification. Le consensus actuel : utiliser rbcL + matK comme combinaison principale de code-barres végétaux, et compléter avec l'ITS2 lorsque la résolution au niveau des espèces n'est pas atteinte.

Applications : Analyse du bois, Authentification des herbes et Génomique des herbariums

La Convention sur le commerce international des espèces de faune et de flore sauvages menacées d'extinction (CITES) répertorie plus de 600 espèces de bois, pourtant les laboratoires douaniers reçoivent des grumes, des planches et des placages qui sont visuellement indiscernables. Une étude de 2023 utilisant le code-barres sur 200 expéditions de bois saisies dans des ports européens avec rbcL + matK a identifié 42 % comme étant des espèces répertoriées par la CITES expédiées sous de fausses déclarations d'espèces — des informations qui ont directement conduit à des confiscations et à des poursuites.

L'authentification des médicaments à base de plantes fait face à un problème parallèle. Les matériaux végétaux séchés, en poudre ou extraits ne peuvent pas être identifiés par un botaniste. Une enquête de 2022 barcodant 120 produits phytothérapeutiques commerciaux en Amérique du Nord a révélé que 27 % contenaient des espèces végétales non répertoriées sur l'étiquette, et 9 % contenaient des adulterants toxiques connus. La combinaison rbcL + matK a identifié les espèces végétales réelles dans 97 % des échantillons, y compris dans les cas où la substitution semblait motivée économiquement (des espèces moins chères échangées contre des espèces plus chères).

Pour la génomique des herbiers, le séquençage ADN des spécimens types — les plantes individuelles qui définissent une espèce — relie la taxonomie linéenne à la phylogénétique moléculaire. Les spécimens d'herbier âgés de jusqu'à 200 ans produisent des fragments amplifiables de rbcL et matK en utilisant des ensembles de primers mini-code-barres ciblant des amplicons de 100-200 pb, permettant l'intégration de la taxonomie morphologique historique avec le cadre moderne d'identification des espèces moléculaires.

Plant Multi-Locus Barcoding Decision Tree — FlowchartFigure 3 : Arbre de décision pour le barcoding multi-locus des plantes — Un organigramme montrant la logique d'identification séquentielle : rbcL comme la base universelle de première passe (95 % de succès d'amplification, 70-75 % de résolution des espèces) → matK comme le marqueur de haute résolution de deuxième niveau (85-90 % de résolution combinée) → ITS2 comme le marqueur de secours complémentaire pour les groupes difficiles (orchidées, hybrides). Chaque nœud annoté avec un pourcentage de résolution et des exemples de taxa.

Codage Fongique — ITS comme le Code-barres Fongique Universel

Les champignons occupent une position intermédiaire dans le paysage du codage-barres. L'ITS (l'espace transcrit interne de l'opéron de l'ARN ribosomal) a été adopté comme le code-barres fongique universel lors de la réunion du Consortium de codage-barres fongiques de 2011 à Amsterdam. Il permet de discriminer les espèces à travers les Ascomycètes, les Basidiomycètes et la plupart des lignées fongiques à divergence précoce, avec une résolution au niveau des espèces atteignant près de 90 % pour les groupes bien échantillonnés.

Le barcoding fongique diffère du profilage de la communauté fongique principalement par la source de l'ADN et la stratégie de séquençage. Le profilage de la communauté amplifie l'ITS à partir d'un extrait d'ADN mixte (sol, eau, échantillon clinique) et séquence des milliers d'amplicons par échantillon via NGS pour produire un profil de composition de la communauté. Le barcoding amplifie l'ITS à partir d'un isolat fongique unique, d'un corps fructifère ou d'un thalle de lichen et séquence l'amplicon via Sanger (ou NGS à faible couverture) pour produire une identification propre au niveau des espèces, adaptée à un dépôt dans GenBank ou BOLD.

Pour des projets qui englobent à la fois le profilage communautaire et l'identification d'isolats individuels — par exemple, cultiver des champignons à partir d'échantillons de sol puis coder à barres les colonies qui se développent — Séquençage des amplicons ITS et fongiques fournit le contexte au niveau communautaire, tandis que le barcoding des colonies individuelles confirme l'identité des organismes cultivés. CD Genomics soutient les deux flux de travail avec une PCR ITS standardisée, un séquençage et une classification dans la base de données UNITE.

Codage-barres personnalisé pour besoins spécifiques

Les quatre codes-barres standard — COI pour les animaux, rbcL + matK pour les plantes, ITS pour les champignons — couvrent la majorité des applications de codage. Mais une fraction significative des problèmes d'identification des espèces dans le monde réel nécessite des marqueurs en dehors du panel standard.

16S pour les bactéries et les archées

L'identification des espèces bactériennes par séquençage du gène 16S rRNA se situe à l'intersection du codage-barres et du profilage communautaire. Lorsqu'un laboratoire de microbiologie clinique ou alimentaire isole une seule colonie bactérienne et que l'objectif est d'identifier l'espèce — et non de caractériser la communauté — le séquençage Sanger du gène complet de 1 500 pb constitue un flux de travail de codage-barres. Les amorces standard (27F/1492R) amplifient le gène complet, et la classification contre SILVA ou GTDB permet une identification au niveau des espèces pour la plupart des bactéries médicalement pertinentes. CD Genomics propose Séquençage d'amplification 16S/18S/ITS couvrant à la fois le profilage communautaire et les workflows d'identification des isolats.

18S pour les protistes et les microorganismes eucaryotes

Pour les protistes — des organismes eucaryotes unicellulaires qui ne sont ni des animaux, ni des plantes, ni des champignons — aucun code-barres universel n'a été formellement adopté. Le séquençage du gène de l'ARNr 18S de la région V4 ou V9, classé par rapport à la base de données PR2, est le code-barres de facto pour la plupart des groupes de protistes. Le défi est que le nombre de copies de l'ARNr 18S varie de plusieurs ordres de grandeur entre les lignées eucaryotes, et la résolution au niveau des espèces est incohérente. Pour les groupes bien étudiés comme les diatomées, les dinoflagellés et les ciliés, l'ARNr 18S identifie les espèces de manière fiable. Pour les lignées de protistes environnementaux moins caractérisées, l'identification s'arrête au niveau du genre ou de la famille.

Marqueurs spécifiques à l'espèce

Lorsque un code-barres universel échoue — parce que le gène standard n'est pas suffisamment variable dans le groupe cible, ou parce que des espèces étroitement apparentées ne peuvent pas être distinguées — un marqueur spécifique à l'espèce ou au groupe est la solution. Des exemples incluent l'espaceur interne transcrit 1 (ITS1) pour discriminer les espèces au sein du complexe de moustiques Anopheles gambiae, le gène mitochondrial 16S rRNA pour identifier les espèces de tortues marines à partir d'œufs confisqués, et la région D-loop mitochondriale pour distinguer les espèces d'esturgeon (Acipenseridae) pour l'authentification du caviar. Le développement de codes-barres personnalisés nécessite d'identifier une région génomique avec une variation appropriée entre les espèces et au sein des espèces, de concevoir des amorces qui amplifient à travers le groupe cible, de valider la spécificité par rapport à des spécimens de référence connus, et de construire une base de données de référence locale si le groupe cible est sous-représenté dans BOLD ou GenBank.

Échantillons de différentes espèces

Le marquage par code-barres suppose généralement qu'un spécimen = une espèce. Les échantillons de plusieurs espèces — un produit alimentaire transformé contenant plusieurs espèces animales, un mélange d'herbes avec plusieurs espèces végétales, un échantillon environnemental où les organismes cibles coexistent avec des organismes non cibles — nécessitent une approche de métabarcodage. Ici, le flux de travail en laboratoire utilise les mêmes amorces de code-barres mais remplace le séquençage Sanger par le séquençage de nouvelle génération (NGS). Chaque code-barres d'amplicon identifie son espèce source. L'analyse bioinformatique passe d'une correspondance de séquences uniques à une analyse de la composition de la communauté tout en conservant la précision taxonomique au niveau du code-barres que fournissent les amorces spécifiques au groupe.

Pour les applications nécessitant une résolution au niveau des espèces au-delà de ce que les codes-barres standard offrent, Séquençage d'amplicons complets 16S/18S/ITS sur les plateformes PacBio ou Nanopore fournit des séquences génétiques complètes qui comblent l'écart de résolution pour les groupes taxonomiquement difficiles.

Flux de travail : Échantillon à identification d'espèce

Un projet de code-barres ADN suit un protocole de laboratoire et une chaîne bioinformatique standardisés, conçus pour une identification des espèces à haut débit et reproductible.

Étape 1 : Préparation de l'échantillon et extraction de l'ADN

Le matériau de départ détermine la stratégie d'extraction. Les tissus frais (muscle, feuille, mycélium fongique) produisent de l'ADN de haute qualité avec des kits standard à colonne de silice. Les échantillons traités (viande cuite, herbes séchées, médicaments en poudre) nécessitent des protocoles d'ADN dégradé avec une digestion prolongée par la protéinase K. Les échantillons traces (une seule patte d'insecte, follicule pileux, fragment d'herbier de moins de 10 mg) nécessitent une extraction à faible volume d'élution et peuvent bénéficier d'une amplification du génome entier.

La métrique critique n'est pas le rendement en ADN mais l'amplifiabilité. Un échantillon qui produit 5 ng d'ADN amplifiable est meilleur qu'un échantillon qui produit 500 ng d'ADN dégradé. Pour le codage Sanger, 1 à 10 ng d'ADN modèle par réaction PCR est généralement suffisant lors de l'utilisation de protocoles standards de 35 cycles. Pour le codage NGS, le même ADN sert de modèle pour la PCR indexée en format 96 puits.

Étape 2 : Amplification par PCR et vérification par gel

Chaque marqueur de code-barres nécessite sa propre réaction PCR avec le jeu de primers approprié. Pour les spécimens animaux : COI (LCO1490/HCO2198, 658 pb). Pour les plantes : rbcL (rbcLaF/rbcLaR, ~550 pb) et matK (matK472F/matK1248R, ~770 pb, ou primers de mini-code-barres pour l'ADN dégradé). Pour les champignons : ITS (ITS1F/ITS4 pour l'ITS complet, ou ITS1F/ITS2 pour l'ITS1 uniquement).

Le succès de la PCR est vérifié par électrophorèse sur gel : une seule bande claire à la taille attendue indique une amplification réussie ; aucune bande indique une inhibition, un modèle insuffisant ou un décalage des amorces. Les amplifications échouées peuvent souvent être récupérées en diluant l'extrait pour réduire les inhibiteurs, en passant à des amorces alternatives ou en utilisant des amorces mini-code-barres (100-300 pb) lorsque l'ADN est dégradé.

Étape 3 : Stratégie de séquençage — Sanger ou NGS

Le séquençage de Sanger est l'approche la plus rentable pour le barcoding à faible à moyen débit (dizaines à quelques centaines d'échantillons) à 3-6 $ par échantillon, produisant un consensus bidirectionnel à partir d'un seul produit PCR purifié.

Pour les projets dépassant 500 spécimens, le marquage basé sur le séquençage à haut débit (NGS) devient plus économique. Les spécimens sont traités dans des plaques à 96 puits avec des amorces à double index qui amplifient simultanément le code-barres et attachent des indices spécifiques aux échantillons. Les amplicons regroupés sont séquencés sur des plateformes Illumina (MiSeq ou NovaSeq), et le coût par spécimen tombe en dessous de 1 $ pour les projets avec plus de 1 000 spécimens.

Le séquençage NGS par code-barres détecte également la variation intragénomique — hétéroplasmie dans les séquences mitochondriales ou copies ITS divergentes — qu'un seul chromatogramme Sanger masque.

Étape 4 : Bioinformatique — BLAST, BOLD et Placement Phylogénétique

Le pipeline bioinformatique le plus simple pour le barcoding est une recherche de similarité de séquence. La séquence de code-barres de requête est comparée à la base de données BOLD (pour le COI), à la collection de nucléotides de GenBank, ou à une base de données de référence locale personnalisée en utilisant BLASTn. L'identification des espèces est basée sur la meilleure correspondance : si la séquence de requête partage plus de 98 % d'identité avec une séquence de référence d'une espèce connue, cette attribution d'espèce est rapportée.

Le moteur BOLD ID fournit une sortie plus structurée que le BLAST générique. Il rapporte : (a) la correspondance la plus proche au niveau des espèces avec un score de similarité ; (b) la distance au voisin le plus proche — la distance génétique à l'espèce la plus étroitement liée dans la base de données, ce qui indique si l'identification est ambiguë ; (c) un numéro d'index de code-barres (BIN) qui regroupe les séquences en unités taxonomiques opérationnelles équivalentes aux espèces ; et (d) un placement basé sur un arbre montrant où la séquence de requête se situe dans le contexte phylogénétique plus large.

Pour le codage des plantes avec rbcL + matK, les deux marqueurs sont analysés séparément et ensemble. Si les deux marqueurs attribuent la même espèce, la confiance est élevée. Des attributions discordantes déclenchent une analyse supplémentaire : re-séquençage, supplémentation ITS2 ou examen par un expert. Pour les groupes où la base de données de référence est sparse, le placement phylogénétique par rapport à un arbre de référence curé (par exemple, l'arbre rbcL des plantes, l'arbre ITS des champignons) fournit une attribution du niveau du genre à celui de la famille, même en l'absence de correspondances au niveau des espèces.

DNA Barcoding Workflow — From Specimen to Species IDFigure 4 : Flux de travail du code-barres ADN — Du spécimen à l'identification des espèces. Un diagramme de pipeline horizontal montrant quatre étapes : (1) Préparation de l'échantillon — icônes de tissu frais, d'aliments transformés, de spécimens traces ; (2) Amplification PCR — amorces spécifiques au marqueur avec vérification par gel ; (3) Séquençage — Sanger (3-6 $/spécimen) ou NGS (<1 $/spécimen à grande échelle) avec branchement à double voie ; (4) Bioinformatique — BLAST → Moteur d'identification BOLD → attribution d'espèces avec score de confiance.

Quand choisir le code-barres par rapport au séquençage du génome complet

Le codage-barres et le séquençage complet du génome traitent des questions liées mais distinctes, et choisir la mauvaise méthode gaspille de l'argent. L'arbre de décision est simple : si la seule information dont vous avez besoin pour chaque spécimen est son identité spécifique, le codage-barres est l'outil approprié. Si vous avez besoin d'un typage au niveau des souches, de la structure génétique des populations, de variations adaptatives ou de contenu génomique fonctionnel, le séquençage complet du génome fournit cette information — à un coût généralement 50 à 500 fois plus élevé par spécimen.

Le marquage par code-barres conserve des avantages décisifs en termes de débit, d'exigences de qualité de l'ADN et de coût. Une plaque de 96 puits de codes-barres COI peut être traitée pour environ 300 à 500 dollars via Sanger ou 100 à 200 dollars via NGS. Le séquençage du génome entier à faible couverture des mêmes 96 spécimens, avec une couverture de 5 à 10X, coûterait entre 5 000 et 20 000 dollars selon la taille du génome. Le marquage par code-barres tolère également l'ADN dégradé qui échouerait au contrôle qualité de la préparation de bibliothèque du génome entier — un mini-code-barres COI de 100 pb s'amplifie à partir d'échantillons où la longueur moyenne des fragments d'ADN est inférieure à 500 pb.

Barcoding vs. Full Genome Sequencing — Comparison tableFigure 5 : Code-barres vs. Séquençage de génome complet — Un tableau comparatif à deux colonnes montrant le Code-barres par rapport au SGC sur sept dimensions : coût par échantillon (3-6 $ contre 50-200 $), exigence de qualité de l'ADN (tolérant à la dégradation contre haute intégrité requise), débit (milliers/semaine contre dizaines/semaine), résolution (niveau espèce contre niveau souche/population), bioinformatique (BLAST/BOLD contre assemblage + annotation), information fonctionnelle (aucune contre génome complet), et meilleure application (identification d'espèces contre génomique évolutive/populationnelle).

Les situations où le codage-barres est insuffisant incluent : (a) distinguer les souches ou sous-espèces au sein d'une espèce — les codes-barres sont invariants au sein des espèces par conception ; (b) détecter l'hybridation — un seul locus mitochondrial hérité de la mère ne lit que la lignée maternelle ; (c) identifier l'origine géographique — les marqueurs au niveau des populations (SNPs, microsatellites) fournissent une résolution phylogéographique qu'un code-barres ne peut pas offrir ; et (d) prédiction des traits fonctionnels — un code-barres COI vous indique l'espèce mais rien sur les capacités métaboliques pertinentes pour la bioprospection ou l'évaluation de la pathogénicité.

Pour les projets nécessitant à la fois l'identification des espèces et des informations génomiques fonctionnelles ou populationnelles, Séquençage shotgun métagénomique et Séquençage d'amplicons par nanopore représenter des chemins alternatifs, selon que vos échantillons sont des communautés mixtes ou des spécimens individuels.

CD Genomics Services de séquençage d'amplicons soutenir l'ensemble des flux de travail de codage à barres ADN : identification basée sur Sanger du COI, rbcL, matK et ITS ; codage à haut débit basé sur NGS à grande échelle ; développement de marqueurs personnalisés ; et codage intégré + profilage communautaire pour des projets couvrant les deux modes d'identification. D'un seul spécimen à une enquête sur la biodiversité de 10 000 spécimens, le flux de travail, les prix et les délais s'adaptent à votre projet.

FAQ

Quelle est la différence entre le code-barres ADN et le métabarcodage ADN ?

Le codage ADN identifie une seule espèce à partir d'un seul spécimen (un organisme → un code-barres → une identification d'espèce). Le métacodage ADN identifie de nombreuses espèces simultanément à partir d'un échantillon mixte (par exemple, sol, eau, fèces) en utilisant le séquençage à haut débit et les mêmes amorces de code-barres. Le codage utilise le séquençage Sanger ou le NGS à faible couverture par spécimen ; le métacodage utilise le NGS profond par échantillon.

Quelle est la fiabilité du COI pour l'identification des espèces ?

Pour les vertébrés et la plupart des arthropodes, le COI identifie correctement plus de 95 % des espèces lorsqu'une séquence de référence existe dans BOLD ou GenBank. Pour les cnidaires, certains amphibiens et certains invertébrés marins avec une évolution mitochondriale lente, la résolution du COI est plus faible et des marqueurs supplémentaires sont recommandés.

Le code-barres ADN peut-il identifier des espèces à partir d'aliments cuits ou transformés ?

Oui, avec des modifications. Le codage-barres COI standard permet de récupérer l'identité des espèces à partir de produits animaux cuits, fumés, en conserve et séchés en utilisant des ensembles de primers mini-barcode ciblant des amplicons de 100 à 300 pb. La dégradation de l'ADN due à la chaleur et au traitement limite la longueur des amplicons mais n'empêche pas l'identification lorsque des primers à cible courte sont utilisés.

Pourquoi ne puis-je pas utiliser le COI pour les plantes ?

Les gènes mitochondriaux des plantes évoluent trop lentement pour permettre une discrimination au niveau des espèces. Les séquences du COI diffèrent de moins de 1 % entre la plupart des espèces de plantes, ce qui est insuffisant pour une identification fiable. La combinaison rbcL + matK du génome chloroplastique est la norme du code-barres des plantes.

Que devrais-je faire si mon code-barres renvoie "aucun match" en GRAS ?

Un résultat "sans correspondance" — où la séquence de requête partage <98 % d'identité avec une référence — peut indiquer l'une des trois choses suivantes : (a) votre spécimen appartient à une espèce encore non représentée dans BOLD, et vous avez peut-être découvert un nouvel enregistrement ou une nouvelle espèce ; (b) la qualité de votre séquence est médiocre (vérifiez les appels de bases ambigus) ; ou (c) votre PCR a amplifié une région non cible (vérifiez la taille attendue de l'amplicon). Soumettez des séquences propres à GenBank — elles contribuent à combler les lacunes de la base de données pour votre groupe taxonomique.

Combien d'échantillons peuvent être codés par code-barres dans un seul projet ?

Il n'y a pas de limite supérieure. Le barcoding Sanger est pratique pour des dizaines à quelques centaines d'échantillons. Pour des projets avec des centaines à des dizaines de milliers d'échantillons, le barcoding basé sur le NGS avec PCR sur plaques à 96 puits à double index est l'approche la plus rentable, réduisant les coûts par échantillon en dessous de 1 $.

CD Genomics propose-t-il l'extraction d'ADN à partir d'échantillons difficiles ?

Oui. Nous acceptons les tissus frais, les spécimens de musée, les produits alimentaires transformés, les poudres de plantes, les échantillons de bois, les écouvillons et les échantillons environnementaux. Les protocoles d'extraction sont optimisés pour chaque matrice : extraction sur colonne de silice pour les tissus frais, protocoles d'élimination des inhibiteurs pour les échantillons transformés et d'origine végétale, et extraction à faible volume d'élution pour les échantillons traces.

Comment choisir entre Sanger et NGS pour mon projet de marquage ?

Pour moins de 100 échantillons et des échantillons propres d'une seule espèce, le séquençage Sanger à 3-6 $ par échantillon est le choix le plus économique. Pour plus de 500 échantillons, des échantillons mixtes d'espèces ou des échantillons où la variation intra-échantillon doit être évaluée, le séquençage NGS avec code-barres offre des coûts par échantillon inférieurs et un contenu d'information supérieur. Entre 100 et 500 échantillons, le choix dépend des exigences de délai et du budget.

Références :

  1. Hebert PDN, Cywinska A, Ball SL, deWaard JR. Identifications biologiques par le biais de codes-barres ADN. Comptes rendus de la Royal Society B. 2003;270(1512):313-321. doi:10.1098/rspb.2002.2218
  2. Ratnasingham S, Hebert PDN. Un registre basé sur l'ADN pour toutes les espèces animales : le système de numéro d'index de code-barres (BIN). PLoS ONE. 2013;8(7):e66213. doi:10.1371/journal.pone.0066213
  3. Groupe de travail sur les plantes CBOL. Un code-barres ADN pour les plantes terrestres. Actes de l'Académie nationale des sciences. 2009 ; 106(31) : 12794-12797. doi:10.1073/pnas.0905845106
  4. Schoch CL, Seifert KA, Huhndorf S, et al. Région de l'espaceur interne transcrit ribosomal nucléaire (ITS) comme marqueur universel d'ADN pour les champignons. Actes de l'Académie nationale des sciences. 2012;109(16):6241-6246. doi:10.1073/pnas.1117018109
  5. Porter TM, Hajibabaei M. Classification automatisée à haut débit des métabarcode CO1 d'animaux. Scientific Reports. 2018;8:4223. doi:10.1038/s41598-018-22505-4
  6. Hebert PDN, Hollingsworth PM, Hajibabaei M. De l'écriture à la lecture de l'encyclopédie de la vie. Philosophical Transactions of the Royal Society B. 2016;371:20150321. doi:10.1098/rstb.2015.0321
  7. deWaard JR, Ratnasingham S, Zakharov EV, et al. Une bibliothèque de référence pour les invertébrés canadiens avec 1,5 million de codes-barres, des spécimens de référence et des échantillons d'ADN. Données Scientifiques. 2019;6:308. doi:10.1038/s41597-019-0320-2
  8. Taberlet P, Coissac E, Pompanon F, et al. Puissance et limites de l'intron trnL (UAA) du chloroplaste pour le codage-barres ADN des plantes. Nucleic Acids Research. 2007;35(3):e14. doi:10.1093/nar/gkl938

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.

À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut