Introduction à la métagénomique par shotgun, de l'échantillonnage à l'analyse des données

Qu'est-ce que la métagénomique shotgun ?

Métagénomique est la science qui s'applique séquençage à haut débit technologies et bioinformatique outils pour obtenir directement le contenu génétique d'une communauté microbienne sans avoir besoin d'isoler et de cultiver les espèces microbiennes individuelles. Métagénomique permet aux chercheurs non seulement d'étudier la composition génétique fonctionnelle des communautés microbiennes, mais aussi de mener des recherches évolutives. La métagénomique a été utilisée pour identifier de nouveaux biocatalyseurs ou enzymes et générer de nouvelles hypothèses sur la fonction microbienne, ce qui en fait un outil puissant et pratique. Comparé à Séquençage d'amplicons 16S/18S/ITSla métagénomique peut fournir plus d'informations sur le potentiel fonctionnel des communautés microbiennes et des séquences génomiques complètes. Le développement rapide et la diminution substantielle des coûts du séquençage à haut débit ont considérablement favorisé le développement de séquençage métagénomique shotgun.

Cet article donne un aperçu de métagnomique, de l'échantillonnage à l'analyse des données. Un projet typique de métagénomique implique la préparation des échantillons, le séquençage et l'analyse des données (y compris l'assemblage, le regroupement, l'annotation, l'analyse statistique et la soumission des données).

Figure 1. Flowchart illustrating a standard metagenome project.Figure 1. Diagramme de flux d'un projet de métagénome typique.

Comment fonctionne la métagénomique par shotgun ?

Préparation des échantillons

La préparation des échantillons implique généralement deux étapes : la collecte des échantillons et l'extraction de l'ADN, qui peuvent toutes deux affecter la qualité et la précision de. métagénomique expériences. Des kits commerciaux sont disponibles pour la collecte d'échantillons et l'isolement de l'ADN. Ses principaux objectifs sont de collecter suffisamment de biomasse microbienne pour le séquençage et de minimiser la contamination. Lors de travaux avec des échantillons à faible biomasse, des réactifs ultraclean et des contrôles de séquençage "blancs" doivent être utilisés pour minimiser les signaux moins "réels".

Préparation de la bibliothèque et séquençage

Commun séquençage à haut débit les plateformes incluent les systèmes Illumina, Roche 454, les instruments Ion Torrent, et PacBio SMRT systèmes.

Frey et al. (2014) ont évalué la capacité de trois séquençage de nouvelle génération (NGS) des plateformes (Illumina MiSeq, Roche 454 Titanium et Ion Torrent PGM) pour identifier un pathogène à faible titre (viral ou bactérien) dans un échantillon de sang cliniquement pertinent. Ils ont constaté que les plateformes Ion Torrent PGM et Illumina offrent de meilleures performances dans l'identification d'espèces microbiennes rares, et pour les échantillons bactériens, seule la plateforme MiSeq a pu fournir des lectures qui ont été classées sans ambiguïté comme provenant de Bacillus anthracis.

La plateforme Illumina est devenue dominante pour séquençage métagénomique shotgun en raison de ses très hauts rendements (jusqu'à 1,5 To par exécution), de sa grande précision (taux d'erreur compris entre 0,1 et 1 %) et de sa large disponibilité. Les instruments Ion Torrent et PacBio SMRT Les instruments deviennent de redoutables concurrents dans ce domaine. Les plateformes Illumina diffèrent principalement par leur production totale et leur longueur de lecture maximale. L'Illumina HiSeq 2500 (2x250 nt, 180 Go de sortie ou 2x125 nt, 1 To de sortie) est un choix classique pour la métagénomique. Les nouveaux systèmes HiSeq 3000 et 4000 augmentent le débit d'une course mais sont limités en longueur de lecture (150 nt). Les instruments MiSeq ne génèrent que jusqu'à 15 Go en mode 2x300 mais restent utiles pour les études de microbiomes à un seul gène marqueur, ou pour un nombre limité d'échantillons.

Les instruments de Pacific Biosciences (PacBio), basés sur la détection en temps réel à molécule unique (SMRT) dans des puits de guide d'onde en mode zéro, offrent des longueurs de lecture beaucoup plus grandes (longueurs de lecture moyennes allant jusqu'à 30 kb) que NGS les instruments. Le séquençage à lecture courte (c'est-à-dire NGS) a une capacité limitée à assembler des régions complexes ou à faible couverture, tandis que séquençage métagénomique à lecture longue par séquençage SMRT de PacBio, il est possible de reconstruire un génome de haute qualité et clos d'une espèce microbienne précédemment non caractérisée à partir d'échantillons métagénomiques.

Analyse des données

  • Assemblée

Si la recherche vise à obtenir des CDS complets ou à récupérer génomes microbiens, puis une assemblée doit être réalisée pour générer des contigs génomiques plus longs. L'assemblage peut être divisé en deux stratégies : l'assemblage basé sur un référentiel et l'assemblage de novo. L'assemblage basé sur un référentiel est rapide et précis, si le métagénomique L'ensemble de données comprend des séquences pour lesquelles des génomes de référence étroitement liés sont disponibles. L'assemblage basé sur des références peut être effectué avec des logiciels tels que Newbler, AMOS, MIRA. L'assemblage de novo nécessite des ressources informatiques plus importantes. L'approche du graphe de De Bruijn est la méthode d'assemblage de novo de métagénomes la plus populaire.

Si la recherche vise un profilage taxonomique, il n'est pas nécessaire de procéder à l'assemblage et au regroupement. Sans assemblage métagénomique Le profilage peut atténuer les problèmes d'assemblage et permettre d'identifier des espèces à faible abondance qui ne peuvent pas être assemblées de novo. L'approche est limitée car les microorganismes non caractérisés auparavant sont difficiles à profiler, mais le nombre de génomes de référence augmente rapidement.

  • Binning

Les assemblages de métagénomes ne sont que des contigs fragmentés. Nous ne savons pas de quel génome provient chaque contig. Nous ne savons même pas combien d'espèces il y a. Le binning est le processus de regroupement des contigs en espèces. Il existe deux stratégies de binning, y compris les méthodes basées sur la composition et celles basées sur la similarité. Les exemples d'algorithmes de binning basés sur la composition incluent S-GSOM, Phylopythia, PCAHIER et TACAO. Les algorithmes basés sur la similarité incluent IMG/M, MG-RAST, MEGAN, CARMA, SOrt-ITEMS, MetaWatt, SCIMM et MetaPhyler. Certains algorithmes prennent en compte à la fois la composition et la similarité, comme PhymmBL et MetaCluster.

  • Annotation

L'annotation comporte deux étapes : l'identification des gènes et l'annotation fonctionnelle. Des bases de données contenant des combinaisons de familles de protéines annotées manuellement et prédites par ordinateur peuvent être utilisées pour les gènes et les voies métaboliques des métagénomes. Les bases de données et outils courants sont résumés dans le tableau suivant.
Tableau 1. Bases de données et outils courants pour l'annotation des données métagénomiques.

Bases de données/Outils Détails
KEGG KEGG est une ressource de base de données utilisée pour comprendre les fonctions et les utilités du système biologique.
UniProt UniProt fournit un référentiel de données de séquences métagénomiques et vous permet de visualiser des analyses taxonomiques et fonctionnelles.
TIGRFAM TIGRFAMs est une base de données de définitions de familles de protéines.
eggNOG eggNOG est utilisé pour l'identification des groupes de gènes orthologues et l'annotation fonctionnelle. D'autres bases de données de groupes de gènes orthologues incluent KEGG, COG, M5NR et Metacyc.
SILVA SILVA est une ressource en ligne pour des données de séquences d'ARN ribosomal vérifiées et alignées.
Greengenes Greengenes est une combinaison d'une base de données de gènes 16S rRNA vérifiée par chimères et d'outils.
RDP Le Projet de Base de Données Ribosomique (RDP) comprend des données de séquences de gènes d'ARNr alignées et annotées, ainsi que des outils.
pipeline HUMAnN HUMAnN est un pipeline pour déterminer avec précision la présence/absence et l'abondance des voies microbiennes à partir de données métagénomiques.
CAZy La base de données CAZY (Carbohydrate-Active enZYmes) peut être utilisée pour la prédiction des gènes codant pour des enzymes actives sur les glucides et pour l'analyse de corrélation.
CARTE La base de données complète sur la résistance aux antibiotiques (CARD) peut être utilisée pour la prédiction des gènes de résistance et l'analyse de corrélation.
MG-RAST MG-RAST est un serveur d'application web open source pour l'analyse phylogénétique et fonctionnelle des métagénomes.

Conclusion

Depuis tout Séquençage de l'ADN d'échantillons environnementaux a été réalisée pour la première fois par des équipes dirigées par Banfield et Venter en 2004, métagénomique par shotgun est devenu un outil indispensable pour l'étude des communautés microbiennes. La réduction du coût du séquençage et le développement de méthodes computationnelles ont favorisé l'adoption généralisée de la métagénomique.

Le royaume de métagénomique apporte de nombreux avantages, bien qu'il ne soit pas sans certains inconvénients. Un avantage significatif est la capacité de contourner les exigences de culture microbienne, permettant l'extraction et l'analyse directes de l'ADN microbien à partir d'échantillons environnementaux. Cela évite avec succès les limitations et les biais inhérents aux méthodes de culture traditionnelles. Une autre force de métagénomique réside dans sa exhaustivité, permettant des aperçus approfondis et rapides sur la composition et les potentialités fonctionnelles des communautés microbiennes. Cela inclut des microorganismes moins cultivables et des gènes aux fonctions encore inconnues. De plus, il offre des capacités d'analyse à haute résolution pour révéler la diversité microbienne, la structure et les fonctionnalités, d'un individu à un niveau communautaire. De plus, métagénomique aide à la découverte de nouvelles espèces microbiennes et de gènes fonctionnels, ouvrant ainsi des possibilités pour de nouvelles utilisations des ressources microbiennes. Enfin, la métagénomique manifeste de larges perspectives dans des domaines tels que l'écologie, la biomédecine, l'industrie et l'environnement, présentant un moyen efficace de s'attaquer à divers ensembles de problèmes.

Alors que métagénomique offre des perspectives remarquables, mais présente également un certain nombre de défis inhérents. Principalement, l'ampleur et la complexité des données en pleine expansion constituent un défi significatif pour leur interprétation et leur analyse, nécessitant l'application de méthodologies et de techniques sophistiquées et spécialisées. L'analyse des données exige des ressources informatiques substantielles, y compris des outils logiciels de niveau professionnel, qui entraînent souvent des coûts et des engagements en temps importants. De plus, le processus d'extraction des échantillons environnementaux, riche de sa complexité inhérente et de son potentiel de contamination, peut introduire du bruit extrané dans les données. Ce bruit peut, à son tour, compromettre la précision des résultats. Le bioinformatique le paysage, avec son assortiment d'épreuves, y compris l'assemblage de séquences, l'annotation fonctionnelle et l'analyse de la composition des espèces, souligne le besoin constant de perfectionnement et d'amélioration du flux de travail.

Malgré ces défis, le domaine de métagénomique néanmoins présente un potentiel immense. À mesure que les technologies liées au séquençage continuent d'avancer et que les coûts associés diminuent, l'application de séquençage métagénomique shotgun est prévu de devenir de plus en plus omniprésent. Simultanément, nous nous attendons à ce que l'évolution de bioinformatique produira des outils et des algorithmes plus efficaces et plus précis pour l'analyse des données. Cela, à son tour, faciliterait une interprétation et une utilisation améliorées des données de séquençage. De plus, l'amalgamation de métagénomique des données avec d'autres ensembles de données omiques, dans une analyse complète, promet de révéler des insights plus profonds sur la fonctionnalité et l'interaction au sein des communautés microbiennes. Dans le domaine de la recherche sur le microbiome médical, la métagénomique pourrait servir d'outil révolutionnaire pour la médecine de précision. Elle cherche à ouvrir de nouvelles voies pour le diagnostic, le traitement et la prévention améliorés des maladies. En se tournant vers la conservation de l'environnement et la biotechnologie, l'avenir anticipé de métagénomique propose une gamme d'approches plus efficaces pour évaluer les impacts environnementaux, exploiter les ressources biologiques et réaliser l'ingénierie des bioprocédés.

Références :

  1. Faust K, Lahti L, Gonze D, et al. La métagénomique rencontre l'analyse des séries temporelles : déchiffrer la dynamique des communautés microbiennes. Opinion actuelle en microbiologie, 2015, 25 : 56-66.
  2. Frey K G, Herrera-Galeano J E, Redden C L, et al. Comparaison de trois plateformes de séquençage de nouvelle génération pour le séquençage métagénomique et l'identification des pathogènes dans le sang. BMC génomique, 2014, 15(1) : 96.
  3. Quince C, Walker A W, Simpson J T, et al. Métagénomique par shotgun, de l'échantillonnage à l'analyse. Biotechnologie de la nature, 2017, 35(9) : 833.
  4. Thomas T, Gilbert J, Meyer F. Métagénomique - un guide de l'échantillonnage à l'analyse des données. Informatique microbienne et expérimentation, 2012, 2(1) : 3.
À des fins de recherche uniquement, non destiné à un diagnostic clinique, un traitement ou des évaluations de santé individuelles.
Services associés
Parlez à nos scientifiques
De quoi aimeriez-vous discuter ?
Avec qui allons-nous parler ?

* est un élément requis.

Contactez CD Genomics
Conditions Générales | Politique de confidentialité | Retour d'information   Droit d'auteur © CD Genomics. Tous droits réservés.
Haut